Выбираем лучшую систему мониторинга и анализа IT-инфраструктуры
В современном мире, учитывая архитектурную сложность и территориальную распределенность ИТ-инфраструктур, непросто встретить среднюю или крупную компанию, не использующую системы ИТ-мониторинга. Сбои в работе ИТ-оборудования при отсутствии адекватного мониторинга, использующего инструменты оповещения, визуализации и реагирования, способны серьезно пошатнуть бизнес-процессы, а следовательно, принести существенные финансовые потери. Однако на практике внедрение большинства систем мониторинга ИТ-инфраструктуры сопряжено с различными ограничениями и сложностями.
Выбирая систему мониторинга ИT-инфраструктуры, необходимо принимать во внимание не только характеристики и возможности отдельно взятого комплекса, но и учитывать такие нюансы, как сложность развертывания, стоимость сопровождения и наличие соответствующих компетенций в компании. Далее рассмотрим наиболее популярные open-source системы мониторинга ИТ-инфраструктуры, сегментируем их на категории в зависимости от основных принципов и парадигмы работы, выявим достоинства и недостатки и определим, существует ли единственно лучшая система или же каждая из рассмотренных в статье может найти своего функционального заказчика.
Zabbix, Nagios
Наиболее популярными и узнаваемыми системами ИT-мониторинга являются такие решения, как Zabbix и Nagios. Они построены на базе программного обеспечения с открытым исходным кодом и давно зарекомендовали себя как качественные и успешно решающие целевые задачи продукты. И Zabbix, и Nagios способны осуществлять мониторинг большинства компонентов любой современной ИT-инфраструктуры, включая сетевое оборудование, ОС, различные приложения, базы данных, платформы виртуализации и т. д. Обе системы поддерживают агентский и безагентский сбор данных с целевых источников, имеют инструменты оповещения, визуализации и реагирования, а также сторонние плагины и возможность модернизации логики работы с помощью внешних скриптов. С коммерческой точки зрения у обоих решений предусмотрена платная поддержка, а у Nagios еще и платная версия системы – Nagios XI с дополнительными возможностями и более современной визуальной оболочкой.
Данные решения находятся в одной категории, достаточно схожи по своему функционалу и поэтому имеют аналогичные достоинства и недостатки (таблица 1).
Таблица 1. Достоинства и недостатки Zabbix и Nagios
Достоинства |
Недостатки |
Продвинутые возможности по настройке триггеров и оповещений об инцидентах |
Использование РСУБД в качестве подсистемы хранения данных и, как следствие, высокая степень утилизации дисковой подсистемы |
Большая библиотека плагинов, существенно расширяющая возможности решений |
Ограниченный интерфейс как в части функционала, так и в части визуализации |
Наличие официальной поддержки и крупного сообщества |
Отсутствие инструментов по масштабированию и отказоустойчивости |
Большое количество сторонних систем, поддерживающих интеграцию |
Ограниченные возможности по ретроспективному анализу собираемых данных |
В современном мире, учитывая архитектурную сложность и территориальную распределенность ИТ-инфраструктур, непросто встретить среднюю или крупную компанию, не использующую системы ИТ-мониторинга. Сбои в работе ИТ-оборудования при отсутствии адекватного мониторинга, использующего инструменты оповещения, визуализации и реагирования, способны серьезно пошатнуть бизнес-процессы, а следовательно, принести существенные финансовые потери. Однако на практике внедрение большинства систем мониторинга ИТ-инфраструктуры сопряжено с различными ограничениями и сложностями.
Выбирая систему мониторинга ИT-инфраструктуры, необходимо принимать во внимание не только характеристики и возможности отдельно взятого комплекса, но и учитывать такие нюансы, как сложность развертывания, стоимость сопровождения и наличие соответствующих компетенций в компании. Далее рассмотрим наиболее популярные open-source системы мониторинга ИТ-инфраструктуры, сегментируем их на категории в зависимости от основных принципов и парадигмы работы, выявим достоинства и недостатки и определим, существует ли единственно лучшая система или же каждая из рассмотренных в статье может найти своего функционального заказчика.
Prometheus, Graphite
Во вторую категорию входят современные решения, к которым можно отнести такие системы, как Prometheus и Graphite. Они появились сравнительно недавно и активно развиваются. Архитектура обоих решений направлена именно на работу с time-series-данными. Независимо от метода сбора (SNMP/агенты), итоговое представление и хранение данных в обоих решениях будет в формате временных рядов, за исключением, что Graphite хранит данные в кольцевой СУБД Whisper, а Prometheus – в файлах (используя многомерную модель с продвинутыми механизмами индексирования и тегирования).
Поскольку рассматриваемые решения появились сравнительно недавно, разработчики учли многие недостатки предыдущих систем и постарались сделать решения более гибкими и удобными. Помимо наличия основополагающего функционала по мониторингу ИТ-метрик, Graphite и Prometheus имеют ряд преимуществ, но не обошлось и без недостатков (таблица 2).
Таблица 2. Достоинства и недостатки Graphite и Prometheus
Достоинства |
Недостатки |
Современная архитектура хранения данных и относительно низкая степень утилизации дисковой подсистемы |
Ограниченность функционала в части настройки логики триггеров и автоматизации реагирования на инциденты |
Оптимизированный язык запросов, позволяющий более удобно работать с собираемыми данными |
Отсутствие цельности решения – подсистема сбора данных требует множество сторонних агентов и плагинов. При этом решения не имеют встроенной подключаемой библиотеки |
Продвинутые возможности по созданию и кастомизации дашбордов, их сортировке и расположению |
Отсутствие официальной поддержки и относительно небольшое сообщество |
Продвинутые возможности по настройке временных срезов и применению различных функций прямо на визуализациях |
Отсутствие инструментов по масштабированию и отказоустойчивости |
Custom IT-monitoring stacks
В третью категорию следует отнести индивидуальные разработки, основанные на различных технологических стеках. Многие крупные компании, учитывая недостатки вышерассмотренных решений, стремятся избавиться от них путем комбинирования технологических компонентов и внутренней разработки.
Принимая во внимание, что Graphite и Prometheus не являются готовыми решениями и не рассчитаны для работы «из коробки», их часто используют как основу для проектирования итоговой системы. Например, в том же Graphite можно заменить подсистему хранения данных с Whisper популярным InfluxDB, оптимизировав тем самым хранение time-series-данных. Или, при необходимости обеспечения отказоустойчивости и реализации OLAP-сценария обработки данных, можно выбрать связку ClickHouse+ZooKeeper, обеспечив максимально эффективные хранение и обработку данных. Eсли же требуется более красивый и функциональный интерфейс, к любому из четырех вышерассмотренных решений можно добавить инструмент Grafana, позволяющий по-новому взглянуть на собираемые ИT-метрики. А если добавить пару самописных сервисов для решения узкоспециализированных задач, удастся получить практически идеальную систему ИT-мониторинга. Может возникнуть вопрос, почему «практически»? Ответ прост: крайней высокая сложность сопровождения подобной системы. При возникновении внештатных ситуаций или необходимости доработки системы, в случае отсутствия высококвалифицированных специалистов, компания может столкнуться с серьезными проблемами. Чтобы избежать такого развития событий, в штате компании обязательно должны присутствует специалисты с соответствующими компетенциями. В таблице 3 представлены ключевые достоинства и недостатки, присущие рассматриваемому подходу в построении систем по мониторингу ИТ-инфраструктуры.
Таблица 3. Достоинства и недостатки Custom IT-monitoring stacks
Достоинства |
Недостатки |
Возможность комбинирования компонентов и создания индивидуальной системы под конкретные задачи |
Архитектурная сложность решения |
Наличие инструментов по масштабированию и отказоустойчивости |
Низкий уровень ИБ – отсутствие полноценной ролевой модели доступа и сложность организации безопасного взаимодействия между компонентами системы |
Продвинутые архитектура хранения и визуализация данных |
Отсутствие официальной поддержки |
Возможность доработки функционала системы с помощью самописных скриптов и сервисов |
Отсутствие поддерживаемой библиотеки плагинов |
Альтернативным решением, позволяющим нивелировать рассмотренные выше недостатки, является использование современных коммерческих систем. На зарубежном рынке представлено достаточно много решений от крупных вендоров – ManageEngine OpManager, IBM Tivoli Monitoring, Solarwinds Network Performance Monitor и других. На российском рынке также имеются активно развивающиеся продукты в сфере ИIT-мониторинга, в частности Naumen Network Manager и NGRSOFTLAB Dataplan. Каждый из этих продуктов предлагает современный стек технологий, продвинутые инструменты по оповещению и реагированию, а также качественную официальную поддержку.
Итоги
Проанализировав наиболее популярные решения в области ИT-мониторинга, разбив их на категории и выделив ключевые преимущества и недостатки, можно подвести итоги. Как оказалось, единственного наилучшего решения не существует. При выборе системы мониторинга ИT-инфраструктуры необходимо руководствоваться в первую очередь тем, какие задачи и бизнес-цели стоят перед внедряемой системой и сложностью внедрения и сопровождения.
Если вам нужна проверенная временем система для классического мониторинга утилизации аппаратных и программных ресурсов вашей инфраструктуры, с отличными возможностями по оповещению и наличием официальной поддержки, то Zabbix или Nagios – отличный выбор.
Если в вашей инфраструктуре ИT-мониторинг в первую очередь означает сбор узкоспециализированных метрик с различных приложений, самописных сервисов и систем, подсистемы хранения и визуализации данных в Zabbix или Nagios кажутся откровенно устаревшими, а наличие официальной поддержки для компании не является обязательным условием, то предпочтительны такие решения, как Prometheus или Graphite.
При выборе же решения, в котором необходимо наличие функционала по обеспечению отказоустойчивости хранения собираемых данных, возможности ретроспективного анализа и решения сложных комплексных задач ИT-мониторинга, следует обратить внимание на современные коммерческие решения, предлагаемые в том числе и на российском рынке.
Опубликовано 18.02.2020