IT ManagerИТ в бизнесеИнфраструктура

Выбираем лучшую систему мониторинга и анализа IT-инфраструктуры

Никита Андреянов | 18.02.2020

Выбираем лучшую систему мониторинга и анализа IT-инфраструктуры

В современном мире, учитывая архитектурную сложность и территориальную распределенность ИТ-инфраструктур, непросто встретить среднюю или крупную компанию, не использующую системы ИТ-мониторинга. Сбои в работе ИТ-оборудования при отсутствии адекватного мониторинга, использующего инструменты оповещения, визуализации и реагирования, способны серьезно пошатнуть бизнес-процессы, а следовательно, принести существенные финансовые потери. Однако на практике внедрение большинства систем мониторинга ИТ-инфраструктуры сопряжено с различными ограничениями и сложностями.

Выбирая систему мониторинга ИT-инфраструктуры, необходимо принимать во внимание не только характеристики и возможности отдельно взятого комплекса, но и учитывать такие нюансы, как сложность развертывания, стоимость сопровождения и наличие соответствующих компетенций в компании. Далее рассмотрим наиболее популярные open-source системы мониторинга ИТ-инфраструктуры, сегментируем их на категории в зависимости от основных принципов и парадигмы работы, выявим достоинства и недостатки и определим, существует ли единственно лучшая система или же каждая из рассмотренных в статье может найти своего функционального заказчика.

Zabbix, Nagios 

Наиболее популярными и узнаваемыми системами ИT-мониторинга являются такие решения, как Zabbix и Nagios. Они построены на базе программного обеспечения с открытым исходным кодом и давно зарекомендовали себя как качественные и успешно решающие целевые задачи продукты. И Zabbix, и Nagios способны осуществлять мониторинг большинства компонентов любой современной ИT-инфраструктуры, включая сетевое оборудование, ОС, различные приложения, базы данных, платформы виртуализации и т. д. Обе системы поддерживают агентский и безагентский сбор данных с целевых источников, имеют инструменты оповещения, визуализации и реагирования, а также сторонние плагины и возможность модернизации логики работы с помощью внешних скриптов. С коммерческой точки зрения у обоих решений предусмотрена платная поддержка, а у Nagios еще и платная версия системы – Nagios XI с дополнительными возможностями и более современной визуальной оболочкой.

Данные решения находятся в одной категории, достаточно схожи по своему функционалу и поэтому имеют аналогичные достоинства и недостатки (таблица 1).  

Таблица 1. Достоинства и недостатки Zabbix и Nagios


Достоинства

Недостатки

Продвинутые возможности по настройке триггеров и оповещений об инцидентах

Использование РСУБД в качестве подсистемы хранения данных и, как следствие, высокая степень утилизации дисковой подсистемы

Большая библиотека плагинов, существенно расширяющая возможности решений

Ограниченный интерфейс как в части функционала, так и в части визуализации

Наличие официальной поддержки и крупного сообщества

Отсутствие инструментов по масштабированию и отказоустойчивости

Большое количество сторонних систем, поддерживающих интеграцию

Ограниченные возможности по ретроспективному анализу собираемых данных


 В современном мире, учитывая архитектурную сложность и территориальную распределенность ИТ-инфраструктур, непросто встретить среднюю или крупную компанию, не использующую системы ИТ-мониторинга. Сбои в работе ИТ-оборудования при отсутствии адекватного мониторинга, использующего инструменты оповещения, визуализации и реагирования, способны серьезно пошатнуть бизнес-процессы, а следовательно, принести существенные финансовые потери. Однако на практике внедрение большинства систем мониторинга ИТ-инфраструктуры сопряжено с различными ограничениями и сложностями.

Выбирая систему мониторинга ИT-инфраструктуры, необходимо принимать во внимание не только характеристики и возможности отдельно взятого комплекса, но и учитывать такие нюансы, как сложность развертывания, стоимость сопровождения и наличие соответствующих компетенций в компании. Далее рассмотрим наиболее популярные open-source системы мониторинга ИТ-инфраструктуры, сегментируем их на категории в зависимости от основных принципов и парадигмы работы, выявим достоинства и недостатки и определим, существует ли единственно лучшая система или же каждая из рассмотренных в статье может найти своего функционального заказчика.

Prometheus, Graphite 

Во вторую категорию входят современные решения, к которым можно отнести такие системы, как Prometheus и Graphite. Они появились сравнительно недавно и активно развиваются. Архитектура обоих решений направлена именно на работу с time-series-данными. Независимо от метода сбора (SNMP/агенты), итоговое представление и хранение данных в обоих решениях будет в формате временных рядов, за исключением, что Graphite хранит данные в кольцевой СУБД Whisper, а Prometheus – в файлах (используя многомерную модель с продвинутыми механизмами индексирования и тегирования).

Поскольку рассматриваемые решения появились сравнительно недавно, разработчики учли многие недостатки предыдущих систем и постарались сделать решения более гибкими и удобными. Помимо наличия основополагающего функционала по мониторингу ИТ-метрик, Graphite и Prometheus имеют ряд преимуществ, но не обошлось и без недостатков (таблица 2).

Таблица 2. Достоинства и недостатки Graphite и Prometheus


Достоинства

Недостатки

Современная архитектура хранения данных и относительно низкая степень утилизации дисковой подсистемы

Ограниченность функционала в части настройки логики триггеров и автоматизации реагирования на инциденты

Оптимизированный язык запросов, позволяющий более удобно работать с собираемыми данными

Отсутствие цельности решения – подсистема сбора данных требует множество сторонних агентов и плагинов. При этом решения не имеют встроенной подключаемой библиотеки

Продвинутые возможности по созданию и кастомизации дашбордов, их сортировке и расположению

Отсутствие официальной поддержки и относительно небольшое сообщество

Продвинутые возможности по настройке временных срезов и применению различных функций прямо на визуализациях

Отсутствие инструментов по масштабированию и отказоустойчивости


Custom IT-monitoring stacks

В третью категорию следует отнести индивидуальные разработки, основанные на различных технологических стеках. Многие крупные компании, учитывая недостатки вышерассмотренных решений, стремятся избавиться от них путем комбинирования технологических компонентов и внутренней разработки.

Принимая во внимание, что Graphite и Prometheus не являются готовыми решениями и не рассчитаны для работы «из коробки», их часто используют как основу для проектирования итоговой системы. Например, в том же Graphite можно заменить подсистему хранения данных с Whisper популярным InfluxDB, оптимизировав тем самым хранение time-series-данных. Или, при необходимости обеспечения отказоустойчивости и реализации OLAP-сценария обработки данных, можно выбрать связку ClickHouse+ZooKeeper, обеспечив максимально эффективные хранение и обработку данных. Eсли же требуется более красивый и функциональный интерфейс, к любому из четырех вышерассмотренных решений можно добавить инструмент Grafana, позволяющий по-новому взглянуть на собираемые ИT-метрики. А если добавить пару самописных сервисов для решения узкоспециализированных задач, удастся получить практически идеальную систему ИT-мониторинга. Может возникнуть вопрос, почему «практически»? Ответ прост: крайней высокая сложность сопровождения подобной системы. При возникновении внештатных ситуаций или необходимости доработки системы, в случае отсутствия высококвалифицированных специалистов, компания может столкнуться с серьезными проблемами. Чтобы избежать такого развития событий, в штате компании обязательно должны присутствует специалисты с соответствующими компетенциями. В таблице 3 представлены ключевые достоинства и недостатки, присущие рассматриваемому подходу в построении систем по мониторингу ИТ-инфраструктуры. 

Таблица 3. Достоинства и недостатки Custom IT-monitoring stacks


Достоинства

Недостатки

Возможность комбинирования компонентов и создания индивидуальной системы под конкретные задачи

Архитектурная сложность решения

Наличие инструментов по масштабированию и отказоустойчивости

Низкий уровень ИБ – отсутствие полноценной ролевой модели доступа и сложность организации безопасного взаимодействия между компонентами системы

Продвинутые архитектура хранения и визуализация данных

Отсутствие официальной поддержки

Возможность доработки функционала системы с помощью самописных скриптов и сервисов

Отсутствие поддерживаемой библиотеки плагинов


Альтернативным решением, позволяющим нивелировать рассмотренные выше недостатки, является использование современных коммерческих систем. На зарубежном рынке представлено достаточно много решений от крупных вендоров – ManageEngine OpManager, IBM Tivoli Monitoring, Solarwinds Network Performance Monitor и других. На российском рынке также имеются активно развивающиеся продукты в сфере ИIT-мониторинга, в частности Naumen Network Manager и NGRSOFTLAB Dataplan. Каждый из этих продуктов предлагает современный стек технологий, продвинутые инструменты по оповещению и реагированию, а также качественную официальную поддержку.

Итоги

Проанализировав наиболее популярные решения в области ИT-мониторинга, разбив их на категории и выделив ключевые преимущества и недостатки, можно подвести итоги. Как оказалось, единственного наилучшего решения не существует. При выборе системы мониторинга ИT-инфраструктуры необходимо руководствоваться в первую очередь тем, какие задачи и бизнес-цели стоят перед внедряемой системой и сложностью внедрения и сопровождения.

Если вам нужна проверенная временем система для классического мониторинга утилизации аппаратных и программных ресурсов вашей инфраструктуры, с отличными возможностями по оповещению и наличием официальной поддержки, то Zabbix или Nagios – отличный выбор.

Если в вашей инфраструктуре ИT-мониторинг в первую очередь означает сбор узкоспециализированных метрик с различных приложений, самописных сервисов и систем, подсистемы хранения и визуализации данных в Zabbix или Nagios кажутся откровенно устаревшими, а наличие официальной поддержки для компании не является обязательным условием, то предпочтительны такие решения, как Prometheus или Graphite.

При выборе же решения, в котором необходимо наличие функционала по обеспечению отказоустойчивости хранения собираемых данных, возможности ретроспективного анализа и решения сложных комплексных задач ИT-мониторинга, следует обратить внимание на современные коммерческие решения, предлагаемые в том числе и на российском рынке.


Мониторинг, IT-инфраструктура

Горячие темы: Бизнес в цифре

Журнал: Журнал IT-Manager [№ 02/2020], Подписка на журналы

Angara Technologies Group | ГК Ангара

Об авторах

Никита Андреянов

Никита Андреянов

Архитектор платформы Dataplan, компания NGRSOFTLAB


Поделиться:

ВКонтакт Facebook Google Plus Одноклассники Twitter Livejournal Liveinternet Mail.Ru

Также по теме

Другие материалы рубрики

Мысли вслух

В последнее время в Сети появилось много лайфхаков на тему «как работать на удаленке». Где люди с опытом делятся с офисными менеджерами секретами удаленной работы.
Вопросы приходят не только от подростков, но и от взрослых, которые стесняются спросить о чем-то детей и внуков, или сталкиваются с проблемами общения с цифровым поколением.
Документацию писать мы предлагали — нам сказали — «займитесь чем-нибудь более срочным и полезным». Код комментировать — лишние трудозатраты. Людей учить смежным специальностям — бюджета нет.

Компании сообщают

Мероприятия

Конференция Autodesk Pro Forum
ОНЛАЙН
1 500 руб
29.09.2020 — 30.09.2020
Smart Industry EXPO
Минск, Футбольный манеж
29.09.2020 — 02.10.2020
IT в ритейле: Я — легенда
Москва, Холидей Инн Москва Лесная
30.09.2020
09:30