Из «озера» в платформу: эффективный подход к управлению данными
Эволюция Data Lake
Хранилища сформированы, Big Data сливаются в озеро данных. В момент, когда бизнес начинает подключать к нему новые системы, например, аналитические, запускается эволюция Data Lake в платформу управления данными.
Платформа данных — комплекс IT-решений вокруг озера данных. Функциональность платформы выходит за рамки хранения структурированных и неструктурированных данных. В зависимости от конкретной реализации, единая платформа управления данными может включать продвинутые инструменты аналитики и создания управленческих отчетов. И не только.
Многие современные платформы для работы с большими данными предоставляют возможности интеграции с инструментами DevOps для автоматизации процессов разработки и развертывания программного обеспечения, а также с инструментами машинного обучения (ML) для анализа и обработки больших данных.
Компоненты платформы управления данными
Платформа для работы с большими данными создается постепенно, по мере того, как корпоративное озеро данных обрастает новыми источниками и инструментами.
При реализации платформы управления данными обязательно внедряются инструменты Data Governance — методы и технологии для эффективного контроля качества данных и отслеживания бизнес-показателей.
- Система хранения данных, Open Source или коммерческая. Бизнес часто предпочитает недорогие решения, чтобы иметь возможность загружать как можно больше данных без заботы об объеме.
- Каталог данных — централизованное хранилище, содержащее метаданные о структуре, содержании, источниках и связях данных.
- Бизнес-глоссарий — сборник терминов и определений, использованных в рамках платформы управления данными.
- Инструменты наполнения данными. Для обработки потоков данных в реальном времени (Apache Kafka) или пакетной обработки данных с интервалами (Hbase).
- Элементы интеграции данных и компоненты обработки (например, представленные на платформе Hadoop).
- Расширенные механизмы защиты, обеспечения конфиденциальности и мониторинга угроз в дополнение к стандартным инструментам Hadoop, обеспечивающим безопасность: сетевому протоколу аутентификации Kerberos и модулю Ranger, который предназначен для контроля доступа к данным и обеспечения политики безопасности.
- Инструменты анализа данных и визуализации для обработки и интерпретации данных, создания отчетов и дашбордов для различных департаментов предприятия.
- Инструменты машинного обучения и искусственного интеллекта для выявления закономерностей, автоматизации процессов и других целей.
- Интеграции с существующими системами бизнес-аналитики для максимизации эффективности использования данных в принятии стратегических решений.
Развитие «озера» в единую платформу управления данными на уровне предприятия — один из этапов цифровизации производства.
Неоспоримые преимущества
Основная цель, которую преследуют крупнейшие компании, развивая «озера» в платформу управления данными, — повышение качества и доступности данных.
- Внедрение платформы управления данными может упростить процессы обслуживания за счет централизации, стандартизации и автоматизации. Возможно снижение затрат на поиск и добычу данных. Но это зависит от конкретной реализации платформы и ее интеграции в рабочие процессы.
- При правильной интерпретации большого массива качественных данных может улучшиться точность управленческих решений и прогнозирования,
- Прозрачность взаимодействия бизнеса и IT повышается — снижается риск недопонимания, повышается согласованность стратегии.
- Операционные расходы бизнеса могут уменьшиться за счет более качественных решений и прогнозов.
Потенциал платформы управления данными наращивается при подключении новых источников. Например, внешних, с данными о конкурентах, отзывах Яндекса, метеорологической информацией, которые открывают доступ для клиентской аналитики и анализа обратной связи. При необходимости сбора большего количества Big Data можно нарастить мощности единой платформы управления данными без существенных изменений архитектуры.
Трудности разработки и внедрения
Для запуска таких проектов важно, чтобы в компании были четко определены роли: кто будет отвечать за данные и их анализ, выделены отдельные руководители этого направления. Часто IT-департамент занят собственными задачами и не может отвечать за эти процессы полностью.
В "Газпромнефти" создали Центр аналитических решений. Именно он с нуля разработал комплексную архитектуру управления большими данными без привлечения вендоров, внедрил передовые практики управления данными. Правда, это очень дорогостоящая инициатива.
Основная трудность реализации такого проекта — компаниям, в нынешних условиях озабоченный решением других, более насущных проблем, может не хватить ресурсов на реализацию такого проекта. Внедрение подобных IT-решений для бизнеса сопряжено с внутренней разработкой, требующей масштабных инвестиций. На рынке пока что все еще нет универсальных платформ управления данными, способных снизить стоимость интеграции.
Для успешного внедрения платформы управления данными в работу компании важно объяснить сотрудникам ценность такого решения и показать, как с ним работать. Более того, необходимо настроить дашборды с учетом потребностей персонала.
Опубликовано 18.04.2024