Из «озера» в платформу: эффективный подход к управлению данными

Логотип компании
Из «озера» в платформу: эффективный подход к управлению данными

Изображение: ArtemisDiana/Shutterstock.com

Данные — ценный актив для бизнеса. Но для того чтобы в полной мере воспользоваться ими для принятия стратегических решений, оптимизации процессов и улучшения продуктов и услуг, необходимо эффективно управлять ими. Корпоративные «озера данных» могут оказаться недостаточными для таких задач, особенно когда речь идет о неструктурированных данных, которые могут затруднить анализ, превращая «озеро» в непроходимое болото.
Для того чтобы избежать такого исхода, крупные компании принимают меры по трансформации Data Lakes в платформы управления данными. Юрий Макаренко, глава экспертного отдела Umbrella IT, подробно расскажет о преимуществах такого подхода для бизнеса.

Эволюция Data Lake

Хранилища сформированы, Big Data сливаются в озеро данных. В момент, когда бизнес начинает подключать к нему новые системы, например, аналитические, запускается эволюция Data Lake в платформу управления данными.

Платформа данных — комплекс IT-решений вокруг озера данных. Функциональность платформы выходит за рамки хранения структурированных и неструктурированных данных. В зависимости от конкретной реализации, единая платформа управления данными может включать продвинутые инструменты аналитики и создания управленческих отчетов. И не только.

Многие современные платформы для работы с большими данными предоставляют возможности интеграции с инструментами DevOps для автоматизации процессов разработки и развертывания программного обеспечения, а также с инструментами машинного обучения (ML) для анализа и обработки больших данных.

Компоненты платформы управления данными

Платформа для работы с большими данными создается постепенно, по мере того, как корпоративное озеро данных обрастает новыми источниками и инструментами.

При реализации платформы управления данными обязательно внедряются инструменты Data Governance — методы и технологии для эффективного контроля качества данных и отслеживания бизнес-показателей.

  • Система хранения данных, Open Source или коммерческая. Бизнес часто предпочитает недорогие решения, чтобы иметь возможность загружать как можно больше данных без заботы об объеме.
  • Каталог данных — централизованное хранилище, содержащее метаданные о структуре, содержании, источниках и связях данных.
  • Бизнес-глоссарий — сборник терминов и определений, использованных в рамках платформы управления данными.
  • Инструменты наполнения данными. Для обработки потоков данных в реальном времени (Apache Kafka) или пакетной обработки данных с интервалами (Hbase).
  • Элементы интеграции данных и компоненты обработки (например, представленные на платформе Hadoop). 
  • Расширенные механизмы защиты, обеспечения конфиденциальности и мониторинга угроз в дополнение к стандартным инструментам Hadoop, обеспечивающим безопасность: сетевому протоколу аутентификации Kerberos и модулю Ranger, который предназначен для контроля доступа к данным и обеспечения политики безопасности.
  • Инструменты анализа данных и визуализации для обработки и интерпретации данных, создания отчетов и дашбордов для различных департаментов предприятия.
  • Инструменты машинного обучения и искусственного интеллекта для выявления закономерностей, автоматизации процессов и других целей.
  • Интеграции с существующими системами бизнес-аналитики для максимизации эффективности использования данных в принятии стратегических решений.

Развитие «озера» в единую платформу управления данными на уровне предприятия — один из этапов цифровизации производства.

Неоспоримые преимущества

Основная цель, которую преследуют крупнейшие компании, развивая «озера» в платформу управления данными, — повышение качества и доступности данных.

  • Внедрение платформы управления данными может упростить процессы обслуживания за счет централизации, стандартизации и автоматизации. Возможно снижение затрат на поиск и добычу данных. Но это зависит от конкретной реализации платформы и ее интеграции в рабочие процессы.
  • При правильной интерпретации большого массива качественных данных может улучшиться точность управленческих решений и прогнозирования,
  • Прозрачность взаимодействия бизнеса и IT повышается — снижается риск недопонимания, повышается согласованность стратегии.
  • Операционные расходы бизнеса могут уменьшиться за счет более качественных решений и прогнозов.

Потенциал платформы управления данными наращивается при подключении новых источников. Например, внешних, с данными о конкурентах, отзывах Яндекса, метеорологической информацией, которые открывают доступ для клиентской аналитики и анализа обратной связи. При необходимости сбора большего количества Big Data можно нарастить мощности единой платформы управления данными без существенных изменений архитектуры.

Трудности разработки и внедрения

Для запуска таких проектов важно, чтобы в компании были четко определены роли: кто будет отвечать за данные и их анализ, выделены отдельные руководители этого направления. Часто IT-департамент занят собственными задачами и не может отвечать за эти процессы полностью.

В "Газпромнефти" создали Центр аналитических решений. Именно он с нуля разработал комплексную архитектуру управления большими данными без привлечения вендоров, внедрил передовые практики управления данными. Правда, это очень дорогостоящая инициатива.

Основная трудность реализации такого проекта — компаниям, в нынешних условиях озабоченный решением других, более насущных проблем, может не хватить ресурсов на реализацию такого проекта. Внедрение подобных IT-решений для бизнеса сопряжено с внутренней разработкой, требующей масштабных инвестиций. На рынке пока что все еще нет универсальных платформ управления данными, способных снизить стоимость интеграции.

Для успешного внедрения платформы управления данными в работу компании важно объяснить сотрудникам ценность такого решения и показать, как с ним работать. Более того, необходимо настроить дашборды с учетом потребностей персонала.

Опубликовано 18.04.2024

Похожие статьи