Конвейер для данных
Работа любого современного предприятия связана с данными, поток которых растет непрерывно с каждым годом. Оборудование, умные устройства, корпоративные системы — все это и многое другое непрерывно генерирует данные, с которыми нужно работать, использовать их для принятия управленческих решений. Эти сведения носят разрозненный и разноплановый характер, но их нужно не просто хранить, а непрерывно использовать, структурировать, анализировать, интегрировать с информационными системами. Подобные процессы должны быть доступны не только руководителям и топ-менеджерам, но и всем сотрудникам, которым это необходимо. Разумеется, это должно происходить с условием разграничения прав и доступа к данным. То, что доступно CEO, вряд ли должно быть открыто для простого менеджера. Таковы лишь некоторые актуальные требования и задачи бизнеса, которые породили новые подходы к организации работы с данными: так называемые фабрики данных (Data Fabric). По сути, это архитектура, упрощающая и автоматизирующая работу с данными, в основе которой лежат искусственный интеллект и машинное обучение. Мы решили побеседовать о фабриках данных с экспертами российского ИТ-рынка, представителями отечественных и зарубежных ИТ-компаний.
Доступ к данным без преград
Какие преимущества дают фабрики данных предприятию по сравнению с обычным хранением? Как утверждает Роман Ройфман, технический директор NetApp в России и СНГ, фабрика данных помогает стандартизировать системы управления данными и работу в облаке, в собственном ЦОДе и на периферийных устройствах. «Среди преимуществ архитектуры можно выделить анализ данных, быстрое получение доступа и контроля, защиту и безопасность данных. В основе Data Fabric — интегрированная архитектура хранения. Это новый стратегический подход к работе корпоративной СХД, который позволяет раскрыть все преимущества облака, ЦОДа и периферии. Фабрика данных может работать в любом месте — локальных, публичных и частных облаках, устройствах для IoT, сохраняя централизованное управление. Фабрика данных состоит из набора функций по управлению данными, который обеспечивает согласованность в интегрированных средах и сокращает затраты на управление за счет автоматизации, ускоряет разработку, тестирование и развертывание. С помощью такой унифицированной платформы можно отслеживать производительность, эффективность, быстро вносить изменения в ИТ-инфраструктуру, включая решение проблем, устранение рисков безопасности и соответствия требованиям регуляторов», — говорит он.
«Одним из ключевых преимуществ фабрики данных является устранение «кусочно-непрерывных» функций обработки данных. Основная проблема заключается в объединении различных систем в сеть вместо преобразования всех систем в одну, — дополняет Виталий Тукмаков, ведущий консультант HPE Pointnext, Hewlett Packard Enterprise в России. — Каждая отдельная система в этой экосистеме приложений определяет свои рабочие нагрузки. Индивидуально рассматриваемые системы масштабируются до определенных размеров. Но это не решает основной проблемы. Данные по-прежнему находятся в разных местах. Кроме того, существуют чрезвычайно высокие расходы на ИТ-операции, поскольку необходимо управлять большим количеством систем. Данные приходится копировать между системами, трансформировать. Это все приводит к появлению многочисленных копий, часто противоречащих друг другу и требующих дополнительной синхронизации. Это больше похоже на многочисленные лужи или болото данных, где сложно ориентироваться и находить нужную информацию. Фабрика данных служит ключом к устранению зависимости от отдельных форматов и источников и переводу приложений на общую платформу, которая объединяет и данные, и инструменты работы с ними».
Эффективное внедрение фабрики данных позволяет своевременно получать практически значимую информацию на основе аналитических задач. Часто это предполагает развертывание общих аналитических конфигураций одним нажатием, что упрощает обеспечение согласованности и общий доступ к решению.
Никита Андреянов, руководитель отдела внедрения и продвижения решений Департамента цифровой трансформации Crosstech Solutions Group, обращает наше внимание на такой аспект использование фабрики данных, как удобство. «Фабрика данных объединяет существующие инструменты по сбору, обработке, хранению и анализу данных и является цельной экосистемой с единым интерфейсом и согласованной архитектурой. Этот подход позволяет пользователям получать доступ к нормализованным данным множества платформ практически в режиме реального времени, то есть без длительного ожидания и согласования технических работ с ИТ-департаментом. Таким образом, пользователи менее зависимы от профильных ИТ-специалистов и могут в режиме самообслуживания строить adhoc-запросы: тратить больше времени на изучение самих данных, а не на то, как получить доступ к данным», — заключает он.
Фабрика данных не панацея. Она позволяет повысить эффективность существующих ETL- и Data Analytics-процессов. Для успешного построения фабрики данных компания должна иметь серьезную базу и опыт работы с данными.
Чтобы «озеро» не стало «болотом»
Что касается задач, недостижимых при обычном подходе к работе с данными, фабрики данных позволяют построить процесс монетизации данных через создание data-продуктов, как подчеркивает Александр Тарасов, управляющий партнер DIS Group. «Традиционный подход к хранилищу не позволяет решить такую задачу, поскольку подразумевает чисто технические проекты, ориентированные на технологии сбора, обработки и хранения данных. Вопросы же качества данных, привязки ответственности за данные к бизнес-функциям и организационной структуре, унификации данных были не на первом плане, а зачастую вообще не ставились. В результате в хранилище накапливаются многократно дублированные данные непонятного происхождения и природы, которые сложно трактовать. То есть данные вроде как есть, но монетизировать их при сохранении обычного подхода к СХД невозможно», — говорит он.
Хранилище данных — это склад, и искать на нем нужные данные приходится долго. А фабрика данных — это высокоскоростной конвейер создания data-продукта.
«Как и многое другое на логическом уровне обработки данных, Data Fabric позволяет пользователям аналитических систем получить доступ к данным в источниках без привлечения служб, эксплуатирующих или администрирующих эти системы, или с минимальным их участием. Все, что необходимо знать о данных в источниках хранения, будет известно аналитикам данных из единого бизнес-интерфейса. В этом основная идея», — добавляет Роман Шемпель, эксперт по системам управления данными, IBM в России.
По словам Никиты Кардашина, руководителя практики комплексной цифровизации процессов компании Naumen, фабрики данных призваны перейти от простого хранения данных к обеспечению их доступности и гибкой интеграции в бизнес-процесс. «Классический подход к накоплению данных предусматривает создание единого озера данных (Data Lake), однако, учитывая современные объемы и интенсивность их накопления, велик риск, что с трудом заполненное озеро очень быстро потеряет актуальность, а в огромном объеме будет крайне трудно выделить интересные для анализа наборы данных. Это явление даже получило в профессиональной среде собственное название — «болото данных» (Data Swamp), в котором с легкостью увязнет команда ML-инженеров организации. Правильные подходы к накоплению и структурированию помогут этого избежать», — объясняет эксперт.
Фабрики данных позволяют консолидировать процессы управления данными в едином центре, При этом повышается уровень безопасности данных и операций с ними, создаются единые стандартизованные интерфейсы (API) для и приема и передачи данных между системами, и обеспечивается сквозная интеграция всех информационных систем, работающих с ними.
«Очень важно наличие в контуре фабрики данных специализированных средств продвинутой аналитики, таких как ML-платформы, средств автоматизации жизненного цикла разработки (фреймворки кодогенерации, CI/CD конвейеры и т. п.), — добавляет Андрей Гусев, менеджер практики Applied Intelligence компании Accenture в России. — С точки зрения решаемых задач такие фабрики позволяют повысить прозрачность, понимание и доступность данных, которыми располагает организация, для конечных бизнес-потребителей этих данных, а также предоставить им максимально широкий перечень инструментов для работы с данными, их анализа, визуализации, построения отчетности и т. д. в рамках концепции self-service. Также грамотно спроектированная и реализованная фабрика данных позволяет сократить time-to-market получения необходимых данных для конечного заказчика».
Мост между техникой и бизнесом
Какую пользу принесут фабрики данных обычным предприятиям, если вынести за скобки сверхзадачи? «Любое современное крупное предприятие производит огромный поток данных, — комментирует Андрей Кондратьев, заместитель технического директора по комплексным проектам компании Step Logic. — Как указано в отчете Gartner о технологических тенденциях на 2022 год (где технология Data Fabric была поставлена на первое место), за последнее десятилетие количество разрозненных хранилищ данных и приложений выросло многократно. При этом команды, которые с этими данными работают, практически не увеличились. Решить проблему можно с помощью фабрик данных: они обеспечат поиск, обмен, преобразование информации между приложениями и бизнес-пользователями».
Для оперативной поддержки управленческих процессов собирать и обрабатывать их нужно очень быстро. Фабрика данных как раз позволяет эффективно хранить и обрабатывать разрозненную и неструктурированную информацию, а также предоставлять ее в нужном виде для систем поддержки принятия решений.
«Огромное количество сценариев использования фабрик варьируются в зависимости от используемой индустрии. От финансового сектора — с антифродом «горячего» цеха и ретроспективным анализом «холодного» цеха, до мира автономных автомобилей с компьютерным зрением и умного логистического склада с построением сквозных процессов перемещения оборудования. Основной камень преткновения заключается в том, что зрелость фабрик данных обгоняет зрелость потенциальных потребителей фабричных изделий, а соответственно, нужна более активная просветительская деятельность, позволяющая перекинуть мостик между техникой и бизнесом», — добавляет Михаил Шпак, руководитель отдела технологического консалтинга Huawei Enterprise в России.
В свою очередь, Алексей Аверин, руководитель технической команды финансового сектора Pure Storage в России/СНГ и странах Балтии, обращает внимание на то, что фабрики данных позволяют получить от оборудования максимум. «Сегодня никто не строит озера данных и не покупает СХД, чтобы только хранить данные. Как правило, речь идет о больших инвестициях, и поэтому системы хранения покупают, чтобы решать свои задачи: скорость аналитики, скорость поиска, предложение клиентам дополнительных сервисов, резервное копирование, восстановление после воздействия вредоносных программ и т. д. Подход с использованием фабрик данных позволяет клиентам ускорить этот процесс, оптимизировать его и отойти от уровня администрирования СХД как «железа», — говорит он.
Платформа для эффективной работы с данными должна быть современной. Использование исторического наследия, так называемого legacy, будет ограничивать производительность, масштабируемость, и в итоге предприятие не получит выгоды от применения такого подхода.
ИИ — помощник аналитика
Как мы уже говорили, при построении фабрик данных активно применяются технологии искусственного интеллекта (ИИ) и машинного обучения (ML). Для чего они нужны и как их применить максимально эффективно? «Технологии ИИ широко используются сейчас в большом количестве платформенных решений для аналитики данных. Data Fabric здесь играет роль того, что может объединить непосредственно системы ИИ (где выполняются вычислительные алгоритмы для задач аналитики) с данными, на базе которых они осуществляются. Поэтому, когда мы говорим о Data Fabric, то подразумеваем, что говорим об ИИ прежде всего как о неотъемлемой части любой системы продвинутой аналитики», — отмечает Роман Шемпель (IBM).
Концепция Data Fabric больше связана с логическим уровнем управления данными, чем с физическим (уровнем носителей), к которому относится СХД. Data Fabric обеспечивает связность различных систем источников данных (СХД — СУБД), слоев агрегации данных (хранилища) и инструментов трансформации данных с уровнем бизнес-приложений для осуществления собственно аналитики.
При этом, добавляет эксперт, сами вычисления с применением ИИ все больше опускаются с уровня бизнес-приложений на технологический. «Если раньше ИИ представлял собой (по большей части) модели, которые помогали аналитикам строить прогнозы или вычислять неочевидные взаимосвязи в данных для нужд маркетинга и продаж, то сегодня алгоритмы ИИ предназначаются для поиска данных для оптимизации работы аналитики, построения аналитики по использованию самих алгоритмов сотрудниками, обеспечивают стабильность работы ИТ-систем, предсказывая возможные проблемы в их эксплуатации и предлагая пути их решения, — говорит он. — Реализация технологий ИИ и применение их в быстро меняющейся среде рынка может быть эффективно, если есть платформенное решение в противовес условно как «коробочным», так и нишевым решениям. Так, многие предприятия создают собственные команды экспертов в Data Science для подготовки моделей, направленных на решение их собственных производственных задач. Рынок все больше стремится к освоению инструментов открытого кода, на базе которого можно построить собственные технологические решения ИИ. И здесь будут выигрывать те поставщики решений для аналитики, кто, с одной стороны, обеспечит наличие интегрированных между собой компонентов по хранению и аналитике данных (реализуя на практике концепцию Data Fabric), а с другой — позволит использовать аналитические наработки на базе открытого кода».
«Данные, машинное обучение и акселератор приложений — это наиболее правильная триада, используемая в современных «озерах» и «океанах» данных. Насчет реализации хотелось бы отметить необходимость автоматизации данных столпов, чтобы они не стали современным колоссом на глиняных ногах. Стоит использовать один их принципов Cloud-Native 2.0 — назовем его истинно-облачным (in-cloud), что обозначит не прямой перенос ландшафта, а рефакторинг в Cloud-Native-формат. Отдельный важный фактор эксплуатации — предиктивная аналитика такого решения и проактивное предотвращение возникающих узких мест и неисправностей», — комментирует Михаил Шпак (Huawei).
Фабрики данных готовы к экспоненциальному горизонтальному расширению слоя данных без деградации времени их обработки, классические же СХД будут бутылочным горлышком во времени взрывного роста данных во всех индустриях.
По мнению Романа Ройфмана (NetApp), главная особенность современных Data Fabric заключается в глубоком использовании инструментария больших данных, искусственного интеллекта и машинного обучения для организации алгоритмов управления данными. «При обработке информации машинное обучение предусмотрено на каждой ступени, начиная от анализа получаемых данных и заканчивая оптимизацией алгоритмов обработки. При наличии Data Fabric пользователи и аналитики смогут быстрее получить доступ к достоверным данным для приложений, аналитических задач и автоматизации бизнес-процессов. Это улучшит качество принимаемых решений и ускорит цифровую трансформацию компании», — отмечает он. «ML-платформа должна быть составной частью современной фабрики данных. Любая аналитика — это на 85% подготовка данных, и лишь на 15% непосредственно математическая «магия» их обработки. В рамках концепции фабрики данных эту подготовительную работу делают остальные компоненты фабрики, помогая дата-сайентистам быстро и с минимальными усилиями получать данные в нужных разрезах и представлениях, чтобы они могли сосредоточиться непосредственно на моделировании», — соглашается с коллегами Андрей Гусев (Accenture).
Фабрика данных позволяет реализовать конвейер цифровых проектов, сокращая time-to-market для внедрения нового функционала. Теперь на разработку цифрового проекта уходит не полгода, а несколько месяцев.
«Фабрика данных, включающая инструменты и процессы работы с искусственным интеллектом, позволяет значительно повысить производительность, удовлетворив уникальные потребности каждой группы специалистов, с помощью специально подобранных конфигураций инструментов и автоматизированных процессов, — заключает Виталий Тукмаков (HPE). — Это позволяет специалистам сосредоточиться на своей работе, не отвлекаясь на управление инфраструктурой. Совместные репозитории кода, моделей предоставляют специалистам возможность обмениваться знаниями и наработками, что значительно сокращает время проектирования новых систем и приложений. Высокопроизводительная распределенная файловая система оптимизирует доступ специалистов к данным, обеспечивая при этом выполнение политик безопасности и управления».
Мы обязательно вернемся к теме построения фабрик данных в одном из ближайших номеров нашего журнала, где обсудим ее практические аспекты.
Опубликовано 28.01.2022
Еще один вызов, который принимает фабрика данных, — это постоянное увеличение объема информации. Неправильно спроектированная инфраструктура может остановить бизнес-процессы из-за невозможности последующего масштабирования. Data Fabric в свою очередь помогает компаниям использовать весь потенциал данных для удовлетворения своих потребностей и получения преимуществ на рынке.