Data-Driven: что такое «решения на основе данных»?

Логотип компании
Data-Driven: что такое «решения на основе данных»?
Суть подхода Data-Driven состоит  в том, чтобы любой бизнес-пользователь, от топ-менеджера до рядового сотрудника, мог по первому же запросу быстро (то есть в течение минут, а не дней!) получить нужные ему сведения.

Что мы имеем в виду, говоря, что решения в организации принимаются на основе данных? Неужели в доцифровую эпоху компании работали как-то иначе? Конечно же, нет: любые отчеты, документы и сводки всегда основывались на данных — о продажах, клиентах, зарплатах и других важных для компании вещах.

Но можно ли доверять этим данным? Насколько точно мы знаем, откуда взялись все эти цифры и показатели? Сколько времени придется потратить, чтобы получить отчет? И не устареют ли данные к тому моменту, когда мы сможем ими воспользоваться?

Суть подхода Data-Driven состоит именно в том, чтобы любой бизнес-пользователь, от топ-менеджера до рядового сотрудника, мог по первому же запросу быстро (то есть в течение минут, а не дней!) получить нужные ему сведения. При этом данные должны быть достоверными, качественными и актуальными, и сотрудник должен точно знать, что на них можно опереться.

Чтобы этого добиться, нужны две вещи:

  1. Правильный подход к работе с данными. Его первый и обязательный элемент — четкая постановка бизнес-задач, то есть понимание, для чего бизнесу нужны эти данные и каких целей он хочет достичь, работая с ними. Не менее важно распределить ответственность между сотрудниками, которые будут с этими данными работать: понять, кто будет отвечать за какой участок, как будет построено проектирование данных, какое качество данных требуется и какие задачи будут поставлены разработчикам.

  2. Непосредственно технологии, с помощью которых этот подход будет реализован.

Эталонная архитектура управления данными

Каким будет решение по управлению данными, зависит от задач конкретной компании. Для работы с данными существует классическая архитектура, из которой можно выбрать один или несколько модулей для реализации:

  • Хранилище данных идеально подходит в том случае, если ваша главная задача — быстрая подготовка точных и достоверных отчетов, меняющихся не очень часто, без глубокого анализа данных и построения прогностических моделей.

  • Озеро данных предназначено как раз для аналитики. Особенно хорошо это решение работает в организациях, у которых накоплено много данных в разных форматах, сложной структуры или даже неструктурированных.

  • Фабрика данных представляет собой «конвейер гипотез». На основании качественных, структурированных и каталогизированных данных она позволяет выполнять аналитику «на лету», в режиме онлайн. Такие решения очень востребованы, например, в современных банках, формирующих персональное предложение для каждого из десятков тысяч своих клиентов.

  • Data Mеsh — подход, появившийся относительно недавно. Его основное преимущество — возможность разделить фактически одни и те же данные для разных подразделений, чтобы они (подразделения) не мешали друг другу при использовании данных для решения своих задач.

Data-Driven: что такое «решения на основе данных»?. Рис. 1

Все эти варианты архитектуры помогают пользоваться данными наиболее эффективно. В зависимости от выбранного варианта компании внедряют у себя подходящие инструменты работы с данными.

Must-have-инструменты для управления данными

Для сбора, хранения и обработки данных необходимы технологии традиционных реляционных хранилищ данных.

Под этими элементами должен находиться единый интеграционный слой, который технологически разделяется на решения по работе с хранилищами данных и с Big Data. Интеграцию данных обеспечивают решения класса ETL (Extract, Transform, Load). Они позволяют доставлять любые данные из любых источников и «положить» их в ту структуру хранения, которую вы выберете: хранилище, озеро, Data Mesh или любую другую. Но здесь важно понимать, что каждый ETL-инструмент должен иметь удобный визуальный интерфейс для разработки, чтобы передача знаний между командами (которые регулярно меняются) была удобной и быстрой. Не менее важно, чтобы производительность ETL-решений была высокой вне зависимости от того, какие системы выступают источниками и приемниками информации.

Безусловно, необходимы технологии управления качеством данных, причем как на этапе загрузки, так и на этапе, связанном с хранением данных, их передачей в витрины, отчеты и т. д. Строго говоря, все «этажи» этого «здания» должны быть пронизаны сквозным управлением качеством. Обязательный шаг — внедрение корпоративных бенчмарков качества. Они нужны, чтобы у всех подразделений было единое понимание того, что считать качественными данными и по каким метрикам.

Системы управления метаданными — важные инструменты, необходимые для реализации подходов Data Governance и Data-Driven. Нельзя обойтись без иерархического бизнес-глоссария, привязанного к организационной структуре, и инструмента управления им. ИT-мир оперирует названиями таблиц, но этот язык непонятен бизнесу. Чтобы ИT и бизнес заговорили на одном языке, и создается бизнес-глоссарий, содержащий не только иерархию терминов, но и фактически иерархию их паспортов.

Что такое паспорт данных? Он содержит наименование данных, описывает методику их получения, рекомендации к трактовке, привязку к организационной структуре, бенчмарку качества и нормативно-правовым аспектам, а также показывает, кто в организации отвечает за эти конкретные данные и заинтересован в них.

Требуются также технологии и решения, позволяющие построить карту трансформации данных и каталогизировать их. Это технология Data Catalog.

Она позволяет создать картотеку, где содержится структурированный, иерархизированный каталог метаданных физического слоя и используемые трансформации при передаче данных или визуализации.

Наконец, часть корпоративных данных может представлять собой коммерческую тайну. Такие данные можно назвать чувствительными. К ним же относятся персональные данные, данные о счетах и операциях и многое другое. Необходимы решения по защите чувствительных данных: технологии создания тестовых копий и сред, маскирования данных, управления доступом к этим данным и т. д.

Подход важнее инструментов?

Какие бы инструменты и архитектуру вы ни выбрали, работать они будут только в том случае, если в компании сформирован правильный подход к управлению данными.

Первым шагом к нему будет понимание, как именно нужно работать с запросами на данные. Современный подход, вне зависимости от выбранных технологий, предполагает, что в случае поступления запроса на данные от любого бизнес-пользователя сразу можно увидеть, какими данными мы уже располагаем, какого они качества, какие из них уже предоставлялись раньше и могут быть переиспользованы. Можно ли дать этому конкретному пользователю доступ к этим конкретным данным? Достаточный ли у них уровень качества? Если нет, можно ли его повысить, или же тратить время на работу с такими данными нецелесообразно? Если же данные удовлетворяют всем критериям, то как правильно передать им аналитикам, на логическое проектирование и далее на разработку?

Читайте также
Когда западные гиганты программного обеспечения ушли с рынка, российский бизнес не остался беззащитным. Открытое ПО стало его новым союзником, хотя и с некоторыми сюрпризами. Как компании адаптируются к open source, в чем его преимущества и какие вызовы ещё предстоит преодолеть? В этом материале IT-World разбирается, почему открытое ПО стало фундаментом российского IT.

Используемый подход должен покрывать все этапы работы с метаданными и данными с момента поступления запроса от пользователя до момента предоставления ему результата.

Вопросов много, но если ответить на них правильно и сформировать на их основе единый подход к работе с данными для всей компании, то процессы пойдут намного быстрее, чем при «традиционном» подходе, когда бизнес-аналитики и системные аналитики зачастую раскоординированы. Из-за этого на выполнение задач тратится больше времени и возникает очередь на получение данных. В этом и кроется первопричина ситуации, когда нужный отчет приходится ждать три месяца, и к моменту получения данные в нем уже безнадежно устаревают.

***

Таким образом, инструменты, технологии и архитектура — это все-таки вторичные вещи, хотя недооценивать их не следует. Превращение организации в Data-Driven начинается не с покупки решений, а с понимания бизнес-задач и построения на их основе правильного подхода к работе с данными.

Опубликовано 21.12.2022

Похожие статьи