Какие задачи бизнес решает с помощью Big Data и кто этим занимается

Логотип компании
Какие задачи бизнес решает с помощью Big Data и кто этим занимается
Как собираются большие данные и какие специалисты для этого требуются.

Переход от обычных массивов данных к большим — особая грань технологий, которая нуждается в специалистах и навыках работы на этом стыке. Несмотря на то, что все еще ощущается дефицит айтишников, работающих с Big Data, рынок развивается быстро: появляются решения для банкинга и телекома, прогнозируется техническая эксплуатация оборудования, потребитель получает персональные рекомендации по контенту.

Сбор данных, гранулярность и примеры массивов из жизни

Данные — это фиксация фактов во времени, возникающих при любом варианте взаимодействия: человека с компанией, машины с компанией, машины с машиной или машины с человеком. Если взять пример из реального мира: простое измерение температуры в комнате за какой-то период дает массив данных.

Сбор, хранение и обработка данных имеет свою цену. Поэтому каждая компания определяет для себя, какие именно данные ей понадобятся для решения своих задач: начиная от внутренних процессов и заканчивая взаимодействием с внешними контрагентами или отслеживание поведения сотрудников.

Некоторые данные используются не в рамках организации, а представляют ценность для другой компании. Возникает вопрос обмена полезной информацией. Например, если ритейлер просто сохраняет все транзакции и не может провести исследование из-за неполной картины, то всегда есть вариант сотрудничества с другой компанией, имеющей желаемые смежные данные. Разумеется при таких коллаборациях соблюдается анонимность и деперсонализация данных, массивы информации подвергаются шифрованию и хэшированию. Таким образом, речи о том, что компании могут передавать личные данные пользователей — не идет.

Big Data решает задачи бизнеса: от просмотра ТВ-программы до эффективности наружной рекламы

В каждой отрасли есть потребность и применимость продуктов на основе больших данных. Как правило, такие продукты позволяют получить более полную картину по задаче, что раньше было невозможно.

Традиционный подход заключается в проведении панельных исследований, когда оценка требуемых показателей производится по репрезентативной, но достаточно ограниченной выборке. Например, чтобы узнать, что смотрят по телевизору люди из Москвы, компания анализирует всего 10 тыс. панель-листов, а затем проводит экстраполяцию ко всему населению города. Если 1 тыс. из 10 тыс. человек посмотрели программу, значит, это сделали порядка 10% всех москвичей. Большие данные позволяют использовать существенно большие выборки для анализа, так как анализируются хоть и анонимные, но реальные данные поведения пользователей.

Хороший пример того, к каким выводам это может приводить, — история аналитики в наружной рекламе. Традиционно в этой области применялись ограниченные наборы измерений: например, в определенных точках города в определенные часы подсчитывали количество проехавших машин. Дальше аналитики экстраполировали данные с помощью сложной математической модели на весь месяц. В результате исследования заказчик получал усредненную оценку аудитории за день для каждого рекламного щита.

Использование данных, полученных от навигационных систем и мобильных приложений, сделало прежние модели существенно точнее. Аналитики могут выделять профили аудитории для каждой конструкции в зависимости от дня недели / часа. А использование Wi-Fi датчиков на конструкциях позволило изучить поведение аудитории: увидеть районы их проживания и интересы. Так, датчики выявили, что далеко не все проезжающие машины принадлежат москвичам. На магистралях много людей едет из области, есть транзитный трафик из других городов.

Big Data дает наиболее полную аналитику и выход за рамки. Поэтому на основе больших данных можно делать корректные прогнозы, тренировать модели машинного обучения. Например, сделать предположение, что заемщик на основе каких-то характеристик может быть неблагонадежным. Или на базе косвенных признаков предположить, что агрегат на заводе скоро потребует технического обслуживания.

Итоговый продукт на основе больших данных

Формат продукта всегда зависит от бизнес-задачи. Это может быть обычный отчет, если достаточно раз в месяц на него посмотреть, чтобы принять решение.

Продукт может представлять собой поставку обогащенных данных, когда база клиентов анализируется и возвращается заказчику с дополнительными атрибутами.

Это может быть API, в которую можно обращаться и получать ответ, например рекомендации для клиента в онлайн-кинотеатре. А также приложение для конечного пользователя.

Решения для сбора и агрегации данных

Технология сегодня в основном завязана на open source решениях: они уже давно применяются в индустрии как стандарт. По сути, это могут быть разные виды хранилищ для хранения больших массивов данных: соответственно, Hadoop, стек для хранения и обработки данных, Spark - для параллельных вычислений, Air Flow, и Apache NiFi как оркестраторы для процессов перекладки, трансформации и изменения форматов данных.

Если раньше совмещали хранение и вычисление данных на одних и тех же серверах при помощи Hadoop, то сейчас считается более эффективным подход, при котором хранение данных и вычисления разделяются. Такой подход чаще всего реализуется у облачных провайдеров.

Технология обезличенной передачи данных

Применение технологии обезличенной передачи данных зависит от конкретных датасетов, но по современным стандартам простого хэширования и анонимизации уже недостаточно. Зачастую задача стоит намного сложнее.

Если требуется смэтчить данные от разных компаний между собой и посмотреть на обогащенные массивы данных или построить на их основе модели, нужно применять соответствующие методы. Банальное обезличивание уже не сработает: в несколько этапов используется хэширование, проводится замена индикаторов на случайные, а затем уже происходит каскадное смэтчивание баз с невозможностью расхэширования внутри платформы. Сами данные остаются только у их владельцев.

В основном такие процессы реализуются внутренними ресурсами с помощью локальных разработок.

Сырые данные, построение моделей и эмбеддинг

Это могут быть самые разные массивы: от телекоммуникационных до банковских. Например, мы не работает с сырыми данными: условными телекомовскими массивами по кликстриму. Если у поставщика есть данные по телесмотрению, эти данные компания передавать не будет, но на их основе может построить собственные модели. В целом компании в рамках своей деятельности оперируют сотнями терабайт, поэтому если бы приходилось работать с сырыми данными, речь шла бы о петабайтах.

Что касается банковских данных — там, например, применяется метод эмбеддингов — это такой метод, в котором развернутый набор данных с помощью специальных нейросетей упаковывают в вектор-представление этого набора. Такие векторы не могут интерпретироваться человеком, но подходят для дальнейшего создания прикладных моделей машинного обучения для конкретных задач.

Если необходимо построить модель на истории транзакций, где указана, например, тема покупки — оплата за АЗС, покупка детских игрушек, продукты, кафе, — возникает сразу несколько проблем. Такая история транзакции, во-первых, сенситивная, а во-вторых, она переменной длины, то есть у каждого клиента она будет своя.

Эти проблемы решаются с помощью эмбеддинга. Специальная нейросеть тренируется и формирует одну таблицу из сотни столбцов с данными, которые не может интерпретировать ни один человек. Даже если о клиенте известны определенные персональные данные — например, номер телефона, понять, что именно означают числа в его столбце — невозможно. А на самом деле в этих цифрах зашита вся необходимая информация о клиенте: владеет ли человек машиной, есть ли у него домашние питомцы и так далее.

Такую нейросеть можно натренировать на банковских базах данных о хороших и плохих заемщиках таким образом, что впоследствии она сможет предсказывать, будет ли конкретный клиент добросовестным кредитором или будет уходить в дефолт.

Специалисты по работе с большими данными: от дата-инженеров до дата-офицеров

Основную роль играют люди, отвечающие за бизнес-постановку задач — это как правило заказчик в виде product owner, который опирается на запрос клиента. Именно product owner ставит специалистам по данным задачи — построить модель, докупить данные и т.д. Такое часто практикуется в компаниях, которые у себя внутри занимаются обработкой данных. У них кто-то должен заказывать задачи, а кто-то должен быть интересантом деятельности.

Аналитикой занимаются дата-сайентисты или аналитики данных. Кто-то разделяет эти понятия, кто-то считает, что это одни и те же люди. Кроме того, в команде присутствует дата-инженер, который подготавливает данные и витрины для того, чтобы аналитики на следующем этапе могли с ними работать.

Еще один специалист в команде — MLOps занимается реализацией идеи с доказанной эффективностью в конкретном фреймворке и на языке, который можно запустить в продакшн.

DevOps отвечает за эксплуатацию развертывания и настройку инструментов, с которыми работает вся команда, то есть всей инфраструктуры. Когда мы говорим об инфраструктуре, мы можем иметь в виду «железо», виртуальные ресурсы, облака, но DevOps'ы отличаются, как правило, от простых системных администраторов более высоким уровнем знания, умения, использования автоматизации. Одно дело администрировать 2-3 сервера вручную, а другое, когда у тебя кластер из 100 серверов и нужно провести обновление так, чтобы сервис не прерывался.

Дата-офицеры — это люди, которые ведут всю номенклатуру данных. Они знают, какие данные есть у компании. По сути, это системные или бизнес-аналитики с упором на работу с данными.

Дефицит кадров в Big Data

Специалистов действительно не хватает: речь, прежде всего, идет о DeVOps. Сейчас настоящий бум на них и очень не хватает людей с достаточными навыками. Простого инженера или системного администратора можно найти, а именно DevOps, который работал бы с большими данными, кластерами, Kubernetes — таких специалистов сильный дефицит. Что касается MLOps, то порой кажется, что такие люди вообще только в теории существуют. Системно обученных людей в этой сфере вообще нет.

Предложение дата-сайентистов на рынке более-менее догнало спрос: можно уже не просто хвататься за первого попавшегося специалиста, а отсматривать и собеседовать кандидатов. То же самое касается и дата-инженеров.

ИИ и распознавание речи: будущее Big Data

Сама по себе Big Data давно распалась на множество направлений: это такой зонтичный термин, обозначающий сегодня самые разные технологии. Основной потенциал роста Big Data — применение в искусственном интеллекте и поиск прикладных решений Big Data там, где они реально полезны. Участники рынка уже прошли хайп и долину разочарований, сейчас технологии выходят на плато продуктивности.

Спектр применения Big Data широкий: автоматические системы добавления «умных» вещей в систему мониторинга, отчетности, НЛП — умение распознавать речь и внятно ее синтезировать, более «умные» и законченные для конечного пользователя продукты с использованием видеоаналитики. Это история принесения пользы, экономии для бизнеса, а не просто научного интереса.

Опубликовано 19.05.2022

Похожие статьи