Как управление большими данными обеспечивает бизнес-успех
Хранение и целостность данных
Для сбора данных компании использует внешние и внутренние источники: во-первых, – это СМИ, соцсети, блоги, форумы и т. п., во-вторых, – свои собственные архивы, базы данных, хранилища. Обеспечение целостности данных и управление их объемом – один из главных вызовов, с которыми сегодня сталкиваются дата-инженеры. Для этого цифровые активы могут переноситься в облако, объясняет Михаил Мокшанов.
В зону ответственности Михаила входит руководство присутствием данных компании на облачных платформах, обеспечивающих их сохранность и удобство доступа для аналитики. Он также управляет их миграцией: своевременное обновление системы хранения данных необходимо для эффективной работы бизнеса.
«В зависимости от потребностей бизнеса, моя команда и я занимаемся миграцией данных, – рассказывает Михаил. – Год назад было принято стратегическое решение об уходе из локальных хранилищ данных и Microsoft Azure. В результате было перенесено центральное аналитическое хранилище и все связанные с ним пайплайны в Google Cloud Platform. Теперь на очереди миграция транзакционной системы из Azure SQL Server на Amazon RDS».
Михаил Мокшанов создал и внедрил решения, обеспечившие миграцию данных, целью которой была централизация хранения данных компании и аналитики, собираемой с сайта Maelys при помощи Google Analytics. Чтобы обеспечить возможность обработки данных в новой технологической среде, Михаил решил сложную задачу по переписыванию кода. Благодаря его участию данные Google Analytics были успешно интегрированы с остальной частью системы, что сыграло ключевую роль в бизнес-решениях компании, позволив более оперативно и точно реагировать на изменения рынка.
Контроль качества данных
Анализ больших данных может давать ошибочные результаты, если в систему попадают данные плохого качества, – ситуация, достаточно вероятная из-за постоянно растущего объема и разнообразия собираемых данных. Чтобы обеспечить безошибочность интерпретации результатов, Михаил Мокшанов применяет в своей работе инструменты с использованием машинного обучения, повышающие качество анализируемых данных. Этот подход используется в том числе при работе с веб-сайтом Maelys.
«Каждое действие пользователя отслеживается, фиксируется и собирается с сайта с помощью скрипта Google Analytics, а затем транслируется в хранилище данных на BigQuery в таблицу events, – объясняет эксперт. – Задача состоит в извлечении из этих данных полезной информации. Например, бизнесу хочется построить на основании этих данных собственную модель атрибуции. Первый шаг к этому – выделить из полученных данных уникальных пользователей, покупателей».
Для этого Михаил применяет разнообразные методы идентификации – от id-сессии, геолокации, содержимого корзины и временного интервала до версии используемого программного обеспечения и cookies. После успешной идентификации следует присвоение каждому пользователю уникальных идентификаторов, отбраковка неполных или «рваных» данных и удаление дубликатов.
Операция, называемая «повышением качества» анализируемых данных, направлена на улучшение точности интерпретации результатов. В маркетинге этот процесс имеет высокое значение: качество данных напрямую влияет на принятие решений о показе рекомендаций, что, в свою очередь, сказывается на эффективности рекламных кампаний.
В результате автоматизации и точной обработки сырых данных с использованием внедренных Михаилом инструментов машинного обучения компания Maelys смогла значительно улучшить эффективность своих маркетинговых стратегий, оптимизировать рекламный бюджет и повысить конкурентоспособность, став значимым игроком глобальной косметической отрасли. Рекомендательная система, построенная на основании выявленных пользовательских предпочтений, позволила компании увеличить свои доходы более чем на 20%.
Прогнозирование на основе анализа данных
Чтобы построить на основе анализа больших данных прогностическую модель, необходимо выявить в общем объеме информации скрытые закономерности и причинно-следственные связи. Михаил Мокшанов решает задачу интеграции больших данных в бизнес-стратегию, внедряя в системы поддержки принятия решений машинное обучение, что позволяет прогнозировать на основе анализа исторических данных тенденции спроса на будущее в диапазоне от месяца до года. Этот подход Михаил применил, например, для прогнозирования продаж в компании Trade Lock, занимающейся реализацией дверных замков и фурнитуры в России и странах СНГ.
«Данные о ежедневных продажах продукта в течение последних нескольких лет были подготовлены и обработаны алгоритмами, реализованными в виде кода на Python и Jupyter, – объясняет Михаил. – Подбор параметров и обучение модели были осуществлены на исторических данных, после чего использовалась модель для генерации прогнозов».
Благодаря системе прогнозирования спроса руководство Trade Lock получило возможность адаптироваться к меняющимся рыночным условиям и принимать обоснованные решения относительно продаж на год вперед. Оптимизация запасов и ресурсов, корректировка закупок и снижение издержек на хранение непроданных товаров, которых удалось добиться благодаря точному прогнозированию, положительно сказались на прибыльности бизнеса.
Защита данных
С ростом объема больших данных, проектов по их анализу и количества причастных к аналитическим инструментам пользователей многократно увеличивается риск утечки информации. История показывает, что это чревато серьезными юридическими последствиями и потерей репутации, поэтому защита данных от утечек и несанкционированного доступа является для бизнеса важным аспектом работы. Чтобы обезопасить информацию, Михаил Мокшанов внедряет встроенные средства защиты.
Так, для компании Trade Lock Михаил разработал и внедрил многоэтапную систему безопасности с динамически управляемым доступом. Система способна автоматически адаптироваться к изменению прав и ролей сотрудников компании, регулируя их доступ к чувствительной информации. Надежность защиты гарантируют современные методы шифрования и аутентификации.
«На первом этапе система отсекает несанкционированный доступ благодаря доменной аутентификации с помощью Microsoft Active Directory, – говорит Михаил. – Второй этап – авторизация, в ходе которой сервер аналитики определяет роль пользователя и в зависимости от нее раздает права на доступ к тем или иным данным».
Регуляция доступа к данным, разработанная и внедренная Михаилом Мокшановым, обеспечила высокий уровень защиты чувствительной информации и помогла сократить риски их утечки, сделав бизнес компании Trade Lock более устойчивым и эффективным. Немаловажно, что алгоритмы на основе машинного обучения имеют свойство с течением времени работать все надежнее, поскольку постоянно адаптируются и обучаются на основе новых данных.
Сфера сбора, обработки, хранения и анализа данных представляет собой динамично развивающуюся область, в которой постоянно появляются новые технологии и методологии. Для успешной реализации сложных проектов требуются не только глубокие знания в области традиционных методов работы с данными, но также и навыки применения методов машинного обучения и искусственного интеллекта, которые при правильном использовании имеют уникальную способность быстро адаптироваться к изменениям без прямого участия человека. Все это позволяет на новом уровне интегрировать техническую экспертизу с бизнес-аналитикой. Владение новейшими инструментами для работы с большими данными дает бизнесу конкурентные преимущества и гарантирует успех в долгосрочной перспективе.
Опубликовано 19.04.2024