Как управление большими данными обеспечивает бизнес-успех

Логотип компании
Как управление большими данными обеспечивает бизнес-успех

Изображение: Shutterstock.ai

Дата-инженер международной компании Михаил Мокшанов рассказал об инновационных инструментах, которые помогают усовершенствовать сбор и аналитику больших данных.
Глобальная датасфера – единое информационное пространство – неуклонно расширяется. В 2011 году было сгенерировано 1,8 зеттабайт информации. К 2025-му, по прогнозам аналитических агентств, общий объем данных в мире составит от 175 до 200 зеттабайт. Данные представляют собой исключительную ценность для бизнеса, они необходимы для стратегического планирования и достижения конкурентных преимуществ. Но чтобы воспользоваться этими преимуществами, требуется владение современными инструментами сбора, хранения и анализа данных, говорит эксперт в этой области Михаил Мокшанов. В прошлом Михаил разрабатывал и внедрял проекты, обеспечивающие работу с большими данными, для «Внуковских авиалиний» и федеральных государственных ведомств, включая МЧС России, а сегодня занимает позицию дата-инженера в израильском стартапе Maelys со штаб-квартирой в Нью-Йорке.

Хранение и целостность данных

Для сбора данных компании использует внешние и внутренние источники: во-первых, – это СМИ, соцсети, блоги, форумы и т. п., во-вторых, – свои собственные архивы, базы данных, хранилища. Обеспечение целостности данных и управление их объемом – один из главных вызовов, с которыми сегодня сталкиваются дата-инженеры. Для этого цифровые активы могут переноситься в облако, объясняет Михаил Мокшанов.

В зону ответственности Михаила входит руководство присутствием данных компании на облачных платформах, обеспечивающих их сохранность и удобство доступа для аналитики. Он также управляет их миграцией: своевременное обновление системы хранения данных необходимо для эффективной работы бизнеса.

«В зависимости от потребностей бизнеса, моя команда и я занимаемся миграцией данных, – рассказывает Михаил. – Год назад было принято стратегическое решение об уходе из локальных хранилищ данных и Microsoft Azure. В результате было перенесено центральное аналитическое хранилище и все связанные с ним пайплайны в Google Cloud Platform. Теперь на очереди миграция транзакционной системы из Azure SQL Server на Amazon RDS».

Михаил Мокшанов создал и внедрил решения, обеспечившие миграцию данных, целью которой была централизация хранения данных компании и аналитики, собираемой с сайта Maelys при помощи Google Analytics. Чтобы обеспечить возможность обработки данных в новой технологической среде, Михаил решил сложную задачу по переписыванию кода. Благодаря его участию данные Google Analytics были успешно интегрированы с остальной частью системы, что сыграло ключевую роль в бизнес-решениях компании, позволив более оперативно и точно реагировать на изменения рынка.

Контроль качества данных

Анализ больших данных может давать ошибочные результаты, если в систему попадают данные плохого качества, – ситуация, достаточно вероятная из-за постоянно растущего объема и разнообразия собираемых данных. Чтобы обеспечить безошибочность интерпретации результатов, Михаил Мокшанов применяет в своей работе инструменты с использованием машинного обучения, повышающие качество анализируемых данных. Этот подход используется в том числе при работе с веб-сайтом Maelys.

«Каждое действие пользователя отслеживается, фиксируется и собирается с сайта с помощью скрипта Google Analytics, а затем транслируется в хранилище данных на BigQuery в таблицу events, – объясняет эксперт. – Задача состоит в извлечении из этих данных полезной информации. Например, бизнесу хочется построить на основании этих данных собственную модель атрибуции. Первый шаг к этому – выделить из полученных данных уникальных пользователей, покупателей».

Для этого Михаил применяет разнообразные методы идентификации – от id-сессии, геолокации, содержимого корзины и временного интервала до версии используемого программного обеспечения и cookies. После успешной идентификации следует присвоение каждому пользователю уникальных идентификаторов, отбраковка неполных или «рваных» данных и удаление дубликатов.

Операция, называемая «повышением качества» анализируемых данных, направлена на улучшение точности интерпретации результатов. В маркетинге этот процесс имеет высокое значение: качество данных напрямую влияет на принятие решений о показе рекомендаций, что, в свою очередь, сказывается на эффективности рекламных кампаний.

В результате автоматизации и точной обработки сырых данных с использованием внедренных Михаилом инструментов машинного обучения компания Maelys смогла значительно улучшить эффективность своих маркетинговых стратегий, оптимизировать рекламный бюджет и повысить конкурентоспособность, став значимым игроком глобальной косметической отрасли. Рекомендательная система, построенная на основании выявленных пользовательских предпочтений, позволила компании увеличить свои доходы более чем на 20%.

Прогнозирование на основе анализа данных

Чтобы построить на основе анализа больших данных прогностическую модель, необходимо выявить в общем объеме информации скрытые закономерности и причинно-следственные связи. Михаил Мокшанов решает задачу интеграции больших данных в бизнес-стратегию, внедряя в системы поддержки принятия решений машинное обучение, что позволяет прогнозировать на основе анализа исторических данных тенденции спроса на будущее в диапазоне от месяца до года. Этот подход Михаил применил, например, для прогнозирования продаж в компании Trade Lock, занимающейся реализацией дверных замков и фурнитуры в России и странах СНГ.

«Данные о ежедневных продажах продукта в течение последних нескольких лет были подготовлены и обработаны алгоритмами, реализованными в виде кода на Python и Jupyter, – объясняет Михаил. – Подбор параметров и обучение модели были осуществлены на исторических данных, после чего использовалась модель для генерации прогнозов».

Благодаря системе прогнозирования спроса руководство Trade Lock получило возможность адаптироваться к меняющимся рыночным условиям и принимать обоснованные решения относительно продаж на год вперед. Оптимизация запасов и ресурсов, корректировка закупок и снижение издержек на хранение непроданных товаров, которых удалось добиться благодаря точному прогнозированию, положительно сказались на прибыльности бизнеса.

Защита данных

С ростом объема больших данных, проектов по их анализу и количества причастных к аналитическим инструментам пользователей многократно увеличивается риск утечки информации. История показывает, что это чревато серьезными юридическими последствиями и потерей репутации, поэтому защита данных от утечек и несанкционированного доступа является для бизнеса важным аспектом работы. Чтобы обезопасить информацию, Михаил Мокшанов внедряет встроенные средства защиты.

Так, для компании Trade Lock Михаил разработал и внедрил многоэтапную систему безопасности с динамически управляемым доступом. Система способна автоматически адаптироваться к изменению прав и ролей сотрудников компании, регулируя их доступ к чувствительной информации. Надежность защиты гарантируют современные методы шифрования и аутентификации.

«На первом этапе система отсекает несанкционированный доступ благодаря доменной аутентификации с помощью Microsoft Active Directory, – говорит Михаил. – Второй этап – авторизация, в ходе которой сервер аналитики определяет роль пользователя и в зависимости от нее раздает права на доступ к тем или иным данным».

Читайте также
Издание SEO_AI в материале «Can Google detect ChatGPT? How does it affect rankings if recognized» внимательно изучило вопрос влияния того факта, что текст написан нейросетью, на его поисковую выдачу сервисом Google Search.

Регуляция доступа к данным, разработанная и внедренная Михаилом Мокшановым, обеспечила высокий уровень защиты чувствительной информации и помогла сократить риски их утечки, сделав бизнес компании Trade Lock более устойчивым и эффективным. Немаловажно, что алгоритмы на основе машинного обучения имеют свойство с течением времени работать все надежнее, поскольку постоянно адаптируются и обучаются на основе новых данных.

Сфера сбора, обработки, хранения и анализа данных представляет собой динамично развивающуюся область, в которой постоянно появляются новые технологии и методологии. Для успешной реализации сложных проектов требуются не только глубокие знания в области традиционных методов работы с данными, но также и навыки применения методов машинного обучения и искусственного интеллекта, которые при правильном использовании имеют уникальную способность быстро адаптироваться к изменениям без прямого участия человека. Все это позволяет на новом уровне интегрировать техническую экспертизу с бизнес-аналитикой. Владение новейшими инструментами для работы с большими данными дает бизнесу конкурентные преимущества и гарантирует успех в долгосрочной перспективе.

Опубликовано 19.04.2024

Похожие статьи