АШАН запустил платформу для работы с большими данными в облаке Mail.ru Cloud Solutions

17.11.2020
Новое решение будет использоваться как для обучения ИИ и ML-моделей, так и для ad-hoc аналитики для продуктовых и функциональных команд.

АШАН развернул аналитическую платформу для Big Data в публичном облаке Mail.ru Cloud Solutions. Новое решение будет использоваться как для обучения искусственного интеллекта и ML-моделей, так и для ad-hoc аналитики для продуктовых и функциональных команд.

На базе облачной платформы Big Data будет идти разработка и промышленная эксплуатация продуктовых ИИ-решений, включая сервисы для управления цепочками поставок, ценообразованием и программами лояльности. Также в экосистеме Big Data Platform будут развернуты лаборатории данных, в рамках которых продуктовые и функциональные команды будут проводить исследования и ad-hoc аналитику.

Ранее ретейлер использовал для аналитики, обучения ML-моделей и поддержки бизнес-процессов одну и ту же базу данных. Высокая нагрузка на систему, которая возникает при работе с аналитическими проектами, негативно влияла на производительность других сервисов. Для запуска полноценной платформы работы с данными и обработки более сложных задач из области Data Science компания искала партнера, который предлагает нужные компоненты как услугу в облаке. В целях быстрого масштабирования и консолидации всех аналитических направлений на одной платформе АШАН решил запустить Big Data Platform в облаке Mail.ru Cloud Solutions.

При выборе поставщика АШАН руководствовался двумя важными критериями: наличие всех необходимых платформенных компонентов и оптимальное соотношение цены и качества услуг. Кроме того, было необходимо обеспечить соблюдение 152-ФЗ о персональных данных.

АШАН запустил пилотный проект, в рамках которого платформа Mail.ru Cloud Solutions продемонстрировала соответствие требованиям компании, ожиданиям по производительности и скорости развертывания. В основу Big Data Platform лег сервис Cloud Big Data с Apache Hadoop, на который было перенесено 25 Тб сырых данных, необходимых для построения моделей данных ИИ-решений. Построение витрин данных и ETL между различными компонентами Big Data Platform было реализовано с помощью компонента Spark. Управляемая база данных ClickHouse используется для хранения "горячих" данных, ad-hoc аналитики и витрин данных для ИИ-решений. В качестве массивно-параллельной системы компания подключила Arenadata DB на основе СУБД Greenplum. Ее использование облегчит проведение исследований для логистики, коммерческой дирекции и маркетинга АШАН.

Компания планирует обучать десятки тысяч ML-моделей, поэтому обратилась к технологии Kubernetes от MCS. Функция автоматического масштабирования кластеров позволяет задействовать сотни машин для обучения и автоматически уменьшать мощности при перерывах в использовании.

На платформе MCS компания построила конвейер обработки больших данных, собираемый под задачу из готовых компонентов PaaS (Platform as a Service) как аналитический конструктор. Запуск платформы Big Data в облаке Mail.ru Cloud Solutions позволил АШАН быстро и легко масштабироваться под потребности бизнеса за счет использования кластерных технологий, параллельных вычислений и автомасштабирования Kubernetes.