Краткий экскурс по Big Data

07.12.2022

В материале разберемся с понятием Big Data, какие задачи бизнеса решает инструмент и расскажем об основных источниках получения больших данных и многом другом.

Что такое Big Data и какие задачи решает?

Big Data (или “большие данные”) — это структурированные или неструктурированные массивы данных большого объема, которые хранятся на цифровых носителях.

Настолько большие, что никакой Excel с ними не справится. Поэтому для их хранения и обработки были разработаны специальные автоматизированные решения.

Поговаривают, что до 2011 года данные таких масштабов использовали только в научно-статистических целях, но с 2012 года им стали находить практическое применение. И вместе с этим трендом начали развиваться и IT-решения, которые способны обрабатывать, структурировать и анализировать Big Data.

Где хранить Big Data? На сервере или в облаке. Выбор способа хранения зависит от следующих факторов: какое количество мощностей понадобится (это влияет на стоимость решения), готов ли бизнес сам обслуживать хранилище (тогда подходит сервер) или нет (тогда поддержкой занимается компания, предоставляющая облачный сервис).

Сейчас большие данные используют в качестве инструмента бизнеса во многих сферах: банковских, маркетинговых, здравоохранении, логистике и т.д.

Какие задачи бизнеса решает этот инструмент:

позволяет делать максимально достоверные прогнозы. Например, на пользовательский спрос на те или иные виды товаров и услуг, а также планировать производство, продажи и денежные потоки. Так бизнес может управлять ценой, продумывать маркетинговые акции и производственную активность, избегая упущенной выгоды и ненужных производственных и коммерческих расходов;
моделировать сложные системы на основе выявленных причинно-следственных связей, паттернов и закономерностей. Таким образом бизнес может лучше понять поведение рынка и его участников, что в свою очередь поможет улучшить продукт и сделать его более конкурентным. Примером такого удачного решения можно назвать кейс Toyota — компания повысила безопасность машин на основе сведений о поведении водителей в момент аварии;
оптимизирует и позволяет автоматизировать процессы за счёт обеспечения цифровизации и структурированности данных, которые управляют процессом и участвуют в нём.

Методы и техники анализа и обработки

Теперь мы понимаем, что такое Big Data, и какие бизнес-задачи большие данные помогают решить. Встает следующий вопрос: каким образом этого удаётся достичь?

Надо отметить, что работа с большими данными выделяется в отдельное направление и носит гордое название Data Science. И это неспроста — из-за большого объема Big Data анализируют с помощью специальных методов и больших вычислительных мощностей.

Начнём с того, как осуществляется сбор информации. Она фиксируется и собирается автоматически в соответствующем хранилище. Например, это могут быть данные о количестве пользователей, которые перешли по определенным ссылкам, оставили реакции и комментарии, какие касания по смартфонам сделали.

Основные источники получения Big Data:

интернет вещей (IoT) и подключенные к нему устройства;
соцсети, блоги и СМИ;
данные компаний: транзакции, заказы товаров и услуг, поездки на такси и каршеринге, профили клиентов;
показания приборов: метеорологические станции, измерители состава воздуха и водоемов, данные со спутников;
статистика городов и государств: данные о перемещениях, рождаемости и смертности;
медицинские данные: анализы, заболевания, диагностические снимки.

При работе с полученными данными принято придерживаться двух принципов: обезличивание (часть персональных данных скрывается) и агрегирование (работа с усредненными показателями).

После того, как информация собрана, обработка Big Data происходит по стандартному циклу: подготовка-> обработка -> анализ -> обратная связь. Последний пункт может включать в себя предложение о принятии соответствующих решений на основе полученного анализа, аналитические отчеты и дэшборды.

Этапы понятны, но как это происходит практически? Есть несколько вариантов:

Краудсорсинг — ручной анализ, к которому привлекают большое количество интернет-пользователей. Например, фильтрация цен или поиск контента с определенными параметрами.
ИИ и нейросети, машинное обучение — искусственный интеллект ищет закономерности и делает прогнозы с помощью математических методов, в том числе распознает образы. Прогнозирование помогает предсказывать поведение людей и принимать эффективные решения.
Data Mining — глубинный анализ, который структурирует и выявляет закономерности. Использует математические алгоритмы и статистические методы, например, дерево принятия решений или нейронные сети. Data Mining — это совокупность различных методов.
Визуализация аналитических данных — создание анимированных моделей и графиков на основе больших данных. А также имитационные модели, которые позволяют проверять гипотезы с помощью имитации тех или иных ситуаций и событий.

Технологии хранения и обработки Big Data

Хранение и обработка больших данных требуют соответствующих технологических решений.

Напомню, что для работы с большими данными, можно использовать как физические локальные хранилища — “железо”, так и виртуальные серверы на базе своих или арендованных мощностей.

Разберемся теперь в том, как технически реализуется хранение и обработка Big data.

Data lake — система хранения большого объема неструктурированных данных разных форматов, которые собираются из множества источников, подключенных к хранилищу для дальнейшей обработки и анализа.

Можно подключить, например, несколько сайтов и метрик, CRM-систему с данными о поставщиках и заказчиках, инструменты сбора обратной связи с результатами опросов, базы данных и т.д. Поток может быть непрерывным — data lake примет всё.

Для обработки данных из data lake подключаются соответствующие аналитические решения, например, класса BI или сервисы машинного обучения для создания ML-моделей и нейросетей.

Отмечу, что архитектура хранения данных в data lake выстроена таким образом, чтобы её можно было легко масштабировать, при этом сокращая риски полной потери данных в случае чрезвычайных ситуаций. Помимо самих данных система хранит метаданные, которые позволяют в дальнейшем их обрабатывать и структурировать, делая полезным рабочим инструментом.

Кстати, об инструментах… Как же построить data lake? С этим поможет набор инструментов Hadoop. Это open-source решение, которое можно использовать бесплатно и кастомизировать под нужды своего бизнеса.

Уже есть немало примеров того, как используются инструменты Hadoop:

в распределенных сервисах доставки еды хранятся, обрабатываются и анализируются данные о заказах еды и покупателях,
в социальных сетях хранятся данные пользователей, их переписок, файлов и медиа, которые они публикуют или обмениваются,
в сервисах перевода и обработки платежей хранятся данные о миллионах транзакций, сделанных пользователями.

Мы разобрались, где хранить Big Data, какие задачи вашего бизнеса может помочь решить этот инструмент, как осуществляется сбор информации и как технически реализуется обработка и хранение больших данных.

В общем, Big Data — инструмент полезный. Но, как и у любого решения, его польза напрямую зависит от того, умеете ли вы им пользоваться.

Ирина Тучинская Big Data