Большие данные на предприятии: выбираем технический подход

Логотип компании
Большие данные на предприятии: выбираем технический подход
В какой-то момент информации стало больше, чем способна «переварить» классическая ИТ-инфраструктура

Сегодня все говорят о важности больших данных для бизнеса. Однако можно услышать и немало вопросов о практических подходах к их применению.

Океан информации

Количество генерируемой информации растет в геометрической прогрессии. Этому в немалой степени способствуют новые технологии, такие как «Интернет вещей» с его умными» датчиками и сенсорами, персональными носимыми устройствами и т. д. Сложность процессов по обработке больших данных повышается на всех рынках: корпоративном (B2B), консьюмерском (B2C), в госсекторе (B2G), телекоммуникациях (B2O) и других технологических сегментах. Увеличивается количество контента и в «классическом» Интернете: видео на Youtube и других ресурсах, посты в социальных сетях. Как использовать эту разнородную информацию для повышения эффективности бизнеса?

Уходящая классика

У всех компаний существует та или иная сформированная годами ИТ-инфраструктура – серверы, шины данных, системное и прикладное ПО, СУБД и другие инструменты. Многие также используют разнообразные BI-платформы для анализа и обработки имеющейся информации. Но, к сожалению, сегодня, в эпоху больших данных, эта классическая модель уже может считаться устаревшей. Почему? Потому что данные актуальны в какой-то определенный момент. Информация имеет свойство устаревать. Одни сведения актуальны неделю, другие – месяц, третьи – день, а какие-то всего несколько минут, если речь идет о технологическом секторе, например о работе важного узла оборудования, который дает сбой. До определенного объема данные уже научились анализировать с помощью традиционных прикладных инструментов, таких как ERP-системы, BI или целые программно-аппаратные комплексы. Системы бизнес-анализа визуализируют информацию и формируют отчеты для различных категорий сотрудников, от топ-менеджмента до рядовых работников.

Но в какой-то момент информации стало больше, чем способна «переварить» классическая ИТ-инфраструктура. Причем речь идет не просто о приросте объема данных, но и об их усложнении. Суточный входящий поток в сотни терабайт нужно не только сохранить, но и проанализировать, классифицировать и категоризировать, а также своевременно вывести некие критически важные индикаторы. Стандартные учетные системы изначально были ориентированы на определенную логическую информационную модель, изменение которой всегда было проблематичным. Добавление даже одной новой аналитики или одного поля в базе данных всегда требовало работы целой команды.

Быстрее, но дороже

Даже если входящий поток больших данных можно назвать условно структурированным с точки зрения традиционной СУБД, его объем все равно значительно выше ее возможностей. Отчасти эту задачу научились решать благодаря таким технологиям, как кластеризация или вычисления в оперативной памяти (In-Memory), которые позволяют формировать отчетность и искать нужные сведения в десятки раз быстрее, чем прежде. Ведущие мировые вендоры предлагают целые комплексные решения подобного класса, однако зачастую лицензионные выплаты зависят от объема используемой базы данных, а это весьма недешево, особенно если учесть, что вендоры в основном зарубежные, поэтому стоимость технической поддержки напрямую зависит от курса доллара или евро.

Информационный «зоопарк»

Еще один подход заключается в новом взгляде на анализ данных. Современное производство, как известно, нередко обеспечено оборудованием от разных поставщиков, из разных стран и даже разных эпох. Соответственно, и данные, связанные с таким оборудованием, могут быть весьма разнородными. В одних случаях это техническая документация в формате PDF, если же оборудование старое, то документация существует только на бумаге либо в отсканированных изображениях, а бывает, что данные сведены в таблицы или соответствующие базы. При возникновении инцидентов нужно получить доступ ко всему массиву документации. Причем для каждой категории сотрудников, если речь идет об одном предприятии, либо для каждой категории предприятий, если речь идет о целой отрасли, необходимо собственное информационное пространство, для работы с которым классические инструменты тоже не годятся – здесь требуются новые решения.

Анализ ситуации и выбор решения

Итак, что же представляют собой большие данные? Их можно охарактеризовать тремя понятиями: объем, скорость и вариативность. Во-первых, входящий большой поток информации. Во-вторых, необходимость структурированного хранения больших объемов данных. В-третьих, множество различных форматов. Для заказчика внедрение концепции больших данных не должно быть самоцелью. Нужно четко осознавать слабые места в своем ИТ-ландшафте, в своих бизнес-процессах. Следует понимать, какие типы данные нуждаются в обработке. Проекты, связанные с внедрением новых технологий, – вещь затратная. Где-то достаточно задействовать классическую модель обработки с добавлением программно-аппаратного комплекса, повышающего скорость обработки. Где-то потребуется кластеризация и наличие распределенных баз данных. Где-то будут нужны новые специализированные инструменты, предназначенные именно для больших данных, что особенно востребовано в промышленном секторе, где сегодня активно внедряется «умное» оборудование.

Опыт компании RedSys

Специалисты компании RedSys имеют за плечами опыт работы с самыми различными заказчиками и отраслевыми вертикалями. Так, для одного из ведущих отечественных телеком-операторов компания реализовала проект по распределенной массивной обработке данных на базе технологии Hadoop. Для другого клиента, представляющего энергетический сектор, создана поисковая система по массивам больших данных, которая позволяет осуществлять полный мониторинг всего имеющегося оборудования. Для этого проекта была сформирована трехуровневая архитектура, включающая учетную систему, поисковик, а также одно из известных на рынке BI-решений. При реализации проекта у одного из крупнейших заказчиков федерального уровня было решено сохранить классический ИТ-ландшафт для обработки данных, но одновременно оптимизировать структуры баз данных, внедрить аналитическое решение от одного известного мирового вендора и установить программно-аппаратный комплекс. В результате удалось значительно ускорить формирование отчетности. Те процессы, которые раньше занимали несколько суток, стали выполняться менее чем за час.

Заказчикам на заметку

Тем клиентам, которые только задумываются об эффективном использовании больших данных, следует в первую очередь понять, какие данные есть в компании и как они применяются. Если они не используются, требуется также оценить время, необходимое для того, чтобы начать с ними работать. Наконец, нужно оценить и степень актуальности этой информации в конкретный момент времени, ее «срок жизни».

Сегодня бизнес двигается по пути цифровой трансформации. То, что пока не оцифровано, рано или поздно будет переведено в цифровой формат. С этим тезисом уже никто не спорит. Но справится ли бизнес в его текущем состоянии с результатами подобной оцифровки? Как изменятся информационные потоки в случае расширения бизнеса, освоения новых рынков и технологий? Если в этом есть хотя бы малейшие сомнения, необходимо сразу же проектировать будущий ИТ-ландшафт с учетом дальнейших изменений. Не менее важная задача повышения эффективности использования данных. Это можно сделать с помощью предиктивной аналитики, машинного обучения и других современных технологий. Менеджмент любой компании борется за увеличение эффективности бизнеса и снижение издержек, а такую задачу не решить без обновления технологического парка. Возможно, уже сейчас следует задуматься над вопросом, справятся ли имеющиеся инструменты с нарастающим потоком информации и не пора ли что-то поменять и усовершенствовать. Поэтому, резюмируя, можно сказать, что проблему использования больших данных на предприятии нужно рассматривать в комплексе, включающем не только организационно-методологические, но и инфраструктурные аспекты. 

Автор: Николай Кузнецов, директор департамента развития Центра отраслевых и бизнес-решений RedSys

Смотреть все статьи по теме "Большие данные (Big data)"

Читайте также
20 августа, в рамках серии круглых столов IT-World, журнал IT Manager и клуб экспертов «ИТ-диалог» провели встречу по теме «Логистика 4.0: будущее, управляемое данными», собрав ведущих специалистов этой сферы. ИТ-директора, руководители логистических компаний и эксперты делились своим опытом, обсуждали кейсы и спорили о будущем отрасли.

Опубликовано 05.12.2018

Похожие статьи