Два вопроса по Big Data

Логотип компании
Два вопроса по Big Data
Принципиальным является не столько объем данных, сколько технологии, которые будут использоваться для их обработки.

ВОПРОС.

В вашей компании с какого объема данных начинаются Big Data? Если такого параметра нет, то как определяется, что проект включает в себя Big Data?

Два вопроса по Big Data. Рис. 1

Евгений Лагунцов,

системный инженер-консультант компании Cisco:

Принципиальным является не столько объем данных, сколько технологии, которые будут использоваться для их обработки. Объем сам по себе может быть и относительно небольшим, но если применение современных архитектур и аналитических технологий, относящихся к концепции Big Data, позволяет добиться важных для заказчика результатов в повышении эффективности работы с данными, такой проект может быть отнесен к категории Big Data.

Два вопроса по Big Data. Рис. 2

Андрей Новиков,

ведущий системный консультант компании Hitachi Data Systems:

В значительной мере Big Data – это неструктурированные данные, которые отличаются не только объемами (по нашему опыту, в масштабах российских предприятий 50 Тбайт – это уже Big Data, а у некоторых компаний этот объем достигает петабайтов), но и требуют особых подходов к хранению. В отличие от традиционных баз данных, где информация хранится в соответствии с внутренней структурой и алгоритмами приложения, разрозненные объекты – документы, медиафайлы, элементы электронной почты, папки с файлами – трудно консолидировать, организовать централизованное управление и обеспечить поиск. Пока объемы хранения таких данных невелики, особых проблем не возникает, но на рубеже сотен терабайт и числа объектов, исчисляемого миллионами, появляются сложности в поиске нужного документа, медленно открываются файлы, затрудняется навигация по большому количеству папок, создается множество других проблем.

Два вопроса по Big Data. Рис. 3

Сергей Лихарев,

руководитель продаж IBM Big Data Solutions:

Компания, в которой хранилище данных объемом 100 Тбайт построено на традиционных реляционных БД и генерирует несколько десятков фиксированных отчетов, вряд ли называет это хранилище проектом Big Data. И если текущая технология способна обеспечить масштабирование системы до 500 Тбайт на приемлемом уровне затрат, то это тоже останется традиционным хранилищем. Если же будет поставлена задача выполнить сложную аналитику на таком объеме информации и при этом обеспечить производительность в разы большую, чем текущее решение, то без технологий обработки и анализа Big Data не обойтись.

В еще большей степени это относится к так называемым потоковым данным, когда объем непрерывно поступающей в организацию информации огромен и решения на основе ее анализа нужно принимать за доли секунды. Добавьте к этому зачастую разнородный характер информации, когда анализировать нужно неструктурированный текст, аудио- или видеоданные. На помощь приходят технологии больших данных – Hadoop, Streams, специализированные программно-аппаратные аналитические комплексы, средства исследования и визуализации данных. И вот мы уже говорим о новых проектах, которые раньше, казалось, выполнить не под силу.

Два вопроса по Big Data. Рис. 4

Сергей Заблодский,

директор департамента корпоративных решений компании IBS:

Мы не вводим каких-то предельных объемных значений, они могут на четыре порядка отличаться у разных компаний. Скорее надо говорить не о количественных показателях данных, а о возможности извлечения из них полезной информации, которая ранее не собиралась или не обрабатывалась либо обрабатывалась недостаточно глубоко.

Два вопроса по Big Data. Рис. 5

Роман Ройфман,

ведущий архитектор решений компании NetApp:

Термин Big Data противоречив. Он говорит об объемах, но критерием является не сам объем в терабайтах, петабайтах или экзабайтах, а принципиальная невозможность обработать этот объем традиционными методами.

Два вопроса по Big Data. Рис. 6

Андрей Пивоваров,

руководитель группы перспективных технологий предпроектного консалтинга «Oracle СНГ»:

Говорить о том, что Big Data начинается с какой-то абсолютной цифры, неверно. Скорее можно говорить о том, что определенные задачи с технической или экономической точки зрения могут быть эффективнее решены при помощи технологий, относящихся к Big Data, таких как Hadoop или NoSQL. Эти задачи часто (хотя и не всегда) связаны с большими объемами данных. При этом существует промежуточная область, где одна и та же задача может быть решена как с использованием традиционных, так и Big-Data-технологий примерно с одинаковой эффективностью. Но в любом случае, когда говорят о больших данных, чаще всего имеют в виду объемы от нескольких десятков терабайт.

Два вопроса по Big Data. Рис. 7

Сергей Золотарев,

глава представительства Pivotal в России и странах СНГ (дочерняя компания ЕМС):

Нижней планки как таковой нет, так как, помимо больших, есть еще и быстрые данные. То есть их объем может быть небольшим, всего лишь десятки или сотни гигабайт, но за их обработкой необходимо следить и реагировать на результат в режиме онлайн. Но если все-таки говорить о больших данных в традиционном понимании этого термина, то в России клиенты начинают задумываться о решении этой проблемы, когда объем превышает 4-5 Тбайт. При меньших объемах традиционные средства легко справляются с их обработкой.

Два вопроса по Big Data. Рис. 8

Дмитрий Шепелявый,

заместитель генерального директора SAP СНГ:

В данном случае трудно дать четкое количественное определение. Тем более что характеризуют Big Data не только объем (Volume), но и, что важно, необходимость быстрой обработки, скорость изменения (Velocity) и разнородность (Variety) данных, а главное – невозможность их обработки с приемлемой скоростью и качеством традиционными реляционными механизмами. То есть это, например, могут быть и 10 Тбайт, но сильно разнородной информации (видео + музыка + геоинформация + данные покупателя + история покупок +обсуждение в Facebook), и 10 Пбайт структурированных данных (истории транзакций крупных банков за десятки лет).

ВОПРОС.

Что вы можете сказать о снижении стоимости обработки данных при использовании новых технологий, относящихся к Big Data?

Евгений Лагунцов (Cisco):

Основным мотивом для внедрения технологий Big Data (при всей многогранности этого понятия) является прежде всего снижение времени на обработку информации и получение необходимых для бизнеса результатов анализа. Возможность получать необходимые сведения быстрее и точнее, чем раньше, означает возможность принимать более оперативные и взвешенные решения, что в конечном итоге может стать явным бизнес-преимуществом, выраженным в том числе и в финансовых показателях.

Андрей Новиков (Hitachi Data Systems):

Новые подходы к обработке данных ориентированы прежде всего на снижение стоимости хранения больших объемов данных, то есть результатом применения новых подходов должно стать повышение эффективности приносящих прибыль бизнес-процессов. При этом использование Big Data требует организовать надлежащее управление ими, прежде чем станет заметна их истинная ценность для бизнеса.

Что же касается вопросов снижения стоимости работы с данными, то тут все большую роль начинают играть интеллектуальные механизмы обработки информации, которые на основе всестороннего анализа способны перераспределять данные как согласно степени их ценности для бизнеса, так и в соответствии с нормативами их жизненного цикла.

Сергей Лихарев (IBM):

Практически все технологии, которые входят в портфель IBM Big Data, приводят к снижению стоимости их обработки. Так, BigInsights, который приносит предприятиям возможности Hadoop, позволяет значительно снизить совокупную стоимость обработки очень больших объемов разнородных данных. Тут можно говорить о трех источниках экономии. Во-первых, это сама идея Hadoop, когда хранение, обработка и анализ данных ведутся на кластере из недорогих серверов. Во-вторых – возможности BigInsights по развертыванию и работе в корпоративной среде. Это и простая процедура установки, средства администрирования, мониторинга производительности, средства безопасности, снижающие стоимость владения. В-третьих, это специально созданные средства высокого уровня для разработчиков, включая BigSQL, а также встроенные в платформу аналитические функции и бесплатные примеры приложений в составе продукта. Так, InfoSphere Streams делает разработку приложений по обработке и анализу потоковых данных более быстрой и эффективной. Декларативный язык высокого уровня Streams Processing Language (SPL) позволяет значительно сократить время разработки приложений, как и более чем 100 бесплатных примеров приложений и 300 функций операторов в составе дистрибутива продукта. Сама же среда выполнения Streams позаботится о параллельной обработке потоков и масштабировании системы в случае роста объемов данных. Как результат: стоимость обработки потоковых данных и их анализа в реальном времени не была еще такой низкой и доступной для наших заказчиков.

Еще один важный момент – повторное использование аналитических функций между компонентами платформы. К примеру, создав компоненту извлечения какого-либо вида информации из текста сообщений, сохраненных в BigInsights, разработчик без изменений может использовать ее в Streams для анализа сообщений в реальном времени.

Сергей Заблодский (IBS):

Основное достоинство таких решений не в снижении затрат на обработку данных. В большинстве своем это инвестиционные проекты, ориентированные на выполнение задач, которые традиционными методами решить невозможно, для получения бизнес-преимуществ, которых нет у конкурента.

Роман Ройфман (NetApp):

Big Data – это не вопрос снижения стоимости. Вопрос стоит в принципе по-другому: как обработать такой объем информации, если традиционные подходы буксуют? Проблема экономии вторична и решается только после успешного ответа на первый вопрос. Более того, при решении задачи обработки информации на таком уровне объемы данных зачастую намеренно увеличивают в разы. Классический пример – в Hadoop для обеспечения надежного дублированного хранения в HDFS отдельный файл хранится в виде трех копий. Это означает, что при использовании стандартной схемы ваши большие данные должны вырасти втрое. Интеграция решений, снижающих избыточность данных, например специализированных решения E-series или FlexPOD Select, позволяет снизить излишнее дублирование данных и как следствие снизить издержки.

Андрей Пивоваров (Oracle СНГ):

Если задача может быть решена как при помощи традиционных, так и Big-Data-технологий, то, действительно, одно из преимуществ последних в том, что в расчете на терабайт хранимых данных стоимость аппаратного и программного обеспечения в решении может быть в десятки раз меньше. Однако стоит помнить, что технологии Big-Data – это не полная замена, например, реляционным БД и существует множество задач, которые не могут быть решены с их помощью. Современные реляционные СУБД имеют многолетнюю историю развития и содержат тысячи возможностей, которые можно использовать «из коробки». Многие из них пока не реализованы в технологиях Big Data, поэтому заказчик, с одной стороны, экономит на ПО, но вместе с тем он должен быть готов к тому, что многое придется реализовывать самостоятельно.

Сергей Золотарев (Pivotal):

Стоимость инструментов снижается в разы. Но есть еще такой показатель, как стоимость миграции с одной платформы на другую. Пока, вследствие отсутствия широкой экспертизы на рынке, эти затраты остаются значительными. Но все равно стоимость проекта по миграции «под ключ» получается ниже процентов на 30%, чем в случае традиционного решения. Если же говорить о долгосрочной перспективе, то за три года достигается почти двукратное преимущество (общее ТСО) в силу того, что существенно снижаются затраты на поддержку и сопровождение системы. Немаловажный фактор – показатели скорости формирования отчетов или точности в составлении прогнозов, здесь бизнес выигрывает в десятикратном размере.

Смотреть все статьи по теме "Большие данные (Big data)"

Опубликовано 25.11.2013

Похожие статьи