Два вопроса по Big Data

Принципиальным является не столько объем данных, сколько технологии, которые будут использоваться для их обработки.

ВОПРОС.

В вашей компании с какого объема данных начинаются Big Data? Если такого параметра нет, то как определяется, что проект включает в себя Big Data?

Евгений Лагунцов,

системный инженер-консультант компании Cisco:

Принципиальным является не столько объем данных, сколько технологии, которые будут использоваться для их обработки. Объем сам по себе может быть и относительно небольшим, но если применение современных архитектур и аналитических технологий, относящихся к концепции Big Data, позволяет добиться важных для заказчика результатов в повышении эффективности работы с данными, такой проект может быть отнесен к категории Big Data.

Андрей Новиков,

ведущий системный консультант компании Hitachi Data Systems:

В значительной мере Big Data – это неструктурированные данные, которые отличаются не только объемами (по нашему опыту, в масштабах российских предприятий 50 Тбайт – это уже Big Data, а у некоторых компаний этот объем достигает петабайтов), но и требуют особых подходов к хранению. В отличие от традиционных баз данных, где информация хранится в соответствии с внутренней структурой и алгоритмами приложения, разрозненные объекты – документы, медиафайлы, элементы электронной почты, папки с файлами – трудно консолидировать, организовать централизованное управление и обеспечить поиск. Пока объемы хранения таких данных невелики, особых проблем не возникает, но на рубеже сотен терабайт и числа объектов, исчисляемого миллионами, появляются сложности в поиске нужного документа, медленно открываются файлы, затрудняется навигация по большому количеству папок, создается множество других проблем.

Сергей Лихарев,

руководитель продаж IBM Big Data Solutions:

Компания, в которой хранилище данных объемом 100 Тбайт построено на традиционных реляционных БД и генерирует несколько десятков фиксированных отчетов, вряд ли называет это хранилище проектом Big Data. И если текущая технология способна обеспечить масштабирование системы до 500 Тбайт на приемлемом уровне затрат, то это тоже останется традиционным хранилищем. Если же будет поставлена задача выполнить сложную аналитику на таком объеме информации и при этом обеспечить производительность в разы большую, чем текущее решение, то без технологий обработки и анализа Big Data не обойтись.

В еще большей степени это относится к так называемым потоковым данным, когда объем непрерывно поступающей в организацию информации огромен и решения на основе ее анализа нужно принимать за доли секунды. Добавьте к этому зачастую разнородный характер информации, когда анализировать нужно неструктурированный текст, аудио- или видеоданные. На помощь приходят технологии больших данных – Hadoop, Streams, специализированные программно-аппаратные аналитические комплексы, средства исследования и визуализации данных. И вот мы уже говорим о новых проектах, которые раньше, казалось, выполнить не под силу.

Сергей Заблодский,

директор департамента корпоративных решений компании IBS:

Мы не вводим каких-то предельных объемных значений, они могут на четыре порядка отличаться у разных компаний. Скорее надо говорить не о количественных показателях данных, а о возможности извлечения из них полезной информации, которая ранее не собиралась или не обрабатывалась либо обрабатывалась недостаточно глубоко.

Роман Ройфман,

ведущий архитектор решений компании NetApp:

Термин Big Data противоречив. Он говорит об объемах, но критерием является не сам объем в терабайтах, петабайтах или экзабайтах, а принципиальная невозможность обработать этот объем традиционными методами.

Андрей Пивоваров,

руководитель группы перспективных технологий предпроектного консалтинга «Oracle СНГ»:

Говорить о том, что Big Data начинается с какой-то абсолютной цифры, неверно. Скорее можно говорить о том, что определенные задачи с технической или экономической точки зрения могут быть эффективнее решены при помощи технологий, относящихся к Big Data, таких как Hadoop или NoSQL. Эти задачи часто (хотя и не всегда) связаны с большими объемами данных. При этом существует промежуточная область, где одна и та же задача может быть решена как с использованием традиционных, так и Big-Data-технологий примерно с одинаковой эффективностью. Но в любом случае, когда говорят о больших данных, чаще всего имеют в виду объемы от нескольких десятков терабайт.

Сергей Золотарев,

глава представительства Pivotal в России и странах СНГ (дочерняя компания ЕМС):

Нижней планки как таковой нет, так как, помимо больших, есть еще и быстрые данные. То есть их объем может быть небольшим, всего лишь десятки или сотни гигабайт, но за их обработкой необходимо следить и реагировать на результат в режиме онлайн. Но если все-таки говорить о больших данных в традиционном понимании этого термина, то в России клиенты начинают задумываться о решении этой проблемы, когда объем превышает 4-5 Тбайт. При меньших объемах традиционные средства легко справляются с их обработкой.

Дмитрий Шепелявый,

заместитель генерального директора SAP СНГ:

В данном случае трудно дать четкое количественное определение. Тем более что характеризуют Big Data не только объем (Volume), но и, что важно, необходимость быстрой обработки, скорость изменения (Velocity) и разнородность (Variety) данных, а главное – невозможность их обработки с приемлемой скоростью и качеством традиционными реляционными механизмами. То есть это, например, могут быть и 10 Тбайт, но сильно разнородной информации (видео + музыка + геоинформация + данные покупателя + история покупок +обсуждение в Facebook), и 10 Пбайт структурированных данных (истории транзакций крупных банков за десятки лет).

ВОПРОС.

Что вы можете сказать о снижении стоимости обработки данных при использовании новых технологий, относящихся к Big Data?

Евгений Лагунцов (Cisco):

Основным мотивом для внедрения технологий Big Data (при всей многогранности этого понятия) является прежде всего снижение времени на обработку информации и получение необходимых для бизнеса результатов анализа. Возможность получать необходимые сведения быстрее и точнее, чем раньше, означает возможность принимать более оперативные и взвешенные решения, что в конечном итоге может стать явным бизнес-преимуществом, выраженным в том числе и в финансовых показателях.

Андрей Новиков (Hitachi Data Systems):

Новые подходы к обработке данных ориентированы прежде всего на снижение стоимости хранения больших объемов данных, то есть результатом применения новых подходов должно стать повышение эффективности приносящих прибыль бизнес-процессов. При этом использование Big Data требует организовать надлежащее управление ими, прежде чем станет заметна их истинная ценность для бизнеса.

Что же касается вопросов снижения стоимости работы с данными, то тут все большую роль начинают играть интеллектуальные механизмы обработки информации, которые на основе всестороннего анализа способны перераспределять данные как согласно степени их ценности для бизнеса, так и в соответствии с нормативами их жизненного цикла.

Сергей Лихарев (IBM):

Практически все технологии, которые входят в портфель IBM Big Data, приводят к снижению стоимости их обработки. Так, BigInsights, который приносит предприятиям возможности Hadoop, позволяет значительно снизить совокупную стоимость обработки очень больших объемов разнородных данных. Тут можно говорить о трех источниках экономии. Во-первых, это сама идея Hadoop, когда хранение, обработка и анализ данных ведутся на кластере из недорогих серверов. Во-вторых – возможности BigInsights по развертыванию и работе в корпоративной среде. Это и простая процедура установки, средства администрирования, мониторинга производительности, средства безопасности, снижающие стоимость владения. В-третьих, это специально созданные средства высокого уровня для разработчиков, включая BigSQL, а также встроенные в платформу аналитические функции и бесплатные примеры приложений в составе продукта. Так, InfoSphere Streams делает разработку приложений по обработке и анализу потоковых данных более быстрой и эффективной. Декларативный язык высокого уровня Streams Processing Language (SPL) позволяет значительно сократить время разработки приложений, как и более чем 100 бесплатных примеров приложений и 300 функций операторов в составе дистрибутива продукта. Сама же среда выполнения Streams позаботится о параллельной обработке потоков и масштабировании системы в случае роста объемов данных. Как результат: стоимость обработки потоковых данных и их анализа в реальном времени не была еще такой низкой и доступной для наших заказчиков.

Еще один важный момент – повторное использование аналитических функций между компонентами платформы. К примеру, создав компоненту извлечения какого-либо вида информации из текста сообщений, сохраненных в BigInsights, разработчик без изменений может использовать ее в Streams для анализа сообщений в реальном времени.

Сергей Заблодский (IBS):

Основное достоинство таких решений не в снижении затрат на обработку данных. В большинстве своем это инвестиционные проекты, ориентированные на выполнение задач, которые традиционными методами решить невозможно, для получения бизнес-преимуществ, которых нет у конкурента.

Роман Ройфман (NetApp):

Big Data – это не вопрос снижения стоимости. Вопрос стоит в принципе по-другому: как обработать такой объем информации, если традиционные подходы буксуют? Проблема экономии вторична и решается только после успешного ответа на первый вопрос. Более того, при решении задачи обработки информации на таком уровне объемы данных зачастую намеренно увеличивают в разы. Классический пример – в Hadoop для обеспечения надежного дублированного хранения в HDFS отдельный файл хранится в виде трех копий. Это означает, что при использовании стандартной схемы ваши большие данные должны вырасти втрое. Интеграция решений, снижающих избыточность данных, например специализированных решения E-series или FlexPOD Select, позволяет снизить излишнее дублирование данных и как следствие снизить издержки.

Андрей Пивоваров (Oracle СНГ):

Если задача может быть решена как при помощи традиционных, так и Big-Data-технологий, то, действительно, одно из преимуществ последних в том, что в расчете на терабайт хранимых данных стоимость аппаратного и программного обеспечения в решении может быть в десятки раз меньше. Однако стоит помнить, что технологии Big-Data – это не полная замена, например, реляционным БД и существует множество задач, которые не могут быть решены с их помощью. Современные реляционные СУБД имеют многолетнюю историю развития и содержат тысячи возможностей, которые можно использовать «из коробки». Многие из них пока не реализованы в технологиях Big Data, поэтому заказчик, с одной стороны, экономит на ПО, но вместе с тем он должен быть готов к тому, что многое придется реализовывать самостоятельно.

Сергей Золотарев (Pivotal):

Стоимость инструментов снижается в разы. Но есть еще такой показатель, как стоимость миграции с одной платформы на другую. Пока, вследствие отсутствия широкой экспертизы на рынке, эти затраты остаются значительными. Но все равно стоимость проекта по миграции «под ключ» получается ниже процентов на 30%, чем в случае традиционного решения. Если же говорить о долгосрочной перспективе, то за три года достигается почти двукратное преимущество (общее ТСО) в силу того, что существенно снижаются затраты на поддержку и сопровождение системы. Немаловажный фактор – показатели скорости формирования отчетов или точности в составлении прогнозов, здесь бизнес выигрывает в десятикратном размере.

Смотреть все статьи по теме "Большие данные (Big data)"

Журнал IT News [№ 16/2013 (27.11)] Подписка на журналы

Опубликовано 25.11.2013

Oracle IBS Cisco Hitachi Data Systems IBM SAP EMC NetApp Big Data

Предыдущая
Валентин Макаров: «Три эпохи взаимодействия IT с государством»

Следующая
Обзор IT-Weekly (18.11 – 24.11)

Новостная лента

Главное за неделю

Нажимая на кнопку, я принимаю условия соглашения.

Соглашение об использовании сайта

Внимательно прочитайте настоящее Соглашение, прежде чем начать пользоваться Сайтом. Вы обязаны соблюдать условия настоящего Соглашения, заходя на Сайт и используя сервисы, предлагаемые на Сайте. В случае, если Вы не согласны с условиями Соглашения, Вы не можете пользоваться Сайтом или использовать любые сервисы, предлагаемые на Сайте, а также посещать страницы, размещенные в доменной зоне Сайта. Начало использования Сайта означает надлежащее заключение настоящего Соглашения и Ваше полное согласие со всеми его условиями.

1. Термины и определения

1.1. Компания - Общество с ограниченной ответственностью «ИТ Медиа» (ООО «ИТ Медиа»).

1.2. Пользователь - лицо, получающее доступ к сервисам и информации, размещенным на Сайте.

1.3. Сайт – веб-сайт Компании, размещенный в сети Интернет по адресу https://www.it-world.ru.

1.4. Соглашение - настоящее Соглашение между Пользователем и Компанией, устанавливающее правила использования Сайта, включая графические изображения, элементы дизайна и средства индивидуализации, текстовую информацию и документацию, программы для ЭВМ и файлы для скачивания, любые иные произведения, объекты и материалы Сайта, а также условия и правила размещения Пользователем информации и материалов в соответствующих открытых разделах Сайта.

2. Общие положения и условия

2.1. Любые материалы, файлы и сервисы, содержащиеся на Сайте, не могут быть воспроизведены в какой-либо форме, каким-либо способом, полностью или частично без предварительного письменного разрешения Компании, за исключением случаев, указанных в настоящем Соглашении. При воспроизведении Пользователем материалов Сайта ссылка на Сайт обязательна, при этом текст указанной ссылки не должен содержать ложную, вводящую в заблуждение, уничижительную или оскорбительную информацию. Перевод, переработка (модификация), любое изменение материалов Сайта, а также любые иные действия, в том числе удаление, изменение малозаметной информации и сведений об авторских правах и правообладателях, не допускается.

2.2. Действующая редакция настоящего Соглашения размещена в сети Интернет на Сайте по адресу: https://www.it-world.ru/about/agreement.php. Компания вправе в любое время в одностороннем порядке изменять условия настоящего Соглашения. Такие изменения вступают в силу по истечении 2 (двух) дней с момента размещения новой версии Соглашения в сети Интернет на Сайте. При несогласии Пользователя с внесенными изменениями он обязан удалить все имеющиеся у него материалы Сайта, после чего прекратить использование материалов и сервисов Сайта. Ваше регулярное посещение данного Сайта считается вашим убедительным принятием измененного соглашения, поэтому Вы обязаны регулярно просматривать настоящее Соглашение и дополнительные условия или уведомления, размещенные на Сайте.

3. Обязательства Пользователя

3.1. Пользователь обязуется не предпринимать действий, которые могут рассматриваться как нарушающие российское законодательство или нормы международного права, в том числе в сфере интеллектуальной собственности, авторских и/или смежных правах, а также любых действий, которые приводят или могут привести к нарушению нормальной работы Сайта и сервисов Сайта.

3.2. Любые средства индивидуализации, в том числе товарные знаки и знаки обслуживания, а равно логотипы и эмблемы, содержащиеся на страницах Сайта, являются интеллектуальной собственностью их правообладателей. Пользователю Сайта запрещено воспроизводить или иным способом использовать указанные средства индивидуализации и/или их элементы без предварительного письменного разрешения соответствующих правообладателей.

3.3. Компания стремится обеспечить, однако не контролирует и не гарантирует конфиденциальность и охрану любой информации, размещенной на Сайте или полученной с Сайта. Компания принимает разумные меры в целях недопущения несанкционированного разглашения размещенной Пользователем на Сайте информации третьим лицам, однако не несет ответственность в случае, если такое разглашение было допущено. В этой связи, передача информации на Сайт означает согласие Пользователя на любое воспроизведение, распространение, раскрытие и иное использование такой информации. Размещая информацию и материалы, включая, фотографии и изображения, Пользователь также гарантирует, что обладает всеми правами и полномочиями, необходимыми для этого, с учетом условий настоящего Соглашения и что такое размещение не нарушает охраняемые законом права и интересы третьих лиц, международные договоры и действующее законодательство Российской Федерации.

3.4. Пользователь самостоятельно несет ответственность за любую информацию и материалы, размещенные им на Сайте. Компания не инициирует размещение указанной информации, не выбирает получателей информации, не влияет на содержание и целостность размещаемой информации, а также в момент размещения Пользователем информации на Сайте не знает и не может знать, нарушает ли такое размещение действующее законодательство Российской Федерации, однако Компания вправе отслеживать, просматривать и/или удалять любую информацию и материалы, размещенные Пользователем на Сайте. При размещении любой информации и материалов Пользователь не становится соавтором Сайта и отказывается от каких-либо претензий на такое авторство в будущем. Компания не выплачивает Пользователю авторского или любого иного вознаграждения, как в период, так и по истечении срока действия настоящего Соглашения.

3.5. В случае предъявления третьими лицами претензий Компании, связанных с нарушением Пользователем условий настоящего Соглашения, а равно с размещенной Пользователем информацией на Сайте, указанный Пользователь обязуется самостоятельно урегулировать такие претензии, а также возместить Компании все понесенные убытки и потери, включая возмещение штрафов, судебных расходов, издержек и компенсаций.

3.6. Компания не несет ответственности за посещение Пользователем, а также любое использование им внешних ресурсов (сайтов третьих лиц), ссылки на которые могут содержаться на Сайте. Компания не несет ответственности за точность, надежность, достоверность и безопасность любой информации, материалов, рекомендаций и сервисов, размещенных на внешних ресурсах. Использование внешних ресурсов осуществляется Пользователем добровольно, исключительно по собственному усмотрению и на свой риск.

3.7. Компания стремится к обеспечению достоверности информации, размещенной на Сайте, однако не несет ответственности за любые неточности и/или недостоверность информации, а равно сбои в работе предоставляемых через Сайт сервисов. Пользователь согласен с тем, что Компания не несет ответственность и не имеет прямых или косвенных обязательств перед Пользователем в связи с любыми возможными или возникшими потерями, или убытками, связанными с любым содержанием Сайта, интеллектуальной собственностью, товарами или услугами, доступными на нем или полученными через внешние сайты или ресурсы либо иные ожидания Пользователя, которые возникли в связи с использованием размещенной на Сайте информации или ссылки на внешние ресурсы. Ни при каких условиях, включая, но не ограничиваясь невнимательностью или небрежностью Пользователя, Компания не несет ответственности за любой ущерб (прямой или косвенный, случайный или закономерный), включая, но не ограничиваясь потерей данных или прибылей, связанной с использованием или невозможностью использования Сайта, информации, файлов или материалов на нем, даже если Компания или ее представители были предупреждены о возможности такой потери. В случае, если использование Сайта приведёт к необходимости дополнительного обслуживания, исправления или ремонта любого оборудования, а равно восстановления данных, все связанные с этим затраты оплачиваются Пользователем самостоятельно.

3.8. Вся представленная на Сайте информация предоставляется «как есть», без каких-либо гарантий, явных или подразумеваемых. Компания полностью, в той мере, в какой это разрешено законом, отказывается от какой-либо ответственности, явной или подразумеваемой, включая, но не ограничиваясь неявными гарантиями пригодности к использованию, а также гарантиями законности любой информации, продукта или услуги, полученной или приобретенной с помощью этого Сайта.

3.9. Пользователь согласен, что все материалы и сервисы Сайта или любая их часть могут сопровождаться рекламой. Пользователь согласен с тем, что Компания не несет какой-либо ответственности и не имеет каких-либо обязательств в связи с такой рекламой.

4. Условия обработки и использования персональных данных. Принимая условия настоящего Соглашения Пользователь выражает свое согласие на:

4.1. Предоставление своих персональных данных, включающих имя, номера контактных телефонов; адреса электронной почты; место работы и занимаемая должность; пользовательские данные (сведения о местоположении; тип и версия ОС; тип и версия Браузера; тип устройства и разрешение его экрана; источник откуда пришел на сайт пользователь; с какого сайта или по какой рекламе; язык ОС и Браузера; какие страницы открывает и на какие кнопки нажимает пользователь; ip-адрес) своей волей и в своем интересе.

4.2. Цель обработки персональных данных:

предоставление Пользователю услуг Сайта;
направление уведомлений, касающихся услуг Сайта;
подготовка и направление ответов на запросы Пользователя;
выполнение регулярной информационной рассылки;
направление информации о продуктах и услугах Компании, а также рекламно-информационных сообщений, касающихся продукции и услуг Компании и ее партнеров.

4.3. Перечень действий с персональными данными, на которые Пользователь выражает свое согласие:

сбор, систематизация, накопление, хранение, уточнение (обновление, изменение), использование, обезличивание, передача третьим лицам для указанных выше целей, а также осуществление любых иных действий, предусмотренных действующим законодательством РФ как неавтоматизированными, так и автоматизированными способами.

4.4. Компания обязуется принимать все необходимые меры для защиты персональных данных Пользователя от неправомерного доступа или раскрытия.

4.5. Настоящее согласие действует до момента его отзыва Пользователем путем направления соответствующего уведомления заказным письмо с уведомлением на адрес Компании.

5. Прочие положения

5.1. Использование материалов и сервисов Сайта, а равно размещение на нем материалов Пользователя, регулируется нормами действующего законодательства Российской Федерации. Все возможные споры, вытекающие из настоящего Соглашения или связанные с ним, подлежат разрешению в соответствии с действующим законодательством Российской Федерации по месту нахождения Компании.

5.2. Признание судом какого-либо положения Соглашения недействительным или не подлежащим принудительному исполнению не влечет недействительности иных положений Соглашения.

5.4. Бездействие со стороны Компании в случае нарушения кем-либо из Пользователей положений Соглашения не лишает Компанию права предпринять соответствующие действия в защиту своих интересов и защиту авторских прав на охраняемые в соответствии с законодательством материалы Сайта позднее.

Пользователь подтверждает, что ознакомлен со всеми пунктами настоящего Соглашения и безоговорочно принимает их.

По всем вопросам, связанным с нарушением авторских прав Компании, незаконного использования материалов Сайта или размещением ложной, вводящей в заблуждение информации о Компании, просим обращаться по  следующим контактным данным:

ООО «ИТ Медиа» ИНН 7802426999, КПП 781301001,
Санкт-Петербург, ул Большая монетная, 16 / К. 30 литера А, пом. 14-Н №30