Ольга Горчинская: «Big Data расширяет привычные представления о работе с данными»

На вопросы редакции IT News отвечает Ольга Горчинская, к. т. н., доцент Высшей школы экономики, директор по исследовательским проектам и руководитель направления Big Data компании ФОРС.

На вопросы редакции IT News отвечает Ольга Горчинская, к. т. н., доцент Высшей школы экономики, директор по исследовательским проектам и руководитель направления Big Data компании ФОРС.

Поскольку четкие рамки для Big Data не очерчены, какое определение Big Data вас больше устраивает?

Понятие больших данных действительно не имеет четких рамок, однако уже сложилось общее понимание, что это такое. Big Data – это огромные объемы окружающей нас информации, которая может быть полезной для решения бизнес-задач и для использования которой не подходят стандартные классические технологии хранения, обработки и анализа данных. Причина – либо объемы сверхбольшие, либо сами данные «нестандартные», либо и то и другое. Мы хорошо научились работать с так называемыми структурированными данными, используя реляционные базы данных и многомерные OLAP-серверы. Эти данные возникают в процессе функционирования автоматизированных систем предприятия и являются внутренними. В то же время большая часть всей окружающей нас информации состоит из таких данных, как тексты, картинки, изображения, видео- и аудиопоказания приборов. Для работы с такой информацией нужны новые технологии и продукты, что и составляет основное содержание направления Big Data.

Какие особенности есть у Big Data?

Обычно выделяют три ключевых момента: огромные объемы, широкое многообразие и все возрастающая скорость изменения и обработки данных. Если в традиционных системах одним из ключевых аспектов является качество данных, то здесь становится важным их количество. И, наконец, следует обратить внимание на трудность с определением степени их полезности. Особенности больших данных проявляются и в методологии, и в технологиях анализа. В отличие от традиционного бизнес-анализа, где самое важное – вычисления, здесь главное – эффективность поисковых операций, возможность интуитивного исследования данных. Если традиционная аналитика предполагает, что мы точно знаем вопросы, но не знаем ответов, то аналитика Big Data начинается с того, что мы не готовы четко сформулировать даже сами вопросы. На вопрос «что вам дать?» мы отвечаем вопросом – «а что у вас есть?», и после этого начинаются интуитивное уточнение критериев поиска, отбор, анализ. Эта деятельность близка к исследовательской и совсем непохожа на работу с выверенной аналитической отчетностью.

Для каких клиентов ФОРС эпоха Big Data уже наступила?

Эпоха больших данных только начинает формироваться. Интересно, что к ней более подготовлены поставщики и специалисты ИТ, нежели клиенты. Тем не менее, мы видим, что заказчики начинают интересоваться новыми технологиями. В первую очередь технологиями хранения, распределенной обработки и анализа данных интересуются те организации, в которых уже внедрены BI-системы и стоит проблема повышения их производительности. Такие заказчики есть в банках, страховых организациях, ритейле, госсекторе. В этом случае технологии, например, Hadoop или In-Memory Analytics, могут использоваться для традиционного бизнес-анализа с большим числом пользователей и огромным объемом данных. Еще более интересны решения тех бизнес-задач, в которых главным является не производительность, а новые функциональные возможности, которые дают Big Data. Наиболее популярные задачи здесь связаны с анализом текстов, семантическим поиском, извлечением дополнительных знаний из неструктурированных документов и др. Среди наших заказчиков такие решения уже сейчас востребованы в государственных организациях – для эффективного взаимодействия с населением, обеспечения общественной безопасности, проактивной деятельности по борьбе с преступностью и т. п. Это пока не массовые, а, скорее, штучные задачи, но со временем мы перейдем и к типовым промышленным решениям, чему во многом поможет накопленный нами опыт в области классических аналитических технологий, проектной деятельности по построению систем бизнес-анализа и внедрению решений по управлению эффективностью предприятий (EPM).

Какие технологические решения вы используете при обработке Big Data?

Технологии и инструменты для работы с большими данными охватывают области, связанные с их сбором, хранением и анализом. В каждой из этих областей появилось много новых технологий и систем. Например, для распределенного хранения и обработки данных мы используем Apach Hadoop и MapReduce, а для эффективного хранения огромных объемов нестандартных данных – Oracle NoSQL Database. Oracle Advanced Analytics «специализируется» на углубленном анализе данных, включая специальную реализацию языка статистических исследований Oracle R Enterprise и технологию Oracle Data mining. А Oracle Endeca Information Discovery – на совместном анализе структурированной и неструктурированной информации с расширенными возможностями интуитивного поиска. Все эти продукты составляют платформу Oracle Big Data и доступны не только как отдельные программные компоненты, но и как единое целое – в виде специализированного программно-аппаратного комплекса. Есть еще один класс инструментов, без которых невозможно анализировать текстовую информацию. Речь идет о лингвистических инструментах и специальных программных пакетах для обработки и анализа текстов. В отличие от предыдущих интернациональных продуктов, здесь очень существенна поддержка конкретного языка, основанная на его морфологических, синтаксических и семантических особенностях. В этом сегменте мы ориентируемся на разработки российских компаний, имеющих опыт в решении таких задач.

Если нет возможности собрать всю обрабатываемую информацию в одном месте для анализа, как вы поступаете?

Используем технологию распределенного хранения и обработки данных Hadoop. Даже в случае, когда обрабатываемую информацию технически можно собрать в одном месте, например, в реляционной БД, это может оказаться экономически очень невыгодно по сравнению с хранением в распределенной файловой системе. Обрабатывающие программы учитывают особенности такой распределенной системы и создаются на основе технологии Map Reduce. Этот подход стал практически стандартом и устойчиво ассоциируется с понятием Big Data. В нашем случае это не просто Hadoop, а его реализация на программно-аппаратном комплексе, где аппаратная часть сконфигурирована и оптимизирована под эту технологию.

Какое участие принимают вендоры в развитии темы Big Data?

Собственно говоря, именно вендоры, а в данном случае наш стратегический партнер – корпорация Oracle, и являются разработчиками и поставщиками вышеупомянутых технологий и продуктов. Кроме программно-аппаратного комплекса Oracle Big Data Applance, ориентированного на задачи сбора и обработки больших данных, для работы с ними используются и другие продукты класса Oracle Engineered Systems. Прежде всего, это Exalytics In-Memory Machine – вычислительный комплекс для решения сложных аналитических задач, реализующий концепцию аналитики в оперативной памяти In-Memory Analytics. Все эти программно-аппаратные комплексы представлены и доступны для тестирования в нашем демо-центре FORS ExaStack Studio.

Каковы преимущества перехода на платформу Oracle Exalytics? Как решается вопрос совместимости с другими BI-продуктами?

Во-первых, Exalytics In-Memory Machine – это сервер с очень большой оперативной памятью. Аппаратная конфигурация очень четко определена, и менять ее нельзя. Во-вторых, на этом сервере есть обязательное ПО – Oracle BI, Essbase и TimesTen. Когда вы покупаете Exalytics, вы получаете сам сервер плюс эти компоненты. Кроме того, существует список продуктов, по которым Exalytics сертифицирована и, соответственно, готова к совместной работе. Это, например, все продукты линейки Hyperion – их можно устанавливать на отдельный сервер, а можно и на Exalytics.

В чем принципиальная новизна технологии In-Memory Analytics, и в какого рода программно-аппаратных комплексах она используется?

Основная идея концепции этой технологии в том, что наряду с обычным хранением для временного хранения данных используется оперативная память. Это позволяет находить, извлекать и анализировать нужные данные очень оперативно. В каком-то смысле такой подход можно считать развитием идей кеширования в оперативной памяти, но с использованием специальных компонент, повышающих эффективность работы. Для этого используются различные технологии, каждая из которых по-своему реализует общую идею. Всего их четыре: репликация данных (In-Memory Data Replication), адаптивные витрины данных (In-Memory Adaptive Data Mart), интеллектуальное кеширование результатов (In-Memory Intelligent Result Cache) и кубы в оперативной памяти (In-Memory Cubes). Эта технология как раз и используется в Oracle Exalytics In-Memory Machine.

Насколько рынок готов к потреблению новых технологий Big Data?

Рынок находится в стадии формирования, и мы стараемся принимать в этом посильное участие. Первые внедрения уже есть – к примеру, в банке «Тинькофф Кредитные системы», где технологии Big Data используются для выяснения платежеспособности потенциальных заемщиков. Для этого анализируются данные из блогов, социальных сетей, истории онлайн-покупок и т. д. Получается некий виртуальный портрет человека, который с большой долей вероятности позволяет судить о степени операционных рисков при выдаче ему кредита.

Что препятствует развитию рынка зрелой аналитики в нашей стране?

С одной стороны, новые возможности, предоставляемые Big Data, должны быть осознаны людьми, принимающими решения, а с другой – в наличии к этому моменту уже должны быть отработанные технологии внедрения и использования решений уровня Big Data. И мы работаем над этим, в том числе и над адаптацией к российской специфике. К примеру, обеспечиваем возможность применения специальных технологий для анализа русскоязычных текстов.

Какие новые тенденции появились в последнее время в области анализа информации?

Одну из наметившихся тенденций можно назвать «движением от традиционного бизнес-анализа к исследованию данных». Это означает, что будут развиваться продукты, позволяющие не просто исполнять запросы и вычисления, но и исследовать внешнюю информацию, не приспособленную для обработки средствами реляционных технологий. Можно ожидать развития платформ Data Discovery и все большей популярности инструментов статистического и математического исследования и прогнозирования. При этом речь не идет о замене BI-инструментов на что-то другое. Новый класс задач не отменяет традиционную аналитику, а обогащает ее.

Как предполагает ФОРС развивать экспертизу по этому направлению?

Во-первых, развитие экспертизы, подготовка своих, внутренних специалистов. Во-вторых, выполнение исследовательских проектов на платформе Oracle, создание демонстрационных стендов с примерами индустриальных решений. В-третьих, консультирование как внутри компании, так и вне ее. В-четвертых, создание практики конкретных внедрений для заказчиков на базе пилотных проектов. Что касается площадки, то тестирование может производиться как у нас в демо-центре, так и на стороне заказчика, на правах аренды.

Журнал IT News [№ 08/2013 (14.05)] Подписка на журналы

Опубликовано 29.04.2013

Форс-Центр Разработки Интеграторы Рынок ПО

Предыдущая
Google запретила избегать Google Play

Следующая
Газета NYTimes поддержала Google Glass

Новостная лента

Главное за неделю

Нажимая на кнопку, я принимаю условия соглашения.

Соглашение об использовании сайта

Внимательно прочитайте настоящее Соглашение, прежде чем начать пользоваться Сайтом. Вы обязаны соблюдать условия настоящего Соглашения, заходя на Сайт и используя сервисы, предлагаемые на Сайте. В случае, если Вы не согласны с условиями Соглашения, Вы не можете пользоваться Сайтом или использовать любые сервисы, предлагаемые на Сайте, а также посещать страницы, размещенные в доменной зоне Сайта. Начало использования Сайта означает надлежащее заключение настоящего Соглашения и Ваше полное согласие со всеми его условиями.

1. Термины и определения

1.1. Компания - Общество с ограниченной ответственностью «ИТ Медиа» (ООО «ИТ Медиа»).

1.2. Пользователь - лицо, получающее доступ к сервисам и информации, размещенным на Сайте.

1.3. Сайт – веб-сайт Компании, размещенный в сети Интернет по адресу https://www.it-world.ru.

1.4. Соглашение - настоящее Соглашение между Пользователем и Компанией, устанавливающее правила использования Сайта, включая графические изображения, элементы дизайна и средства индивидуализации, текстовую информацию и документацию, программы для ЭВМ и файлы для скачивания, любые иные произведения, объекты и материалы Сайта, а также условия и правила размещения Пользователем информации и материалов в соответствующих открытых разделах Сайта.

2. Общие положения и условия

2.1. Любые материалы, файлы и сервисы, содержащиеся на Сайте, не могут быть воспроизведены в какой-либо форме, каким-либо способом, полностью или частично без предварительного письменного разрешения Компании, за исключением случаев, указанных в настоящем Соглашении. При воспроизведении Пользователем материалов Сайта ссылка на Сайт обязательна, при этом текст указанной ссылки не должен содержать ложную, вводящую в заблуждение, уничижительную или оскорбительную информацию. Перевод, переработка (модификация), любое изменение материалов Сайта, а также любые иные действия, в том числе удаление, изменение малозаметной информации и сведений об авторских правах и правообладателях, не допускается.

2.2. Действующая редакция настоящего Соглашения размещена в сети Интернет на Сайте по адресу: https://www.it-world.ru/about/agreement.php. Компания вправе в любое время в одностороннем порядке изменять условия настоящего Соглашения. Такие изменения вступают в силу по истечении 2 (двух) дней с момента размещения новой версии Соглашения в сети Интернет на Сайте. При несогласии Пользователя с внесенными изменениями он обязан удалить все имеющиеся у него материалы Сайта, после чего прекратить использование материалов и сервисов Сайта. Ваше регулярное посещение данного Сайта считается вашим убедительным принятием измененного соглашения, поэтому Вы обязаны регулярно просматривать настоящее Соглашение и дополнительные условия или уведомления, размещенные на Сайте.

3. Обязательства Пользователя

3.1. Пользователь обязуется не предпринимать действий, которые могут рассматриваться как нарушающие российское законодательство или нормы международного права, в том числе в сфере интеллектуальной собственности, авторских и/или смежных правах, а также любых действий, которые приводят или могут привести к нарушению нормальной работы Сайта и сервисов Сайта.

3.2. Любые средства индивидуализации, в том числе товарные знаки и знаки обслуживания, а равно логотипы и эмблемы, содержащиеся на страницах Сайта, являются интеллектуальной собственностью их правообладателей. Пользователю Сайта запрещено воспроизводить или иным способом использовать указанные средства индивидуализации и/или их элементы без предварительного письменного разрешения соответствующих правообладателей.

3.3. Компания стремится обеспечить, однако не контролирует и не гарантирует конфиденциальность и охрану любой информации, размещенной на Сайте или полученной с Сайта. Компания принимает разумные меры в целях недопущения несанкционированного разглашения размещенной Пользователем на Сайте информации третьим лицам, однако не несет ответственность в случае, если такое разглашение было допущено. В этой связи, передача информации на Сайт означает согласие Пользователя на любое воспроизведение, распространение, раскрытие и иное использование такой информации. Размещая информацию и материалы, включая, фотографии и изображения, Пользователь также гарантирует, что обладает всеми правами и полномочиями, необходимыми для этого, с учетом условий настоящего Соглашения и что такое размещение не нарушает охраняемые законом права и интересы третьих лиц, международные договоры и действующее законодательство Российской Федерации.

3.4. Пользователь самостоятельно несет ответственность за любую информацию и материалы, размещенные им на Сайте. Компания не инициирует размещение указанной информации, не выбирает получателей информации, не влияет на содержание и целостность размещаемой информации, а также в момент размещения Пользователем информации на Сайте не знает и не может знать, нарушает ли такое размещение действующее законодательство Российской Федерации, однако Компания вправе отслеживать, просматривать и/или удалять любую информацию и материалы, размещенные Пользователем на Сайте. При размещении любой информации и материалов Пользователь не становится соавтором Сайта и отказывается от каких-либо претензий на такое авторство в будущем. Компания не выплачивает Пользователю авторского или любого иного вознаграждения, как в период, так и по истечении срока действия настоящего Соглашения.

3.5. В случае предъявления третьими лицами претензий Компании, связанных с нарушением Пользователем условий настоящего Соглашения, а равно с размещенной Пользователем информацией на Сайте, указанный Пользователь обязуется самостоятельно урегулировать такие претензии, а также возместить Компании все понесенные убытки и потери, включая возмещение штрафов, судебных расходов, издержек и компенсаций.

3.6. Компания не несет ответственности за посещение Пользователем, а также любое использование им внешних ресурсов (сайтов третьих лиц), ссылки на которые могут содержаться на Сайте. Компания не несет ответственности за точность, надежность, достоверность и безопасность любой информации, материалов, рекомендаций и сервисов, размещенных на внешних ресурсах. Использование внешних ресурсов осуществляется Пользователем добровольно, исключительно по собственному усмотрению и на свой риск.

3.7. Компания стремится к обеспечению достоверности информации, размещенной на Сайте, однако не несет ответственности за любые неточности и/или недостоверность информации, а равно сбои в работе предоставляемых через Сайт сервисов. Пользователь согласен с тем, что Компания не несет ответственность и не имеет прямых или косвенных обязательств перед Пользователем в связи с любыми возможными или возникшими потерями, или убытками, связанными с любым содержанием Сайта, интеллектуальной собственностью, товарами или услугами, доступными на нем или полученными через внешние сайты или ресурсы либо иные ожидания Пользователя, которые возникли в связи с использованием размещенной на Сайте информации или ссылки на внешние ресурсы. Ни при каких условиях, включая, но не ограничиваясь невнимательностью или небрежностью Пользователя, Компания не несет ответственности за любой ущерб (прямой или косвенный, случайный или закономерный), включая, но не ограничиваясь потерей данных или прибылей, связанной с использованием или невозможностью использования Сайта, информации, файлов или материалов на нем, даже если Компания или ее представители были предупреждены о возможности такой потери. В случае, если использование Сайта приведёт к необходимости дополнительного обслуживания, исправления или ремонта любого оборудования, а равно восстановления данных, все связанные с этим затраты оплачиваются Пользователем самостоятельно.

3.8. Вся представленная на Сайте информация предоставляется «как есть», без каких-либо гарантий, явных или подразумеваемых. Компания полностью, в той мере, в какой это разрешено законом, отказывается от какой-либо ответственности, явной или подразумеваемой, включая, но не ограничиваясь неявными гарантиями пригодности к использованию, а также гарантиями законности любой информации, продукта или услуги, полученной или приобретенной с помощью этого Сайта.

3.9. Пользователь согласен, что все материалы и сервисы Сайта или любая их часть могут сопровождаться рекламой. Пользователь согласен с тем, что Компания не несет какой-либо ответственности и не имеет каких-либо обязательств в связи с такой рекламой.

4. Условия обработки и использования персональных данных. Принимая условия настоящего Соглашения Пользователь выражает свое согласие на:

4.1. Предоставление своих персональных данных, включающих имя, номера контактных телефонов; адреса электронной почты; место работы и занимаемая должность; пользовательские данные (сведения о местоположении; тип и версия ОС; тип и версия Браузера; тип устройства и разрешение его экрана; источник откуда пришел на сайт пользователь; с какого сайта или по какой рекламе; язык ОС и Браузера; какие страницы открывает и на какие кнопки нажимает пользователь; ip-адрес) своей волей и в своем интересе.

4.2. Цель обработки персональных данных:

предоставление Пользователю услуг Сайта;
направление уведомлений, касающихся услуг Сайта;
подготовка и направление ответов на запросы Пользователя;
выполнение регулярной информационной рассылки;
направление информации о продуктах и услугах Компании, а также рекламно-информационных сообщений, касающихся продукции и услуг Компании и ее партнеров.

4.3. Перечень действий с персональными данными, на которые Пользователь выражает свое согласие:

сбор, систематизация, накопление, хранение, уточнение (обновление, изменение), использование, обезличивание, передача третьим лицам для указанных выше целей, а также осуществление любых иных действий, предусмотренных действующим законодательством РФ как неавтоматизированными, так и автоматизированными способами.

4.4. Компания обязуется принимать все необходимые меры для защиты персональных данных Пользователя от неправомерного доступа или раскрытия.

4.5. Настоящее согласие действует до момента его отзыва Пользователем путем направления соответствующего уведомления заказным письмо с уведомлением на адрес Компании.

5. Прочие положения

5.1. Использование материалов и сервисов Сайта, а равно размещение на нем материалов Пользователя, регулируется нормами действующего законодательства Российской Федерации. Все возможные споры, вытекающие из настоящего Соглашения или связанные с ним, подлежат разрешению в соответствии с действующим законодательством Российской Федерации по месту нахождения Компании.

5.2. Признание судом какого-либо положения Соглашения недействительным или не подлежащим принудительному исполнению не влечет недействительности иных положений Соглашения.

5.4. Бездействие со стороны Компании в случае нарушения кем-либо из Пользователей положений Соглашения не лишает Компанию права предпринять соответствующие действия в защиту своих интересов и защиту авторских прав на охраняемые в соответствии с законодательством материалы Сайта позднее.

Пользователь подтверждает, что ознакомлен со всеми пунктами настоящего Соглашения и безоговорочно принимает их.

По всем вопросам, связанным с нарушением авторских прав Компании, незаконного использования материалов Сайта или размещением ложной, вводящей в заблуждение информации о Компании, просим обращаться по  следующим контактным данным:

ООО «ИТ Медиа» ИНН 7802426999, КПП 781301001,
Санкт-Петербург, ул Большая монетная, 16 / К. 30 литера А, пом. 14-Н №30