Ольга Горчинская: «Big Data расширяет привычные представления о работе с данными»

Логотип компании
Ольга Горчинская: «Big Data расширяет привычные представления о работе с данными»
На вопросы редакции IT News отвечает Ольга Горчинская, к. т. н., доцент Высшей школы экономики, директор по исследовательским проектам и руководитель направления Big Data компании ФОРС.

На вопросы редакции IT News отвечает Ольга Горчинская, к. т. н., доцент Высшей школы экономики, директор по исследовательским проектам и руководитель направления Big Data компании ФОРС.

 

Поскольку четкие рамки для Big Data не очерчены, какое определение Big Data вас больше устраивает?

Понятие больших данных действительно не имеет четких рамок, однако уже сложилось общее понимание, что это такое. Big Data – это огромные объемы окружающей нас информации, которая может быть полезной для решения бизнес-задач и для использования которой не подходят стандартные классические технологии хранения, обработки и анализа данных. Причина – либо объемы сверхбольшие, либо сами данные «нестандартные», либо и то и другое. Мы хорошо научились работать с так называемыми структурированными данными, используя реляционные базы данных и многомерные OLAP-серверы. Эти данные возникают в процессе функционирования автоматизированных систем предприятия и являются внутренними. В то же время большая часть всей окружающей нас информации состоит из таких данных, как тексты, картинки, изображения, видео- и аудиопоказания приборов. Для работы с такой информацией нужны новые технологии и продукты, что и составляет основное содержание направления Big Data.

 

Какие особенности есть у Big Data?

Обычно выделяют три ключевых момента: огромные объемы, широкое многообразие и все возрастающая скорость изменения и обработки данных. Если в традиционных системах одним из ключевых аспектов является качество данных, то здесь становится важным их количество. И, наконец, следует обратить внимание на трудность с определением степени их полезности. Особенности больших данных проявляются и в методологии, и в технологиях анализа. В отличие от традиционного бизнес-анализа, где самое важное – вычисления, здесь главное – эффективность поисковых операций, возможность интуитивного исследования данных. Если традиционная аналитика предполагает, что мы точно знаем вопросы, но не знаем ответов, то аналитика Big Data начинается с того, что мы не готовы четко сформулировать даже сами вопросы. На вопрос «что вам дать?» мы отвечаем вопросом – «а что у вас есть?», и после этого начинаются интуитивное уточнение критериев поиска, отбор, анализ. Эта деятельность близка к исследовательской и совсем непохожа на работу с выверенной аналитической отчетностью.

 

Для каких клиентов ФОРС эпоха Big Data уже наступила?

Эпоха больших данных только начинает формироваться. Интересно, что к ней более подготовлены поставщики и специалисты ИТ, нежели клиенты. Тем не менее, мы видим, что заказчики начинают интересоваться новыми технологиями. В первую очередь технологиями хранения, распределенной обработки и анализа данных интересуются те организации, в которых уже внедрены BI-системы и стоит проблема повышения их производительности. Такие заказчики есть в банках, страховых организациях, ритейле, госсекторе. В этом случае технологии, например, Hadoop или In-Memory Analytics, могут использоваться для традиционного бизнес-анализа с большим числом пользователей и огромным объемом данных. Еще более интересны решения тех бизнес-задач, в которых главным является не производительность, а новые функциональные возможности, которые дают Big Data. Наиболее популярные задачи здесь связаны с анализом текстов, семантическим поиском, извлечением дополнительных знаний из неструктурированных документов и др. Среди наших заказчиков такие решения уже сейчас востребованы в государственных организациях – для эффективного взаимодействия с населением, обеспечения общественной безопасности, проактивной деятельности по борьбе с преступностью и т. п. Это пока не массовые, а, скорее, штучные задачи, но со временем мы перейдем и к типовым промышленным решениям, чему во многом поможет накопленный нами опыт в области классических аналитических технологий, проектной деятельности по построению систем бизнес-анализа и внедрению решений по управлению эффективностью предприятий (EPM).

 

Какие технологические решения вы используете при обработке Big Data?

Технологии и инструменты для работы с большими данными охватывают области, связанные с их сбором, хранением и анализом. В каждой из этих областей появилось много новых технологий и систем. Например, для распределенного хранения и обработки данных мы используем Apach Hadoop и MapReduce, а для эффективного хранения огромных объемов нестандартных данных – Oracle NoSQL Database. Oracle Advanced Analytics «специализируется» на углубленном анализе данных, включая специальную реализацию языка статистических исследований Oracle R Enterprise и технологию Oracle Data mining. А Oracle Endeca Information Discovery – на совместном анализе структурированной и неструктурированной информации с расширенными возможностями интуитивного поиска. Все эти продукты составляют платформу Oracle Big Data и доступны не только как отдельные программные компоненты, но и как единое целое – в виде специализированного программно-аппаратного комплекса. Есть еще один класс инструментов, без которых невозможно анализировать текстовую информацию. Речь идет о лингвистических инструментах и специальных программных пакетах для обработки и анализа текстов. В отличие от предыдущих интернациональных продуктов, здесь очень существенна поддержка конкретного языка, основанная на его морфологических, синтаксических и семантических особенностях. В этом сегменте мы ориентируемся на разработки российских компаний, имеющих опыт в решении таких задач.

 

Если нет возможности собрать всю обрабатываемую информацию в одном месте для анализа, как вы поступаете?

Используем технологию распределенного хранения и обработки данных Hadoop. Даже в случае, когда обрабатываемую информацию технически можно собрать в одном месте, например, в реляционной БД, это может оказаться экономически очень невыгодно по сравнению с хранением в распределенной файловой системе. Обрабатывающие программы учитывают особенности такой распределенной системы и создаются на основе технологии Map Reduce. Этот подход стал практически стандартом и устойчиво ассоциируется с понятием Big Data. В нашем случае это не просто Hadoop, а его реализация на программно-аппаратном комплексе, где аппаратная часть сконфигурирована и оптимизирована под эту технологию.

 

Какое участие принимают вендоры в развитии темы Big Data?

Собственно говоря, именно вендоры, а в данном случае наш стратегический партнер – корпорация Oracle, и являются разработчиками и поставщиками вышеупомянутых технологий и продуктов. Кроме программно-аппаратного комплекса Oracle Big Data Applance, ориентированного на задачи сбора и обработки больших данных, для работы с ними используются и другие продукты класса Oracle Engineered Systems. Прежде всего, это Exalytics In-Memory Machine – вычислительный комплекс для решения сложных аналитических задач, реализующий концепцию аналитики в оперативной памяти In-Memory Analytics. Все эти программно-аппаратные комплексы представлены и доступны для тестирования в нашем демо-центре FORS ExaStack Studio.

 

Каковы преимущества перехода на платформу Oracle Exalytics? Как решается вопрос совместимости с другими BI-продуктами?

Во-первых, Exalytics In-Memory Machine – это сервер с очень большой оперативной памятью. Аппаратная конфигурация очень четко определена, и менять ее нельзя. Во-вторых, на этом сервере есть обязательное ПО – Oracle BI, Essbase и TimesTen. Когда вы покупаете Exalytics, вы получаете сам сервер плюс эти компоненты. Кроме того, существует список продуктов, по которым Exalytics сертифицирована и, соответственно, готова к совместной работе. Это, например, все продукты линейки Hyperion – их можно устанавливать на отдельный сервер, а можно и на Exalytics.

 

В чем принципиальная новизна технологии In-Memory Analytics, и в какого рода программно-аппаратных комплексах она используется?

Основная идея концепции этой технологии в том, что наряду с обычным хранением для временного хранения данных используется оперативная память. Это позволяет находить, извлекать и анализировать нужные данные очень оперативно. В каком-то смысле такой подход можно считать развитием идей кеширования в оперативной памяти, но с использованием специальных компонент, повышающих эффективность работы. Для этого используются различные технологии, каждая из которых по-своему реализует общую идею. Всего их четыре: репликация данных (In-Memory Data Replication), адаптивные витрины данных (In-Memory Adaptive Data Mart), интеллектуальное кеширование результатов (In-Memory Intelligent Result Cache) и кубы в оперативной памяти (In-Memory Cubes). Эта технология как раз и используется в Oracle Exalytics In-Memory Machine.

 

Насколько рынок готов к потреблению новых технологий Big Data?

Рынок находится в стадии формирования, и мы стараемся принимать в этом посильное участие. Первые внедрения уже есть – к примеру, в банке «Тинькофф Кредитные системы», где технологии Big Data используются для выяснения платежеспособности потенциальных заемщиков. Для этого анализируются данные из блогов, социальных сетей, истории онлайн-покупок и т. д. Получается некий виртуальный портрет человека, который с большой долей вероятности позволяет судить о степени операционных рисков при выдаче ему кредита. 

 

Что препятствует развитию рынка зрелой аналитики в нашей стране?

С одной стороны, новые возможности, предоставляемые Big Data, должны быть осознаны людьми, принимающими решения, а с другой – в наличии к этому моменту уже должны быть отработанные технологии внедрения и использования решений уровня Big Data. И мы работаем над этим, в том числе и над адаптацией к российской специфике. К примеру, обеспечиваем возможность применения специальных технологий для анализа русскоязычных текстов.

 

Какие новые тенденции появились в последнее время в области анализа информации?

Одну из наметившихся тенденций можно назвать «движением от традиционного бизнес-анализа к исследованию данных». Это означает, что будут развиваться продукты, позволяющие не просто исполнять запросы и вычисления, но и исследовать внешнюю информацию, не приспособленную для обработки средствами реляционных технологий. Можно ожидать развития платформ Data Discovery и все большей популярности инструментов статистического и математического исследования и прогнозирования. При этом речь не идет о замене BI-инструментов на что-то другое. Новый класс задач не отменяет традиционную аналитику, а обогащает ее.

 

Как предполагает ФОРС развивать экспертизу по этому направлению?

Во-первых, развитие экспертизы, подготовка своих, внутренних специалистов. Во-вторых, выполнение исследовательских проектов на платформе Oracle, создание демонстрационных стендов с примерами индустриальных решений. В-третьих, консультирование как внутри компании, так и вне ее. В-четвертых, создание практики конкретных внедрений для заказчиков на базе пилотных проектов. Что касается площадки, то тестирование может производиться как у нас в демо-центре, так и на стороне заказчика, на правах аренды.

Опубликовано 29.04.2013

Похожие статьи