Big Data: армейский нож, Хоттабыч и анализ ощущений
В последнее время крупнейшие мировые IT-компании все чаще говорят о проблеме «больших данных». Состоявшийся недавно в Москве OracleBigDataExtremeAnalyticsSummit приоткрыл некую завесу таинственности над возникшим несколько лет назад понятием BigData.
Ксавье Верхе, вице-президент Oracle по перспективным технологиям и руководитель направления решений для безопасности в регионе EMEA, и Али Риза Куюджу, руководитель направления продаж решений Oracle для бизнес-анализа в странах Восточной Европы и СНГ, представили подходы компании к проблеме больших данных, рассказали о решениях, а также программно-аппаратных комплексах, связанных с данным направлением. Oracle предлагает полный пакет решений в области анализа больших данных, в том числе Oracle Big Data Appliance, Oracle Exadata Database Machine, Oracle Exalogic и Oracle Exalytics.
Говоря о Big Data, мы упоминаем десятки терабайт и даже зеттабайты, но дело отнюдь не только в стремительно растущих объемах информации. Большие данные – это некий трехголовый дракон, головы которого – объем, разнообразие и быстрота выполнения задания.
Первое, что приходит на ум для борьбы с этим драконом, – Apache Hadoop, система для распределенных вычислений, используемая для поисковых и контекстных механизмов «тяжелых» сайтов и социальных сетей. Hadoop и другие связанные с ней инструменты как бы дистиллируют данные, перерабатывая «тонны породы в поисках ценной руды», а именно необходимых сведений.
---------------
Мысль о «борце с драконом», пожалуй, имела некий интуитивный подтекст. Так, в 2011 году при вручении проекту Hadoop ежегодной инновационной премии медиагруппы Guardian эта технология была названа «швейцарским армейским ножом XXI века». Само же название, в силу необычности ситуации – таинственные большие данные, волшебный способ борьбы с ними – ассоциировалось со сказочным Востоком (Хоттабыч), а потом выяснилось, что один из создателей технологии присвоил ей имя игрушечного слона своего ребенка.
---------------
«Hadoоp становится ведущей технологией, – заявил Ксавье Верхе, – это как Linux несколько лет назад». Вот как он охарактеризовал возможности системы: «Она знает, что вам нужно, что вам нравится, какие вы сделали покупки в Сети, какие статьи читаете, – так можно оценивать ваше поведение и угадывать ваши желания». В качестве примера г-н Верхе рассказал о проведенном по заказу крупной компании «исследовании ощущений» на основе анализа высказываний в Сети. Действительно, о чем только не говорят в блогах, каких только ощущений не передают. Правда, здесь задачи были вполне конкретные – исследовались ощущения от вкуса нового вида безалкогольного напитка…
Продукты Oracle тоже тесно связаны с технологией Hadoop. Начав с Oracle NoSQL Database, Ксавье Верхе перешел к Oracle Big Data Appliance. «NoSQL – это не SQL», – подчеркнул он. То есть здесь мы имеем дело не с традиционной реляционной СУБД с доступом к данным на основе языка SQL, а СУБД, где используются иные методы, например деревья. И здесь Oracle нашла свой подход – сочетание NoSQL и Hadoоp – и в конце прошлого года представила Oracle Big Data Appliance – программно-аппаратный комплекс, способный помочь компаниям использовать большие данные с высокой эффективностью. Сам же комплекс вмещает в себя 18 серверов и содержит в общей сложности 864 Гбайт оперативной памяти, 216 процессорных ядер и 648 Тбайт дисковой памяти.
Ольга Горчинская, главный консультант по технологиям бизнес-анализа, Oracle СНГ, рассказала об Oracle Exalytics Business Intelligence Machine – программно-аппаратном комплексе для бизнес-анализа с обработкой в оперативной памяти, который содержит 40 процессорных ядер, имеет 1Тбайт памяти DRAM и обладает возможностью за счет специальных технологий сжатия работать с объемами данных в 5–10 Тбайт. Новая система работает на стеке ПО от Oracle, в который входят система управления базами данных в оперативной памяти Oracle TimesTen In-Memory Database, инструментальная аналитическая среда Oracle Business Intelligence, расширенная и оптимизированная для решения задач бизнес-анализа, и OLAP сервер Essbase. Подчеркнуто также, что система позволяет получать аналитику на мобильные устройства.
Важным дополнением к вышеуказанным системам остается линейка оптимизированных программно-аппаратных комплексов Exadata, обладающая, как указал докладчик по этой теме, старший консультант по продажам Oracle Александр Новиков, высокой производительностью при работе со сверхбольшими объемами данных. По его словам, при установке системы в одном из крупных банков удалось запустить в онлайн 30 тыс. пользователей одновременно.
И так – во многом. Не зря на саммите говорилось не только о взрывном росте количества данных, но и о переходе к новому качеству работы с ними. Ведь не исключено, что новый подход сможет существенно изменить не только науку и производство, но и всю нашу жизнь.
Источник: IT News №08 (май 2012 год)
Опубликовано 03.05.2012

