Тестирование технологии Hadoop

18.08.2014
Компания DIS Group завершила масштабное тестирование технологии Hadoop.

Тестирование было осуществлено после анонса Informatica о полной поддержке платформы Hadoop. Со стороны заказчиков стали поступать многочисленные вопросы относительно использования этой технологии. Основные вопросы касались применимости, аппаратной базы, возможности интеграции решений в существующие архитектуры, а также многих интересовали технические аспекты реализации проектов.

Были проведены анализ представленных на рынке реализаций технологии Hadoop от различных производителей и тестирование решений от компаний Cloudera и Hortonworks в связке с интеграционной платформой Informatica.

Для сравнения решений от различных производителей в рамках проводимого тестирования применялась методология классического SWOT-анализа. При оценке платформ Hadoop принимались во внимание наиболее важные критерии, выбор и ранжирование которых производились на основании запросов от заказчиков.

Для тестирования были выбраны различные задачи, которые реализовывалась ранее средствами SQL-запросов или ETL. Наиболее существенная задача состояла в необходимости сокращения времени на обработку и получение данных при расчетах на больших объемах информации. В рамках данного тестирования предстояло определить, может ли технология Hadoop помочь оптимизировать подобные процессы по времени.

Тестовый стенд был собран на базе кластера из 10 персональных машин и интеграционной платформы Informatica.

Реализация поставленной задачи показала, что Informatica предоставляет полноценный набор инструментов для работы с Hive и позволяет производить разработку средствами собственного графического интерфейса. Подобная возможность позволяет полностью отказаться от самостоятельной разработки кода на Hive, что не требует высокой квалификации программистов и позволяет легко осуществить передачу дел от одного разработчика другому. Личный опыт команды DIS Group показал, что качество кода, генерируемого Informatica, отвечает требованиям производительности и функциональности для большинства задач. Тесты на отказоустойчивость данного кластера также показали хорошие результаты. Вывод из строя нескольких узлов приводит только к снижению производительности, но, ни в коем случае, не к падению процесса в целом.

Оптимизация времени работы процессов обработки данных дала положительные результаты. Экспериментальные выводы позволяют утверждать, что для решения таких задач, когда тысячи простых запросов к серверу БД увеличивают время получения от него данных с нескольких минут до нескольких часов, технология Hadoop является очень перспективной. Производительность тестового кластера оказалась сравнима с производительностью дорогостоящих серверов, но со значительно меньшими затратами. Еще одним плюсом данной технологии можно считать ее масштабируемость. Эмпирически было выяснено, что метод линейной аппроксимации дает достаточно точные результаты для оценки необходимой мощности оборудования. К тому же, технология Hadoop является крайне привлекательной в соотношении цена\качество, что и было подтверждено тестами команды специалистов компании DIS Group.