Гибридные хранилища для больших данных

Логотип компании
Гибридные хранилища для больших данных
Речь идет о возможности размещения в облаке данных для работы с программными системами, запускаемыми на локальной инфраструктуре. До недавнего времени такие решения считались неэффективными.

Пока в российском ИТ-сообществе все еще не определились до конца в отношении целесообразности использования облачных хранилищ данных – их безопасности и надежности в сравнении с традиционными on-premise-решениями, выстроенными на собственной инфраструктуре компаний, во многих странах мира вопрос выбора облаков для вычислений и хранения данных можно считать практически решенным.

Но развитие облачных систем не остановилось. В настоящее время активно обсуждается одно из новых направлений – гибридное хранение данных. Речь идет о возможности размещения в облаке данных для работы с программными системами, запускаемыми на локальной инфраструктуре. До недавнего времени такие решения считались неэффективными из-за значительных задержек при доступе к данным и как следствие пониженной производительности программ. Но ситуация, похоже, меняется.

История гибридных форм хранения данных

Локальное хранение данных позволяет получить высокую производительность, гибкость, управляемость и безопасность. Среди типов такого хранения есть и свои рекордсмены, главные из них – RAM-диски, которые осуществляют хранение на модулях памяти: по сравнению с традиционными жесткими дисками скорость чтения получает прирост в 50–1000 раз, скорость записи в 60–660 раз.

Гибридные хранилища для больших данных. Рис. 1

Сравнение скорости чтения/записи для обычного HD и RAM-диска

Однако у высокой производительности RAM-дисков есть и обратная сторона – высокая цена хранения. Причина – эти диски выстроены на базе энергозависимой памяти. Кроме того, если компьютер или сервер, где они установлены, теряет питание, то все содержимое RAM-дисков будет потеряно. Хранить данные на них можно только временно при условии постоянного резервирования на энергонезависимом носителе.

Какое это имеет отношение к гибридным формам хранения данных? Самое прямое. Гибридные технологии пришли в традиционные системы хранения через внедрение алгоритмов искусственного интеллекта. Одним из новаторов таких систем стала компания Seagate. Еще в конце 2017 года она выпустила линейку жестких дисков Seagate SkyHawk AI на базе новой технологии ИИ. Они предназначались для систем видеонаблюдения и предусматривали оптимизацию с элементами глубокого и машинного обучения. Благодаря им автоматически ведется подготовка данные для аналитических систем распознавание лиц и анализа отклонений в их поведении. В результате, в сохраняемом видеопотоке выделяются отдельные снимки, отражающие изменения сцен и объектов на них. Эти данные востребованы в системах аналитики, требуют более быстрого доступа и поэтому размещаются в разделах с быстрой памятью. Остальная часть видеопотока передается в раздел обычного доступа.

Гибридное хранилище: взгляд с облаков

Слово «гибридный» уже давно получило популярность в сфере облаков. Оно означает гибридное применение как облачных, так и локальных вычислительных средств, либо как одновременное использование облачных инструментов от разных поставщиков. Но в нашем повествовании речь пойдет о гибридных хранилищах данных.

Рассмотрим для примера облачные возможности службы Amazon S3. Там предоставлен набор хранилищ нескольких типов, что позволяет выбрать наиболее подходящий для себя вариант, исходя из требований к рабочей нагрузке, типу доступа, отказоустойчивости и стоимости хранения данных.

Amazon S3 выделяет следующие классы хранилищ:

  • S3 Standard для данных, требующих постоянного или многократного доступа;

  • S3 Standard-Infrequent Access (S3 Standard-IA) и S3 One Zone-Infrequent Access (S3 One Zone-IA) для данных с периодическим доступом;

  • S3 Intelligent-Tiering для данных с изменяемым шаблоном доступа, что означает применение автоматической перенастройки точек хранения для достижения экономии затрат;

  • S3 Glacier Instant Retrieval и S3 Glacier Flexible Retrieval для архивных хранилищ. Версия Instant подойдет для случаев, когда данные перемещаются в архив, но к ним иногда требуется предоставить быстрый доступ;

  • Amazon S3 Glacier Deep Archive для полноценных архивов, к скорости доступа к которым нет строгих требований.

Новый выбор: SAN vs NAS vs Hybrid

С появления в середине 1990-х выделенных файловых сетевых систем NAS (network-attached storage) корпоративного уровня они стали широко использоваться для обмена файлами. Их главными признаками стали емкость хранилища, производительность, безопасность и надежность. Дополнительных функций, таких как проверка подлинности или управление файлами, не предоставлялось.

Это обеспечило NAS высокую свободу при выборе конфигурации решений. Для них не было обязательным размещение в составе отдельного сервера, их можно было разместить в любом месте локальной сети, собрав в единой целое из нескольких сетевых устройств.

Несмотря на достоинства SAN и NAS, обе системы имели один общий недостаток: трудности при создании большого логического пула – состоящего из сотен или тысяч физических дисков. Для поддержки абстракции файловой системы, совместимой с POSIX, требовалась дополнительная вычислительная мощность, что делало такое решение относительно сложной задачей на практике.

Новые решения – программно определяемые хранилища данных (software-defined storage, SDS) позволили обойти трудности. Они могут охватывать десятки двухпоточных процессорных систем, гигабайты системной памяти, поддержку мультигигабитных сетей, широкий набор высокопроизводительных SSD-дисков и HDD большой емкости. Это обеспечивает высокую линейную масштабируемость вычислительных ресурсов и емкости хранения, объединяя воедино матрицу процессоров, DRAM-память, SSD- и HHD-накопители.Это открывает новые возможности для работы с метаданными и неструктурированной информацией, позволяет предоставить пользователям гибридное облако большой емкости с комбинированной файлово-объектной моделью доступа.

Испытание гибридных облачных хранилищ

Еще в середине 2020 года британский консультант Марк Литвинчик (Mark Litwintschik) опубликовал в своем блоге пост о проведенной им проверке на производительность облачного хранилища размером около 500 Гбайт. В качестве испытательной базы он выбрал массив данных с информацией об 1,1 млрд поездок на такси в Нью-Йорке за период 2009–2015 гг. Эти данные размещались в 56 CSV-таблицах, сжатых с помощью GZIP. Общий объем данных в архиве составлял около 104 Гбайт, а после его раскрытия увеличивался до ~500 Гбайт.

Экспериментальные данные размещались в инстансе AWS общего назначения, который охватывал 32 процессорных ядра, 128 Гбайт ОЗУ и 512 Гбайт хранилища. Для управления базами данных использовался движок ClickHouse v.22.8 облачного провайдера DoubleCloud. Месячная аренда такого инстанса составляет $2516,35.

Гибридные хранилища для больших данных. Рис. 2

Конфигурация испытательного стенда

Выбор для эксперимента данного датасета объяснялся просто: эти же данные применялись для бенчмарка многих источников: Amazon Athena, BigQuery, BrytlytDB, Elasticsearch, EMR, Hydrolix, kdb+/q, OmniSci, PostgreSQL, Redshift и Vertica. Проведя анализ гибридной модели хранения, можно было расширить сравнительные оценки. Бенчмарки более ранних испытаний приведены в следующей таблице (Query 1..4 – различные тестовые запросы к БД).

Гибридные хранилища для больших данных. Рис. 3

Результаты тестов экспериментального датасета на различных конфигурациях

Новый эксперимент с гибридным хранилищем потребовал сначала загрузить 56 таблиц в облако Amazon. Время импорта выборочных данных объемом 144,88 Гбайт составило 29 минут 25 секунд. Последующая конвертация данных в облаке заняла 50 минут 43 секунды. После этого был проведен тест с эталонными запросами (Query 1..4). Время выполнения каждой операции приведены в таблице.

Гибридные хранилища для больших данных. Рис. 4

Результаты тестов локального, облачного и гибридного хранения данных

Меткой Local отмечены результаты теста при размещении данных в локальном хранилище, Hybrid Cold – в гибридном облаке, Hybrid Сached – там же, но при повторном выполнении запроса.

Как видно из результатов, ответная реакция при размещении данных в облаке S3 значительно выше, чем при локальном размещении. Этот результат интуитивно предсказуем. Но более значимы результаты о времени ответной реакции при повторном запросе, что соответствует реальным условиям работы с данными: задержка по сравнению с локальным размещением выросла, но значительно меньше, чем при первом обращении. Эффект достигнут благодаря кэшированию на стороне ClickHouse.

Эксперимент показал, что с переходом на гибридную форму хранения потеря производительности не настолько заметна. Эта модель хранилища становится привлекательной при работе с большими данными, размещать которые локально неэффективно. Гибридная модель обеспечивает высокую производительность при низких затратах за использование данных.

Придут ли гибридные облачные хранилища в Россию?

Если два года назад это были только эксперименты, то сегодня обращает на себя внимание пресс-релиз, выпущенный в начале октября компанией IBM, ушедшей из России. Она объявила о добавлении в дорожную карту своего бизнес-подразделения IBM Storage продуктов хранения Red Hat для создания собственных продуктов и использования гибридных хранилищ данных в локальной инфраструктуре (on-premise) и облаке.

Новая технология хранения Red Hat OpenShift Data Foundation (ODF) станет основой для решения IBM Spectrum Fusion. Оно объединит технологии хранения контейнеров IBM под управлением инструментов Red Hat с созданием сервисов гибридных хранилищ. В планах IBM выпуск Ceph – унифицированной программно определяемой платформы хранения, которая позволит устранить архитектурные различия между ЦОДами и облаками.

Вопрос о появлении аналогичных облачных разработок в России можно переадресовать Минцифры, где поддерживают отечественных производителей и ведут список решений для импортозамещения.

Опубликовано 25.01.2023

Похожие статьи