Как создать эффективный ЦОД?
Можно ли создать ЦОД на 1 Пбайт данных с энергопотреблением всего в 500 Вт? Считаем и выстраиваем систему.
Количество информации в мире, хранимой удаленно, постоянно увеличивается. Поэтому все большую важность приобретает разработка систем, способных справиться с таким потоком» данных. Основные критерии оценки таких систем:
-
Стоимость: учитывая невероятные объемы информации, главным критерием становится соотношение стоимости к емкости (цена за 1 Тбайт).
-
Габариты: место в серверных ЦОДов. Для его минимизации применяются диски наибольшей емкости, установленные в компактные 19-дюймовые стойки.
-
Рассеивание мощности: накопители в ЦОДах и облачных системах хранения данных работают в режиме 24/7, соответственно рассеивание мощности напрямую влияет на показатель совокупной стоимости эксплуатации. Помимо этого, каждый ватт, потребляемый в СХД, должен компенсироваться системой охлаждения ЦОДа, что также увеличивает затраты на электроэнергию.
-
Производительность: никто не хочет ожидать доступа к своим данным до бесконечности, поэтому от СХД в ЦОДе требуется определенный уровень производительности. Под резервное копирование данных также отводится достаточно ограниченное время, поэтому пропускная способность системы должна позволять записать все данные в этот промежуток. А в случае непредвиденного сбоя данные из резервной копии необходимо восстановить в кратчайшие сроки, чтобы минимизировать простой в бизнес-процессах клиента.
В этом исследовании основное внимание уделялось оптимизации затрат и рассеиваемой мощности при минимизации габаритов системы хранения данных. Оптимизация ее производительности не была его целью, но контрольные значения в этой категории также измерялись. Если клиента интересует именно производительность, рекомендуется применять другие решения, например твердотельные накопители. При этом стоит учесть, что соотношение их стоимости к емкости во много раз превышает показатели систем на базе жестких дисков.
Архитектура СХД: выбор жестких дисков
Жесткие диски предлагают самое низкое соотношение стоимости к емкости в расчете на один юнит в системе хранения данных ЦОДа, поэтому именно они были выбраны для дальнейшего исследования. Стоимость 1 Тбайта в современных моделях емкостью 12, 14 ли 16 ТБайт примерно одинакова, поэтому выбор максимально емкого жесткого диска на это соотношение особо не влияет. Однако при применении накопителей емкостью 16 Тбайт понадобится меньше устройств, чтобы выйти на запланированный объем СХД. И это напрямую влияет на следующий критерий оценки: меньшее количество жестких дисков занимает меньше места в стойке и рассеивание мощности в расчете на единицу емкости также оказывается в этом случае значительно меньше (см. таблицу 1).
Год |
Модель |
Емкость (Тбайт) |
Энергопотребление в активном режиме (Вт) |
Соотношение Вт/Тб в активном режиме |
2013 |
MG04ACA |
6 |
11,3 |
1,9 |
2015 |
MG05ACA |
8 |
11,4 |
1,4 |
2017 |
MG06ACA |
10 |
10,6 |
1,1 |
2018 |
MG07ACA |
14 |
7,8 |
0,6 |
2019 |
MG08ACA |
16 |
7,7 |
0,5 |
Таблица 1. Рассеивание мощности и емкость жестких дисков корпоративного уровня (источник: данные и руководства Toshiba, параметры брались для чтения/записи случайных блоков размером 64 Кбайт с QD=1 для 1 накопителя)
Рисунок 1. Рассеивание мощности в расчете на 1 Тбайт для различных поколений жестких дисков: энергопотребление (Вт), емкость накопителя (Тб); заполненные воздухом, заполненные гелием
Как видно из данных выше, для снижения рассеивания мощности и уменьшения габаритов системы рекомендуется применять жесткие диски максимально доступной емкости, в данном случае — 16 Тбайт.
Жесткие диски производства Toshiba указанной емкости доступны в линейке MG08 и выпускаются в версиях с интерфейсами SAS либо SATA. SAS-версия имеет два канала с пропускной способностью 12 Гб/с, что позволяет использовать эти накопители в системах, для которых важнейшими параметрами являются производительность и максимальная доступность. За счет этого повышается уровень рассеивания мощности, так как SAS-жесткие диски потребляют примерно на 1-2 Вт больше, чем версия SATA. Учитывая, что целью исследования была оптимизация рассеивания мощности, для него была выбрана версия MG08ACA16TE с интерфейсом SATA.
Рисунок 2. Жесткий диск Toshiba из линейки MG08 емкостью 16 Тбайт
Ниже приведены показатели рассеивания мощности этой модели под различной нагрузкой:
Чтение случайных блоков размером 4 Кбайт, QD=16: 8,60 Вт
Запись случайных блоков размером 4 Кбайт, QD=16: 5,83 Вт
Последовательное чтение: 7,50 Вт
Последовательная запись: 6,83 Вт
Ожидание: 4,00 Вт
Максимальная нагрузка при запуске за 500 мс: 16,85 Вт
Архитектура системы хранения данных: выбор дисковой полки
Модели на 45–100 жестких дисков высотой 4 юнита лучше всего подходят для накопителей корпоративного уровня формфактора 3,5 дюйма (так называемые жесткие диски Nearline). На рынке доступны версии серверного типа или JBOD с одним либо двумя SAS-экспандерами.
Для данного проекта была выбрана стандартная дисковая полка AIC на 60 накопителей, которую можно установить в любую 1000-мм стойку благодаря компактной конструкции. Стоит отметить, что модели на большее количество жестких дисков длиннее, поэтому 1000-мм стойка окажется для них недостаточно глубокой. Этот вариант JBOD-полки подходит для исследования, так как упрощает измерение рассеивания мощности жестких дисков и подключение к системе за счет задней платы и экспандера. Модель с одним SAS-экспандером была выбрана потому, что это позволяет снизить стоимость и рассеивание мощности. Также в выбранных накопителях SATA в любом случае есть только один канал для передачи данных. Наименование модели — AIC-J4060-02 (JBOD, высота 4 юнита, 60 отсеков для жестких дисков, версия 02 = один SAS-экспандер).
Рисунок 3. AIC J4060-02 JBOD
Общая емкость такой JBOD-дисковой полки на 60 накопителей (при полной загрузке жесткими дисками емкостью 16 Тбайт) достигает 960 Тбайт, то есть обеспечивает почти петабайт дискового пространства. Полка подключается к адаптеру системной шины или контроллеру RAID-массива сервера при помощи одного кабеля mini-SAS-HD.
Параметры системы
Энергопотребление полностью загруженной JBOD-полки на 60 жестких дисков измерялось при помощи терминалов (клемм) резервных БП с напряжением 220 В. Все измерения велись при температуре окружающей среды 24 °C.
Сперва рассеивание мощности включенной JBOD-стойки было измерено без установленных жестких дисков:
JBOD (включена), без накопителей, SAS-подключение: 80 Вт
Следующий этап — установка в JBOD одного жесткого диска и снятие показаний при различной рабочей нагрузке, включая последовательную запись (нагрузка, характерная для архивации данных, видеозаписи и создания резервных копий) и чтение (нагрузка, аналогичная восстановлению резервных копий данных и стримингу медиафайлов) блоков размером 64 Кбайт. Также были получены контрольные значения энергопотребления при чтении/записи случайных блоков размером 4 Кбайт, которые соответствуют работе с «горячими» файлами в базах данных, но эта информация не относилась к цели исследования, так как обычно системы с одним или более жесткими дисками для подобных операциях не применяются. Во всех случаях измерялось как рассеивание мощности, так и показатели производительности (IOPS для чтения/записи случайных блоков и Мб/с для последовательных операций).
В дополнение к этим пограничным случаям рабочих нагрузок было проведено тестирование в условиях, максимально приближенных к реальным. В его ходе производились чтение и запись блоков различных размеров, выбранных случайным образом: 20% блоков размером 4 Кбайт, 50% блоков размером 64 Кбайт, 20% блоков размером 256 Кбайт и 10% блоков размером 2 Мбайт. Чтобы добиться максимально возможной производительности, для всех синтетических нагрузок использовалась глубина очереди (QD), равная 16. Помимо этих тестов, оценивалось рассеивание мощности при стандартном копировании файлов в ОС Windows.
Нагрузка |
Энергопотребление, Вт |
IOPS |
Пропускная способность |
Последовательная запись блоков размером 64 Кбайт |
85 |
- |
270 Мб/с |
Последовательное чтение блоков размером 64 Кбайт |
86 |
- |
270 Мб/с |
Запись случайных блоков размером 4 Кбайт |
83,6 |
350 |
- |
Чтение случайных блоков размером 4 Кбайт |
84 |
420 |
- |
Смешанная нагрузка чтение/запись |
84,2 |
200 |
70 Мб/с |
Копирование файлов в ОС Windows |
85 |
- |
110 Мб/с |
Полученные значения для одного жесткого диска (за вычетом 80 Вт, которые потребляет JBOD-полка без накопителей) оказались ниже, чем в спецификациях. В отличие от спецификаций жесткого диска, показатели при последовательных операциях выше, чем при случайном чтении/записи. Это связано с более высоким энергопотреблением SAS-расширителя в JBOD при увеличении пропускной способности в операциях последовательного чтения/записи.
После подключения 60 16-терабайтных накопителей к JBOD-полке было измерено максимальное рассеивание мощности при запуске системы, а также энергопотребление в режиме ожидания без операций чтения/записи:
JBOD с накопителями, макс. показатель при загрузке за 500 мс: 720 Вт
JBOD в режиме ожидания: 420 Вт
Максимальная потребляемая мощность при запуске JBOD ниже расчетного значения (80 Вт + 60×16,85 Вт = 1100 Вт), поскольку жесткие диски запускаются с задержкой по времени. Значение для JBOD в режиме ожидания выше расчетного (80 Вт + 60×4 Вт = 320 Вт), так как контроллер время от времени обращается к жестким дискам даже в этом режиме.
60 жестких дисков в режиме JBOD, параллельная нагрузка
На следующем этапе все 60 накопителей в режиме JBOD получали прямые параллельные запросы от ОС. Синтетические нагрузки в данном случае позволили снова измерить рассеивание мощности системы и ее производительность (для справки).
Нагрузка |
Энергопотребление, Вт |
IOPS |
Пропускная способность |
Последовательная запись блоков размером 64 Кбайт |
445 |
- |
1900 Мб/с |
Последовательное чтение блоков размером 64 Кбайт |
500 |
- |
2100 Мб/с |
Запись случайных блоков размером 4 Кбайт |
445 |
23000 |
- |
Чтение случайных блоков размером 4 Кбайт |
470 |
7600 |
- |
Смешанная нагрузка чтение/запись |
475 |
1800 |
550 Мб/с |
Потребляемая мощность во время всех рабочих нагрузок не превышала 500 Вт.
Локальный RAID-массив
На этой стадии 60 жестких дисков были объединены в один виртуальный накопитель при помощи RAID-контроллера в режиме RAID10 с пятью подмассивами. Из получившихся в результате 480 Тбайт свободного пространства в Windows Server 2016 было сформировано два логических диска емкостью по 240 Тбайт.
Нагрузка |
Энергопотребление, Вт |
IOPS |
Пропускная способность |
Последовательная запись блоков размером 64 Кбайт |
425 |
- |
3900 Мб/с |
Последовательное чтение блоков размером 64 Кбайт |
460 |
- |
6200 Мб/с |
Запись случайных блоков размером 4 Кбайт |
445 |
9800 |
- |
Чтение случайных блоков размером 4 Кбайт |
480 |
12000 |
- |
Смешанная нагрузка чтение/запись |
465 |
2700 |
790 Мб/с |
Копирование файлов в ОС Windows |
430 |
- |
320 Мб/с |
Программно-определяемая система хранения данных
И на последнем этапе все 60 жестких дисков были объединены в программно- определяемую систему хранения данных с файловой системой ZFS под управлением ПО JovianDSS, разработанного компанией Open-E.
Рисунок 4. ПО JovianDSS от Open-E
Резервирование и надежность хранения данных обеспечивались при помощи их зеркалирования, для чего использовалось пять подмассивов жестких дисков, твердотельный накопитель корпоративного уровня емкостью 800 Гбайт для кэширования операций чтения и аналогичный накопитель для буферизированной записи в лог. Пул накопителей был доступен серверу через протокол iSCSI, при этом система была разбита на логические диски емкостью 240 Тбайт. Тестирование логических дисков в RAID-массиве включало в себя стандартные рабочие нагрузки (чтение/запись случайных блоков, последовательные чтение и запись, смешанные нагрузки и копирование данных в ОС Windows). Производительность логических дисков в ZFS при использовании протокола iSCSI в первую очередь зависит от пропускной способности сети и от конфигурации твердотельных накопителей. Поэтому значения синтетических рабочих нагрузок в данном случае указаны только для справки.
Нагрузка |
Энергопотребление, Вт |
IOPS |
Пропускная способность |
Режим ожидания (фоновые задачи ZFS активны) |
430 |
- |
- |
Последовательная запись блоков размером 64 Кбайт |
445 |
- |
(250 Мб/с) |
Последовательное чтение блоков размером 64 Кбайт |
440 |
- |
(550 Мб/с) |
Запись случайных блоков размером 4 Кбайт |
470 |
(2700) |
- |
Чтение случайных блоков размером 4 Кбайт |
455 |
(7000) |
- |
Смешанная нагрузка чтение/запись |
480 |
1100 |
330 Мб/с |
Копирование файлов в ОС Windows |
450 |
- |
230 Мб/с |
Заключение
Система хранения данных в ЦОДе общей емкостью 1 петабайт в современных условиях может состоять из 16-терабайтных жестких дисков, установленных в JBOD-полку высотой 4 юнита, и потреблять менее 500 Вт. Реальный показатель ее энергопотребления колеблется между 420 Вт (режим ожидания, без операций чтения/записи) и 480 Вт (постоянное чтение/запись блоков данных различного размера).
В системах хранения данных стандартной конфигурации, то есть при зеркалировании и работе в режимах RAID, максимальный доступный объем свободного места при полной загрузке полки из 60 16-терабайтных жестких дисков колеблется от 480 Тбайт (RAID10/чередование четности с зеркалированием) до 800 Тбайт (RAID60/двойное чередование четности). Общее энергопотребление системы в этом случае достигает примерно 1 Вт на каждый терабайт емкости при зеркалировании и снижается до 0,5 Вт на терабайт в режимах RAID с чередованием четности.
Прогнозы на будущее
По оценкам Toshiba Electronics Europe, в 2019 году было отгружено корпоративных (Nearline) жестких дисков общей емкостью около 500 экзабайт (500 000 Пб). При условии, что емкость каждого диска была равна 16 Тб и все они были установлены в JBOD-полки на 60 устройств, общее постоянное энергопотребление этих систем составило бы 225 МВт (что примерно равно количеству электричества, вырабатываемого угольной ТЭС средней мощности). Но большая часть этих жестких дисков имела меньшую емкость, поэтому стоит предположить, что их энергопотребление было выше. Учитывая, что в будущем объемы данных в мире могут только расти, снижение затрат электроэнергии на их хранение будет приобретать все большую важность. Поэтому для всей отрасли в целом и для компании Toshiba в частности одной из главных целей должны стать разработка и производство жестких дисков со все большей емкостью и минимизация их рассеивания мощности.
Опубликовано 23.07.2020