Резервирование на 100% для Группы «Эталон»

10.09.2020
Компания КОМПЛИТ завершила в Группе «Эталон» масштабный проект, включающий объединение в общую сеть двух ЦОДов, внедрение в корпоративную ИТ-инфраструктуру двух массивов HPE Primera A630 с настройкой аппаратной синхронной репликации между ними и создание «растянутого» кластера VMware в виртуальной среде.

Компания КОМПЛИТ завершила в Группе «Эталон» масштабный проект, включающий объединение в общую сеть двух ЦОДов, внедрение в корпоративную ИТ-инфраструктуру двух массивов HPE Primera A630 с настройкой аппаратной синхронной репликации между ними и создание «растянутого» кластера VMware в виртуальной среде.


Консолидированное решение на базе продуктов HPE и VMware обеспечило заказчику катастрофоустойчивую виртуальную инфраструктуру со 100% резервированием всех компонентов. Поскольку ИТ-инфраструктура обеспечивает работоспособность всех бизнес-приложений Группы, она должна иметь высокую надежность. Проект был выполнен силами инженеров КОМПЛИТ совместно с ИТ-специалистами Группы «Эталон». Он проходил в три этапа и занял в общей сложности не более двух месяцев.

Основанная в 1987 г. Группа «Эталон» сегодня является одной из крупнейших компаний в сфере девелопмента и строительства в России, фокусируясь на жилой недвижимости комфорт-, бизнес- и премиум-класса в Москве, Московской области и Санкт-Петербурге. С момента создания Группы «Эталон» введено в эксплуатацию 7 млн кв. м недвижимости, в построенных ею домах проживает свыше 250 тыс. человек. Выручка компании в 2019 году составила рекордные 84,3 млрд рублей, EBITDA – 8,9 млрд рублей. Крупнейшим акционером Группы «Эталон» является АФК «Система».

Компания КОМПЛИТ реализует комплексные проекты построения и развития ИТ-инфраструктур корпоративного уровня, а также специализируется на проектировании и монтаже инженерных систем зданий и центров обработки данных (ЦОД). Успешно работая с 1994 г., компания открыла свои представительства в основных деловых центрах России и построила надежную партнерскую сеть во многих регионах страны. Головной офис компании с собственным ЦОДом находится в Санкт-Петербурге.

В ИТ-инфраструктуре Группы «Эталон» уже много лет используется оборудование компании HPE, которое за годы эксплуатации доказало свою надежность и функциональность. Это оборудование размещалось на двух площадках, удаленных друг от друга более чем на 5 км. На каждой из них было установлено по одному блейд-шасси HPE BladeSystem c7000 с набором серверов HPE Proliant BL460С разных поколений. В качестве общего хранилища на площадках использовались массивы серии HPE MSA, также разных поколений, подключенные к серверам по протоколу Fibre Channel (FC) через встроенные в блейд-шасси SAN-коммутаторы. Для обеспечения сетевой связанности LAN на одной из площадок в шасси c7000 были установлены два модуля HPE Virtual Connect Flex-10/10D, обеспечивающие пропускную способность 10 Гбит/с по всей сети. На второй площадке в корпусе c7000 имелась пара коммутаторов HPE 6125G Ethernet Blade Switch, за счет которых скорость передачи данных достигала 10 Гбит/с на внешних портах коммутаторов, но между серверами внутри шасси она не превышала 1 Гбит/с. На каждой из площадок был развернут отдельный кластер VMware с одним общим хранилищем и обычными виртуальными коммутаторами.

По мере развития бизнеса Группы «Эталон» и роста автоматизации бизнес-процессов выросли и требования к эффективности использования информационных ресурсов. Установленное оборудование не всегда справлялось с возросшей нагрузкой: дисковые массивы перестали обеспечивать должный уровень обработки запросов серверов, а скорость передачи в 1 Гбит/с между узлами виртуализации на одной из площадок требовалось увеличить для надежного функционирования кластера VMware. Кроме того, выход из строя единственного общего хранилища привел бы к остановке бизнес-критичных процессов на неопределенное время.

 Чтобы соответствовать новым требованиям бизнеса, ИТ-служба Группы «Эталон» поставила перед собой цель – повысить производительность и надежность виртуальной среды VMware путем обновления и оптимизации ее программно-аппаратной составляющей. Кроме того, обеспечение непрерывности бизнеса требовало защиты критичных сервисов и приложений от возможных аппаратных сбоев.

Было принято решение организовать катастрофоустойчивую систему, перераспределив ресурсы в виртуальной инфраструктуре таким образом, чтобы не просто исключить единую точку отказа внутри отдельного ЦОДа, но и обеспечить работу приложений даже в случае полного выхода из строя одного из двух ЦОДов. Такой подход не только сохраняет работоспособность приложений при выходе из строя какого-либо оборудования, но и позволяет проводить работы по регламентному обслуживанию всей инфраструктуры, требующие выключения либо перезагрузки операционного окружения или аппаратного обеспечения, без остановки сервисов.

Одним из способов достижения поставленной цели стало внедрение массивов HPE Primera. В ходе проекта КОМПЛИТ выполнил поставку и инсталляцию двух систем хранения данных All-Flash HPE Primera A630, новейшей разработки вендора.

Одним из главных факторов в пользу выбора массивов HPE Primera стала технология HPE Peer Persistence. Она позволяет поддерживать на двух разных площадках идентичные копии одних и тех же данных (томов). Копии синхронизируются в реальном времени на аппаратном уровне с помощью технологии HPE Primera Remote Copy. Данные, записываемые на массив на основной площадке, считаются полностью записанными, только когда с резервной площадки придет подтверждение, что данные скопированы туда в целости и сохранности. При этом доступ на их чтение открыт для виртуальных машин на обеих площадках. В случае аварии на основной площадке доступ к данным, хранимым на резервной площадке, мгновенно переключается в полный режим «чтение-запись», что позволяет виртуальным машинам работать с томами без остановки. Время переключения не превышает нескольких десятков миллисекунд и не оказывает деструктивного влияния на работу приложений на узлах. Такая надежность обеспечивает бесперебойную работу бизнес-сервисов, что предельно важно в современном онлайн-мире.

Первый этап работ – повышение пропускной способности ЛВС – прошел в конце января 2020 года. Планировалось заменить коммутаторы HPE 6125G Ethernet Blade Switch, которые обеспечивали для серверов, установленных в блейд-шасси, скорость передачи данных не выше 1 Гбит/с, на модули HPE Virtual Connect Flex-10/10D, работающие на скорости до 10 Гбит/с на всех имеющихся портах. Эти работы требовали физического выключения узлов виртуализации, поэтому они проводились во внерабочее время, когда остановка серверов не могла существенно повлиять на бизнес-процессы компании.

Для реализации растянутого кластера VMware требовалось изменить конфигурацию виртуальной сетевой инфраструктуры: перевести виртуальные коммутаторы в режим Distributed Switches и задать новые настройки VLAN, что также требовало остановки сервисов. Таким образом, еще на этапе планирования было решено совместить работы по замене и настройке коммутирующего оборудования с внесением изменений в конфигурацию VMware. Совместными усилиями специалистов Группы «Эталон» и инженеров двух департаментов компании КОМПЛИТ все запланированные работы были успешно выполнены в заявленные сроки.

На следующем этапе были проведены работы по созданию единой сети хранения для двух ЦОДов, установке и вводу в эксплуатацию двух массивов HPE Primera A630. Для коммутации SAN между двумя площадками были выделены четыре физических одномодовых оптоволоконных канала, что позволило организовать между этими площадками две независимые фабрики сети хранения.
Основная сложность состояла в том, что процедура объединения SAN выполнялась в режиме онлайн, без остановки сервисов. Любая ошибка могла привести к недопустимым простоям бизнес-критичных приложений, поэтому после внесения любых изменений в конфигурацию проводился тщательный контроль доступности на серверах разделяемых ресурсов общих хранилищ на уровне драйверов многопутевого ввода-вывода (MPIO). В итоге, несмотря на то что процедуры объединения двух сетей хранения заняли довольно много времени, в процессе работ не случилось ни одной секунды простоя.

Технология HPE Peer Persistence позволила организовать резервирование на уровне системы хранения таким образом, что даже полный выход из строя одного из массивов не приводит к остановке сервисов – вычислительные узлы мгновенно переключаются на синхронные копии томов на резервном массиве, и обмен данными с дисковой подсистемой не прерывается.

Инженеры компании КОМПЛИТ, имеющие подтвержденную аккредитацию от HPE, провели установку и ввод в эксплуатацию двух массивов HPE Primera A630, распределили дисковые ресурсы между узлами будущего единого кластера VMware, настроили удаленную синхронную репликацию томов по протоколу Fibre Channel и внесли необходимые изменения в настройки узлов гипервизоров VMware для корректного функционирования HPE Peer Persistence.

На последнем этапе работ инженеры КОМПЛИТ совместно со специалистами Группы «Эталон» развернули объединенный растянутый виртуальный кластер VMware (VMware HA Stretched Cluster) в двух ЦОДах Группы. Преимущество такого кластера заключается в том, что в случае выхода из строя одного или нескольких узлов гипервизоров в одном из ЦОДов кластер позволяет автоматически перезапускать виртуальные машины на гипервизорах в другом ЦОДе.

После реализации последнего этапа в кластере было создано несколько тестовых виртуальных машин и проведено масштабное испытание всего комплекса. Тестировалось штатное перемещение виртуальных машин между узлами гипервизоров на разных площадках с помощью технологии VMware vMotion, эмулировались аварийные ситуации выхода из строя узлов гипервизоров и целиком массива HPE Primera. После успешного завершения тестов инженеры Группы «Эталон» уже своими силами провели миграцию продуктивных виртуальных машин в новую виртуальную среду. Работы по проекту были полностью закончены в марте 2020 года.

Консолидированное решение на базе VMware HA Stretched Cluster и HPE Peer Persistence позволило внедрить в Группе «Эталон» катастрофоустойчивую виртуальную инфраструктуру. Стопроцентное резервирование всех компонентов этой виртуальной инфраструктуры исключает единую точку отказа. Аварийная ситуация, связанная с отказом одного из массивов целиком, проходит прозрачно для хостов гипервизоров, операции ввода-вывода с дисковой подсистемой на узлах не прерываются, виртуальные машины продолжают штатно функционировать. Даже если один из ЦОДов полностью выйдет из строя, это не повлечет за собой длительного простоя, перерыв в обслуживании произойдет только на время автоматического перезапуска виртуальных машин на рабочей площадке.