Как выстроить защиту ЦОДа от чрезвычайных ситуаций

Как выстроить защиту ЦОДа от чрезвычайных ситуаций

Изображение создано нейросетью

Как выстроить защиту ЦОДа так, чтобы сохранить устойчивость бизнес-процессов в непредвиденных ситуациях? Какие компоненты ЦОДа требуют защиты в первую очередь? Как интегрировать управление инцидентами со стратегией безопасности?

Существует множество угроз бесперебойной работе ЦОДов: сбои в электроснабжении, аварии на линиях связи, пожары, поломки серверного оборудования и кондиционеров и т. д. В идеале не должно возникать ситуаций, когда при возникновении угроз требуется аварийное восстановление. Все должно быть спроектировано и настроено так, чтобы ЦОД оставался работоспособен в любой ситуации. Однако не всегда это происходит, кроме того, сегодня появляются новые угрозы, которые невозможно предугадать на этапе проектирования. Поэтому на случай любой ЧС должны быть обязательно составлены схемы действий. Сегодня мы решили актуализировать информацию о том, как выстроить защиту ЦОДа так, чтобы сохранить устойчивость бизнес-процессов в непредвиденных ситуациях.

Почему планы на случай ЧС есть не у всех

Тот факт, что не в каждом ЦОДе заранее решено, какие действия предпринимать в случае возникновения чрезвычайной ситуации, обычно объясняется одной из двух причин:

  • Нежелание заранее представлять свой бизнес в критических ситуациях и готовиться к негативным сценариям, когда еще все в порядке и ничего не предвещает проблем.
  • Неготовность ответственных лиц вкладывать средства в подготовку инженерной инфраструктуры. Чтобы получить гарантии безопасности, нужны вложения в отладку процедур, которые в случае форс-мажора помогут выйти из нестандартной ситуации. Экономить в надежде на авось —обычное дело для некоторых.

Есть и третья причина, которая заключается в том, что с развитием технологий появляются новые угрозы, и пока неясно, как правильнее реагировать на них.

  • Еще несколько лет назад никому не приходилось всерьез задумываться о защите от дронов. Сейчас такая угроза есть, а четких рекомендаций, какая защита станет оптимальной с учетом госрегламентов, еще не сформировано.
  • Появляются новые категории оборудования, к которому невозможно достать запчасти. Будь то плановый или внеочередной ремонт, к нему подготовиться не так легко, как прежде. Бизнесу приходится решать: либо искать способы все же достать необходимое, либо отказаться от данного оборудования, даже если оно еще рабочее. Любой из этих сценариев требует и сложных предварительных расчетов и денежных вложений.

Немаловажным фактором является качество поставляемого в ЦОД оборудования и сервисной поддержки

Какие компоненты ЦОДа требуют защиты в первую очередь? Надежно защищены должны быть абсолютно все компоненты, обеспечивающие непрерывность бизнес-процессов. С точки зрения инженерной составляющей эта процедура давно проработана, здесь не надо изобретать велосипед. Инженерная инфраструктура ЦОДа — консервативная система, относительно функционирования которой существует много устоявшихся международных стандартов и профессиональных соглашений. Так, де-факто стандартом для ЦОДов является собственная классификация Uptime Institute — компании, сертифицирующей ЦОДы в соответствии с системой классификации Tier. По уровню Tier заказчик понимает, какие гарантии дает выбранный ЦОД, как в нем обеспечена работа оборудования, какие процедуры предусмотрены на случай выхода из строя различных подсистем.

Как интегрировать управление инцидентами со стратегией безопасности

Недопустимо интегрировать управление инцидентами в общей корпоративной стратегии безопасности на этапе, когда ЦОД уже запущен и функционирует. Любой вопрос о надежности ЦОДа с точки зрения инженерной инфраструктуры закладывается и прорабатывается на стадии проектирования. Далее в процессе строительства ЦОДа на каждом этапе — пусконаладки, запуска, появления клиентов и т. д. — доступность всех необходимых мер перепроверяется, а при необходимости оперативно продумываются варианты замены.

Если это корпоративный ЦОД и он отвечает за работу бизнес-процессов корпорации, то в общую стратегию безопасности включаются все нюансы, связанные с этими бизнес-процессами.

Также должны быть официально заключены и подписаны все договоры с компаниями, которые так или иначе задействованы в процессе защиты ЦОДа. Например, в договорах с поставщиками топлива для дизельных генераторов в SLA прописывается, за сколько часов и в каком объеме гарантируются поставки.

Причины ошибок при защите ЦОДов от ЧС

Популярная фраза о том, что около 60% ошибок происходят из-за человеческого фактора, соответствует истине.

Ошибки могут быть допущены на самых разных стадиях строительства и эксплуатации ЦОДа:

  • Например, проектировщик, прорабатывая систему резервирования, может не учесть всех нюансов, и в случае ЧС системам резервного питания не хватит мощности, чтобы обеспечить работу ЦОДа на 100%.
  • Даже если проектировщик все предусмотрел и рассчитал, монтажники могут допустить ошибки при строительстве.
  • При эксплуатации оператор может принять неправильное решение или не принять его вовремя, если он оказался невнимателен в определенный период работы или у него не хватило компетенций.

С проблемой влияния человеческого фактора частично помогает справиться автоматизация процессов

Есть старая программистская шутка: если вы пытаетесь автоматизировать бардак, то вы и получите автоматизированный бардак. Действительно, автоматизировать можно только процедуры, которые уже разработаны и нашли применение. Автоматизация позволяет этим процедурам работать проще и быстрее, в бесшовной связке друг с другом.

Поэтому, когда мы хотим автоматизировать работу средств противодействия угрозам ЧС, прежде всего нужно создать модель угроз, то есть прогнозировать критическую ситуацию: что будет, если пропадет электропитание или сломается холодильное оборудование. Далее необходимо проработать процедуры ответа на угрозы. И только после этого проводить автоматизацию, которая повысит вероятность четкого и своевременного выполнения этих процедур.

Простой пример: в ЦОДе пропадает питание. Переключение на ИБП происходит автоматически, но аккумуляторы ИБП не бесконечны, их заряд заканчивается за минуты, а хранить в ЦОДе огромное количество АКБ экономически нецелесообразно. В течение 1–5 минут нужно запустить дизель-генераторные установки, это можно делать вручную. Однако вероятность того, что диспетчер успеет запустить генераторную установку в течение 5 минут, не стопроцентная. Системы автоматизации обеспечивают автоматический запуск вовремя.

И конечно, нужно помнить, что любую автоматизированную систему надо периодически тестировать, чтобы быть уверенным, что в нужный момент она сработает правильно.

Подходы к аварийному восстановлению

В некоторых случаях системы автоматизации позволяют обнаружить проблему еще на этапе, когда можно ее или погасить, или подготовиться к ее решению. Тогда автоматизация становится ключевым инструментом для выполнения плана защиты от угроз. И наконец, практически любая система резервирования в очень высокой степени рассчитана на автоматизированное принятие решения.

В идеале не должно возникать ситуаций, когда требуется аварийное восстановление. Система должна быть спроектирована и выполнена так, чтобы оставаться работоспособной в любой ситуации. Но поскольку на практике это достижимо не в 100% случаев, считается, что достаточно обеспечить работоспособность системы в течение необходимого времени. Тогда аварийное восстановление как таковое либо не потребуется, либо понадобится только в случае форс-мажора.

Есть и альтернативные подходы. Например, инфраструктура «Яндекса» представляет собой сеть ЦОДов. «Яндекс» намеренно резервирует не системы внутри ЦОДа, а весь центр обработки данных и периодически имитирует ситуации выхода из строя одного из ЦОДов, выключая его полностью. Задача остальных таких центров обработки — равномерно распределить между собой нагрузку выбывшего из сети ЦОДа.

Что необходимо для эффективного управления в кризисных ситуациях

Во-первых, нужно, чтобы система защиты от непредвиденных ситуаций была спроектирована с учетом всех технологических и административных нюансов. Такая система сработает автоматически и не потребует присутствия человека для принятия решения. Во-вторых, если участие специалиста все же предполагается, ему нужен четкий алгоритм, согласно которому он будет действовать. Если в схеме действий есть развилка, должны быть прописаны критерии выбора. При наличии такой документации единственное, что потребуется от персонала, — неукоснительно следовать инструкциям. Кроме этого, большим преимуществом ЦОДа является штат не только высококомпетентных, но и высокоответственных сотрудников. Ну и наконец, немаловажным фактором является высокое качество поставляемого в ЦОД оборудования и сервисной поддержки. Все это повышает защищенность ЦОДа от ЧС.

Опубликовано 25.06.2024

Похожие статьи