Как один неисправный аккумулятор парализовал все госсервисы Южной Кореи

Причина цифрового коллапса ̶ плановое обслуживание
Инцидент, который привел к общенациональному сбою, начался с, казалось бы, рутинной процедуры. 26 сентября на объекте NIRS проводились плановые работы по повышению безопасности. На этот раз персонал должен был переместить литий-ионные батареи из серверной комнаты на пятом этаже в подвал. Целью было отделить потенциально опасные источники энергии от критической IT-инфраструктуры. Однако ирония заключалась в том, что именно эта мера предосторожности стала спусковым крючком катастрофы.
По предварительным данным, при отсоединении одной из батарей, произведенных компанией LG и установленных еще в 2012-2013 годах, произошел скачок напряжения. Это вызвало явление, известное как «тепловой разгон» — неконтролируемый саморазогрев, приведший к взрыву и интенсивному пожару. Огненная стихия бушевала почти 22 часа, а температура внутри помещения превышала 160°C, что делало тушение чрезвычайно сложным.
От загоревшегося аккумулятора к цифровому параличу
Последствия пожара были мгновенными и масштабными. Чтобы предотвратить больший ущерб, правительство было вынуждено в превентивном порядке отключить 647 онлайн-систем. Из них 96 были уничтожены огнем физически, а остальные оказались недоступны. Вся жизнь страны перешла в офлайн-режим. Перестали функционировать мобильные удостоверения личности, что создало хаос в аэропортах и банках. Была парализована работа почтовой службы, нарушены системы логистики и отслеживания экстренных вызовов. Внутренняя правительственная сеть «Оннара», используемая для документооборота, легла.
Особенно болезненной оказалась потеря 858 ТБ данных на правительственном облачном сервисе «G-Drive». Его история стала наглядным уроком того, чем отличается простое хранение данных от настоящей стратегической защиты. Резервное копирование — это не просто цифровой пластырь, а стратегический щит, предназначенный для обеспечения устойчивости и безопасности данных в любой ситуации. Для государственных органов, чья работа ежесекундно зависит от данных, как кровообращение для живого организма, его отсутствие обернулось финансовым и операционным коллапсом.
Для министерств, активно использовавших G-Drive, последствия оказались катастрофическими. Большинство чиновников страны хранили все рабочие материалы на G-Drive и использовали их по мере необходимости. Соответственно, работа всех ведомств была остановлена.
Сложившаяся ситуация с болезненной наглядностью разделила министерства и госсервисы страны на тех, кто делал резервные копии, и тех, кто пока их не делал. Те, чьи системы имели дубликаты данных, пусть и с задержкой, но могут рассчитывать на восстановление.
Как выстроить непробиваемую защиту данных
Анализ причин катастрофы указал на несколько системных просчетов, которые теперь придется исправлять не только в Южной Корее, но и по всему миру:
Во-первых, критически важно пересмотреть подход к хранению литий-ионных батарей в дата-центрах. Их больше нельзя рассматривать как рядовое оборудование. Требуется не только физическое отделение аккумуляторных модулей от серверов, но и оснащение специализированными системами пожаротушения, рассчитанными именно на тушение батарей.
Во-вторых, инцидент в NIRS показал смертельную опасность излишней централизации и пренебрежения резервированием. История с G-Drive доказала, что «слишком большой объем» — не оправдание, а смертельный приговор для данных. Будущее — за гибридной архитектурой, которая сочетает в себе централизованные мощности с региональными узлами отказоустойчивости и облачными решениями, обеспечивающими мгновенное переключение в случае сбоя. Работоспособность такой системы должна регулярно проверяться, а планы аварийного восстановления должны быть не просто документом, а регулярно отрабатываемой на практике процедурой.
Впрочем, несмотря на масштаб катастрофы, восстановительные работы продолжаются. По последним данным, на 7 октября, из 647 пострадавших систем удалось вернуть к жизни 163. Это составляет 25.2% от общего числа. Среди восстановленных — внутренняя электронная почта ключевых министерств и система управления рабочими процессами.
Правительство страны заявило, что работает над реанимацией оставшихся сервисов. Разработан план по переносу 96 уничтоженных систем в другой национальный центр обработки данных. Ожидается, что полное восстановление всех функций займет около месяца.
Между тем, IT-World рассказывает, как построить систему бэкапов, которая не сломается под нагрузкой роста, не запутается в сети филиалов и региональных отделений, а также устоит в кризис.
Источник: Datacenterdynamics

