99,999% uptime: сказки маркетологов или показатель качественной работы?

Логотип компании
99,999% uptime: сказки маркетологов или показатель качественной работы?
изображение создано нейросетью
В наше время уже не существует компаний, которые не работают онлайн и не используют сетевую инфраструктуру. IT-World расскажет, какой параметр является важнейшим для каждой из них с точки зрения снижения риска простоев, сбоев и отказов.

Когда ваше приложение для вызова такси недоступно, вы не можете воспользоваться привычным и удобным сервисом. То же самое касается любых других приложений и систем от 1C до Telegram. Для частного лица это просто досадное неудобство, потеря времени и дополнительная (часто неожиданная) нервотрепка, а для бизнеса — упущенная выгода, удар по репутации надежного партнера и потеря доверия клиентов.

Uptime и downtime

В последние пару лет при сбоях в работе своих приложений и мессенджеров многие люди научились сверяться с сервисами Downdetector — «это только у меня или у всех так?». Однако мало кто задумывается, что стоит за понятиями uptime и downtime в сфере информационных технологий.

Uptime — доля времени, выраженная в процентах, когда тот или иной ресурс — веб-сайт или сервер данных — безотказно работает и отвечает на все запросы. Соответственно, downtime — когда ресурс не работает или не в состоянии ответить на все направляемые ему запросы и обслужить весь входящий трафик. Именно поэтому уровень uptime поставщика услуг столь важен при принятии решения о выборе того или иного сервиса.

Многие поставщики ИT-услуг, такие как провайдеры, интеграторы или операторы центров обработки данных (ЦОД), используют в своих рекламных и информационных материалах показатель uptime в 99,999%, заявляя, что это гарантия их стабильной работы. Давайте разберемся, насколько реальна такая цифра и как ее можно достичь не на бумаге, а в обычной жизни.

99,999% — это сколько?

Выражение «пять девяток» (99,999%) звучит внушительно. На практике оно означает, что допустимое время простоя составляет лишь 5 минут 15 секунд в год! Невероятно, правда?

Еще красноречивее цифры становятся, если сравнить, как на них влияет количество девяток после запятой:

  • 99% uptime — это 3 дня 15 часов простоя в год;
  • 99,9% uptime — это 8 часов 45 минут простоя в год;
  • 99,99% uptime — это 52 минуты 36 секунд простоя в год;
  • 99,999% uptime — это лишь 5 минут 15 секунд простоя в год!

100% Uptime — мечта или цель?

Представьте себе, что вы пришли на прием к стоматологу, а он говорит вам, что все 100% пломб, которые он вставил своим пациентам, до сих пор стоят на своих местах. Поверите вы ему? Будете у него лечиться?

Несмотря на любые усилия по повышению надежности работы компьютерного оборудования, достичь показателя в 100% uptime — задача невыполнимая. Причины этого просты:

  • Аппаратное обеспечение: любое оборудование рано или поздно выходит из строя.
  • Программное обеспечение: обновления и исправления ошибок (hotfix-патчи) могут потребовать перезагрузки серверов, а в процессе перезагрузки они не будут обрабатывать входящий трафик.
  • Человеческий фактор: несмотря на все принимаемые меры предосторожности и контроля, люди все равно время от времени допускают ошибки.
  • Стихийные бедствия, кибератаки и другие форс-мажорные обстоятельства могут нарушить нормальную работу дата-центра, хостинга или провайдера. Таким образом, когда вам обещают 100% uptime — перед вами тот самый «стоматолог», и его обещания не обязательно совпадут с вашим опытом взаимодействия.

На пути к идеалу

100% uptime, как и любой идеал, не будет достигнут никогда. Но, чтобы максимально приблизиться к заветным «пяти девяткам», дата-центры, хостинги и провайдеры услуг используют гайдлайны для бесперебойной работы, что называется, «написанные кровью» ИT-специалистов. а именно:

  • Все системы электропитания и охлаждения, а также оборудование сетевых соединений должно быть продублировано по схеме N+1, что позволяет продолжать бесперебойную работу даже в случае выхода из строя одного из компонентов.
  • Команда опытных экспертов в режиме «24×7» должна мониторить состояние всех систем и нагрузку на них и мгновенно реагировать на любые отклонения от нормального режима функционирования.
  • Регулярное техническое обслуживание оборудования и программного обеспечения должно осуществляться по установленному и строго соблюдаемому графику независимо от выходных и праздников.
  • Для обеспечения физической и кибербезопасности данных должны использоваться самые современные технологии и протоколы контроля доступа и средства защиты информации.

Также важно повышать квалификацию персонала: высококлассные специалисты, обладающие мощной теоретической базой и навыками оперативного реагирования на любые нештатные ситуации, — основа бесперебойной работы и «железа», и ПО.

Компании, которые дорожат своей репутацией и долей рынка, внедряют соответствующие меры в свою повседневную практику (например, вот стандартные требования к инфраструктуре ЦОДа).

404 и 503

Это «проклятые» цифры для тех айтишников и компаний, кто плохо освоил свое ремесло: известная в современном мире абсолютно всем 404 («сервер не найден») и 503 («сервис недоступен», то есть оборудование в данный момент включено и работает, но обслужить ваш запрос по той или иной причине не в состоянии).

Чтобы ни вы, ни ваши клиенты никогда не сталкивались с этими сообщениями, необходимо при выборе поставщика услуг, хостинга или провайдера учитывать не мифические 100% доступности или внушительное число девяток после запятой, а прозрачность в вопросах обеспечения этого самого необходимого нам как воздух uptime. Требуйте показать вам информацию о резервировании, мониторинге и протоколах безопасности, которые используются в данной конкретной компании, и тогда, может быть, вы не останетесь разочарованы сотрудничеством.

Опубликовано 28.02.2025

Похожие статьи