Применение подходов Chaos-Engineering в команде тестирования

Многие ИТ-структуры наслышаны о смелых подходах в обеспечении безопасности и тестировании стрессоустойчивости в таких крупных американских компаниях, как Amazon или Netflix. Существует целое направление для стресс-тестирования всей ИТ-инфраструктуры, называемое Chaos-Engineering. Это подход, при котором принимается решение направить на важнейшие кластеры ИТ-инфраструктуры реальные, но контролируемые разрушительные действия, чтобы проанализировать последствия разрушений и улучшить ИТ-систему.

Самые крупные сбои, например на ключевых дата-центрах, можно пережить с минимальными потерями, если начать с разработки особой микросервисной архитектуры и создания специализированных инструментов для тестирования — chaos testing. В этом также может помочь переход на облачную инфраструктуру. Все эти решения, безусловно, эффективны, но стоят немало и требуют значительных временных затрат и большой высококвалифицированной команды.

Российские ИТ-компании среднего и малого масштаба крайне редко могут в полную мощь использовать опыт зарубежных гигантов. Однако взять на вооружение некоторые практики будет нелишним. Самое важное — понимать принцип и главную цель хаос-инжиниринга: своевременно и регулярно обнаруживать проблемы, которые не устраняются должным образом, и обезопасить пользователей от влияния сбоев в ИТ-системах.

В малых и средних командах внедрением и использованием best practice хаос-инжиниринга может заняться QA-команда, которая будет организовывать и поддерживать процессы тестирования инфраструктуры, разрабатывать сценарии отказа системы, анализировать и фиксировать возникшие проблемы, выставлять приоритеты и продумывать поведение системы.

Применение хаос-инжиниринга при тестировании медицинского ПО

Рассмотрим на реальном примере, как QA-команда может организовать хаос-инжиниринг при тестировании микросервисного приложения.

Это веб-проект для врачей крупной клиники, где одной из ключевых фич приложения является аудиозапись с применением специализированного устройства с микрофоном в браузере через специальный плагин. Критичной ситуацией для данной фичи будет потеря данных при записи, поскольку доктор диктует диагноз пациента, анамнез или схему лечения. Такие случаи, когда врач надиктовывает информацию, а затем обнаруживает, что запись не ведется или потеряна, должны быть полностью исключены.

Для наглядности рассмотрим архитектурную схему фичи (схема представлена не в полном виде из-за NDA. — Прим. ред.).

Применение подходов Chaos-Engineering в команде тестирования. Рис. 1

Для эффективного проведения стресс-тестирования необходимо определить точки отказа. Этот термин применяется к программным компонентам, при отказе которых система принимает нерабочее состояние. В нашем случае точками отказа являются компоненты, поломка которых может привести к потере записи аудио:

База данных
Сервер
Веб-клиент
Аудио-плагин
Протокол связи
Пользовательский ПК

В соответствии с принципами хаос-инжиниринга важно сформировать ряд гипотез, отображающих поведение системы при самых разных сбоях. Ниже приведем несколько возможных проблем, а также предположения, как должна вести себя система.

Точка отказа	Возможная проблема	Поведение системы
Протокол связи	Что будет, если у пользователя пропадет интернет-соединение.	Аудио должно сохраниться на сервер, при сбое потеря аудио не должна превышать 1 секунду. Система уведомит пользователя о потере соединения. Система не позволит пользователю продолжить запись. Система будет выполнять попытки восстановить соединение
Сервер	Что будет, если при сохранении аудиофайла сервер будет недоступен.	Аудио должно сохраниться на сервер, при сбое потеря аудио не должна превышать 1 секунду. Система уведомит пользователя о потере соединения с сервером. Система не позволит пользователю продолжить запись. Система будет выполнять попытки соединиться с сервером.
Веб-клиент	Что будет, если во время записи произойдет падение браузера.	Аудио должно сохраниться на сервер, при сбое потеря аудио не должна превышать 1 секунду. Система позволит пользователю прослушать и завершить запись при входе в систему.
Пользовательский ПК	Что произойдет, если во время записи отключится электричество.	Аудио должно сохраняться в процессе записи на сервер. Система позволит пользователю прослушать и завершить запись
Аудио-плагин	Что будет, если во время записи произойдет падение плагина.	Аудио должно сохраняться в процессе записи на сервер. Система уведомит пользователя о проблеме с записью аудио. В случае наличия новой версии плагина предложит обновить его. Система не позволит пользователю продолжить запись.

И это лишь малая часть вероятных сценариев, которые могут произойти при записи аудио. При любой нештатной ситуации для пользователя важно:

Сохранить полученные данные
Получить уведомление о проблеме
Исключить ситуацию, когда система позволяет продолжить запись, но при этом не сохраняет данные
Реализовать алгоритм восстановления процесса записи
Получить возможность продолжить работу с записью после восстановления системы

Таким образом, разрабатывая фичу, архитектор совместно с аналитиком сразу минимизируют количество точек отказа и прорабатывают поведение системы при нештатных ситуациях. Помимо продуманной архитектуры, не меньшее значение имеет и качественное логирование. Например, важно логировать прерывание записи любым способом помимо стандартной функции завершения записи. Это поможет анализировать разные случаи, выявленные в медицинском учреждении, и повышать надежность системы.

Все сценарии формируются при общении с реальными пользователями, support-командой, а также при анализе баз данных и логов. На каждый из случаев должны быть разработаны сценарии поведения системы.

Часто можно встретить мнение, что хаос-инжиниринг должен проводиться на рабочих серверах, однако для медицинской сферы это слишком рискованно. Поэтому QA-команда проекта изучила самые частые пользовательские сценарии, которые могли приводить к сбоям:

Медленное интернет-соединение и частое прерывание пакетов передачи данных
Строгая политика безопасности при использовании браузера, что могло негативно повлиять на работу плагина
Временное отключение устройства записи во время диктовки
Доктор может забыть остановить запись и отойти к пациенту. Таким образом, на сервер может передаваться аудио длинной более пяти часов.

Благодаря использованию хаос-инжиниринга QA-команде проекта удалось найти и усовершенствовать архитектуру процесса записи. Ранее аудио сохранялось на пользовательский компьютер, что, во-первых, увеличивало количество возможных точек отказа, а во-вторых, в процессе тестирования выяснилось, что пользователи могут терять до 5 секунд аудио — а это критический дефект. На данный момент при любых сбоях потеря аудио может составлять максимум 1 секунду. Также мы смогли убрать риск недоступности или перезаполнения пользовательского жесткого диска.

Как внедрять хаос-инжиниринг в стратегию тестирования

Многие команды тестирования неосознанно проводят ряд проверок, связанных с надежностью системы. Однако хаос-инжиниринг — практика, которую необходимо выполнять на постоянной основе.

При внедрении данного подхода мы рекомендуем следовать такому алгоритму:

Выделить самую критичную функциональность для пользователей и негативные последствия. Часто это потеря данных, недоступность системы на определенное время, неверная отработка операций и т. п.
Отрисовать архитектуру и работу каждой из функций, определив критичные точки сбоя. Например, база данных, сервер, интернет-соединение, браузер и т. д.
На основе точек сбоя проработать и описать сценарии. К этому процессу важно привлечь всю команду, включая архитекторов, аналитиков, разработчиков и пользователей, так как сценарии могут оказаться весьма неожиданными, что видно на примере с забытым включенным микрофоном. Важно помнить, что некоторые сценарии могут быть достаточно сложными для воспроизведения, поэтому DevOps-специалисты становятся незаменимыми помощниками при внедрении хаос-инжиниринга.
Разработать гипотезы поведения системы при сбоях. Тут важно понимать и знать SLA или требования заказчика, а также специфику работы пользователей. Например, есть системы, которые должны быть восстановлены в течение 20–30 минут после сбоя, а пользователи должны четко понимать, когда им ожидать восстановления работы.
Провести все необходимые испытания. Команда должна самостоятельно решить, где и как проводить испытания по хаос-инжинирингу. Главное — оценить силы и затрачиваемое время на данные тесты и быть готовыми к экстренному восстановлению системы.
Зафиксировать и проанализировать полученные результаты, проработать и реализовать техническое задание для повышения стабильности и стрессоустойчивости системы.
Запланировать повторные испытания, проработать автоматизацию тестов. Важно не забывать, что тесты, которые проводились один раз, не являются гарантией стабильности системы. Это должны быть периодические испытания, в идеале — автоматизированные.

***

Мы разобрали лишь малый пример, как хаос-инжиниринг может помочь команде тестирования предотвратить крайне неприятные последствия разного рода сбоев, и не рассматривали специализированные инструменты. Погружаясь в эту область, необходимо расширять испытания и проверять не только работу приложения, но и тактику действий техподдержки при крупных падениях, скорость восстановления резервной БД и сервисов, отработку оповещения пользователей о произошедшем сбое и много другое. Данная область безгранична, а начать можно с малых и контролируемых участков тестирования.

Журнал IT Manager

Опубликовано 29.11.2023

Об авторах

Галина Яшина

Руководитель QA-отдела ИТ-компании SimbirSoft

Информационная безопасность Безопасность Управление рисками (Risk management)

Предыдущая
Топ-5 слабых мест банковской системы, о которых нужно знать каждому ИT-специалисту в 2023 году

Следующая
Как обеспечить безопасность информационных активов

Новостная лента

Главное за неделю

Нажимая на кнопку, я принимаю условия соглашения.

Соглашение об использовании сайта

Внимательно прочитайте настоящее Соглашение, прежде чем начать пользоваться Сайтом. Вы обязаны соблюдать условия настоящего Соглашения, заходя на Сайт и используя сервисы, предлагаемые на Сайте. В случае, если Вы не согласны с условиями Соглашения, Вы не можете пользоваться Сайтом или использовать любые сервисы, предлагаемые на Сайте, а также посещать страницы, размещенные в доменной зоне Сайта. Начало использования Сайта означает надлежащее заключение настоящего Соглашения и Ваше полное согласие со всеми его условиями.

1. Термины и определения

1.1. Компания - Общество с ограниченной ответственностью «ИТ Медиа» (ООО «ИТ Медиа»).

1.2. Пользователь - лицо, получающее доступ к сервисам и информации, размещенным на Сайте.

1.3. Сайт – веб-сайт Компании, размещенный в сети Интернет по адресу https://www.it-world.ru.

1.4. Соглашение - настоящее Соглашение между Пользователем и Компанией, устанавливающее правила использования Сайта, включая графические изображения, элементы дизайна и средства индивидуализации, текстовую информацию и документацию, программы для ЭВМ и файлы для скачивания, любые иные произведения, объекты и материалы Сайта, а также условия и правила размещения Пользователем информации и материалов в соответствующих открытых разделах Сайта.

2. Общие положения и условия

2.1. Любые материалы, файлы и сервисы, содержащиеся на Сайте, не могут быть воспроизведены в какой-либо форме, каким-либо способом, полностью или частично без предварительного письменного разрешения Компании, за исключением случаев, указанных в настоящем Соглашении. При воспроизведении Пользователем материалов Сайта ссылка на Сайт обязательна, при этом текст указанной ссылки не должен содержать ложную, вводящую в заблуждение, уничижительную или оскорбительную информацию. Перевод, переработка (модификация), любое изменение материалов Сайта, а также любые иные действия, в том числе удаление, изменение малозаметной информации и сведений об авторских правах и правообладателях, не допускается.

2.2. Действующая редакция настоящего Соглашения размещена в сети Интернет на Сайте по адресу: https://www.it-world.ru/about/agreement.php. Компания вправе в любое время в одностороннем порядке изменять условия настоящего Соглашения. Такие изменения вступают в силу по истечении 2 (двух) дней с момента размещения новой версии Соглашения в сети Интернет на Сайте. При несогласии Пользователя с внесенными изменениями он обязан удалить все имеющиеся у него материалы Сайта, после чего прекратить использование материалов и сервисов Сайта. Ваше регулярное посещение данного Сайта считается вашим убедительным принятием измененного соглашения, поэтому Вы обязаны регулярно просматривать настоящее Соглашение и дополнительные условия или уведомления, размещенные на Сайте.

3. Обязательства Пользователя

3.1. Пользователь обязуется не предпринимать действий, которые могут рассматриваться как нарушающие российское законодательство или нормы международного права, в том числе в сфере интеллектуальной собственности, авторских и/или смежных правах, а также любых действий, которые приводят или могут привести к нарушению нормальной работы Сайта и сервисов Сайта.

3.2. Любые средства индивидуализации, в том числе товарные знаки и знаки обслуживания, а равно логотипы и эмблемы, содержащиеся на страницах Сайта, являются интеллектуальной собственностью их правообладателей. Пользователю Сайта запрещено воспроизводить или иным способом использовать указанные средства индивидуализации и/или их элементы без предварительного письменного разрешения соответствующих правообладателей.

3.3. Компания стремится обеспечить, однако не контролирует и не гарантирует конфиденциальность и охрану любой информации, размещенной на Сайте или полученной с Сайта. Компания принимает разумные меры в целях недопущения несанкционированного разглашения размещенной Пользователем на Сайте информации третьим лицам, однако не несет ответственность в случае, если такое разглашение было допущено. В этой связи, передача информации на Сайт означает согласие Пользователя на любое воспроизведение, распространение, раскрытие и иное использование такой информации. Размещая информацию и материалы, включая, фотографии и изображения, Пользователь также гарантирует, что обладает всеми правами и полномочиями, необходимыми для этого, с учетом условий настоящего Соглашения и что такое размещение не нарушает охраняемые законом права и интересы третьих лиц, международные договоры и действующее законодательство Российской Федерации.

3.4. Пользователь самостоятельно несет ответственность за любую информацию и материалы, размещенные им на Сайте. Компания не инициирует размещение указанной информации, не выбирает получателей информации, не влияет на содержание и целостность размещаемой информации, а также в момент размещения Пользователем информации на Сайте не знает и не может знать, нарушает ли такое размещение действующее законодательство Российской Федерации, однако Компания вправе отслеживать, просматривать и/или удалять любую информацию и материалы, размещенные Пользователем на Сайте. При размещении любой информации и материалов Пользователь не становится соавтором Сайта и отказывается от каких-либо претензий на такое авторство в будущем. Компания не выплачивает Пользователю авторского или любого иного вознаграждения, как в период, так и по истечении срока действия настоящего Соглашения.

3.5. В случае предъявления третьими лицами претензий Компании, связанных с нарушением Пользователем условий настоящего Соглашения, а равно с размещенной Пользователем информацией на Сайте, указанный Пользователь обязуется самостоятельно урегулировать такие претензии, а также возместить Компании все понесенные убытки и потери, включая возмещение штрафов, судебных расходов, издержек и компенсаций.

3.6. Компания не несет ответственности за посещение Пользователем, а также любое использование им внешних ресурсов (сайтов третьих лиц), ссылки на которые могут содержаться на Сайте. Компания не несет ответственности за точность, надежность, достоверность и безопасность любой информации, материалов, рекомендаций и сервисов, размещенных на внешних ресурсах. Использование внешних ресурсов осуществляется Пользователем добровольно, исключительно по собственному усмотрению и на свой риск.

3.7. Компания стремится к обеспечению достоверности информации, размещенной на Сайте, однако не несет ответственности за любые неточности и/или недостоверность информации, а равно сбои в работе предоставляемых через Сайт сервисов. Пользователь согласен с тем, что Компания не несет ответственность и не имеет прямых или косвенных обязательств перед Пользователем в связи с любыми возможными или возникшими потерями, или убытками, связанными с любым содержанием Сайта, интеллектуальной собственностью, товарами или услугами, доступными на нем или полученными через внешние сайты или ресурсы либо иные ожидания Пользователя, которые возникли в связи с использованием размещенной на Сайте информации или ссылки на внешние ресурсы. Ни при каких условиях, включая, но не ограничиваясь невнимательностью или небрежностью Пользователя, Компания не несет ответственности за любой ущерб (прямой или косвенный, случайный или закономерный), включая, но не ограничиваясь потерей данных или прибылей, связанной с использованием или невозможностью использования Сайта, информации, файлов или материалов на нем, даже если Компания или ее представители были предупреждены о возможности такой потери. В случае, если использование Сайта приведёт к необходимости дополнительного обслуживания, исправления или ремонта любого оборудования, а равно восстановления данных, все связанные с этим затраты оплачиваются Пользователем самостоятельно.

3.8. Вся представленная на Сайте информация предоставляется «как есть», без каких-либо гарантий, явных или подразумеваемых. Компания полностью, в той мере, в какой это разрешено законом, отказывается от какой-либо ответственности, явной или подразумеваемой, включая, но не ограничиваясь неявными гарантиями пригодности к использованию, а также гарантиями законности любой информации, продукта или услуги, полученной или приобретенной с помощью этого Сайта.

3.9. Пользователь согласен, что все материалы и сервисы Сайта или любая их часть могут сопровождаться рекламой. Пользователь согласен с тем, что Компания не несет какой-либо ответственности и не имеет каких-либо обязательств в связи с такой рекламой.

4. Условия обработки и использования персональных данных. Принимая условия настоящего Соглашения Пользователь выражает свое согласие на:

4.1. Предоставление своих персональных данных, включающих имя, номера контактных телефонов; адреса электронной почты; место работы и занимаемая должность; пользовательские данные (сведения о местоположении; тип и версия ОС; тип и версия Браузера; тип устройства и разрешение его экрана; источник откуда пришел на сайт пользователь; с какого сайта или по какой рекламе; язык ОС и Браузера; какие страницы открывает и на какие кнопки нажимает пользователь; ip-адрес) своей волей и в своем интересе.

4.2. Цель обработки персональных данных:

предоставление Пользователю услуг Сайта;
направление уведомлений, касающихся услуг Сайта;
подготовка и направление ответов на запросы Пользователя;
выполнение регулярной информационной рассылки;
направление информации о продуктах и услугах Компании, а также рекламно-информационных сообщений, касающихся продукции и услуг Компании и ее партнеров.

4.3. Перечень действий с персональными данными, на которые Пользователь выражает свое согласие:

сбор, систематизация, накопление, хранение, уточнение (обновление, изменение), использование, обезличивание, передача третьим лицам для указанных выше целей, а также осуществление любых иных действий, предусмотренных действующим законодательством РФ как неавтоматизированными, так и автоматизированными способами.

4.4. Компания обязуется принимать все необходимые меры для защиты персональных данных Пользователя от неправомерного доступа или раскрытия.

4.5. Настоящее согласие действует до момента его отзыва Пользователем путем направления соответствующего уведомления заказным письмо с уведомлением на адрес Компании.

5. Прочие положения

5.1. Использование материалов и сервисов Сайта, а равно размещение на нем материалов Пользователя, регулируется нормами действующего законодательства Российской Федерации. Все возможные споры, вытекающие из настоящего Соглашения или связанные с ним, подлежат разрешению в соответствии с действующим законодательством Российской Федерации по месту нахождения Компании.

5.2. Признание судом какого-либо положения Соглашения недействительным или не подлежащим принудительному исполнению не влечет недействительности иных положений Соглашения.

5.4. Бездействие со стороны Компании в случае нарушения кем-либо из Пользователей положений Соглашения не лишает Компанию права предпринять соответствующие действия в защиту своих интересов и защиту авторских прав на охраняемые в соответствии с законодательством материалы Сайта позднее.

Пользователь подтверждает, что ознакомлен со всеми пунктами настоящего Соглашения и безоговорочно принимает их.

По всем вопросам, связанным с нарушением авторских прав Компании, незаконного использования материалов Сайта или размещением ложной, вводящей в заблуждение информации о Компании, просим обращаться по  следующим контактным данным:

ООО «ИТ Медиа» ИНН 7802426999, КПП 781301001,
Санкт-Петербург, ул Большая монетная, 16 / К. 30 литера А, пом. 14-Н №30