ProCloud Yandex
03.09.2024
читать 12 минут

Имитация сбоев: Как Хаос-Инжиниринг Повышает Надежность IT-Систем

/upload/iblock/208/xtwj7180ppuprz3pj327xgquiy5wqxi7/Cover.jpeg

Прогресс в области крупномасштабных распределенных программных систем кардинально меняет подходы в разработке ПО. Мы быстро осваиваем практики, которые увеличивают гибкость разработки и скорость развертывания. Однако возникает не менее важный вопрос: насколько уверены мы в надежности сложных систем, которые запускаем в эксплуатацию? 

По данным Gremlin, бизнесы теряют миллионы долларов в час во время сбоев в системе. Каждая минута простоя высоконагруженной системы может привести к потере клиентов и ухудшению репутации бренда.

  1. Почему происходят сбои
  2. Как спланировать имитацию сбоя
  3. Плюсы и Минусы Хаос-Инжиниринга
  4. Расчет Финансовой Эффективности Хаос-Инжиниринга
  5. Выводы

Один из методов снижения убытков от технических инцидентов — это хаос-инжиниринг, намеренное создание сценариев отказов в бизнес-сервисах для повышения их надежности.

Цель — тестирование устойчивости приложений, выявление слабых мест и скрытых проблем в проектрировании и улучшение производительности системы в реальных условиях.

Это особенно важно для онлайн-сервисов финансовых и медицинских учреждений, телекоммуникационных, транспортных компаний, соцсетей и онлайн-магазинов.

Тестирование включает моделирование сбоев компонентов серверов, сетевой инфраструктуры или конкретных приложений. Существует стандартная модель тестирования, разработанная мировыми IT-компаниями и международным сообществом Awesome Chaos Engineering.

Почему происходят сбои

Согласно опросу Uptime Institute за 2023 год, проведенному среди 600 компаний различных отраслей, за последние три года большинство компаний сталкивались со сбоями в работе, более трети из них – серьезные инциденты повлекшие значительные убытки.

Менее половины владельцев и операторов дата-центров отслеживают метрики, необходимые для оценки устойчивости и выполнения предстоящих нормативных требований.

Частота и серьезность сбоев в дата-центрах остаются почти неизменными по сравнению с 2023 годом или демонстрируют незначительные улучшения. Операторы противостоят росту сложности, плотности и экстремальным погодным условиям благодаря инвестициям и хорошим методам управления.

Компании продолжают удовлетворять свои IT-потребности с помощью гибридных архитектур. Более половины рабочих нагрузок (55%) теперь размещены вне помещения, что продолжает постепенную тенденцию последних лет.

14-й Ежегодный Глобальный Опрос Дата-Центров Uptime

Основные причины:

  • Проблемы сети
  • Перезагрузка серверов из-за перебоев в электроснабжении
  • Ошибки программного обеспечения
  • Перебои в сервисах внешних IT-поставщиков

Поскольку сетевые сбои и проблемы с питанием составляют более половины всех инцидентов, риск потерь можно значительно снизить, выбирая дата-центры Tier III   с уровнем доступности не менее 99,982%.

Имитация сбоев: Как Хаос-Инжиниринг Повышает Надежность IT-Систем
Опрос Uptime Institute о Надежности Дата-Центров 2023

Как спланировать имитацию сбоя

Фиксируем норму: что такое стабильность вашего сервиса?

Этот этап задает отправную точку, от которой мы будем оценивать любые изменения при моделировании сбоя. Все отклонения измеряются относительно этой стабильной базы.

Гипотеза из реальных происшествий: на что ставим?

За основу гипотезы берутся реальные события: сбои серверов, поломки жестких дисков или сбои в сети. Прошлые инциденты и уязвимости системы формируют сценарий для проверки.

Сценарий отказа: что происходит, когда все идет не так?

Фиксируйте каждое событие в процессе эксперимента. Эти данные помогут понять природу сбоев и принять меры для их устранения.

Итрерации: автоматизация и повторение экспериментов

Новые версии бизнес-сервиса могут скрывать неожиданные уязвимости. Постоянное моделирование позволяет обнаружить и устранить потенциальные проблемы до их появления.

Для имитации сбоя не нужны отдельные специалисты, с этой задачей могут справиться DevOps-инженеры, разработчики, инженеры поддержки или системные администраторы.

Что нужно уметь

  • Работать с операционными системами, такими как Linux или Windows.
  • Иметь опыт с облачными платформами, например, Kubernetes или OpenShift.
  • Писать скрипты для моделирования сбоев, например, bash-скрипты в Linux.

Плюсы и Минусы Хаос-Инжиниринга

Преимущества

Необходимые вложения
и риски

  • Контролируемые эксперименты выявляют слабые места в сервисах, делая их надежнее.
  • Хаос-инжиниринг помогает найти узкие места в производительности, улучшая работу системы.
  • Разработчики лучше понимают, как их система ведет себя под нагрузкой, что улучшает мониторинг и диагностику.
  • Команды лучше разбираются и узнают о слабых сторонах сервиса и способах его улучшения, что способствует их профессиональному росту.
  • Хаос-инжиниринг подходит для любых сервисов, независимо от их архитектуры — будь то современные облачные или старые системы.
  • Требуется пересмотреть тестовые процессы и изменить архитектуру системы.
  • Внедрение хаос-инжиниринга требует значительных усилий: нужно время на обучение команды, разработку новых протоколов и переработку архитектуры сервиса.
  • Понадобятся дополнительные человеческие ресурсы.
  • Могут возникнуть перебои в работе системы, от 10 минут до нескольких дней. Хотя это часть процесса, пользователи могут временно столкнуться с проблемами.
  • Эксперименты в производственной среде могут вызвать ненужные неудобства для клиентов. Хотя необходимо допускать некоторый краткосрочный негативный эффект, ответственность хаос-инженера заключается в том, чтобы минимизировать и контролировать последствия таких экспериментов.

Расчет Финансовой Эффективности Хаос-Инжиниринга

Во-первых, учитывайте стоимость простоя сервиса. Эта цифра зависит от масштаба, сложности и специфики IT-системы. В среднем одна минута простоя в высоконагруженной системе стоит от $7,200 до $9,000, по данным Uptime Institute и Gremlin.

Чтобы рассчитать экономический эффект технического сбоя и затраты на использование хаос-инжиниринга, рассмотрите следующий сценарий: бизнес запускает новый продукт, инвестирует в рекламу, и трафик увеличивается, что приводит к перегрузке оборудования и сбою в работе сервиса.

Затраты на устранение инцидента

  • Потери от инцидента: упущенная прибыль
  • Аварийная команда: оплата труда 5-10 сотрудников
  • Разработка временного решения: ежедневные зарплаты команды разработчиков
  • Разработка постоянного решения: до 14 дней оплаты труда разработчиков

В случае хаос-инжиниринга

  • Стоимость моделирования: оплата труда 1-2 сотрудников
  • Разработка постоянного решения: до 14 дней оплаты труда разработчиков
  • В этом случае, инвестиции в хаос-инжиниринг будут в 2-3 раза меньше, чем стоимость реального сбоя.

Выводы

Хаос-инжиниринг помогает выявить скрытые проблемы в проектировании, масштабировании и устойчивости к сбоям, что в конечном итоге снижает финансовые потери и риски во время сбоев системы.

Практика актуальна как для выбора между размещением серверов на предприятии и облачной инфраструктурой, так и для использования стратегии мультиоблака.

Стоимость проведения моделирования отказов может варьироваться в зависимости от размера и сложности бизнес-системы, в то время как стоимость реальных сбоев может достигать десятков миллионов долларов.

Имитация сбоев: Как Хаос-Инжиниринг Повышает Надежность IT-Систем

Есть вопрос? Напишите в чат нашим экспертам!

Новости
13 сентября 202413.09.2024
читать 2 минутычитать 2 мин
Дайджест обновлений продуктов
18 апреля 202418.04.2024
читать 2 минутычитать 2 мин
Дайджест обновлений продуктов Q1
5 апреля 202405.04.2024
читать 1 минутучитать 1 мин
ProCloud CPO Диана Беда в рейтинге ИТ-лидеров от Global CIO

Что еще советуем почитать:

Какое облако подойдет для стартапа: выбор по ключевым параметрам
Технологии
13 августа 202413.08.2024
Какое облако подойдет для стартапа: выбор по ключевым параметрам

Ключевые факторы при выборе облачного провайдера для вашего стартапа: от экономической эффективности и масштабируемости услуг до безопасности и технической поддержки. Узнайте, как ориентироваться в сложностях облачных сервисов, чтобы эффективно оптимизировать инфраструктуру своего стартапа.

читать 12 минут
Управление и настройка ВМ на базе OPNsense
Технологии
15 июня 202415.06.2024
Управление и настройка ВМ на базе OPNsense

Узнайте, как управлять и настраивать роутер через консоль, SSH и веб-интерфейс. Наше пошаговое руководство охватывает настройку интерфейсов, назначение IP-адресов, смену паролей и сброс настроек с подробными инструкциями и полезными скриншотами.

читать 20 минут
IPMI: Ключ к эффективному управлению серверными платформами
Технологии
4 апреля 202404.04.2024
IPMI: Ключ к эффективному управлению серверными платформами

Всё о контроллере BMC для мониторинга и управления серверами удаленно: мониторинг состояния, обновление прошивки и доступ к консоли

читать 1 минуту