Disaster recovery – это восстановление работоспособности системы после серьезной аварии. Обычно данный термин используется по отношению к IT-инфраструктуре. Задача любой компании заключается в построении системы таким способом, чтобы удалось минимизировать риски, в том числе от наводнения, землетрясений и других чрезвычайных ситуаций. Такой подход позволит выполнить аварийное восстановление данных в кратчайшие сроки.
Что такое Disaster Recovery
Речь идет про специальное оборудование и алгоритмы восстановления работоспособности IT-инфраструктуры компании. В аварийное восстановление заложено 2 базовых понятия:
- RPO или максимальная потеря данных. В этом случае все зависит от периодичности создания бэкапов. Например, некоторые компании делают резервную копию каждый час. При системном сбое потеря данных составит меньше часа.
- RTO или максимальное время простоя. В данном случае определяется время, требуемое для восстановления данных и работоспособности системы.
Важно. Чем меньше RPO и RTO, тем быстрее можно вернуться к стабильной работе системы. Исходя из целевых значений, план аварийного восстановления информационной системы может меняться.
Способы организации DR
Есть несколько способов уменьшить время простоя и снизить объем потери данных. При этом для увеличения надежности IT-инфраструктуры требуется иметь уверенный запас железа. Таким образом, в идеале – это покупать оборудование сразу для двух IT-систем. Это очень дорого и редко бывает возможным, поэтому стоит рассмотреть все существующие способы организации DR.
На арендованных физических серверах
Такой DRP план аварийного восстановления предполагает создание полного дубля существующей IT-инфраструктуры, но она физически будет находиться в другом месте. Основным недостатком такого способа считается отсутствие гибкости, так как внесение изменений в сетевую инфраструктуру (в том числе добавление нового узла) будет требовать выполнение аналогичных изменений в сети-дублере.
Использование облачных сервисов
Данный способ создания DR считается наиболее оптимальным и бюджетным. Его использует большинство компаний, которые заинтересованы в создании плана аварийного восстановления системы. Если использовать ресурсы ProСloud, то инфраструктуру можно легко масштабировать по мере необходимости.
Характеристики Disaster Recovery
К основным характеристикам относятся уже упомянутые ранее RTO и RPO. Выбирая их целевые значения, компания должна понимать, какой именно бюджет готова выделить на аварийное восстановление системы. В идеале план восстановления системы должен быть у каждой компании. В противном случае при крупной аварии есть риск, что фирма не сможет работать в течение длительного времени, теряя деньги и репутацию.
Всем ли нужен Disaster Recovery?
Иметь план DR рекомендуется всем, однако по факту есть некоторые компании, которым он требуется практически в обязательном порядке. Неработоспособность сервисов фирмы будет результатом не только финансовых потерь, но и репутационных. В результате этого клиенты могут перейти к конкурентам. Стоит подробнее рассмотреть, кому именно требуется план аварийного восстановления системы.
- Банки федерального уровня. Этим компаниям требуется обеспечивать постоянный доступ к мобильному приложению и к своим онлайн сервисам, чтобы физические и юридические лица могли совершать транзакции. Даже 10 минут простоя будут стоит несколько миллионов рублей. Потеря данных даже за один час может стать настоящей проблемой, которая приведет к уходу клиентов к конкурентам.
- Ритейл. В этом случае клиенты не могут сделать заказ. Час простоя может стать причиной потери нескольких сотен тысяч рублей. При этом многие клиенты точно обратились к конкуренту, чтобы получить услугу. Есть высокая вероятность, что следующий заказ тоже будет сделан через компанию-конкурента. Те, кто успел сделать заказ перед шатдауном, не смогут получить его, так как информация за определенный период будет потеряна.
Еще план аварийного восстановления системы должен быть у государственных структур и у всех крупных компаний, которые дорожат своей репутацией.
Гайд по репликации инфраструктуры в облако
Стоит подробнее рассмотреть, как именно организовать аварийное восстановление системы.
- Решить, какие именно сервисы требуется продублировать. Не обязательно полностью клонировать инфраструктуру, только критичные для бизнеса узлы должны быть продублированы.
- Выбрать провайдера или принять решение о создании собственной резервной инфраструктуры. Требуется учитывать расположение дата-центров, предлагаемые услуги, уровень надежности компании, пропускную способность, стоимость.
- Выбрать техническое решение. Практика показывает, что провайдеры предлагают несколько решений. То есть, необходимо выбрать оптимальный вариант, исходя из предлагаемых условий и финансовых затрат.
- Создать план аварийного восстановления. Он нужен для оптимизации процесса и снижения вероятности возникновения ошибки. Требуется подробно прописать план действий, в том числе особенности взаимодействия со СМИ, если это актуально для конкретно взятой компании.
- Выполнить настройку сетевой инфраструктуры, настроить NAT и межсетевые экраны.
- Настроить DR и техническое решение для интересующих сервисов.
- Выполнить тестирование, чтобы проверить, что все настройки заданы правильно.
- Установить периодичность тестирования DR. Рекомендуется проводить эту операцию не реже 1 раза в 2 месяца.
Выполнив эти действия, можно пользоваться возможностями, которые предоставляет DR.
Технические решения для DR
Есть несколько технических решений для реализации DR. Стоит знать о них, чтобы понимать, какой вариант будет оптимальным в конкретно взятом случае.
Veeam Cloud Connect
Про работу с бэкапами с помощью Veeam Backup & Replication мы рассказывали ранее в нашей статье “Инкрементальный бэкап в Proxmox VE с помощью VBR”. Но данный продукт позволяет хранить не только бэкапы, но и оперативно восстанавливать сведения при критическом сбое системы. Особенностями этого решения являются:
- минимальная скорость восстановления около 1 минуты;
- необходимо иметь специальную лицензию для использования Veeam Cloud Connect;
- отсутствует возможность проведения тестирования системы в автоматическом режиме.
Стоит понимать, что Disaster Recovery – это довольно дорогостоящее решение. Но для многих компаний даже небольшой перебой в работе системы считается критическим, он может привести к потере миллионов рублей и многих клиентов. Таким образом, использование DR позволяет окупить потенциальные риски и обеспечить стабильную работу IT-инфраструктуры в круглосуточном режиме.