Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Билеты ПП.03.docx
Скачиваний:
2
Добавлен:
01.07.2025
Размер:
928.78 Кб
Скачать

2. Определяем необходимые ресурсы и условия для восстановления

В процессе аварийного восстановления можно выделить четыре этапа:

  1. Пользовательский сервис не работает.

  2. Пользовательский сервис работает с ограничениями (низкое качество или временное решение).

  3. Пользовательский сервис восстановлен в полном объеме, но с деградацией одной или нескольких ИТ-систем и/или отсутствием необходимых резервов.

  4. Все ИТ-системы восстановлены, необходимые резервы пополнены.

При планировании аварийного восстановления нас, в первую очередь, интересуют необходимые ресурсы и условия для достижения 3-го этапа, как необходимое и достаточное условие для полноценного восстановления конечного пользовательского сервиса. Обычно это:

  • резервные единицы оборудования с аналогичным функционалом и мощностью.

  • резервные копии данных/конфигураций и доступ к ним в момент аварии.

  • дистрибутивы программного обеспечения.

  • доступ к оборудованию и приложениям (как физический, так и информация по паролям).

  • специалист соответствующей квалификации.

В зависимости от точек отказа, может вноситься своя специфика: в случае электроснабжения требуется либо дизель, либо резервная площадка для запуска систем, в случае отказа ИБП требуется переключение на питание от сети, в случае отказа внешнего DNS-хостинга требуются контактные данные по договору с регистратором для перевода домена на новый хостинг и т.д. Записывайте все необходимые ресурсы, привязывайте их к точкам отказа и помечайте, какие из них уже есть у вас, а какие необходимо еще получить.

3. Определяем минимальное гарантируемое время восстановления пользовательского сервиса

амую большую сложность на данном этапе составляет определение гарантированного времени восстановления точки отказа. В процедуре восстановления есть только один маршрут с предсказуемым сроком — когда после небольшого, но достаточного исследования причин сбоя проводится полное восстановление точки отказа. Да, в большинстве случаев исправить ошибку быстрее, чем проводить полное восстановление, но гарантировать какие-либо сроки можно только по второму сценарию и по этой причине ориентироваться мы можем только на него. Однако восстановление одной точки отказа не всегда означает восстановление пользовательского сервиса, так как зависимые точки отказа могут также быть неисправными (см. схему зависимостей в первой статье). Определив, на основе данной схемы, самый долгий возможный сценарий, вы получите «минимальное время восстановления» пользовательского сервиса, который может гарантировать бизнесу ИТ-служба. Если же этот срок даже на ваш взгляд выходит за все разумные рамки, то это повод подумать над его оптимизацией:

  • Сделать предварительные заготовки для ускорения восстановления.

  • Сократить время на исследование инцидентов (увеличивая вероятность потери данных).

  • Изменить архитектуру точек отказа для увеличения скорости восстановления.

Собственно, ваши выводы касательно сроков восстановления и методов их сокращения стоит закрепить документально – они пригодятся в дальнейшем в диалоге с руководством. На этом можно было бы и заканчивать данный этап, если бы не пара неожиданностей, которые мы пока не учли: