5.6. Обнаружение отказов узлов

Каждый узел периодически обменивается датаграммами с другими узлами кластера по частной сети кластера. Эти сообщения называются сигналами активности. Обмен сигналами активности позволяет каждому узлу проверить доступность других узлов и их приложений. Если на сервере происходит сбой при обмене сигналами активности, работающие серверы инициируют процессы восстановления после отказа, в том числе принятие решения о владении ресурсами и приложениями, которые имел отказавший сервер. Решение принимается с использованием протокола отклика и отзыва.

Сбой при обмене сигналами активности может быть вызван различными событиями, такими как отказы компьютера, сетевого интерфейса или сети. Как правило, когда все узлы обмениваются сообщениями, диспетчер БД настройки рассылает обновления глобальной БД настройки на каждый узел. Однако при нарушении обмена сигналами активности диспетчер журнала дополнительно записывает изменения БД настройки на ресурсе кворума. Этим гарантируется, что оставшиеся работоспособными серверы в процессе восстановления будут иметь доступ к самым последним данным настройки кластера и данным ключей реестра локального узла.

5.7. Обнаружение отказов ресурсов

Для обнаружения отказов ресурса и восстановления после этих отказов совместно работают диспетчер восстановления и мониторы ресурсов. Мониторы ресурсов следят за состоянием ресурсов, периодически опрашивая ресурсы с использованием библиотек ресурсов. Опрос проводится в 2 этапа: коротким запросом LooksAlive («с виду живой») и более долгим и детальным запросом IsAlive («действительно живой»). Когда монитор ресурсов обнаруживает отказ ресурса, он извещает об этом диспетчера восстановления и продолжает следить за ресурсом. Диспетчер восстановления поддерживает ресурсы и состояние групп ресурсов. Он также отвечает за выполнение восстановления, когда ресурс отказывает, и вызывает монитор ресурсов в ответ на действия пользователя или на отказы.

После обнаружения отказа ресурса диспетчер восстановления выполняет действия по восстановлению, которые включают либо перезапуск ресурса и зависящих от него ресурсов либо перемещение целой группы ресурсов на другой узел. Какое из этих действий будет выполнено, определяется в зависимости от свойств ресурса и группы ресурсов, а также доступности узлов.

В процессе восстановления после отказа группа рассматривается как единое целое, чтобы зависимости ресурсов были правильно восстановлены. Когда ресурс восстановлен после отказа, монитор ресурса извещает об этом диспетчера восстановления, который может выполнить автоматический возврат группы ресурсов на основе настройки свойства возврата после отказа данной группы ресурсов.

5.8. Заключение

Традиционно резервирование осуществляется только на уровне дисковых систем или в лучшем случае еще и на уровне приложений. Но учитывая значимость технологического сервера, необходимо обеспечить максимальную надежность. Достигнуть этого удается, обеспечивая резервирование на всех уровнях:

аппаратном (использование высокопроизводительных и надежных серверов и дисковых RAID-массивов фирмы Hewlett-Packard);
ОС (Cluster Service Windows 2000 Server);
приложений (IndustrialSQL сервер).

В результате создается программно-технический комплекс системы сбора и хранения данных, удовлетворяющий требованиям заказчика по надежности, гарантированному доступу к архивным данным и возможности дальнейшего расширения.

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1617 / 1817 18 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
27.09.2019731.65 Кб13ацп.doc
#
23.08.201998.82 Кб9База данных учета техн.параметров.doc
#
28.03.201527.42 Кб10Без названия.docx
#
11.03.2016970.99 Кб69Безопасность Жизнидеятельности (в вопросах и ответах).pdf
#
11.03.2016802.18 Кб89Безопасность Жизнидеятельности2015.pdf
#
01.04.20251.18 Mб3Безопасность и методы резервирования АСУТП.doc
#
14.11.2019424.45 Кб26БЖД для лаб. и пр. работ.doc
#
14.11.2019624.64 Кб15БЖД для эконом.специальностей.doc
#
28.03.201531.82 Кб136бжд.docx
#
27.11.2018349.38 Кб7билет 19.docx
#
27.11.2018209.76 Кб11билет 20.docx