- •Содержание
- •Список сокращений
- •Резервирование и безопасность систем
- •Фирмы Siemens Moore Products
- •2.1. Общие сведения
- •2.2. Надежность работы контроллера
- •2.3. Комплекс средств для создания систем управления критическими процессами и противоаварийной защиты Quadlog
- •2.4. Архитектура резервирования комплекса Quadlog
- •2.5. Программное обеспечение контроллера
- •3. Контроллеры v9 Tricon фирмы Triconex
- •3.1. Общие сведения
- •3.2. Надежность работы контроллера
- •3.3. Модуль главного процессора
- •3.4. Системы шин и распределение питания
- •3.5. Цифровые входные модули
- •3.6. Цифровой выходной модуль
- •3.7. Аналоговый входной модуль
- •3.8. Аналоговый выходной модуль
- •3.9. Модуль подключения периферийных устройств
- •3.10. Коммуникационный модуль
- •3.11. Модуль источника питания
- •3.12. Программное обеспечение контроллера
- •4. Резервирование на уровне операторских станций
- •4.1. Общие сведения
- •4.2. Архитектура Клиент – Сервер
- •4.3. Дублирование Сервера Ввода-Вывода
- •4.4. Резервирование на уровне задач
- •4.5. Выделенный сервер файлов
- •4.6. Резервирование сети
- •4.7. Резервирование связи с контроллерами
- •5. Резервирование сервера технологических данных
- •5.1. Основные понятия
- •5.2. Описание raid-массива 5 уровня
- •5.3. Понятия кластера
- •5.4. Уровень аппаратных средств
- •5.5. Уровень системного программного обеспечения
- •5.6. Обнаружение отказов узлов
- •5.7. Обнаружение отказов ресурсов
- •5.8. Заключение
- •Библиографический список
5.6. Обнаружение отказов узлов
Каждый узел периодически обменивается датаграммами с другими узлами кластера по частной сети кластера. Эти сообщения называются сигналами активности. Обмен сигналами активности позволяет каждому узлу проверить доступность других узлов и их приложений. Если на сервере происходит сбой при обмене сигналами активности, работающие серверы инициируют процессы восстановления после отказа, в том числе принятие решения о владении ресурсами и приложениями, которые имел отказавший сервер. Решение принимается с использованием протокола отклика и отзыва.
Сбой при обмене сигналами активности может быть вызван различными событиями, такими как отказы компьютера, сетевого интерфейса или сети. Как правило, когда все узлы обмениваются сообщениями, диспетчер БД настройки рассылает обновления глобальной БД настройки на каждый узел. Однако при нарушении обмена сигналами активности диспетчер журнала дополнительно записывает изменения БД настройки на ресурсе кворума. Этим гарантируется, что оставшиеся работоспособными серверы в процессе восстановления будут иметь доступ к самым последним данным настройки кластера и данным ключей реестра локального узла.
5.7. Обнаружение отказов ресурсов
Для обнаружения отказов ресурса и восстановления после этих отказов совместно работают диспетчер восстановления и мониторы ресурсов. Мониторы ресурсов следят за состоянием ресурсов, периодически опрашивая ресурсы с использованием библиотек ресурсов. Опрос проводится в 2 этапа: коротким запросом LooksAlive («с виду живой») и более долгим и детальным запросом IsAlive («действительно живой»). Когда монитор ресурсов обнаруживает отказ ресурса, он извещает об этом диспетчера восстановления и продолжает следить за ресурсом. Диспетчер восстановления поддерживает ресурсы и состояние групп ресурсов. Он также отвечает за выполнение восстановления, когда ресурс отказывает, и вызывает монитор ресурсов в ответ на действия пользователя или на отказы.
После обнаружения отказа ресурса диспетчер восстановления выполняет действия по восстановлению, которые включают либо перезапуск ресурса и зависящих от него ресурсов либо перемещение целой группы ресурсов на другой узел. Какое из этих действий будет выполнено, определяется в зависимости от свойств ресурса и группы ресурсов, а также доступности узлов.
В процессе восстановления после отказа группа рассматривается как единое целое, чтобы зависимости ресурсов были правильно восстановлены. Когда ресурс восстановлен после отказа, монитор ресурса извещает об этом диспетчера восстановления, который может выполнить автоматический возврат группы ресурсов на основе настройки свойства возврата после отказа данной группы ресурсов.
5.8. Заключение
Традиционно резервирование осуществляется только на уровне дисковых систем или в лучшем случае еще и на уровне приложений. Но учитывая значимость технологического сервера, необходимо обеспечить максимальную надежность. Достигнуть этого удается, обеспечивая резервирование на всех уровнях:
аппаратном (использование высокопроизводительных и надежных серверов и дисковых RAID-массивов фирмы Hewlett-Packard);
ОС (Cluster Service Windows 2000 Server);
приложений (IndustrialSQL сервер).
В результате создается программно-технический комплекс системы сбора и хранения данных, удовлетворяющий требованиям заказчика по надежности, гарантированному доступу к архивным данным и возможности дальнейшего расширения.
