Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
АрхЭВМ.docx
Скачиваний:
0
Добавлен:
01.04.2025
Размер:
770.44 Кб
Скачать

15. Системы высокой готовности. Классификация. Модели оус. Обнаружение сбоев и отказов.

Системы высокой готовности (отказоустойчивые системы, ОУС). Основной упор на повышение надежности, для этого вводят избыточность.

Отказ вычислительной системы – это устойчивое неправильное функционирование аппаратно программных средств, вследствие возникновения неисправности или появления необнаруженной ранее ошибки.

Сбой вычислительной системы – это разовое происходящее в случайные моменты времени неправильное функционирование, обусловленное возникающей неисправностью возмущениями внешней среды, резкой сменой температуры и т.п.

Цель ОУС – обеспечение длительного функционирования системы, которое включает в себя следующее:

1) надежность. 2) готовность. 3) удобство обслуживания.

Обеспечение надежности основано на принципе предотвращения неисправностей путем снижения интенсивностей отказов и сбоев за счет: применения больших и сверхбольших ИС, снижения помех, обеспечения температурных режимов, совершенствования методов сборки аппаратуры.

Повыш-е уровня готовности предполагает подавление в опред-х пределах влияния отказов и сбоев на работу системы, а также наличие средств автоматич. восстан-я вычисл. процесса после проявления неисправности. Здесь предполагается программная и аппаратная избыточность, и некоторая схема контроля и исправления ошибок. По сути, снижение времени простоя метод улучшения уровня готовности.

Удобство обслуживания включает в себя:

а) контролепригодность. б) ремонтопригодность.

Классификация отказоустойчивых систем в зависимости от времени простоя:

1) Системы высокой готовности: в данных системах резервируются отдельные блоки или модули вычислительной системы. Время восстановления здесь от 2-х до 20-ти минут. Данные системы предполагают, что в случае возникновения неисправности вычислительный процесс запускается заново.

2) Системы, эластичные к отказам: требуется меньше времени для восстановления и процесс вычисления начинается с некоторой контрольной точки.

3) Системы, устойчивые к отказам: резервируются все блоки системы и для каждого блока есть горячий резерв. Данные системы предполагают время восстановления менее 1 секунды.

4) Системы непрерывной готовности. Здесь время восстановления стремится к нулю. Обычно имеется более одного резерва. Процессы масштабирования тех обслуживания тех поддержки выполняются в режиме online. К данным системам относятся кластеры.

5) Системы, устойчивые к стихийным бедствиям. В простейшем случае – некоторые резервные компьютеры, располагающиеся вне зоны действия основного компьютера. Данные на резервном компьютере периодически обновляются с главного компьютера. В случае стихийного бедствия компьютер запускается с резервной площадки.

Модели отказоустойчивых систем:

1) холодный резерв:

здесь имеется полная копия основной системы, но эта копия либо не развернута, либо не подключена к сети или другому источнику информации. В случае обнаружении неисправности эта система развертывается и подключается вместо основной работающей системы.

2 ) горячий резерв:

Здесь присутствует основная и резервная система, между ними создается выделенная локальная сеть, так же имеется двухпортовый диск повышенной надежности (Д), обычно используются RAID-массивы, в случае выхода из стоя основной системы работает резервная система, то есть данные с диска записываются на резервную систему, в случае если обе системы рабочие, то на резервной системе для повышения производительности могут запускаться некоторые задачи.

3 ) репликация данных (полное копирование).

Есть некоторая основная система – имеющая свой диск. И есть резервная система с дополнительным резервным диском. В случае выхода основной системы из строя вычисление программы продолжается с резервной системы с той точки, когда в послед. раз производилось сохранение резервной точки.

4 ) параллельный сервер: предполагает наличие некоторого монитора дисковой системы, который позволяет выполнять доступ ко всем дискам как основной, так и резервной системы объединенных в RAID массив, в отличие от системы репликации данных. Так же происходит постоянный обмен данных между ОС и РС по выделенной сети.

М етоды обнаружения отказов и сбоев:

1) методы обнаружения, совмещаемые с вычислением.

Используются схемы обнаружения и исправления ошибок, специальные коды. Также обнаружение отказов выполняется с помощью специальных схем включающих в себя избыточность аппаратуры.

В схеме сравнения после выполнения вычисления происходит сравнение результатов, в случае если результаты совпали, то считается, что сбоя не произошло, в случае если результаты разные считается что, произошел отказ или сбой и вычисления могут повторяться.

Более гибкая схема – схема голосования.

Допустим 2/3 сказали, что результат правильный, 1/3 что неправильный – то считается верным результат 2/3 –их. Обнаружение отказавшего блока может происходить с помощью реконфигурирования. Выключаем блок и проверяем, произойдет ли сбой.

2) методы тестового обнаружения отказов.

Использование данных методов основано на сохранении во внешней памяти т.н. контрольных точек. Причем сохраняются значения контрольных точек для каждого устройства входящего в систему. Причем эти точки однозначно определяют положение компьютера, так что бы вычисление можно было бы продолжить с места контр. точки.

Т огда выполнение программы – запуск программы с текущей контрольной точки, выполнение вычислений до следующей контрольной точки. Диагностическое тестирование рабочей системы. При выявлении отказа или сбоя происходит восстановление последней работающей конфигурации из той, которая была запомнена в последний раз.

Здесь используются специальные программы диагностики. Этот метод с одной стороны более эффективен, так как не расходуются ресурсы на повторное вычисление, но тратится на диагностику.