Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Эксплуатация СВТ / ЛекЭСВТ_Ч1нов.doc
Скачиваний:
161
Добавлен:
02.06.2015
Размер:
886.78 Кб
Скачать

Автоматическое восстановление вычислительного процесса после машинных ошибок Типы машинных ошибок

По типу воздействия на вычислительный процесс ошибки делятся на "мягкие" и "жесткие".

"Мягкие" (или сбои) - ошибки, последствия которых удается автоматически устранить и восстановить вычислительный процесс без вмешательства оператора.

"Жесткие" (или отказы) - ошибки не поддающиеся автоматическому восстановлению, а для восстановления вычислительного процесса без ремонта может потребоваться реконфигурация ВС с ручным или автоматическим отключением отказавшего блока, перезагрузка ОС или иное вмешательство обслуживающего персонала.

По степени проявления ошибки делятся на явные и скрытые.

Явные - ошибки, обнаруживаемые системой контроля сразу после их возникновения.

Скрытые - сразу не обнаруживаются и могут вызвать искажение данных и неправильное функционирование ЭВМ. Скрытые ошибки появляются:

- вследствие отсутствия системы контроля в устройстве,

- либо из-за низкой эффективности метода, положенного в основу системы контроля,

- либо при отказе системы контроля.

Например, при контроле передачи информации по нечетности все ошибки четной кратности не будут обнаружены системой контроля и вызовут нарушение достоверности данных.

Для скрытых ошибок необходимо предусматривать средства восстановления данных, которые были искажены, так как ошибка может быть обнаружена не сразу, а даже через несколько дней или недель. Особенно эта проблема актуальна при работе с базами данных.

Восстановление работоспособности ЭВМ без ремонта может быть выполнено, если удается перевести "жесткие" ошибки в "псевдомягкие" на основе реализации принципа "постепенной деградации", когда осуществляется автоматическая реконфигурация технических средств путем логического отключения неисправного устройства и продолжения работы с ухудшенными характеристиками (отключение внутренней или внешней кэш-памяти, части ОП, сопроцессора некоторых ВУ и т.д.).

При возникновении ошибки осуществляется распознавание типа ошибки: сбой или отказ по ранее рассмотренному алгоритму. Если это сбой, то выполняется попытка восстановления вычислительного процесса, а при отказе в ряде ЭВМ выполняется попытка провести автоматическую реконфигурацию ВС путем логического отключения неисправного устройства.

Автоматическое восстановление вычислительного процесса после сбоев

Сбои составляют 75-80% ошибок. Основными причинами сбоев являются:

  • флуктуации напряжения источников питания;

  • механические удары;

  • внешние помехи;

  • статические заряды;

  • совпадение тяжелых режимов работы и т. д.

Способность ЭВМ противостоять сбоям определяет устойчивость ЭВМ к сбоям.

Методы восстановления вычислительного процесса после сбоев делятся на:

  1. программные;

  2. аппаратурные;

  3. аппаратно-микропрограммные.

Выбор метода зависит от типа сбоя и места его возникновения. САК обнаруживает сбои в памяти, процессоре, интерфейсные и сбои ВУ.

При восстановлении вычислительного процесса после сбоя решаются две главные задачи:

  1. восстановление достоверности данных;

  2. восстановления вычислительного процесса.

Выделим следующие методы восстановления вычислительного процесса после сбоя:

  1. методы маскирования ошибок - это аппаратные методы исправления ошибок:

  • с помощью корректирующих кодов;

  • методами резервирования;

  • методы повторения:

  • команд (микрокоманд);

  • метод контрольных точек;

  • программный рестарт.

На рисунке представлен алгоритм восстановления вычислительного процесса после сбоя в зависимости от уровня обнаружения ошибки. На логическом уровне САК обнаруживает ошибку в момент ее возникновения и ошибка не успела распространиться используются методы маскирования, позволяющие исправлять обнаруженные ошибки с помощью корректирующих кодов или за счет резервирования получать правильный результат. Однако эти методы контроля охватывают не все устройства ЭВМ и не ко всем видам преобразований применимы.

Если маскирование ошибок невозможно, то на логическом уровне используется метод повторения команд (микрокоманд). Применение данного метода возможно только в том случае, если исходные операнды не изменили своего значения. Попытка повторения команды, на которой обнаружена ошибка, может выполняться многократно в зависимости от местоположения и типа контролируемого устройства и широко используется для низконадежных ВУ. Повторение может выполняться на уровне микрокоманд, команд и операций ввода-вывода.

Если ошибка успела исказить исходную информацию, то на других уровнях представления ЭВМ используется универсальный метод контрольных точек. Контрольной точкой называется некоторая точка в программе (микропрограмме), для которой сохранены промежуточные результаты вычислений и к которой, в случае ошибки, можно вернуться. Контрольная точка формируется по ходу вычислительного процесса путем запоминания промежуточных результатов, причем объемы запоминаемой информации в зависимости от типа контролируемого устройства могут быть значительными: исходные операнды, состояние осведомительных сигналов (признаков) (слова состояния устройства до сбоя). Метод основан на повторении участка программы с контрольной точки.

Для определения ситуации, когда исходные данные изменяют свое состояние используется так называемый порог повторения. Для этого в систему вводят специальный триггер и, если порог повторения не пройден (исходные данные не изменились), то ТгП = 0 и выполняется повторение команды, иначе повторение участка программы с контрольной точки.

Если возврат к контрольной точке невозможен, то используется метод программного рестарта.

Все ситуации возникновения ошибок и восстановления вычислительного процесса фиксируются в специальном системном журнале ошибок.

Рассмотрим некоторые методы организации фиксации порога повторения на микрокомандном уровне:

  • запоминание исходных данных в специальном быстродействующем стеке небольшой глубины, но этот метод имеет большой недостаток - усложнение микропрограмм и увеличение времени выполнения команд;

  • блокировка изменения результата выполнения команды в памяти сигналом от схем контроля, т.е. исходные операнды сохраняются;

  • при необходимости вычисления эффективного исполнительного адреса для ряда видов адресации он запоминается в одном из программно недоступных регистров и устанавливается признак порога повторения. При обнаружении ошибки при вычислении физического адреса или выборки операнда эффективный адрес не вычисляется, а берется из этого регистра;

  • для команд обработки символьных переменных в структуру вводится счетчик успешно обработанных байт с целью продолжения выполнения команды при обнаружении ошибки с байта, на котором произошла ошибка. Счетчик байт запоминается также в одном из программно-недоступном РОН.

Соседние файлы в папке Эксплуатация СВТ