- •А.М. Бакшаев
- •Основные эксплуатационные характеристики эвм
- •Надежность вычислительных систем
- •Показатели надежности
- •Термины и определения
- •Надежность программного обеспечения
- •Способы обеспечения и повышения надежности программ
- •Способы повышения эксплуатационной надежности эвм
- •Классификация методов и средств контроляфункционирования эвм
- •Система автоматического контроля эвм
- •Контроль передачи информации
- •Контроль комбинационных схем
- •Самопроверяемые схемы контроля
- •Диагностические средства проверки работоспособности схем контроля
- •Прерывания от схем контроля
- •Принципы построения системы контроля процессора
- •Контроль счетчиков
- •Контроль алу на основе метода самопроверяемого дублирования
- •Контроль по модулю
- •Числовой и цифровой контроль
- •Частные случаи контроля по модулю
- •Способы построения схем сверток
- •Методы оценки эффективности системы аппаратного контроля
- •Резервирование в эвм и вс
- •Основные способы резервирования
- •Механизм обнаружения отказа и замещения резервным блокомможет быть:
- •Автоматическое восстановление вычислительного процесса после машинных ошибок Типы машинных ошибок
- •Автоматическое восстановление вычислительного процесса после сбоев
- •Автоматическое восстановление вычислительного процесса после отказов
- •Схемотехнические аспекты эксплуатационного обслуживания эвм Иерархия процессов обслуживания
- •Формы эксплуатационного обслуживания эвм
Автоматическое восстановление вычислительного процесса после машинных ошибок Типы машинных ошибок
По типу воздействия на вычислительный процесс ошибки делятся на "мягкие" и "жесткие".
"Мягкие" (или сбои) - ошибки, последствия которых удается автоматически устранить и восстановить вычислительный процесс без вмешательства оператора.
"Жесткие" (или отказы) - ошибки не поддающиеся автоматическому восстановлению, а для восстановления вычислительного процесса без ремонта может потребоваться реконфигурация ВС с ручным или автоматическим отключением отказавшего блока, перезагрузка ОС или иное вмешательство обслуживающего персонала.
По степени проявления ошибки делятся на явные и скрытые.
Явные - ошибки, обнаруживаемые системой контроля сразу после их возникновения.
Скрытые - сразу не обнаруживаются и могут вызвать искажение данных и неправильное функционирование ЭВМ. Скрытые ошибки появляются:
- вследствие отсутствия системы контроля в устройстве,
- либо из-за низкой эффективности метода, положенного в основу системы контроля,
- либо при отказе системы контроля.
Например, при контроле передачи информации по нечетности все ошибки четной кратности не будут обнаружены системой контроля и вызовут нарушение достоверности данных.
Для скрытых ошибок необходимо предусматривать средства восстановления данных, которые были искажены, так как ошибка может быть обнаружена не сразу, а даже через несколько дней или недель. Особенно эта проблема актуальна при работе с базами данных.
Восстановление работоспособности ЭВМ без ремонта может быть выполнено, если удается перевести "жесткие" ошибки в "псевдомягкие" на основе реализации принципа "постепенной деградации", когда осуществляется автоматическая реконфигурация технических средств путем логического отключения неисправного устройства и продолжения работы с ухудшенными характеристиками (отключение внутренней или внешней кэш-памяти, части ОП, сопроцессора некоторых ВУ и т.д.).
При возникновении ошибки осуществляется распознавание типа ошибки: сбой или отказ по ранее рассмотренному алгоритму. Если это сбой, то выполняется попытка восстановления вычислительного процесса, а при отказе в ряде ЭВМ выполняется попытка провести автоматическую реконфигурацию ВС путем логического отключения неисправного устройства.
Автоматическое восстановление вычислительного процесса после сбоев
Сбои составляют 75-80% ошибок. Основными причинами сбоев являются:
флуктуации напряжения источников питания;
механические удары;
внешние помехи;
статические заряды;
совпадение тяжелых режимов работы и т. д.
Способность ЭВМ противостоять сбоям определяет устойчивость ЭВМ к сбоям.
Методы восстановления вычислительного процесса после сбоев делятся на:
программные;
аппаратурные;
аппаратно-микропрограммные.
Выбор метода зависит от типа сбоя и места его возникновения. САК обнаруживает сбои в памяти, процессоре, интерфейсные и сбои ВУ.
При восстановлении вычислительного процесса после сбоя решаются две главные задачи:
восстановление достоверности данных;
восстановления вычислительного процесса.
Выделим следующие методы восстановления вычислительного процесса после сбоя:
методы маскирования ошибок - это аппаратные методы исправления ошибок:
с помощью корректирующих кодов;
методами резервирования;
методы повторения:
команд (микрокоманд);
метод контрольных точек;
программный рестарт.
На рисунке представлен алгоритм восстановления вычислительного процесса после сбоя в зависимости от уровня обнаружения ошибки. На логическом уровне САК обнаруживает ошибку в момент ее возникновения и ошибка не успела распространиться используются методы маскирования, позволяющие исправлять обнаруженные ошибки с помощью корректирующих кодов или за счет резервирования получать правильный результат. Однако эти методы контроля охватывают не все устройства ЭВМ и не ко всем видам преобразований применимы.
Если маскирование ошибок невозможно, то на логическом уровне используется метод повторения команд (микрокоманд). Применение данного метода возможно только в том случае, если исходные операнды не изменили своего значения. Попытка повторения команды, на которой обнаружена ошибка, может выполняться многократно в зависимости от местоположения и типа контролируемого устройства и широко используется для низконадежных ВУ. Повторение может выполняться на уровне микрокоманд, команд и операций ввода-вывода.
Если ошибка успела исказить исходную информацию, то на других уровнях представления ЭВМ используется универсальный метод контрольных точек. Контрольной точкой называется некоторая точка в программе (микропрограмме), для которой сохранены промежуточные результаты вычислений и к которой, в случае ошибки, можно вернуться. Контрольная точка формируется по ходу вычислительного процесса путем запоминания промежуточных результатов, причем объемы запоминаемой информации в зависимости от типа контролируемого устройства могут быть значительными: исходные операнды, состояние осведомительных сигналов (признаков) (слова состояния устройства до сбоя). Метод основан на повторении участка программы с контрольной точки.
Для определения ситуации, когда исходные данные изменяют свое состояние используется так называемый порог повторения. Для этого в систему вводят специальный триггер и, если порог повторения не пройден (исходные данные не изменились), то ТгП = 0 и выполняется повторение команды, иначе повторение участка программы с контрольной точки.
Если возврат к контрольной точке невозможен, то используется метод программного рестарта.
Все ситуации возникновения ошибок и восстановления вычислительного процесса фиксируются в специальном системном журнале ошибок.
Рассмотрим некоторые методы организации фиксации порога повторения на микрокомандном уровне:
запоминание исходных данных в специальном быстродействующем стеке небольшой глубины, но этот метод имеет большой недостаток - усложнение микропрограмм и увеличение времени выполнения команд;
блокировка изменения результата выполнения команды в памяти сигналом от схем контроля, т.е. исходные операнды сохраняются;
при необходимости вычисления эффективного исполнительного адреса для ряда видов адресации он запоминается в одном из программно недоступных регистров и устанавливается признак порога повторения. При обнаружении ошибки при вычислении физического адреса или выборки операнда эффективный адрес не вычисляется, а берется из этого регистра;
для команд обработки символьных переменных в структуру вводится счетчик успешно обработанных байт с целью продолжения выполнения команды при обнаружении ошибки с байта, на котором произошла ошибка. Счетчик байт запоминается также в одном из программно-недоступном РОН.