- •А.М. Бакшаев
- •Основные эксплуатационные характеристики эвм
- •Надежность вычислительных систем
- •Показатели надежности
- •Термины и определения
- •Надежность программного обеспечения
- •Способы обеспечения и повышения надежности программ
- •Способы повышения эксплуатационной надежности эвм
- •Классификация методов и средств контроляфункционирования эвм
- •Система автоматического контроля эвм
- •Контроль передачи информации
- •Контроль комбинационных схем
- •Самопроверяемые схемы контроля
- •Диагностические средства проверки работоспособности схем контроля
- •Прерывания от схем контроля
- •Принципы построения системы контроля процессора
- •Контроль счетчиков
- •Контроль алу на основе метода самопроверяемого дублирования
- •Контроль по модулю
- •Числовой и цифровой контроль
- •Частные случаи контроля по модулю
- •Способы построения схем сверток
- •Методы оценки эффективности системы аппаратного контроля
- •Резервирование в эвм и вс
- •Основные способы резервирования
- •Механизм обнаружения отказа и замещения резервным блокомможет быть:
- •Автоматическое восстановление вычислительного процесса после машинных ошибок Типы машинных ошибок
- •Автоматическое восстановление вычислительного процесса после сбоев
- •Автоматическое восстановление вычислительного процесса после отказов
- •Схемотехнические аспекты эксплуатационного обслуживания эвм Иерархия процессов обслуживания
- •Формы эксплуатационного обслуживания эвм
Автоматическое восстановление вычислительного процесса после отказов
В современных компьютерах все устройства строятся по модульному принципу, что позволяет в ряде случаев при отказе какого-либо модуля выполнить реконфигурацию технических средств и продолжить вычислительный процесс при ухудшенных характеристиках. Особенно данное свойство характерно применительно к памяти ЭВМ, которая имеет иерархическую структуру, а также к сопроцессорам, функции которых в случае необходимости может на себя взять центральный процессор, а также ПУ.
Выделим следующие способы восстановления работоспособности ЭВМ при отказах без ремонта:
методы логической перестановки адресов:
ручная перестановка (для СИС);
управляемая логическая перестановка адресов;
автоматическая логическая перестановка адресов;
исправление одиночных и некоторых двойных ошибок с помощью корректирующих кодов:
алгоритмические методы;
аппаратурные методы;
метод замещения неисправной БИС (блока) памяти резервной (см. 1 часть лекций МПС глава 5);
методы резервирования (см. выше);
реконфигурация ОП при отказе одного из модулей памяти;
исключение из работы отказавших ячеек памяти;
переадресация в исправный блок;
отключение части или всей буферной (кэш) памяти при ее отказе;
исправление отказов в ПЗУ;
альтернативные алгоритмы выполнения операций;
реконфигурация ПУ.
Реконфигурация ОП при отказе одного из модулей памяти. ОП и структурно и конструктивно строится по модульному принципу в виде байтных модулей, что позволяет наращивать ее емкость применительно к задачам пользователя. При выходе из строя одного из модулей (его ячеек) осуществляется логическое переключение модулей путем помещения неисправного модуля в конец адресного пространства и указания нового предела емкости ОП, доступной ОС.
Исключение модуля осуществляется при инициализации ОС, так как предварительно выполняются тесты самодиагностирования, определяющие неисправные модули и выполняющие реконфигурацию ОП. Использование метода недопустимо для памяти с расслоением обращений.
И
№ страницы d P0 1 P1 1 P2 1 P3 0 P4 1 P5 1 P6 0 P7 1
1
1 Pk 1
При страничной организации памяти для каждой страницы в дескрипторе страницы можно предусмотреть бит недоступности страницы d. При обнаружении неисправных ячеек при диагностировании или от схем контроля ОС отмечает страницу в ее дескрипторе как недоступную и она не используется в процедуре свопинга страниц.
Переадресация в исправный блок.Автоматическая переадресация в исправный блок памяти выполняется с помощью инверсии, например старшего бита адреса. При этом объем доступной памяти модуля уменьшится вдвое и все запросы к неисправной области памяти переадресуются в другую половину модуля памяти.
Признак переадресации устанавливается ОС в зависимости от местоположения отказа.
Отключение части или всей буферной (кэш) памяти при ее отказе. Буферные ЗУ (или часто говорят кэш-память, уточняя ее назначение) включаются между ОП и другим медленно действующим устройством и служит для сокращения среднего времени выборки данных из ОП.
В большинстве случаев БЗУ строятся на основе стека типа FIFO, т.е. данные выбираются из последовательных ячеек памяти. Каждой ячейке (строке данных) ставится признак достоверности данныхdи бит признака исправности ячейкиsДля кэш-памяти каждой строке соответствует свой тег строки, что обеспечивает произвольный доступ к памяти. При обнаружении неисправной ячейки битsсбрасывается и информация не записывается в данную область памяти (ячейку) БЗУ.
При отказе множества ячеек или адресной части БЗУ в регистрах управления процессора предусмотрены специальные биты, позволяющие отключать буферную память полностью и ЭВМ продолжает работу с ухудшенными характеристиками (см. пример регистров управления ЦПintelx86 для задания режимов работы внутренней и внешней кэш-памяти).
Исправление отказов в ПЗУ. При работе с ПЗУ выход из строя хотя бы одной из ячеек делает ВС неработоспособной и требует замены неисправной БИС ПЗУ. Однако существует возможность работы и с неисправными ячейками ПЗУ, так как информация хранимая по каждому адресу известна (карта прошивки на каждую БИС ПЗУ должна поставляться в технической документации).
При обнаружении отказа в накопителе ПЗУ ОС записывает правильное значение информации в полностью ассоциативное ЗУ, в котором хранится в поле тегов адрес неисправной ячейки ПЗУ, а в СОЗУ данных требуемая информация. Адрес параллельно поступает на адресные входы ПЗУ и АЗУ. Если вырабатывается сигналА € Тег, то он блокирует доступ к ПЗУ, а в RgO поступают данные, считанные из блока СОЗУ данных АЗУ.
Так как информация хранимая в ПЗУ известна, то на практике существует большое число способов восстановления достоверности данных.
Альтернативные алгоритмы выполнения операций.Так как современные компьютеры в своем составе имеют множество сопроцессоров для увеличения производительности ВС, а также устройства обработки данных, которые строятся по алгоритмам сRISС архитектурой, то появляется возможность за счет алгоритмической избыточности на одном устройстве выполнять функции другого, но с ухудшенными характеристиками по быстродействию. Это позволяет при выходе из строя одного из устройств его функции переадресовать на другое устройство.
Реконфигурация ПУ. Для ВС, в состав которых входит большое число однотипных ПУ, имеется возможность при выходе из строя одного из ПУ выполнить переадресацию к другому ПУ. Данная процедура достаточно легко реализуется, если ПУ имеет сменный магнитный носитель (магнитная лента, ГМД, дискиCD-ROMи т.п.). Реконфигурация заключается в переадресации к портам ввода-вывода исправного ПУ.