Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Эксплуатация СВТ / ЛекЭСВТ_Ч1нов.doc
Скачиваний:
161
Добавлен:
02.06.2015
Размер:
886.78 Кб
Скачать

Классификация методов и средств контроляфункционирования эвм

Для уменьшения потерь времени от возникающих в ЭВМ ошибок (сбоев и отказов), надо контролировать достоверность (безошибочность) работы машины и предотвращать распространение ошибки в вычислительном процессе. В противном случае существенно усложняются и удлиняются процедуры проверки правильности работы программы, определения и устранения искажений в программе, данных и промежуточных результатах.

Система контроля по воз­можности должна контролировать все функции проверяемого объекта. Степень достижения этой цели называют пол­нотой контроля.Количественно полнота контроля оцени­вается отношением, показывающим относительное число элементов схемы, охваченных данным способом конт­роля.

По объекту контроляразличают контроль ап­паратуры (арифметическое и логическое устройства, функциональные преобразователи, память, управление, ввод—вывод), программного обеспечения и работы опе­ратора.

То есть по характеру контроль в ЭВМ подразделяется на оперативный и тестовый.

Оперативный (аппаратный) контрольосуществляется в ходе реше­ния задач и позволяет в процессе их решения немедленно (задержка не превышает одного или нескольких тактов работы) обнаруживать ошибку в ее работе.

Тестовый контрольосуществляется в специально от­веденные промежутки времени на основе решения спе­циальных, тестовых задач. Он основан на тестах, обе­спечивающих полный контроль всех элементов объекта (элементов аппаратуры, команд программы) за корот­кое или даже за минимальное время. Недостаток тесто­вого контроля—потеря дополнительного процессорного времени, расходуемого на тесты. Зато при тестовом контроле упрощается анализ результатов и обеспечивается полнота контроля, так как тесты могут быть построены так, что все отказы легко обнаруживаются. Обнаружи­вать ошибки в результатах решения эксплуатационных задач не всегда просто. Тестовый контроль непригоден для обнаружения сбоев аппаратуры в процессе ее экс­плуатации, так как к моменту проведения теста имевший место при работе ЭВМ сбой, как правило, спонтанно ис­чезает.

Для увеличения эксплуатационной надежности ЭВМ снабжают системой автоматического контроля (САК) правильности функционирования ЭВМ, которая при обнаружении ошибки немедленно приостанавливает вычислительный процесс и инициирует работу средств автоматического диагностирования, локализующих неисправность.

Система автоматического контроля - это совокупность аппаратных и программных методов и средств, обеспечивающих контроль достоверности информации, выдаваемой ЭВМ, контроль правильности функционирования отдельных устройств и ЭВМ в целом, а также обеспечивает автоматический поиск места неисправности.

На рисунке приведена классификация методов и средств контроля достоверности информации.

С точки зрения технической реализации все методы можно разделить на две большие группы:

  • аппаратные средства систем контроля (оперативный);

  • программные средства диагностирования ЭВМ (тестовый контроль).

Системы автоматического диагностирования (САД) неисправностей предназначены для облегчения обслуживания и ускорения ремонта ЭВМ, обеспечивая быструю локализацию места неисправности, что позволяет повысить готовность и обслуживаемость ЭВМ.

По способу организацииразличают контроль прямой, обратный и смешанный.

При прямом контролеосновной вычислительный процесс О с исходными данными х и результатами у (х и у могут быть скалярами или векторами) сопровождает­ся параллельным вычислительным процессом П (рис. а). В случае безошибочной работы системы резуль­таты процессов О и П должны совпадать, что определя­ется схемой сравнения. В случае, когда резуль­таты отличаются, устройство сравнения выдает сигнал об ошибке Н. Метод позволяет выявлять только сбои и отказы аппаратуры, если процессы О и П осуществляются по одной и той же программе. В случае, когда О и П осуществляются по различным, но функ­ционально эквивалентным программам, прямой конт­роль позволяет, кроме того, выявлять также и ошибки в программах.

Основной недостаток прямого контроля —большая трата аппаратных средств.

Для некоторых задач, характеризуемых взаимно од­нозначным соответствием между исходными данными и результатом, эффективнее обратный контроль(рис.б).При таком контроле параллельный процесс П1 с исходными данными у и результатом х осуществляет об­ратное преобразование результата контролируемого про­цесса О. Сопоставление обратного решения с исходными данными позволяет обнаружить ошибку. Например, если выполняется операция извлечения квадратного корня, то проще осуществлять контроль возведением результата в квадрат и сопоставлением его с исходной величиной, чем проводить повторное извлечение корня.

Недостаток обратного контроля, кроме ограниченно­сти класса решаемых задач, и в том, что время, затра­ченное на получение контролируемого решения, даже в случае применения дополнительных аппаратных средств будет не ниже суммарного времени выполнения процес­сов О и П1.

В отдельных случаях целесообразной организацией контроля является смешанный контроль(рис. в). При смешанном контроле как исходные данные х, так и результаты у основного вычислительного процесса под­вергаются некоторым преобразованиям П2 и П3, подоб­ранным так, что они в случае безошибочных процессов дают сопоставимые результаты. Например, если выпол­няемое преобразование заключается в вычисленииy= x3/5,то простейшие контрольные операции заключа­ются в сопоставлении, с одной стороны, величиных3и, с другой стороны, величины (x3)*=ó5,где звездочкой обозначается величина, полученная обратным преобра­зованием результата вычислений. Сопоставление результатов основного и контрольно­го процессов сводится к проверке их совпадения в пре­делах допустимой погрешности.

Всю систему организации контроля функционирования ЭВМ можно представить в виде иерархической структуры, совпадающей с уровнями представления ЭВМ:

  • логический;

  • функциональный;

  • системный;

  • пользовательский.

Каждому уровню соответствуют свои средства контроля. Система контроля не обеспечивает на каждом уровне стопроцентную вероятность обнаружения ошибок. Тогда они проникают на следующий уровень и в конечном итоге могут попасть в результат вычислений.

На логическом уровнеобнаружение ошибок производится непрерывно и не вызывает заметного снижения быстродействия ЭВМ. Функция контроля возлагается на быстродействующие аппаратурные средства контроля, функционирующие параллельно с основной аппаратурой.

Средства контроля логического уровня требуют весьма значительных дополнительных затрат на аппаратуру контроля (коды с проверкой на четность/нечетность, корректирующие коды Хэмминга, контроль дублированием и другие методы).

Если затраты на аппаратуру контроля становятся экономически не выгодными и не дают должного эффекта обнаружения ошибок, то используются средства контроля других уровней.

На функциональном уровненаибольшее распространение нашли методы с помощью таймеров простоя, контроль корректности протоколов, периодическое микропрограммное или программное тестирование.

Охранные таймеры нашли широкое применение в качестве ограничителей времени простоя процессора. Дальнейшим развитием охранных таймеров являются охранные процессоры, которые обнаруживают ошибки центрального процессора путем отслеживания его активности.

Периодическое микропрограммное или программное тестирование используется для повышения вероятности обнаружения ошибок (отказов) для тех устройств, которые не охвачены системой контроля на логическом уровне. Тестирование устройств выполняется периодически или во время простоя, при этом вычисления в устройстве на время тестирования прекращаются. Основной проблемой для применения данного метода является определение оптимальной периодичности тестирования.

Одним из методов функционального контроля является периодическое самотестирование на программном уровне со сбросом охранного таймера при успешном завершении теста.

На системном уровнеиспользуются методы контроля по неверному ходу программы, нарушению защиты памяти, обращению к неиспользуемой или несуществующей области памяти, несуществующему коду операции, некорректности форматов данных и команд, форматов и протоколов обмена с внешними устройствами.

На пользовательском уровнеиспользуются методы, предусмотренные программистом или пользователем, например:

  • метод двойного просчета;

  • проверка на допустимость входных и выходных параметров определенному диапазону значений;

  • контроль входных параметров, который предотвращает распространение ошибочных результатов;

  • реверсивный контроль, при котором по конечным или промежуточным результатам определяются соответствующие входные параметры, которые сравниваются с реальными.

В основе организации функционирования САК и коррекции ошибоклежит принцип избыточности, предполагающий использование одного или сочетание нескольких видов избыточности:

  • временная избыточность основана на дополнительных затратах времени на выполнение операций контроля (например, метод двойного просчета со сравнением результатов);

  • информационная избыточность предполагает использование дополнительных разрядов для представления контрольного кода и коррекции ошибок для команд и операндов, которые участвуют в процедурах контроля;

  • аппаратурная избыточность состоит в применении дополнительной аппаратуры для реализации контроля и коррекции ошибок, например, методом дублирования аппаратуры, работающей параллельно со сравнением получаемых результатов;

  • алгоритмическая избыточность предполагает выполнение решения задачи по разным алгоритмам (программам) с проверкой результатов на совпадение.

По признаку определения местоположения отказа или сбояможно выделить группы методов, которые обнаруживают ошибки:

  • только в основной аппаратуре, однако, так как сама аппаратура контроля также может давать сбои и отказы, то возникает проблема контроля правильности работы самих систем контроля;

  • данная проблема решается путем построения таких схем контроля, которые обладают свойством самоконтроля правильности своего функционирования. Схема контроля называется самопроверяемой, если она обнаруживает не только неисправности контролируемого устройства, но также и свои собственные;

  • в идеальном случае САК должна не только обнаруживать факт возникновения ошибки, но и автоматически устранять по возможности ошибку и восстанавливать вычислительный процесс. Таким свойством обладают отказоустойчивые схемы.

Отказоустойчивыми называют системы, обеспечивающие автоматическое обнаружение ошибки, выявление ее характера (сбой или отказ), изоляцию неисправности, реконфигурацию системы и восстановление вычислительного процесса.

Основными требованиями к отказоустойчивым системам являются:

  • возможность замены неисправных блоков в процессе выполнения системой основных функций (методы резервирования);

  • возможность отключать неисправные устройства для ремонта (методы реконфигурации);

  • отказоустойчивость системы не должна быть заметной для пользователя. Все функции по программированию отказоустойчивости должны возлагаться на операционную систему.

По степени детализации контроляможно выделить следующие принципы организации САК:

  • на микрокомандном уровне;

  • на командном уровне;

  • на программном уровне (метод контрольных точек).

В идеальном случае следовало бы контролировать выполнение каждой микрокоманды, однако при таком подходе производительность ЭВМ существенно уменьшается, так как на каждую микрокоманду необходим дополнительный такт для сравнения контрольных кодов и дополнительное время для образования контрольного кода (КК). Поэтому на практике процедуры контроля выполняются параллельно с основным вычислительным процессом после выполнения каждой команды. При этом задержка на выполнение команды составляет не более одного-двух тактов синхронизации.

В ряде случаев используется контроль на программном уровне после выполнения нескольких команд в контрольных точках, либо по счетчику команд, либо по таймеру или типу команд.

По типу выполняемых преобразований в устройствах ЭВМ можно выделить следующие группы методов контроля:

  • передачи информации между узлами и устройствами;

  • комбинационных схем;

  • арифметико-логических операций;

  • запоминающих устройств.

Среди методов контроля передачи информации наибольшее распространение нашли коды с обнаружением ошибок (по модулю), которые разделяются на равномерные и неравномерные. В равномерных кодах все слова любой длины содержат одинаковое число избыточных разрядов (контроль по модулю), а в неравномерных может быть различным (код Хемминга).

Равномерные избыточные коды делятся на разделимые, в которых можно выделить информационные и избыточные контрольные разряды. В неразделимых кодах невозможно разделить их на информационные и избыточные.

Одной из разновидностей равномерного разделимого кода, нашедшего наибольшее распространение для контроля передачи информации, является контроль с проверкой четности, причем контроль по нечетности является предпочтительным. Однако данные методы обнаруживают только ошибки нечетной кратности.

Практически 100% ошибок при передаче обнаруживает контроль по совпадению путем поразрядного сравнения содержимого регистров источника и приемника, основанного не на информационной, а аппаратурной избыточности.

Корректирующие коды могут применяться и для контроля передачи информации, которые позволяют не только обнаруживать, но и исправлять ошибки. К таким кодам относятся код Хэмминга, групповые корректирующие коды, циклические коды и другие.

Для контроля комбинационных схем наибольшее распространение нашли методы контроля:

  • путем дублирования;

  • проверки выходных сигналов, для которых может быть предсказана выходная комбинация на основе предыдущей, или выходная комбинация соответствует строго определенным правилам формирования результата преобразования (дешифратор);

  • с помощью образования контрольных бит, то есть когда по выходным сигналам схемы можно предсказать контрольные биты выходных сигналов, например, схема преобразования из двоично-десятичного кода в двоичный с контролем по нечетности.

Все арифметико-логические преобразования можно разделить на две группы: логические и арифметические, причем в ЭВМ в качестве арифметических для всех других операций базовыми являются преобразования типа сложения, сдвига, взятие обратного кода и передачи информации.

Метод дублирования является универсальным для контроля любых типов преобразований, но обладает большей избыточностью аппаратуры, но, с другой стороны, обнаруживает ошибки любой кратности.

При контроле по модулю наибольшее распространение нашли модули класса q=pm-1, гдеp- основание системы счисления, то естьq=3,q=7,q=15.

Около половины интенсивности потока ошибок ЭВМ приходится на долю ОЗУ. Причиной постоянных неисправностей в ИС ОЗУ являются отказы в ИС, а случайных - изменение содержимого ОЗУ из-за флуктуаций питающего напряжения, кратковременных помех, воздействия -частиц. Неисправности ИС ОЗУ обычно проявляются как неисправности одного бита, линии выборки разряда, линии выборки слова, обеих линий, всей ИС.

Для повышения надежности ОЗУ малой емкости обычно используют контроль по четности/нечетности, а ОЗУ большой емкости - используются корректирующие коды, среди которых можно выделить следующие:

  • с коррекцией одиночной и обнаружением двойной ошибки (КО-ОД) (например, код Хемминга);

  • коды с дополнительной способностью обнаружения кратной ошибки в одной группе битов (КО-ОД-ООГ);

  • коды с коррекцией ошибок в одной группе и обнаружением в двух группах (КОГ-ОГД);

  • коды с коррекцией двойных и обнаружением тройных ошибок (КД-ОТ) [5].

Рассмотренные методы контроля нашли достаточно широкое применение в современных ЭВМ. Методы резервирования в данной классификации не рассматриваются, так как применяются в основном в бортовых ЭВМ и в ЭВМ специального назначения и представляют отдельную область знаний.

Рисунок 1.1 - Классификация систем контроля ЭВМ

Основными характеристиками САК являются:

  • доля оборудования ЭВМ, охваченного системой контроля;

  • степень детализации, с которой система контроля локализует место неисправности;

  • отношение количества оборудования системы контроля к общему объему оборудования ЭВМ;

  • время реакции системы контроля на ошибку.

Соседние файлы в папке Эксплуатация СВТ