- •Содержание
- •Введение
- •1 Надёжность электронной аппаратуры
- •1.1 Основные определения стандартов надежности
- •1.2 Обеспечение надёжности электронной аппаратуры на этапах проектирования
- •1.2.1 Этап аванпроекта
- •1.2.2 Этап эскизного проектирования
- •1.2.3 Этап технического проектирования
- •1.2.4 Этап изготовления опытных комплектов
- •1.2.5 Этап эксплуатации
- •1.2.6 Контрольные вопросы и задания
- •2 Основные показатели надежности
- •2.1.1 Интенсивность отказов
- •2.1.2 Частота отказов
- •2.1.3 Среднее время наработки на отказ
- •2.1.4 Среднее время между отказами
- •2.1.5 Вероятностные показатели надежности
- •2.1.5.1 Вероятность безотказной работы
- •2.1.5.2 Экспоненциальная модель вероятности безотказной работы
- •2.1.5.3 Модель вбр Вейбулла-Гнеденко
- •2.1.5.4 Модель Пуассона
- •2.1.5.5 Вероятность отказа изделия в работе
- •2.1.6 Поток отказов
- •2.1.7 Коэффициент готовности
- •2.1.7.1 Стационарный коэффициент готовности
- •2.1.7.2 Коэффициент оперативной готовности
- •2.1.8 Погрешность оценки показателей надежности
- •2.1.8.1 Погрешность оценки показателей
- •2.2 Применение показателей надежности
- •2.3 Надёжность невосстанавливаемых систем
- •2.4 Надежность дискретных элементов
- •2.5 Пример расчёта надёжности нерезервированных схем
- •3 Надежность резервированных вычислительных систем
- •3.1 Резервирование изделий
- •3.1.1 Резервирование на уровне эвм
- •3.1.2 Резервирование на уровне устройств
- •3.1.3 Резервирование с использованием к-кодов
- •3.1.4 Резервирование в специализированных эвм
- •3.2 Представление резервированных объектов
- •3.3 Параметры НаДёжносТи при нагруженном резерве
- •3.3.1 Расчет показателя безотказной работы
- •3.3.2 Определение средней наработки на отказ
- •3.4 Параметры надёжносТи при ненагруженном резерве.
- •3.5 Надёжность при сложной структуРе резервирования.
- •3.5.1 Скользящий нагруженный резерв
- •3.6 Скользящий ненагруженный резерв
- •4 Метод минимальных путей и минимальных сечений
- •4.1 Примерный расчет надежности методом мп & мс
- •5 Применение сложных структур резерва
- •5.1 Методы избыточного кодирования
- •5.2 Логика с переплетением
- •5.3 Мажоритарное резервирование
- •6 Надежность компьютерных сетей
- •6.1. Расчёт надёжности компьютерных систем
- •7 Надежность систем массового обслуживания
- •8. Контроль и диагностика систем
- •8.1 Основные положения
- •8.2 Контроль по модулю
- •8.3 Построение контрольных тестов
- •8.4 Системы с программным контролем
- •8.5 Встроенный оперативный контроль
- •8.5.1 Встроенный контроль счетчика
- •8.5.2 Встроенный контроль дешифратора
- •8.5.3 Показатели встроенного контроля
- •8.6 Методы диагностирования
- •8.6.1 Основные положения
- •8.6.2 Методы построения диагностических тестов
- •8.6.2.1 Квазиоптимальные тесты шеннона-фано
- •8.6.3 Метод декомпозиции диагностируемой системы
- •8.7 Системы диагностики при эксплуатации
- •8.7.1 Обнаружение отказов при эксплуатации
- •8.7.2 Диагностика периферийных устройств
- •8.7.3 Диагностика многопроцессорных систем
- •9 Надежность программного обеспечения
- •9.1 Классификация ошибок программирования
- •9.2 Способы повышения надежности по
- •9.3 Основные модели надежности по
- •9.3.1 Модель Литтлвуда - Вералла
- •9.3.2 Модель джелинского - моранды
- •9.3.3 Модель шумана
- •9.3.4 Модель шика-вольвертона
- •9.4 Прогнозирование надежности по
- •9.5 Методы структурной избыточности по
- •9.6 Избыточность операционной системы
- •9.7 Метод контрольных функций
- •9.8 Методы тестирования программ
- •9.9 Функциональные методы тестирования
- •10 Отказоустойчивые компьютерные системы
- •11 Обслуживание систем в эксплуатации
- •11.1 Элементы теории восстановления систем
- •11.2 Оптимальные правила предупредительных замен
- •11.3 Оптимальные правила проверок
- •Список литературы
8. Контроль и диагностика систем
8.1 Основные положения
Под контролем компьютерных систем понимаются процессы, обеспечивающие обнаружение неисправной работы подсистем, вызванных отказом или сбоем аппаратуры, ошибкой оператора, ошибкой в программе или другими причинами.
В сочетании с включением резерва, корректировкой ошибок и данных, контроль является одним из эффективных средств увеличения надежности и достоверности вычислений [4,9].
Степень охвата схемы контролем определяет полноту контроля.Этоотношение охваченных контролем элементов к неохваченным.Степень охвата и определяет процессы – контроль работоспособности и технологическую диагностику.
По признаку применяемых средств, контроль разделяют на аппаратный, программный и смешанный.
Аппаратный контрольотличается быстродействием т.к. контроль производится в процессе функционирования, но требует дополнительных аппаратных затрат.
Программный контрольне требует дополнительных схем, но требует дополнительной памяти.
Смешанный - аппаратно - программный контроль.По характеру контроль бывает оперативный и тестовый, контроль на специализированных КИП.
Оперативный контрольосуществляется в ходе решения задач (контроль по модулю, контрольные коды).
Тестовый контрольосуществляется в специальное технологическое время за счет дополнительного процессорного времени, расходуемого на тесты.
Контроль на специализированных или универсальных средствах КИПпроизводится, чаще всего, для отдельных плат, блоков.
По объекту контроля различают: контроль аппаратуры (арифметическое, логическое устройство, УВВ, дешифраторы), контроль ПО, контроль работы оператора.
Программно-логический контроль применяется в специализированных ВС и включает контроль по длительности выполнения операций, последовательности выполнения,метод контрольных функций и контроля гладкости.
Метод контрольных функций основан на решении проверочных задач и контроля отсутствия резких отклонений гладких функций.
Производственный контроль элементов проводят на автоматизированных КИП.
Рассмотрим понятие технического контроля с точки зрения теории информации.
Пусть алфавит состоит из m букв, каждая из которых может служить элементом сообщения. Количество возможных сообщений длины n равно числу перестановок с неограниченными повторениями, т.е. всеNсообщений равновероятны и приm=2 соответствуют кодовому слову в n разрядов. Получение конкретного одного сообщения величина случайная и вероятность этого события равна1/N.
Итак, число Nмогло бы служить мерой информации, но в технике важно свойство аддитивности, т.е. сообщение обладает свойством длины (например, телеграмма). Тогда в качестве количества информации принялиI=1оg N=n lоg m, а количество информации на один элемент сообщения назвали энтропиейН=I/n=1оg m. При этом, единицу количества информации на один элемент сообщения называют двоичной единицей или битом, при десятичном логарифме -дитом
( 1 дит==3,32 бит).
Переходя к вероятностям и произвольным основаниям логарифмов, получаем формулу Шеннона
При равновероятности букв алфавита тогда
График энтропии приведен на рисунку 8.1 для m=2 (бинарное сообщение) т.к. положитьи тогда, Н = -р lоg р-(1-р)lоg(1-р).
Рисунок 8.1-Замещение энтропии информацией
Итак, технический контроль с точки зрения теории информации это замещение энтропии информацией об объекте, т.к.энтропия равна нулю, если сообщение известно в полной мере [5].
Для формального математического описания процесса контроля работоспособности и технической диагностики необходимо дать общие определения и ограничения.
1. Под вычислительной системой будем подразумевать произвольное соединение N элементов (), которое отображает пространство входных сигналов в пространство
выходных сигналов.
2. Система будет считаться исправной (работоспособной), если указанное отображение таково, что допусковой окрестности любого входного сигнала соответствует допусковая окрестность соответствующего выходного сигнала. В противном случае система будет считаться неисправной.
3. Каждой системе будет соответствовать определенное пространство всех возможных проверок , каждая из которых имеет свою стоимость за полученное количество информации о проверке совершенно определенного подмножества элементов и может иметь два исхода: положительный или отрицательный. В случае положительного исхода - система исправна и наоборот.
4. Допускаем, что в системе одновременно только один неисправный элемент, и он вызывает неисправность системы. Проверки не вносят в систему новых неисправностей.
5. Резервные элементы проверяются отдельной проверкой.
6. При неопределенном результате проверки (стирание информации), проверка повторяется, что приводит к стоимости, как случайной величины.
7. Стоимость проверки является некоторой линейной функцией.
8. Элемент имеет только один вид неисправности - "отказ".
9. Пространство проверок не является ограниченным, если включает все комбинации проверки элементов. Обычно число проверок превышает число проверяемых элементов.
10.Проверки и , kj, будем называть непересекающимися (независимыми), если подмножество проверяемых ими элементов не пересекаются.
11. .Для системы заданы априорные вероятности неисправной работы ее элементов - .
12. 3а критерий оптимизации процессов контроля работоспособности и технической диагностики принимается критерий минимизации средних потерь, затрачиваемых на решение задачи.
Тогда задачу контроля работоспособности и технической диагностики можно сформулировать так: пусть имеется вычислительная система из N элементов с априорным распределением вероятностей отказа. На начало проверок о системе неизвестно, что она исправна или неисправна, т.е. .
Считаем, что пространство возможных проверок достаточно для того, чтобы определить техническое состояние системы и, в случае неисправности, отыскать неисправный элемент.
Стирание информации, ошибки 1-го (ложная неисправность) и 2-го (пропуск неисправности) рода отсутствуют. Требуется найти оптимальную стратегию , которая бы минимизировала средние потери, т.е., где L- поглощающее состояние.
Здесь и далее контроль работоспособности рассматривается как частный случай технической диагностики, для которой требуется (в случае отыскания неисправности элемента) большая глубина проверок до уровней элементов, что увеличивает сложность, стоимость и продолжительность, почти всегда требует дополнительных аппаратно - программных средств, при массовом производстве.