Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

надежн / ВВЕДЕНИЕ

.doc
Скачиваний:
27
Добавлен:
07.02.2016
Размер:
335.36 Кб
Скачать

PowerPlusWaterMarkObject3

ВВЕДЕНИЕ

Основу АСОИиУ составляют компьютеры (ПК). Компьютер представляет собой техническое изделие, которое характеризуется сложностью эксплуатационного обслуживания, вызванное сложностью структуры и схемотехники ПК, логических связей между компьютерами, процессов функционирования, разнообразием и большим количеством элементов, высокой плотностью монтажа, взаимодействием аппаратных и программных средств, большим объемом технической документации, необходимостью понимать тексты, сообщения на иностранном языке. Все это накладывает высокие требования к квалификации обслуживающего персонала (не пользователей!).

Функционирование АСОИиУ представляет собой большое количество процессов, протекающих одновременно с большой скоростью и недоступных для непосредственного наблюдения. АСОИиУ как объект обслуживания имеет ряд особенностей, которые необходимо учитывать в процессе эксплуатации. ПК, а тем более компьютерная сеть,– это сложная, высокоорганизованная, автоматически действующая компьютерная система. Она состоит из многих разнородных, взаимосвязанных электронных и электромеханических компонентов с различными физическими принципами действия. Устройства ПК и их составные части связаны друг с другом электрическими, логическими и функциональными связями.

ПК представляет собой нераздельную совокупность аппаратных и программных средств. При этом наиболее важная часть программного обеспечения – операционная система – это наиболее интеллектуальное достижение из всего, что когда-либо было создано человеком. Обслуживающий персонал должен одинаково хорошо знать «hardware» и «software».

В отличие от других систем, осуществляющих преобразование материальных объектов (видов энергии, формы и состояния материала), в ПК происходит преобразование информации, что определяет и соответствующий интеллектуальный уровень систем этого класса.

ПК – это человеко-машинная система, в которой человек определенным образом общается и взаимодействует с машиной. ПК является естественным продолжением и усилением мозга человека.

Итак в составе (АСОИиУ) можно выделить три разноплановых компонента: техническую часть, программное обеспечение и человека-оператора. Соответственно, в теории надежности разработаны подходы, используемые для анализа и прогноза надежностных характеристик каждого компонента.

Рисунок 1

Для нормативного обеспечения методов, мероприятий и средств. направленных на достижение требуемого уровня надёжности, используется система стандартов «Надёжность в технике». Эта система в соответствии с ГОСТ 27.001 81 «Система стандартов. Надёжность в технике. Основные положения» обеспечивает эффективность организационно технических, конструкторско-технологических и эксплуатационных мероприятий. направленных на достижение требуемого уровня надёжности изделий.

Анализом и исследованием этих вопросов занимается наука, которую называют теорией надёжности. Основной её задачей является изучение закономерностей возникновения отказов технических устройств. Эта наука базируется на теории вероятности и математической статистики, поэтому все расчёты надёжности носят вероятностный и статистический характер.

Проектирование сложных систем немыслимо без учета и анализа надежности. Недостаточная на­дежность может привести не только к чрезмерным эксплуатацион­ным издержкам (ремонт и восстановление), но и к более тяжким последствиям (невыполнение задачи, опасные ситуации, аварии). Методы теории вероятностей и математической статистики позво­ляют устанавливать количественные показатели надежности, сравнивать различные варианты по этим показателям, упрощать и сокращать процесс выбора лучшего варианта проектируемой системы.

В связи с возросшей сложностью, а также из-за высоких требований, предъявляемых к работе ПК, большое внимание в процессе разработки, изготовления и эксплуатации машин уделяется повышению надежности. Надежность ПК или ее отдельных узлов и блоков — это свойство вычислительной машины (и ее элементов) выполнять в течение требуемого времени заданные функции при определенных условиях эксплуатации.

Повышение надежности — одна из основных проблем, стоящих перед конст­рукторами — разработчиками ПК. Основным путем повышения надежности ПК является повышение надежности каждого ее элемента. Действительно, чем больше элементов и связей в электронной машине, тем больше вероятность отказа ПК из-за выхода из строя какого-либо ее элемента.

Будем рассматривать "Систему" как совокупность устройств, характеризующуюся выбранным числом параметров.

На эффективность системы оказывают влияние взаимодействие независимых факторов. Некоторые из этих факторов присущи самой системе при ее проектировании, изготовлении и эксплуатации. Другие факторы, воздействующие на эффективность, являются внешними.

Требование к эффективности данной системы может зависеть от времени, в течении которого она должна оставаться работоспособной, может зависеть также и от цены, достижимой точности, веса или габаритов и, наконец, от надежности системы. Любое требование, основывающееся лишь на чем-то одном: времени, стоимости, точности, весе, надежности и т.д., значительно упрощает рассмотрение. Однако требования, которые инженеры предъявляют к проектируемой системе, оказываются гораздо более сложными. Задача проектировщика усложняется не только тем, что имеется набор разноречивых требований, но и тем, что они заданы почти всегда в весьма неясной форме. Сравнительная важность факторов, действующих на эффективность системы, часто может быть оценена лишь после ее создания.

Однако в настоящее время существует определенная тенденция считать характеристики надежности наиболее важными.

Разница между проектированием устройств и проектированием систем заключается в более широком привлечении методов организации и информации. Сложные системы могут выполнять многочисленные функции, иметь много входных каналов, преобразовывать и выдавать много выходных данных и иметь большую стоимость. Поэтому при проектировании сложной системы дополнительно к характеристикам, описывающим поведение отдельных устройств, необходимо учитывать характеристики всей системы. Только широкое рассмотрение позволит выбрать оптимальный способ создания системы с требуемым уровнем эксплуатационной надежности.

Заданная характеристика надежности системы определяется исходя из ее назначения. На начальной стадии проектирования системы определяется тип и минимальное число устройств в схеме. Затем определяется структура этих устройств, позволяющих получить заданную характеристику надежности. После того как выяснена структура отдельных частей, выбирается интенсивность отказа и интенсивность восстановления элементов каждого устройства в соответствии с заданным уровнем надежности. В процессе создания системы производится постоянная переоценка способов достижения заданной надежности при минимальных затратах.

Главной идеей при проектировании системы является отыскание путей, позволяющих получить все важные параметры системы, при которых не было бы оснований к серьезным переделкам и система была бы оптимальной с точки зрения большинства требований.

Первой задачей при проектировании надежной системы является определение способов, с помощью которых требования по надежности будут выполнены наилучшим образом. Естественно, эти способы необходимо выбирать, рассматривая требования по надежности во взаимосвязи с другими важными характеристиками системы. Эти способы должны позволить выбрать надежные системы с наилучшей эффективностью, затем сделать заключение о необходимых усилиях при проектировании, помочь определить отказы, которые влияют на выбранную величину надежности. И, наконец, что также очень важно, они должны помочь достигнуть такого уровня надежности системы, который ограничен стоимостью проектирования. Выбор характеристик надежности производится исходя из названного круга вопросов.

Проектирование сложной системы включает в себя многочисленные проблемы, которые обычно находятся в тесной связи. Сложность проблем, возникающих при проектировании систем уменьшается по мере конкретизации задач, четкого определения ограничений и наличия исчерпывающей информации о разработанных ранее более простых системах.

На рисунке 2 показана зависимость надежности системы в период проектирования и эксплуатации.

Рисунок 2

Один из основных параметров ПК - надежность - зависит как от надежности используемой элементной базы, так и от принятых схемотехнических и конструкторских решений. Учитывая значимость современной ПК в хозяйственной деятельности человека, требования к ее надежности постоянно повышают. Это связано с тем, что от правильной работы ПК зависят ход выполнения технологического процесса, достоверность получения результатов расчетов, жизнеобеспечение космического аппарата и т. д. Поэтому вопросам повышения надежности ПК на всех этапах ее проектирования и производства уделяется самое большое внимание.

Терминологические определения не являются ведущими в надежности, однако, изложение теории надежности необходимо начать с определения основных понятий. Рассмотрим основные термины и определения, используемые в теории надёжности согласно ГОСТ 27.002 83 «Надёжность в технике. Термины и определения».

Элемент—один или несколько однотипных устройств, предметов, испытуемых образцов, имеющих количественные характеристики надежности, учитываемые при расчете надежности всего соединения. Следует отличать данное понятие от подобного, принятого в АСУ и вычислительной технике (ВТ). Если в теории надежности элементом могут быть и деталь, и узел, и прибор в зависимости от того, какая количественная характеристика надежности учитывается самостоятельно при расчете надежности, то в ВТ под элементом понимается простейшая запоминающая, логическая или нормализующая схема, не имеющая самостоятельного функционального назначения. Элементы схем ПК состоят из радиоэлектронных приборов (радиоламп, транзисторов и т. д.), деталей (резисторов, конденсаторов, трансформаторов, дросселей, панелей, разъемов) и вспомогательных материалов (проводов, припоев, крепежа и т. д.).

Ячейка—отдельная механическая конструкция, не имеющая самостоятельного функционального назначения.

Узел (блок)—несколько деталей, ячеек, объединенных для выполнения определенной функции, но не имеющих как целое самостоятельного эксплуатационного назначения. Примером узлов в ВТ могут служить регистр команд, счетчик циклов, дешифратор операций, сумматор адреса, программный датчик, блок выработки признаков и др.

Устройство—соединение деталей, узлов, имеющее самостоятельное эксплуатационное назначение [блок питания, арифметическое устройство (АУ) и т.д.].

Прибор—группа блоков, имеющая конструктивно самостоятельное назначение. Установка—группа приборов.

Система—устройство, состоящее из нескольких, установок. Надежность его имеет самостоятельное значение. Различают системы восстанавливаемые (после отказов их можно ремонтировать) и невосстанавливаемые. Системы могут быть однократно и многократно использованы. Электронная вычислительная машина может представлять собой самостоятельную систему, полностью выполняющую определенные задачи, или входить в качестве одного из объектов в более сложные системы.

В любой момент времени ПК может находиться в исправном или неисправном состоянии. Если ПК в данный момент времени удовлетворяет всем требованиям, установленным как в отношении основных параметров, характеризующих нормальное выполнение вычислительных процессов (точность, быстродействие и др.), так и в отношении второстепенных параметров, характеризующих внешний вид и удобство эксплуатации, то такое состояние называют исправным состоянием. В соответствии с этим определением неисправное состояние— состояние ПК, при котором она в данный момент времени не удовлетворяет хотя бы одному из этих требований, установленных в отношении как основных, так и второстепенных параметров.

Однако не каждая неисправность приводит к невыполнению ПК заданных функций в отношении основных параметров. Например, образование вмятин или ржавчины на корпусе машины, выход из строя лампочек подсветки не могут препятствовать эксплуатации ПК. Поэтому для оценки надежности систем введены понятия “работоспособность” и “отказ”.

Работоспособность—состояние, ПК, при котором она в данный момент времени соответствует всем требованиям в отношении основных параметров, характеризующих

Отказоустойчивость - это такое свойство вычислительной системы, которое обеспечивает ей, как логической машине, возможность продолжения действий, заданных программой, после возникновения неисправностей. Введение отказоустойчивости требует избыточного аппаратного и программного обеспечения. Направления, связанные с предотвращением неисправностей и с отказоустойчивостью, - основные в проблеме надежности. Концепции параллельности и отказоустойчивости вычислительных систем естественным образом связаны между собой, поскольку в обоих случаях требуются дополнительные функциональные компоненты. Поэтому, собственно, на параллельных вычислительных системах достигается как наиболее высокая производительность, так и, во многих случаях, очень высокая надежность. Имеющиеся ресурсы избыточности в параллельных системах могут гибко использоваться как для повышения производительности, так и для повышения надежности. Структура многопроцессорных и многомашинных систем приспособлена к автоматической реконфигурации и обеспечивает возможность продолжения работы системы после возникновения неисправностей.

Отказ— событие, состоящее в полной или частичной утрате работоспособности системы. Отказ наступает всякий раз, когда устройство не сохраняет своих параметров в заданных пределах. Например, ухудшение точности ниже заданного предела есть отказ, хотя система работоспособна. Так как не всякая неисправность приводит к отказу, то на практике различают неисправности основные и второстепенные. Основные неисправности приводят к отказу. Второстепенные неисправности не приводят к отказу, однако создают неудобства в эксплуатации и портят внешний вид ПК. Поэтому второстепенные неисправности целесообразно своевременно устранять.

Возникновение отказа во времени - случайное событие, что позволяет для оценки надежности ПК использовать методы теории вероятности и математической cтатистики.

Чтобы определить влияние на характеристики ПК отказов различного вида, целесообразно произвести их классификацию. По степеням воздействия— полные и частичные; по характеру воздействия—самовосстанавливающиеся, временные и перемежающиеся; по характеру и объему устранения—расстройки, повреждения и аварии. По характеру изменения параметров до момента возникновения отказы делят на внезапные и постепенные. Внезапные (катастрофические) отказы возникают в результате мгновенного (резкого, скачкообразного) изменения одного или нескольких параметров элементов, из которых построена ПК (обрыв или короткое замыкание). Устранение внезапного отказа производят заменой отказавшего элемента (блока, устройства) исправным или его ремонтом. Постепенные отказы возникают в результате постепенного изменения параметров элементов до тех пор, пока значение одного из параметров не выйдет за некоторые пределы, определяющие нормальную работу элементов (старение элементов, воздействие окружающей среды, колебания температуры, влажности, давления, уровня радиации и т. п.), механические воздействия (вибрации, удары, перегрузки). Важной задачей надежности является прогнозирование отказов такого типа. Деление отказов на внезапные и постепенные является в некоторой степени условным, однако удобным при анализе систем. Характер отказа оказывает решающее влияние на методику расчета надежности, на способы построения надежных схем, на способы обнаружения места отказа. Устранение постепенного отказа связано либо с заменой, ремонтом, регулировкой параметров отказавшего элемента, либо с компенсацией за счет изменения параметров других элементов.

По характеру устранения отказы делят на устойчивые (окончательный) и самоустраняющиеся (перемежающий). Для устранения устойчивых отказов оператор, обслуживающий ПК, должен отрегулировать или заменить отказавший элемент. Самоустраняющиеся отказы исчезают без вмешательства оператора и проявляются в форме сбоя или перемежающего отказа. Сбой - однократно возникающий самоустраняющийся отказ, возникающий в результате временно действующих причин.

Если несколько сбоев следуют друг за другом, то имеет место перемежающийся отказ. Отказ типа сбоя особенно характерен для ПК. Появление сбоев обусловливается внешними и внутренними факторами. К внешним факторам относятся колебания напряжения питания, вибрации, температурные колебания. Специальными мерами (стабилизации питания, амортизация, термостатирование и др.) влияние этих факторов может быть значительно ослаблено. К внутренним факторам относятся флуктуационные колебания параметров элементов, несинхронность работы отдельных устройств, внутренние шумы и наводки.

Если в ПК возникает сразу несколько отказов, то по их взаимной связи различают независимые отказы (возникновение их не связано с предшествующими отказами, не зависит от исправного или неисправного состояния других элементов аппаратуры) и зависимые (появление их вызвано отказом в предыдущий момент времени).

По внешним проявлениям отказы делят на явные и неявные. Явные отказы обнаруживаются при внешнем осмотре, а неявные отказы -специальными методами контроля.

Таблица 2

Признаки

отказа

Вид отказа

Характеристика отказа

1

2

3

Характер

изменения

параметра до

момента

возникновения

отказа

Внезапный

Скачкообразное изменение значений одного или нескольких параметров ТС

Постепенный

Постепенное изменение одного или нескольких параметров за счет медленного, постепенного ухудшения качества ТС.

(Например, износ поршневых колец в цилиндрах двигателя внутреннего сгорания - постепенный отказ)

Связь с

отказами

других

элементов

(узлов,

устройств)

Независимый

(первичный)

Отказ не обусловлен повреждениями или отклонениями других элементов (узлов)

Зависимый (вторичный)

Отказ обусловлен повреждениями или

отказами других элементов (узлов,

устройств).

(Например, из-за пробоя конденсатора

может сгореть другой элемент

устройства)

Возможность использования элемента после отказа

Полный

Полная потеря работоспособности, исключающая использование ТС по назначению

Частичный

Дальнейшее использование системы возможно, но с меньшей эффектив­ностью

Характер

проявления

отказа

Сбой

Самоустраняющийся отказ, приводящий к кратковременному нарушению работо­способности

Перемежающийся

Многократно возникающий сбой одного и того же характера (то возникающий, то исчезающий), связанный с обратными случайными изменениями режимов работы и параметров устройства. (Например, снижение чувствительности прибора может произойти из-за случайного резкого уменьшения напря­жения питания)

Устойчивый (окончательный)

Отказ, устраняемый только в результате проведения восстановительных работ, является следствием необратимых процессов в деталях и материалах. (Например, выход из строя устройства из-за обрыва нити накала электронной лампы)

Причина

возникновения

отказа

Конструкционный

Возникает вследствие нарушения установленных правил и норм конст­руирования

Производственный

Возникает из-за нарушения или несовершенства технологического про­цесса изготовления или ремонта ТС

Эксплуатационный

Возникает вследствие нарушения установленных правил и условий

эксплуатации ТС

Время

возникновения

отказа

Период приработки

Обусловлен скрытыми производствен­ными дефектами, не выявленными в процессе контроля

Период норм эксплуатации

Обусловлен несовершенством конст­рукции, скрытыми производственными дефектами и эксплуатационными нагруз­ками

Период старения

Обусловлен процессами старения и износа материалов и элементов ТС

Возможности обнаружения отказа

Очевидные

(явные)

Скрытые

(неявные)

Введенное выше понятие "отказ" позволяет рассмотреть основные эксплуатационные свойства ПК: безотказность, ремонтоспособность, долговечность, сохраняемость. Безотказность- свойство ПК непрерывно сохранять работоспособность в заданных режимах и условиях эксплуатации без вынужденных простоев. Это свойство характеризует функционирование системы до первого отказа и используется при оценке надежности ПК одноразового применения. Ремонтоспособность - свойство ПК, заключающееся в приспособлении к предупреждению, обнаружению и устранению отказов и неисправностей путем проведения технического обслуживания и ремонтов. Долговечность- свойство ПК сохранять работоспособность до предельного состояния с необходимыми перерывами для технического обслуживания и ремонтов. Необходимо отметить, что предельное состояние определяется технической непригодностью ПК из-за снижения эффективности или требований техники безопасности и оговаривается в технической документации. Сохраняемость - свойство изделия сохранять эксплуатационные показатели в течение заданного срока хранения и после него. Это свойство характеризует безопасность ПК в режиме хранения.

Надежность как сочетание свойств безотказности, ремонтоспособности, долговечности и сохраняемости и сами эти качества количественно характеризуются различными функциями и числовыми параметрами. Правильный выбор количественных показателей надежности ПК позволяет объективно сравнивать технические характеристики различных вычислительных систем как на этапе проектирования, так и на этапе эксплуатации (правильный выбор системы элементов, технические обоснования работы по эксплуатации и ремонту ПК, объем необходимого запасного имущества и др.).

В последние годы в литературе по вычислительной технике все чаще употребляется термин "системы высокой готовности", "системы высокой степени готовности", "системы с высоким коэффициентом готовности". Все эти термины по существу являются синонимами, однако как и многие термины в области вычислительной техники, термин "высокая готовность" понимается по-разному отдельными поставщиками и потребителями вычислительных систем. Совершенно аналогично, некоторые слова, связанные с термином "высокая готовность", такие, например, как "кластеризация", также употребляются в различных значениях. Важно иметь стандартный набор определений для того, чтобы предложения различных поставщиков можно было сравнивать между собой на основе одинаковых терминов.

Ниже приведены общепринятые в настоящее время определения, которые мы будем использовать для различных типов систем, свойством которых является та или иная форма снижения планового и непланового времени простоя:

  • Высокая Готовность (High Availability). Настоящие конструкции с высоким коэффициентом готовности для минимизации планового и непланового времени простоя используют обычную компьютерную технологию. При этом конфигурация системы обеспечивает ее быстрое восстановление после обнаружения неисправности, для чего в ряде мест используются избыточные аппаратные и программные средства. Длительность задержки, в течение которой программа, отдельный компонент или система простаивает, может находиться в диапазоне от нескольких секунд до нескольких часов, но более часто в диапазоне от 2 до 20 минут. Обычно системы высокой готовности хорошо масштабируются, предлагая пользователям большую гибкость, чем другие типы избыточности.

  • Эластичность к отказам (Fault Resiliency). Ряд поставщиков компьютерного оборудования делит весь диапазон систем высокой готовности на две части, при этом в верхней его части оказываются системы эластичные к отказам. Ключевым моментом в определении эластичности к отказам является более короткое время восстановления, которое позволяет системе быстро откатиться назад после обнаружения неисправности.

  • Устойчивость к отказам (Fault Tolerance). Отказоустойчивые системы имеют в своем составе избыточную аппаратуру для всех функциональных блоков, включая процессоры, источники питания, подсистемы ввода/вывода и подсистемы дисковой памяти. Если соответствующий функциональный блок неправильно функционирует, всегда имеется горячий резерв. В наиболее продвинутых отказоустойчивых системах избыточные аппаратные средства можно использовать для распараллеливания обычных работ. Время восстановления после обнаружения неисправности для переключения отказавших компонентов на избыточные для таких систем обычно меньше одной секунды.

  • Непрерывная готовность (Continuous Availability). Вершиной линии отказоустойчивых систем являются системы, обеспечивающие непрерывную готовность. Продукт с непрерывной готовностью, если он работает корректно, устраняет любое время простоя как плановое, так и неплановое. Разработка такой системы охватывает как аппаратные средства, так и программное обеспечение и позволяет проводить модернизацию (upgrade) и обслуживание в режиме on-line. Дополнительным требованием к таким системам является отсутствие деградации в случае отказа. Время восстановления после отказа не превышает одной секунды.

  • Устойчивость к стихийным бедствияи (Disaster Tolerance). Широкий ряд продуктов и услуг связан с обеспечением устойчивости к стихийным бедствиям. Иногда устойчивость к стихийным бедствиям рассматривается в контексте систем высокой готовности. Смысл этого термина в действительности означает возможность рестарта или продолжения операций на другой площадке, если основное месторасположение системы оказывается в нерабочем состоянии из-за наводнения, пожара или землетрясения. В простейшем случае, продукты, устойчивые к стихийным бедствиям, могут просто представлять собой резервные компьютеры, расположенные вне основного местоположения системы, сконфигурированные по спецификациям пользователя и доступные для использования в случае стихийного бедствия на основной площадке. В более сложных случаях устойчивость к стихийным бедствиям может означать полное (зеркальное) дублирование системы вне основного местоположения, позволяющее принять на себя работу немедленно после отказа системы на основной площадке.

Соседние файлы в папке надежн