- •Программное обслуживание резервных устройств и параллельные вычисления системной цвм Функциональное резервирование
- •Особенности расчета надежности и резервирования по
- •Надежность и безопасность автоматизированных систем обработки информации(нибасои)
- •Поскольку р(t) – функция времени, то в определении вбр всегда присутствуют слова “за заданное время работы t”.
- •Лекция 3 Расчет надежности системы по надежности составляющих её элементов
- •Особенности расчета надежности и резервирования по
- •Метод наименьших квадратов для аппроксимации экспериментальных данных по количеству проявившихся в по ошибок
- •Аварийная защита
- •Защита от ошибок и отказов должна строится на их как можно более раннем обнаружении после чего возможно подключение резерва, изменение логики работы системы и т.П.
- •Поэтому автоматический контроль правильности работы системы и по в процессе его эксплуатации является важной и актуальной задачей и в дальнейшем мы рассмотрим именно такой вид контроля .
- •Надежность и производительность средств автоматизации - системный подход Основные понятия теории надежности.
- •Расчет надежности системы по надежности составляющих её элементов.
ЕПоскольку р(t) – функция времени, то в определении вбр всегда присутствуют слова “за заданное время работы t”.
ще один показатель надежности
– среднее время безотказной работы Т.
Показано, что для экспоненциального
закона и
Т=1/
Для БИС
в среднем
-7
[1/час], тогда Т=107/8640 [лет}
1000
лет.
При этом для ВБР близких к 1, а собственно именно эти вероятности нас должны интересовать, можно пренебречь членами разложения в ряд функции ехр, начиная с третьего
Ехр(-
t)= 1-
-
…..
1
-
Тогда для времени непрерывной работы 1 год(104 час) ВБР такой БИС будет
Р=1 – 10-3=0,999
Однако, для большой системы этот показатель надежности за счет использования большого количества БИС будет гораздо меньше. Например, для системы из 100 таких БИС (это - ЦВМ) за год работы ВБР будет уже только лишь около 0,9.
Принято считать, что если вероятность отказа за требуемое техническое время больше 0.2 (ВБР меньше, чем 0.8), то это ненадежная система – отказы в ней будут происходить часто.
Редкие отказы характеризуются уровнем вероятности отказа за заданное время меньшим, чем 0,01, а технически очень редкие отказы имеют вероятность отказа меньше 0,001 (ВБР равно 0,999) и такая система может считаться надежной.
Значения вероятностей некоторых фатальных событий за интервал времени один год:
Фатальные болезни в возрасте 10-14 лет - 0,0001
Фатальные болезни в возрасте 30-35 лет - 0,001
Фатальные болезни в возрасте 60-69 лет -0.01
Регулярные полеты на военных самолетах , автогонки - 0,1
Лекция 3 Расчет надежности системы по надежности составляющих её элементов
Теория надежности – экспериментальная наука
Одно из основных предназначений и результатов научной дисциплины теории надежности – провести расчет надежности сложной системы по надежности составляющих её элементов, которые получены экспериментальным образом, то есть статистически определены в результате специальных испытаний в заданных условиях над партией элементов.
Таким образом, теория надёжности– в основе своей экспериментальная наука, методы которой обеспечивают оценку надёжности сложных изделий и систем не проводя их массовых испытаний. Это очень дорого, так как для получения достоверных статистических выводов надо испытывать партию дорогих и сложных изделий, выпускаемых в ограниченном числе экземпляров. Гораздо проще и дешевле провести статистические испытания относительно дешевых составляющих систему элементов, выпускаемых огромными тиражами. Иногда проводят массовые испытания и сложных изделий. Но чаще результаты по оценке надежности получаются при анализе результатов эксплуатации системы, изделия, ПО.
Надежностная схема соединения элементов. Последовательная надежностная схема соединения элементов в системе
И
1
2
3
n
…
звестные
законы изменения во времени ВБР элементов
позволяют проводить расчет надёжности
систем по экспериментально определенной
надёжности отдельных её элементов
Д
ля
этого нужно составить надежностную
схему соединения
элементов в системе. Это не структурная и не электрическая схема , хотя имеет с ними общие черты. Это схема построенная по принципу приводят ли отказы изображенных на схеме элементов к отказу всей системы или нет.
Е
сли
система состоит из n
элементов), работающих последовательной
цепочкой, отказ каждого из которых
приведет к отказу всей системы, то можно
записать последовательную надежностную
схему системы.
Для такой системы работоспособность обеспечивается, если все элементы работоспособны, как произведение ВБР составляющих элементов.
Для такой системы из
последовательно соединенных элементов
ВБР также меняется по ехр, а lсист
=
.
В случае n элементов с одинаковой интенсивностью отказов λ
Р = е--λnt
Параллельная надежностная схема соединения элементов в системе
Если отказ элемента не приводит к отказу системы за счет наличия параллельно работающих элементов, выполняющих ту же работу, что и отказавший, то можно составить параллельную надежностную схему.
Для такой схемы отказ наступит, если
откажут все параллельные элементы,
т.е. обозначив вероятность отказа
системы Q по схеме 4: Q=(1-Р1)·(1-Р2)
·…·(1-Рn), а вероятность
безотказной работы такой системы Р =
(1- Q), как несовместимые события
Для ВБР элементов близких к 1
Р=1 -
Если интенсивность отказов у всех элементов одинакова, то
Р =1 – (λt)n
Ясно, что в этом случае ВБР системы из параллельных элементов меняется во времени не экспоненциально.
Для расчета надежности (ВБР) реальных систем составляется надежностная схема, которая обычно является сочетанием рассмотренных нами двух схем. По ней определяется ВБР путем подставки ВБР отдельных элементов.
Лекция 4. Инженерный подход к уровню надежности СТС. Три пути повышения надежности ЦВМ и сетей ЦВМ и других средств автоматизации и управления. Надежность персонала АСУ
Инженерный подход к уровню надежности СТС
В общем случае при наличии полного или частичного резервирования (параллельная надежностная схема) ВБР не меняется по ехр во времени, а меняется по более сложному закону.
Для ЦВМ ,состоящей из 100 БИС в последовательной надежностной схеме за время работы 1 год -10000 часов ВБР будет равна
Р
1
-
*t= 1 – nλt =1
– 100*10-7*104=0,9
Это низкая ВБР, если учесть ,что эта ЦВМ работает в составе сложной системы. Пусть речь идёт о спутнике. Пусть спутник состоит из шести подсистем, каждая из которых в свою очередь сложна и состоит не менее, чем из сотни элементов. В этом случае ВБР каждой из подсистем также имеет значение порядка 0,9 за время работы один год при принятой интенсивности отказов БИС.
Пусть эти подсистемы:
-система управления угловой ориентацией и стабилизацией,
-системная БЦВМ,
-двигательная установка,
-система терморегулирования,
-система энергоснабжения,
-система подвижных элементов конструкции – антенны, панели солнечных батарей.
Отказ каждой из этих подсистем ведет к отказу спутника в целом и поэтому эти подсистемы соединены в последовательную надежностную схему. Полагая значения λ одинаковыми для всех элементов, имеем ВБР спутника на один год
Р = e -6nλt = exp ( -6*(10^-5)*10^4) 0,5.
Это означает, что в среднем каждый второй спутник откажет в течении года .Это никуда не годится. Поэтому ВБР О,9 на подсистему сложной системы является недопустимо низкой и надо говорить, например, о ВБР на каждую комплектующую подсистему равную 0,99 или по крайней мере 0,95. При ВБР каждой подсистемы, равной 0,99 за один год, ВБР спутника за один год составит уже
Р = e -6nλt = ехр ( -6*(10^-6)*10^4) 0,94
Это с инженерной точки зрения можно считать удовлетворительным результатом.
Возвращаясь к интенсивности отказов комплектующих подсистемы элементов, для получения правильного сточки зрения надежности системы результата необходимо иметь её значения не ниже = 10-8[1/ час ]
В возможности вычислительных систем работать бесперебойно и безотказно 24 часа в сутки заинтересованы не только пользователи сравнительно небольших систем реального времени, охранных систем, но и пользователи банковских систем, территориально разнесенных систем управления и т. п .
На первый взгляд попытки этих пользователей требовать 99,9999% готовности вычислительной системы (для ремонтируемых систем среднее отношение времени нахождения в работоспособном состоянии на некотором интервале времени к величине этого интервала называется готовностью) могут показаться абсурдными. Однако, если учесть, что система с готовность 99,9% имеет в год 500 минут простоя из за ремонта по сравнению с 30 секундами годового простоя системы с готовностью 99,9999%, то эти требования уже не кажутся чрезмерными.
Три пути повышения надежности ЦВМ и сетей ЦВМ и других средств автоматизации и управления.
Поскольку процесс возникновения отказов это – случайный во времени процесс, то теория надежности – специальный раздел теории вероятности. С другой стороны теория надежности должна базироваться на статистике наблюдаемых отказов и с этой точки зрения она - экспериментальная наука. Для получения статистики по отказам производители элементной базы ставят эксперименты над партией элементов, заставляя их работать в заданных условиях в течении заданного времени до отказа части из них. После этого определяются показатели надежности этих элементов.
Теория надежности дала инженерной практики два важных результата:
1.Методы теории надежности позволяют рассчитать надежность системы по надежности составляющих ее элементов. Для этого и надо иметь экспериментальные характеристики их надежности и представлять структурную схему системы для проведения расчетов.
2.Методы теории надежности позволяют конструировать надежные системы из не надежных элементов, используя избыточные (резервные) элементы, соединенные в резервированную систему особым образом.
Полученные экспериментальные данные по надежности элементной базы являются таким образом основой для проведения расчета надежности сложных систем, состоящих из множества элементов.
Для расчета надежности (ВБР) реальных систем составляется надежностная схема, которая обычно является сочетанием рассмотренных нами двух схем. По ней определяется ВБР путем подставки ВБР отдельных элементов.
Как добиться, чтобы ВБР подсистем, в частности ЦВМ достигла значений 0,99 и большего количества 9 после запятой? Из приведенных простейших расчетов ясно, что есть три пути:
-повышать надежность комплектующих элементов – уменьшать интенсивность отказов ,
-повышать степень интеграции элементов, что приведет к сокращению их количества в системе (при этом высоко интегрированных элементов имеет тот же порядок, что и низко интегрированных),
- применять временную или элементную избыточность в частности резервирование – использования резервных элементов, подключаемых взамен отказавших.
Высокие требования по надежности трудно обеспечить для системы ,в которой множество элементов.
Например, система состоящая из 1000 высоконадежных БИС
с
^-8[1/час]
в лучшем случае будет обладать ВБР за
10000 часов работы (1 год)
P(t)=exp(- tN) 1- tN=0,9
Это –невысокая ВБР, несмотря на то ,что ВБР каждой отдельной БИС достаточно велика за тоже время 10000 часов.
P(t)БИС=1-
t=1-10
-4=0,9999
Повышение ВБР такой системы можно достичь, уменьшая интенсивность отказов , повышая качество элементов, или уменьшая число элементов в системе N, удерживая тот же уровень интенсивности отказов. Поэтому рост степени интеграции БИС, составляющих систему, способствует повышению её надежности. Ситуация с повышением качества элементной базы ЦВМ, имеющей в настоящее время в РФ импортное происхождение, будет нами рассмотрена ниже в одной из лекций.
Надежность персонала АСУ
В отличие от САУ в АСУ в контур управления включен человек, на которого возлагаются функции принятия наиболее важных решений и ответственности за принятые решения.
Во всех системах автоматизации главными элементами для управления и переработки, передачи и хранения информации являются ЦВМ с соответствующим ПО и вычислительные сети.
Поэтому объектами изучения курса «надежность систем автоматизации» рассматриваются методы обеспечения надежности:
ЦВМ, ПО для них, сетей ЦВМ и человека, как элемента автоматизированной системы.
Обычно рассматриваются три группы задач, решаемых человеком в АСУ:
- управление объектом в процессе штатного функционирования,
- техническое обслуживание и ремонт объекта,
- управление объектом в процессе нештатной – аварийной ситуации.
Основная проблема при этом – низкая надежность человека, как элемента АСУ.
Типы ошибок персонала - ошибок -промахов для всех этих задач одинаков:
- пропуск – не выполнение требуемой по алгоритму операции,
- некачественное выполнение операции, требуемой по алгоритму,
- нарушение следования операций,
- замещение операций - вместо требуемой выполняется другая,
- нарушение своевременности операций,
- выполнение ложных операций, отсутствующих в алгоритме управления.
Это операторские ошибки, совершаемые в процессе эксплуатации АСУ. Ошибки, совершаемые человеком на стадии проектирования, разработки и изготовления системы и ПО для неё нами здесь не рассматриваются. Они рассматриваются нами в других курсах.
Наиболее значимыми факторами, влияющими на частоту ошибок - промахов являются запас времени на принятие решения, факторы стресса, сложность и критичность задачи, характеристики инструкций по выполнению функций персонала, характеристики человеко-машинного интерфейса.
При плохих инструкциях по выполнению функций персонала, а также вообще при отсутствии каких либо инструкций по действию в нештатных, не рассмотренных при разработке системы, ситуациях возможны и ошибки- заблуждения. Когда персонал действует по неправильному плану или алгоритму при этом его действия правильны(нет ошибок –промахов).
Объем информации, поступающей к человеку извне, оценивается в 109 бит/сек, из которых только 100 бит/сек обрабатывается сознанием. Мозг имеет ограниченные возможности по обработке информации. Если количество информации, поступающей в единицу времени возрастает, то способность к обработке теряется и внимание концентрируется только на её части.
Методология определения численных показателей надежности человека -оператора также базируется на массовом эксперименте. При этом предварительно необходимо составление перечня действий человека по управлению конкретной АСУ, который и анализируется пооперационно с определением частоты ошибок по каждой операции.
Для иллюстрации вероятностей ошибок человека-оператора приведем некоторые данные по ошибкам в нормальных условиях его деятельности:
-при восприятии устного сообщения(1-3 слова) вероятность ошибки 0,0002,
- при чтении(1-3 слова) вероятность ошибки 0,0010,
- при восприятии показаний цифрового прибора вероятность ошибки 0,0012,
- при нажатии требуемой клавиши вероятность ошибки 0,005,
- при выборе переключателя вероятность ошибки 0,0001,
При напряженной работе, при которой быстро происходит смена ситуаций вероятность ошибки 0,2-0.3.
Интерфейс пользователя – видимая часть системы управления и единственная с которой взаимодействует человек. Интерфейс пользователя должен способствовать повышению ответственности, облегчать работу, и уменьшать вероятность ущерба от человеческих ошибок.
Следует признать необходимым элементом интерфейса подтверждение опасных с точки зрения целостности информации и системы действий оператора.
Л екция 5. Резервирование, как метод повышения надежности систем автоматизации.
Создать надежную систему из ненадежных элементов можно, применив избыточность, одним из видов которой - резервирование. Существует множество схем резервирования. Все они отличаются по следующим главным параметрам:
1.Временем переключения на резерв, включая время обнаружения отказа,
2.Достигаемому значению ВБР.
Самые высокие значения ВБР обеспечиваются в схемах резервирования замещением с холодным резервом, но эти схемы страдают самым большим временем переключения на резерв.
Но во многих приложениях жесткого реального времени, где желательно поддерживать непрерывную работу системы в том числе и при отказах составляющих систему элементов, время переключения на резерв - важный параметр и должен укладываться в «работу в реальном времени». При этом перед переходом на резерв надо убедится в наличии отказа и провести его локализацию. Все это делает выбор схемы резервирования непростым делом.
Включение резервного оборудования замещением. Холодное и горячее резервирование.
При вариантах «холодного» резервирования резервное оборудование находится в выключенном состоянии и включается только при подключении резерва в работу. До включения резервного оборудования его ресурс не расходуется, и «холодное» резервирование дает самую большую ВБР.
Недостаток холодного резервирования – включение резервной аппаратуры проходит за некоторое время, в течение которого система не управляется или неработоспособна. На этом интервале ввода в строй «холодной» резервной аппаратуры источники питания выходят на режим, аппаратура тестируется, прогревается. В нее загружается необходимая информация.
В случае «горячего» резервирования все резервные элементы ЦВМ включены и готовы сразу после команды включиться в работу. Это может обеспечить меньшее время переключения на резерв. Однако ресурс включенной резервной «горячей» аппаратуры расходуется и достижимая ВБР в этом методе меньше, чем в случае «холодного» резервирования. Время переключения на резерв – важный параметр, и допустимые его значения определяются конкретной прикладной задачей.
Для системы дублированной замещением с холодным резервом ВБР равна:
Данное приближение
справедливо для ВБР
.
Использование дублирования с холодным
замещением в нашем примере ЦВМ из 100 БИС
с
на каждую ВБР за один год непрерывной
работы будет равна
Рдуб.х = 1 – 0,01 = 0,99. Вместо 0.9 для нерезервированной системы.
Таким образом, простое дублирование ЦВМ приводит значение её ВБР в желаемые рамки.
Для системы троированной замещением с холодным резервом ВБР равна:
И для нашего примера ЦВМ будет иметь значение ВБР
Ртр.х.= 0,995
Для системы дублированной замещением с горячим резервом ВБР равна:
И для нашего примера ЦВМ будет иметь значение ВБР
Рдб.г.= 0,99
Для системы троированной замещением с горячим резервом ВБР равна:
На графике приведены изменения Р(t) для трех случаев:
нерезервированная система
система дублированная с холодным резервом
система дублированная с горячим резервом
Сравнительный анализ схем резервирования по ВБР. Относительное время t
нерезервированная
Изменение
ВБР представлены в относительном времени
.
Это удобно, так как графики справедливы
для любого
.
Здесь
–
интенсивность
отказов системы
интенсивность
отказа элементов, составляющих систему.
Красным цветом отмечено изменение ВБР по t для нерезервированной системы.
Горячее резервирование троированием с восстанавливающими органами (с мажоритарными элементами).
Этот метод реализует горячее резервирование с восстановлением информации на мажоритарных элементах с голосованием по большинству.
Мажоритарный элемент – логическое устройство, работающее по большинству. Если у него на входе 011,110,101,111 ,то на выходе у него1. Если у него на входе 001,010,100,000, то на выходе у него 0.
Мажоритарный элемент (МЭ) одновременно решает задачи обнаружения отказа - выход одного из элементов отличается от двух других и подключения резервного. В случае последовательно соединения таких мажорированных троек элементов обеспечивается восстановление информации во всех элементах после отказавшего.
Система работоспособна, когда или все каналы работоспособны, или два из трех любых (таких сочетаний три) каналов работоспособны.
Здесь Р1 – ВБР каждого канала троированной системы.
Данная схема хороша не своей высокой ВБР (ВБР у систем с холодным и горячим резервированием замещением выше), а тем, что функции контроля и подключения резерва выполняются одновременно и автоматически на уровне МЭ. Специализированный мажоритарный контроль идет побитно над результатом каждой машинной операции. Здесь сами МЭ не резервированы и это недостаток примененной схемы.
В ЦВМ, резервированных по схеме троирования с мажоритарными органами, мажорированию подвергаются все разряды (поразрядно) передаваемого по шине данных числа, выбираемого из памяти или записываемого в память числа и т.п. По данным нашего примера ВБР ЦВМ с одним мажоритарным органом после выходного регистра имеет значение
Ртр.мж = 0,972
Горячее резервирование троированием с резервированными
мажоритарными органами
Часто применяется схема с резервированием также и МЭ.
Здесь Р1 – ВБР узлов системы.
На самом деле в данной схеме ВБР несколько выше, так как возможна следующая ситуация: один канал застрял в 0, другой в 1, третий работает и все нормально, так как мажорирование происходит то с одним отказавшим каналом, то с другим. Такая возможность работы при отказе двух каналов из трех в расчетной формуле не предусмотрена.
Лек. 6 Надежность вычислительных сетей и стандартизация процессов взаимодействия систем. Кластеры ЦВМ.
Надежность вычислительных сетей и стандартизация процессов взаимодействия систем.
В процессе обмена информацией по сети участвуют как минимум две стороны. Это означает, что оба участника информационного обмена должны принять множество соглашений, начиная с методов кодирования и передачи битов и заканчивая уровнем обслуживания пользователей с обеих сторон. На момент появления первых сетей такие соглашения действительно принимались для каждой сети индивидуально, что не способствовало их надежности. Стандартизация обеспечила необходимую надежность процесса обмена сообщениями, так как постоянно развивающиеся методы повышения надежности быстро стали достоянием всех участников обмена информацией.
Массовое применение сетевых технологий стало возможным после стандартизации процессов взаимодействия систем и придания упомянутым соглашениям обязательного характера для всех пользователей и создателей сетей. Необходимо, чтобы разъёмы кабелей, уровни и формы информационных сигналов были согласованы. ПО в разных узлах сети должно одинаково интерпретировать передаваемые сигналы и сообщения.
Но что надо стандартизовывать, какие соглашения надо принимать стало ясно после того как сложный процесс обмена сообщениями удалось структурировать – представить в виде ряда последовательных шагов с четко очерченными функциями
Структуризация процессов обмена сообщениями - представление его в виде последовательной многоуровневой системы, позволяет на каждом уровне отвлекаться (абстрагироваться) от деталей нижестоящих уровней и вышестоящих.
Иерархически организованный набор соглашений об интерфейсах, имеет форму обязательных для исполнения в рамках сетевой технологии протоколов. Стандарт ВОС(OSI) представляет структуру этих протоколов в виде 7 уровней : физического, канального, сетевого, транспортного, сеансного, представительского, прикладного.
Надежность передачи информации в большинстве сетевых технологий осуществляется путем контроля целостности передаваемых сообщений.
В случае обнаружения ошибки в переданном сообщении, оно в большинстве случаев повторяется.
Большинство функций уровней 1и 2 (физического и канального) реализуются аппаратно – сетевыми средствами и их драйверами. Третий, четвертый, пятый, шестой и седьмой уровни реализуются ПО. Таким образом надежность передачи данных определяется также и надежностью ПО сетевых протоколов. Отсюда проистекает важность стандартизации ПО сетевого обмена, когда в работе участвуют глубоко отработанные стандартные программные компоненты.
Модель OSI критикуется справедливо за некоторую академичность. Уровни от 4 до 7 в реальных сетях (стеках протоколах) не разрабатываются и не поставляются как отдельные программные продукты, а поставляется ПО, целиком накрывающие уровни 4-7, как соответствующие прикладному уровню.
Влияние топологии вычислительных сетей на их надежность
Когда компьютеров в сети становится больше 2, возникает задача выбора конфигурации (структуры) связей между ними. Под топологией сети понимается структура связей для взаимодействия компьютеров в сети. Топология сети оказывает существенное влияние на характеристики функционирования сети: 1. На время доступа абонента на ЛПИ –существенная часть задержки в передаче данных 2. На надёжность передачи данных, особенно при учёте возможных нештатных ситуаций – отказов узлов, обрывов ЛПИ. 3. На простоту расширения – подключение новых узлов 4. На безопасность сети
Существует пять базовых топологий ЛВС :
Шина, звезда, кольцо, дерево, ячеистая.
Физическое размещение компьютеров по кольцу, в линию и т.п. не есть топология сети.
Кольцевому физическому размещению компьютеров в сети могут соответствовать топология шина и топология кольцо и даже каждый с каждым.
топология кольцо
Надежность и безопасность сети с топологией шина
Схематическое изображение и
Электрические соединения топология шина:
Все компьютеры электрически параллельно подключены к одной линии связи. Все компьютеры сети получают информацию, передаваемую одним из компьютеров. Если информация, передаваемая в сеть предназначена только одному абоненту, то должен быть указан его адрес. Остальные компьютеры сети, получив не предназначенную для них информацию не должны ее воспринимать, запоминать и реагировать на нее.
Однако, безопасность сети может быть нарушена, если найдется абонент, который несанкционированно будет пытаться запомнить и обработать непредназначенную ему информацию.
Ещё большая опасность – «генерация» узла в сеть.
В сети с топологией шина компьютеры выдавать информацию в сеть могут только по очереди, так как при одновременной передаче несколькими абонентами произойдет наложение информационных сигналов в линии передачи и сообщения, одновременно передающих узлов будут искажены.
Поэтому шина – общий разделяемый ресурс и требуется специальное управление строго поочередного доступа к ней. Это управление может быть централизованным от одного из узлов сети, который объявляется центральным - управляющим, либо распределенным без выделения «управляющего» узла. В этом случае возможны столкновения пакетов ,передаваемых различными узлами одновременно, – коллизии, которые обязательно должны быть обнаружены и устранены.
При топологии шина, отказ любого узла (кроме центрального при централизованном доступе) не приводит к отказу сети.
Хуже обстоят дела с обрывом или коротким замыканием (КЗ) шины. При обрыве шины и при распределенном доступе, казалось бы, получившиеся «половинки» могут продолжать работать. То же можно предполагать и для сети с централизованным доступом относительно той части сети, в которой остался контроллер.
Однако, электрические согласование шины, которое проводится установкой с обоих концов согласующих резисторов, в этом случае нарушается и необходимо предусмотреть при проектировании сети возможность работы электрически несогласованной шины. Это мера обеспечения надежности передачи информации при обрыве ЛПИ или выхода из строя согласующих резисторов.
Шинная топология опасна возможностью атаки на доступность. Безопасность сети можно нарушить не только несанкционированным перехватом данных, но и активной злоумышленной непрерывной передачей одного из абонентов, что делает сеть недоступной для передачи полезных сообщений другими абонентами.
Преимущество топологии шина связаны с тем, что длина линий передачи по сравнению с другими топологиями минимальная при одном и том же расположении компьютеров, что в ряде применений – дает серьезное преимущество.
Абоненты к шине могут подключаться на длинных шлейфах (ответвителях). Однако, длина шлейфов даже в случае применения специальных средств согласования ограничена допустимыми искажениями формы сигналов, возникающих от суммирования отраженных от шлейфов и в шлейфах сигналов с сигналами линии.
Серьезный недостаток топологии - низкая производительность из-за необходимости ожидания абонентами освобождения занятого общего ресурса-шины. Низкая надежность – из-за угрозы обрыва и угрозы «генерации», реализация которых – выход из строя всей сети.
Топология «шина» получила широкое распространение в различных вариантах обеспечения доступа узлов на линию передачи (Ethernet, MILSTD1553B, CAN и т.п.) .
Методы повышения надежности передачи информации в сетях
Для оценки надежности сетей используются те же характеристики, что и для оценки надежности ЦВМ. Однако, есть и свои специфические характеристики. Например, доля потерянных сообщений (пакетов). Данная относительная характеристика уместна в тех сетях, где потеря пакета не влечет за собой краха системы или значительного ущерба. Потеря пакета в управляющей сети критической системы недопустима.
Другая характеристика сети – коэффициент готовности, определяемый как доля времени ,в течении которого сеть может быть использована. Эта мера полный аналог коэффициента готовности, применяемой в теории надежности для ремонтируемых систем.
Применяются традиционные средства , обеспечивающие возможность продолжения функционирования при отказе ряда узлов и элементов сети. Эти средства – избыточность в частности резервирование. Сеть MILSTD1553B,исходно дублирована. Дублированы все узлы , дублирована и линия передачи информации.
Надежность транспортных услуг сетей определяется наличием нескольких альтернативных маршрутов передачи информации, прежде всего за счет топологии сети и во вторую очередь за счет наличия резервированного коммутационного оборудования. И наконец надежность передачи сильно возрастает при повторении передачи утерянных или искаженных сообщений. Для этого большинство сетевых технологий имеют средства обнаружения искажений сообщений у приемника, а также средства, позволяющие обнаружить, что пакет не дошёл до адресата
Обнаружение ошибок передачи информации
Для того чтобы сеть могла защищаться от ошибок она прежде всего должна обнаруживать их наличие. Здесь есть две проблемы:
- кадр пришедший в приемник может содержать не одну , а несколько ошибок,
- пакет может вообще не поступить в приемник.
От второй проблемы можно защититься, включая в каждый пакет порядковый номер. Тогда , если приемник не получает пакет с конкретным порядковым номером то он считается потерянным.
Обнаружение искажений информации – более сложная задача, один из самых распространенных методов решения которой связан с контрольным суммированием при отправлении сообщения и вычисления по тому же алгоритму контрольной суммы у приемника по полученному сообщению. При совпадении контрольных сумм у передатчика и приемника считается, что сообщение передано правильно. Но учитывая, что в сообщение может быть поражено несколькими ошибками возникает проблема выбора такого алгоритма суммирования, который обнаруживал бы все ошибки. Простой алгоритм контрольного суммирования с определением бита четности обнаруживает одинарные ошибки, двойные обнаруживает с вероятностью 50%. Гораздо более сложный алгоритм CRC обнаруживает все возможные комбинации трех или двух ошибок и все возможные комбинации нечетного количества ошибок.
Кластеры ЦВМ
Все чаще автоматизированные системы попадают в разряд критических. Т.е. их работоспособность оказывает абсолютное и определяющее влияние на работу систем и организаций, в составе которых они функционируют. Успешная работа автоматизированной системы зависит от надежности её информационной структуры, ключевыми средствами которой являются компьютерные сети.
В возможности вычислительных систем работать бесперебойно и безотказно 24 часа в сутки заинтересованы не только пользователи сравнительно небольших систем реального времени, охранных систем, но и пользователи банковских систем, территориально разнесенных систем управления и т. п .
На первый взгляд попытки этих пользователей требовать 99,9999% готовности вычислительной системы могут показаться абсурдными. Однако, если учесть, что система с готовность 99,9% имеет в год 500 минут простоя по сравнению с 30 секундами годового простоя системы с готовностью 99,9999%, то эти требования разработчикам систем надо удовлетворять.
В случае аппаратного или программного отказа на одном из компьютеров соответствующие приложения должны запускаться на других компьютерах, объединённых с отказавшим в кластер. Профилактические или ремонтные работы, реконфигурацию или смену версий ПО можно осуществлять на компьютерах кластера поочередно.
Кластер — группа компьютеров, объединённых высокоскоростными каналами связи и представляющая с точки зрения пользователя единый аппаратный ресурс.
Обычно различают следующие основные виды кластеров:
- отказоустойчивые кластеры (High-availability clusters, HA,
кластеры высокой доступности)
- кластеры с балансировкой нагрузки (Load balancing clusters)
- вычислительные кластеры (High perfomance computing clusters)
Отказоустойчивые кластеры представляют собой два или более связанных по сети компьютера с дополнительным выделенным контрольным (heartbeat) соединением между ними. Это выделенное соединение между машинами используется для мониторинга состояния сервисов: как только заданный сервис на одной машине выходит из строя, то другая начинает выполнять её функции.
Концепция балансировочных кластеров заключается в том, что если, допустим, приходит запрос к веб-серверу, то кластер сначала определяет наименее загруженную машину, а затем направляет к ней запрос. Довольно часто балансировочный кластер выполняет и функции отказоустойчивого кластера, хотя для этого и требуется большее количество узлов.
Последний вид, вычислительный кластер, используется специально для центров обработки информации, которым необходима максимально возможная производительность. К подобным системам относится система Beowulf.
Windows Compute Cluster Server 2003 (CCS), выпущенный в июне 2006 года разработан для высокотехнологичных приложений, которые требуют кластерных вычислений. Издание разработано для развертывания на множестве компьютеров, которые собираются в кластер для достижения мощностей суперкомпьютера. Каждый кластер на Windows Compute Cluster Server состоит из одного или нескольких управляющих машин, распределяющих задания и нескольких подчиненных машин, выполняющих основную работу. В ноябре 2008 представлен Windows HPC Server 2008, призванный заменить Windows Compute Cluster Server 2003.
Вычислительные кластеры позволяют уменьшить время расчетов, по сравнению с одиночным компьютером, разбивая задание на параллельно выполняющиеся ветки, которые обмениваются данными по связывающей сети. Одна из типичных конфигураций — набор компьютеров, собранных из общедоступных компонентов, с установленной на них операционной системой Linux, и связанных сетью Ethernet, Myrinet, InfiniBand или другими относительно недорогими сетями. Такую систему принято называть кластером Beowulf.
Кластеры высокой доступности(отказоустойчивые)
Обозначаются аббревиатурой HA (англ. High Availability — высокая доступность). Создаются для обеспечения высокой доступности сервиса, предоставляемого кластером. Избыточное число узлов, входящих в кластер, гарантирует предоставление сервиса в случае отказа одного или нескольких серверов. Типичное число узлов — два, это минимальное количество, приводящее к повышению доступности. Создано множество программных решений для построения такого рода кластеров.
Отказоустойчивые кластеры и системы вообще строятся по трем основным принципам:
- с холодным резервом или активный/пассивный. Активный узел выполняет запросы, а пассивный ждет его отказа и включается в работу, когда таковой произойдет.
- с горячим резервом или активный/активный. Все узлы выполняют запросы, в случае отказа одного нагрузка перераспределяется между оставшимися. То есть кластер распределения нагрузки с поддержкой перераспределения запросов при отказе. Примеры — практически все кластерные технологии, например, Microsoft Cluster Server. OpenSource проект OpenMosix.
- с модульной избыточностью. Применяется только в случае, когда простой системы совершенно недопустим. Все узлы одновременно выполняют один и тот же запрос (либо части его, но так, что результат достижим и при отказе любого узла), из результатов берется любой. Необходимо гарантировать, что результаты разных узлов всегда будут одинаковы (либо различия гарантированно не повлияют на дальнейшую работу).
Сущность кластеризации состоит в алгоритмах взаимодействия компьютеров и использования общего парка систем передачи данных и внешних запоминающих устройств Эти алгоритмы реализованы на разных уровнях по всем компьютерам кластера
Конкретная технология может сочетать данные принципы в любой комбинации. Например, Linux-HA поддерживает режим обоюдной поглощающей конфигурации (англ. takeover), в котором критические запросы выполняются всеми узлами вместе, прочие же равномерно распределяются между ними.
Компанией Microsoft выпускается HA-кластер для операционной системы Windows.
Лекция7. Надежность ПО
