9.4. 0 методике расчета показателей надежности вычислительных систем
простpаненным показателем для стационарного режима функционирования ВС.
Отметим прикладное значение введенныx показателей надежности ВС. Показатели надежности устанавливают взаимосвязь между производитель-
ностью и собственно надежностью ВС. Следовательно, показатели надеж-
ности позволяют, во-первых, подобрать такой состав вновь компонуемой ВС, при котором обеспечиваются заданные уровни и производительности, и надежности; во-вторых, проанализировать качество работы существующей ВС и оценить ее возможности по решению задач. Последнее важно знать и при организации контpольно-профилактическиx и диагностических работ в ВС и при организации прохождения задач пользователей. Так, показатели надежности для переходного режима работы ВС позволяют получить следyющyю информацию:
1. C какой вероятностью задача пользователя будет решена, если в момент ее поступления производительность ВС не менее требуемой (9.б); говоря другими словами, сможет ли пользователь успеть решить свою задачy до отказа системы (9.8)?
2.Как быстро можно ожидать восстановления требуемого для пользователя уровня производительности, если в момент поступления задачи производительность ВС низка (9.7), (9.9)?
3.Будет ли ВС иметь необходимую производительность (точнее, c какой вероятностью она будет ее иметь) в момент поступления задачи в системy (9.10)?
Показатели надежности для стационарного режима функционирова-
ния ВС, в частности, информируют o следующем:
1. Могут ли быть решены поступающие задачи, если система длительно эксплуатируется? Могут ли быть решены задачи, если в момент их постyпления достоверно неизвестно, в каком состоянии находится система (9.13)?
2.Сколь быстро можно ожидать восстановления требуемого уровня производительности в условиях, когда ВС уже длительно эксплуатируется (9.14)?
3.Будет ли система иметь необходимую производительность в любой
момент поступления задачи, если она уже достаточно долго находится в эксплуатации (9.15)?
9.4.0 методике расчета показателей надежности
вычислительных систем
K методике расчета показателей качества работы ВС предъявляются следующие требования:
9.Надежность вычислительных систем
1)приемлемость методики к большемасштабным и масштабируемым ВС, или, иначе говоря, к ансамблям c любым количеством одинаковых ЭМ или процессоров;
2)адекватность стохастических моделей функционирования ВС реальному процессу их работы или реализации принципа квазианалогии, который применительно к рассматриваемой проблеме гарантирует не подобие между стохастическими моделями и функционированием ВС, a удовлетворительную для практики точность расчетов;
з) единообразие методов и приемов исследования функционирования ВС как в переходном, так и в стационарном режимах;
4)простота численного анализа функционирования ВС при произвольном количестве машин (определение числовых значений показателей функционирования ВС не должно быть связано c трудоемкими вычислениями, т. e. c решением сложных задач, доступных мощным средствам ВТ);
5)возможность выявления общих количественных закономерностей по производительности и надежности функционирования ВС, которые от-
ражaют достигнутый и перспективный уровни технологии ВТ.
При расчете показателей надежности за основу берется стохастическая модель функционирования ВС, представленная на рис. 9.1. B случае отказа одной или нескольких ЭМ основной подсистемы и после их локализации (диагностики ВС) требуется реконфигурация ВС в целом. C помощью реконфигypатора в пределах ВС порождается новая конфигурация основной
подсистемы из n исправных ЭМ. B качестве |
таковой конфигурации, в част- |
., |
., |
ности, может выступать модернизированный вариант основной подсистемы,
который включает все исправные ЭМ исходной подсистемы и необходимое число исправных ЭМ структурной избыточности. B рамках сказанного
Вычислительная система,
N ЭМ
Подсистема отказавших ЭМ
t^
|
Основная подсистема, |
Восстанавливающая |
|
п ЭМ |
|
система, |
|
f v |
|
m ВУ |
Реконфигypатор BC
I
Структурная избыточность,
(N- п) ЭМ
J
Рис. 9.1. Модель функционирования ВС со структурной избыточностью
9.4. 0 методике расчета показателей надежности вычислительных систем
можно говорить o виртуальном переключении исправных ЭМ из подсистем
структурной избыточности в основную подсистему и об интенсивности переключения v. Результаты изучения возможностей аппаратурно-программ- ных средств диагностики и реконфигурации ВС и степени влияния парамет-
ра v на значения показателей надежности ВС позволяют здесь отказаться от учета интенсивности переключения при анализе функционирования ВС (см.
[5], § 7.3 и 7.4). Итак, при расчете показателей надежности ВС можно считать, что реконфигурация системы осуществляется <аигновенно», т. e. что
и-1 = 0.
далее, для ВС могут быть построены достаточно эффективные аппа- ратурно-прогpaммные средства (само)контроля и (само)диагностики, при которых можно считать, что отказавшие машины «мгновенно» поступают
на обслуживание в восстанавливающую систему. B противном случае потребуется лишь корректировка значений параметра µ, т. e. соответствующее увеличение среднего времени восстановления отказавшей ЭМ одним ВУ.
При изучении надежности большемасштабных распределенных ВС (c
программируемой структурой) должна быть учтена следующая особен-
ность: процесс восстановления обнаруженных отказавших ЭМ предусмат - ривает не ремонт машин, a обязательно реконфигурацию систем. При этом проверка работоспособности ВС и поиск отказавших машин выполняются соответственно средствами (само)контроля и (само)диагностики. Последние средства для краткости будем называть контролёром и диагностом. Реконфигурация системы заключается в программной настройке новой конфигу-
рации c заданным числом п исправных ЭМ; она осуществляется реконфигуратором. Для создания новой конфигурации основной подсистемы могут быть использованы в общем случае машины из избыточности и/или резерва. Контролёр, диaгност и реконфигуратор являются компонентами распределенной ОС. Эта композиция, по сути, является виртуапьным восстанавливающим устройством (ВУ) для распределенной ВС; следуя традиции, ее будем называть просто ВУ.
B распределенных ВС допустима генерация нескольких виртуальньх трехкомпонентньх восстанавливающих устройств. Тогда на каждое ВУ могут быть возложены фуякщш по обслуживанию только одной элементарной машины ВС. При этом функциями компонентов каждого ВУ будут следующие:
•для диагноста выбор (локализация) обслуживаемой ЭМ;
•для контролера проверка работоспособности выбранной машины;
• для реконфигуратора альтернативное выполнение одной из двух функций: сохранение проверяемой ЭМ в составе основной подсистемы, ес-
ли она исправна, или включение машины из резерва в состав основной подсистемы в противном случае.
9. Надежность вычислительных систем
|
,- |
, |
|
Вычислительная система, |
Восстанавливающая система, |
|
N ЭМ |
т ВУ |
|
Подсистема |
Контролёр BC |
|
отказавших ЭМ |
|
|
|
r?. |
|
|
Основная подсистема, |
Диагност BC |
|
п ЭМ |
|
|
|
Структурная избыточность, |
Реконфигypатор BC |
|
(N - п) ЭМ |
|
|
Резерв
Рис. 9.2. Модель функционирования большемасштабных ВС со структурной
избыточностью
B дальнейшем будем считать, что m виртyaльных ВУ составляют восстанавливающую систему, 1 < m < N. Интенсивность µ в случае большемасштабности ВС интерпретируется как среднее число машин резерва, включаемых в единицу времени одним ВУ (точнее, реконфигypатором) в состав ВС вместо отказавших ЭМ. При этом среднее время восстановления ЭМ
= ^.1, = 'L к +; +;,
где Тк, t и ТР математические ожидания времени соответственно кон-
тpоля, диагностики и реконфигypации ВС.
Таким образом, учет специфики большемасштабных распределенных ВС требует модернизации модели, изображенной на рис. 9.1. Результаты соответствующей модернизации представлены на рис. 9.2.
B условиях изложенных требований практически приемлемым для вычисления показателей (9.6), (9.7), (9.10) будет подход, основанный на классическом аппарате теории массового обслуживания и методах приближенных вычислений. Данный подход достаточно хорошо развит [5, 6] и позволяет исследовать ВС c большим числом ЭМ. Изложим схему этого подхода:
.. • составляются дифференциальные уравнения для вероятностей состоянии системы c учетом подмножества поглощающих состоянии;
•задаются начальные условия;
•система дифференциальных уравнений c помощью преобразования Лапласа сводится к алгебраической;
9.5.Расчет показателей надежности для переходного режима
•по правилу Крамера определяется решение алгебраической системы
уравнений, причем решение выражается через полиномы, вычисляемые рекуррентно;
•доказываются свойства корней полиномов, позволяющие приближен-
но вычислять их значения;
•после обращения преобразования Лапласа выписываются формулы для показателей качества функционирования ВС;
•для получения числовых значении показателей составляются программы на одном из алгоритмических языков.
Учитывая объем учебного пособия и степень распространения тех или иных показателей надежности ВС, ограничимся лишь асимптотическими оценками вероятностей безотказной работы (9.6) и восстановления (9.7). B Приложении 2 описан метод расчета функции R(t) надежности ВС.
далее рассмотрим способы расчета математического ожидания времени безотказной работы (9.8), среднего времени восстановления (9.9) и функции готовности (9.10), которые существенно проще вычислений по описанной выше схеме и которые позволяют провести анализ функциониpoвания ВС в переходном режиме. Для анализа поведения ВС в стационарном режиме выполним расчет показателей (9.13)—(9.15).
9.5. Расчет показателей надежности для переходного режима
функционирования вычислительных систем
9.5.1. Надежность большемасштабных вычислительных систем
Прежде всего изучим поведение невосстанавливаемой ВС со структурной избыточностью при неограниченном наращивании во времени обще-
го количества N ЭМ, точнее говоря, получим для фиксированного числа n машин основной подсистемы оценки функции надежности ВС (9.б) при
N —> оо.
Пусть параметры ВС изменяются в дискретные моменты времени:
|
|
|
1, 2, ... , i, ... , t, ... ; г(т) |
вероятность безотказной работы одной ЭМ (2.10) |
или вероятность того, что ЭМ в момент i исправна; N(т) |
общее число |
ЭМ в момент т.
Можно доказать [6] справедливость следующих формул для функции надежности ВС:
9. Надежность вычислительных систем |
|
|
> 1 _ В 1 |
(1 _ |
|
1 +B |
1n(т+1); |
|
|
K |
|
|
2 |
при |
N( |
1 1n(i + 1); |
(9.16) |
( t ) < R1+t'' |
^ e -nt . |
|
|
K |
|
|
|
= N = const |
|
г., |
, |
|
|
соответственно, где |
B — произвольное положительное число; |
|
|
K = max к(г), k =min к(i); |
|
(9.17) |
|
|
1^тбt |
15г5Г |
|
|
|
|
v(т) |
1- v(T) |
, v(т) _ n -1 |
(9.18) |
|
|
r(т) |
1- r(T) |
|
N(T) |
|
для константы A справедливо неравенство |
|
|
|
|
|
1n[1- e-K" ] A |
1n[1- e ]. |
|
(9.19) |
Таким образом, чтобы нeвoccтaнaвливaeмaя BC имела достаточно вы- |
coкий уровень надежности (т. e. чтобы |
R(t) -+ 1, |
см. (9.16)-(9.19)) |
сколь |
угодно продолжительное время (t -+ oo), |
необходим, по крайней мере, лo- |
rapифмичecкий рост во времени числа ее ЭМ.
Из (9.16) следует, что вероятность безотказной работы системы, в которой N = const, экcпoнeнциaльнo c ростом t стремится к нулю. Скорость
уменьшения R(t) зависит от параметра A, т. e. от интенсивности отказов BC. Очевидно, что надежность системы может быть повышена за счет
уменьшения A. Последнее можно достичь также, если ввести в систему
средства поиска неисправностей и восстановления.
9.5.2.Математические ожидания времени безотказной работы
ивосстановления вычислительной системы
Применение классического способа расчета математических ожиданий
времени безотказной работы 8 (9.8) и времени восстановления T (9.9) для бoльшeмacштaбикpc BC наталкивается на серьезные препятствия, связанные c тpyдo-
eмкими и сложными вычислениями функций надежности R(t) и восстановимости U(t). Вычисления функций R(t) и U(t) основываются, коротко говоря,
на традиционных cтoxacтичecкиx моделях теории массового обслуживания и
методах приближенных вычислений. Трудоемкость такого расчета повышается ростом количества машин в системе, и, кроме того, на этом пути не удаетсяc
получить аналитические формулы для oтыcкaния числовых значений 8 и T.
9.5. Расчет показателей надежности для переходного режима
Для распределенных ВС 9 и T удобно рассчитывать «частотным» методом*, который достаточно прост и дает результаты, хорошо согласующиеся c более точными вычислениями. Легко установить, что среднее время
безотказной работы ВС при n ^ N и при n = N соответственно равно: |
|
= |
N 1 j-1 µ1 |
1 |
; е= |
|
1 |
(9.20) |
|
П + |
|
|
е . |
|
j=п+1 Р" 1=п |
1?" п?" |
|
|
Ю" |
|
Среднее время восстановления ВС при |
|
n * 1 и при n =1 определяется |
соответственно выражениями: |
|
|
|
п-1 |
|
|
|
|
|
1 |
|
|
1 |
|
|
|
|
Т= |
µо 1=1 µ1 |
+ ^ |
П |
; |
т = . |
(9.21) |
|
|
j=1 J 1=j µ1 |
|
µо |
|
B формулах (9.20), (9.21) |
|
|
|
|
|
|
|
|
|
µ1 = mµ,тµ, |
|
|
если (N-rn) < 1 < N; |
(9.22) |
|
|
еслиecли0<1^ |
(N-—mт); |
Х-' среднее время безотказной работы одной ЭМ (2.14); т число восстанавливающих устройств; µ-' среднее время восстановления отказавшей ЭМ одним восстанавливающим устройством (2.18).
9.5.3. Функция готовности вычислительных систем
Рассмотрим методы расчета функции готовности BC. для простоты
будем вместо (9.4) употреблять обозначение
P; (t) = P{Г(t) = j Ii E Е"}, j E Е". |
(9.23) |
Для вывода дифференциальных уравнений воспользуемся формулой
полных вероятностей
N |
|
Р(t + &) = Рi (tЩ(Лt), |
(9.24) |
r=o |
|
где Р, (Ot) условная вероятность того, что ВС, находящаяся в некоторый момент t > О в состоянии 1, т. e. 4(t) =1, перейдет по истечении времени
* Безносое Г.П., Зеленцов Б.П. Частотный метод анализа надежности систем c восстановлением, состоящих из однотипных элементов // Известия СО АН СССР,
Сер.техн.-1966.Т. 1. N2 2. C. 106-111.
9. Надежность вычислительных систем
At в состояние j, т. e. 4(t + At) = j. Определим асимптотические оценки для вероятностей Р, (Ot) при At -+ 0, 1, j Е Е'
Прежде всего из (2.15) и (2.21) следует, что вероятность появления за время At одного отказа в машине есть величина порядка X,Ot, a вероятность появления более одного отказа величина вида o(At), где o(At) бесконечно малая порядка выше At. Вероятность появления за время At одного отказа в ВС, находящейся в состоянии l Е Е, есть величина l 't + o(At).
Из (2.18) ясно, что вероятность восстановления за время At отказавшей машииы одним восстанавливающим устройством равна µ0t + o(At). Если ВС
находится в состоянии l Е Е' и восстановлением машин занято k устройств, то
вероятность восстановления за время At одной отказавшей машины будет равна kµOt+o(Ot), где k = (N-l) при (N-m) < l и k = т при (N -rn)>!.
Переход системы из состояния l в состояние j при 11- j > 1 требует, очевидно, наступления по меньшей мере двух событий (или двух отказов,
или двух восстановлений). Следовательно, |
|
P; (or) = o(At), Il-il г, 1,1 E Eo |
(9.25) |
далее, для перехода ВС из состояния 0 < l < N в состояние 1+1 требуется, чтобы произошло одно восстановление либо наступило несколько событий, поэтому
|
P, r+^ (4t) = |
ГтiАt + o(At), |
0 ^ 1 ^ (N - m); |
(9.26) |
|
(лT - l )µit + o(At), (N - m) <1< N. |
|
|
Очевидно, что
Р1, (At) = lАt + o(At), 0 <! < N. |
(9.27) |
Наконец, учитывая (9.25)—(9.27), имеем
Pгr(Ot) =1- P,,r+i(Ot) - P,r-i(Аt)+ o(At), 0 l N,
где при l = N второй, a при 1 = 0 третий член правой части надо заменить
на 0. Следовательно,
P00 (At) =1- mµАt + o(At); |
|
|
{1- г^,oc - mµor + o(At), |
0<1 s (N - m) ; |
(9.28) |
|
(N-rn)<l<N; |
|
|
PNN (er) =1- тv?,ot + o(At).
9.5. Расчет показателей надежности для переходного режима
Подставляя в (9.24) acимптoтичecкиe оценки (9.25)—(9.28), получаем:
Po (t + At) = Po (t)Poo (At) + P(Ё)РЮ(А1) + 0(Ы) =
= (1— mµOt)Po (t) + ?',OtP, (t) + o(Ot ); |
|
P; (1 + At) = P] (t)Р_1, (At) + P (1)P, (At) + P;+1 (t)Р3+1, |
(At) + o(At) _ |
mµOtP i (t) + [1— (j?, + mµ) • Ot]P! (t) + |
|
+ (j+ 1)?»OtP;+, (t) + o(At), |
0< j (N — m); |
[N - (] - 1)]АtР 1 (t) + {1 - [j?' + (N - j)itjАt}Р (t) + |
+ (]+ 1)?,OtP;+^ (t) + o(At ), |
(N — m) <j< N; |
PN (r + At) = PN-1 (t)PN-1. N (At) + (t)PNN (er) + a(or) = |
|
= µerPи_, (r) + (1- N?»At)PN (t) + o(At). |
|
Перенеся 1,(t), j E Е", в левую часть последних равенств, разделив
на At и перейдя к пределу при At - > 0, получим:
P'(t) = —тiРо (t) + Щt);
mNF'i-1 (t) — (J?» + mµ)Pi (t) + CI + DAPP-i(t),
P;(t) = |
|
0< j |
(N - |
9.29) |
1 |
|
|
[N - C.i - 1)JiР |
(t) - [j?' + (N - .i)µl1'i (t) + (j + 1)?Рi+1 (t), |
|
(N—m)<j< N;
1(t) = iРNl(t) - NРN(t).
Начальные условия могут быть заданы в следующем виде:
Р; ( 0) =0, j^i, Р ( 0) =1, i, j EEo .
Задача интегрирования (9.29) системы (п +1) линейных однородных дифференциальных уравнений относительно неизвестных фушщий P; (t), j Е Е", принципиально разрешима. Практически же отыскание ре-
шения системы (9.29) при заданных начальных условиях осуществляется численными методами и по схеме, изложенной в § 9.4. Процесс расчета вероятностей P; (t), j Е Е", для большемасштабных ВС достаточно трудо-
емок, сложность расчета повышается c увеличением N.
Как уже отмечалось, распределенные ВС в своем составе могут иметь большое количество элементарных машин или процессоров. Так, существу-
ют и создаются ВС, число элементарных процессоров в которых имеет порядок 102-106 Следовательно, при изучении поведения большемасштабных
оо).
9. Надежность вычислительных систем
ВС можно строить математические модели c числом ЭМ, равным бесконечности (точнее, при N —> Последнее допущение существенно упрощает
расчет функции готовности ВС (9.10).
Модернизируем обозначения, введенные для случая, когда N конечно. Пусть Е = {0, 1, 2, ... } пространство состояния системы; Р(t) веро-
ятность того, что ВС в момент времени t > 0 имеет j Е Ео исправных ма
шин. Тогда для расчета функции готовности ВС следует вместо (9.11) использовать формулу
S(t) _ |
P; (t) =1— P; (t). |
(9.30) |
j=п |
j=0 |
|
Очевидно, что для любого состояния j Е Е 1 число отказавших ЭМ
системы будет больше числа m восстанавливающих устройств. Итак, при любом состоянии ВС и для любого момента времени восстановлением отказавших ЭМ будет занято m ВУ и, следовательно,
1'1,1+1 (ot) = mµOt + о(Ot), 1 Е Е. |
(9.31) |
Учет разницы между асимптотическими оценками (9.26) и (9.31) позволяет преобразовать систему уравнений (9.29) к более простому виду:
Po(t) _ —mµPo (t) + ?J(t),
(9.32)
Pi (t) = mNРi-i (t) — (J?, + mµ)Pi (t) + CJ + 1)?,P,+1 (t), j 1. }
^
При этом нормировочное условие принимает вид ЕР(t) =1.
j=0
Решение однородной системы (9.32) обыкновенных линейных дифференциaльных уравнений первого порядка может быть найдено методом производящих функций [2l]:
P. (t) = е- (1 -'^Еj Ы (t) omaiх у-1(1 _ е- У-1 |
(9.33) |
1=0 |
(.1 - 1)1 |
|
где b,(t) определяется из равенства
|
^ |
со |
^,t |
|
е -^,t )1 |
, |
|
|
= |
Р (0)(хе- |
+1— |
(9.34) |
|
|
|
|
|
1=0 |
1=0 |
|
|
|
|
|
|
оо |
|
|
|
|
|
|
|
Щ0)=1, lхI <1, |
j ЕЕо . |
|
|
|
1=0 |
|
|
|
|
|
|