khor32
.pdf10.2. Показатели потенциальной живучести вычислительных систем
SZ (k)
1 |
t^ |
|
|
|
1 |
1 |
|
|
|
1 |
1 |
|
|
|
1 |
1 |
|
|
|
01 п п +2 |
N-1 N k |
п +2 |
N-1 N k |
|
|
|
a |
|
6 |
Рис. 10.1. Производительность вычислительных систем: a — ВС со структурной избыточноcтью; 6— живучие ВС
Вычислительные системы c программируемой структурой обладают наиболее гибкими структурными возможностями для такой виртуализации
(см. гл. 7).
10.2. Показатели потенциальной живучести вычислительных систем
K набору показателей потенциальной живучести BC (характеризующих предельные возможности систем) предъявляется комплекс требований, аналогичный набору для показателей надежности (см. § 9.3). Показатели живучести BC должны учитывать то обстоятельство, что при решении задач
используются все исправные ЭМ, число которых не постоянно. Говоря инa-
чe, при определении показателей живучести следует учесть то, что пapaл-
лeльныe программы сложных задач при их реализации на живучих BC способны зaдeйcтвoвaть суммарную производительность всех работоспособных
ЭМ системы.
Качество функционирования живучих BC будем характеризовать их функциями потенциальной живучести N(i,t) и занятости восстанавливаю-
щей системы М(i, t), вектор-функциями R(t), U(t) и S(t) BC. Фyнкции
N(i, t) и sW(i, t) характеризуют в момент времени t 0 среднюю производительность BC и среднюю загруженность восстанавливающей системы, если BC начала функционировать c i E Е работоспособными ЭМ. Вектор функции R(t), U(t), S(t) являются обобщениями функций надежности
(9.6), вoccтaнoвимocти (9.7) и готовности (9.10) BC.
463
10. Живучесть вычислительных систем |
|
Функцией потенциальной живучести ВС назовем отношение |
|
'‚Г(i, 1) = n(i, t) / No , |
(10.2) |
где (2(i, 1) — математическое ожидание производительности BC в момент t > 0 при условии, что в момент начала функционирования в системе было i работоспособных ЭМ, i E Е', No) — суммарная производительность всех
машин BC; N — общее количество ЭМ системы; w — показатель пpoизвo-
дитeльнocти одной ЭМ (см. § 2.6).
Очевидно, что для n(i, t) допустимо представление в виде
S2(i, t) _ 11(i, t)0), где 1(i, 1) — среднее число работоспособных машин в
момент t 0 при условии, что система начала функционировать в |
cocтoя- |
|
нии i e Е' |
(Заметим, что N(i, 0) = i, i E Е.) Тогда функция потенциальной |
|
живучести BC может быть выражена через 11(i, t): |
|
|
|
N(i, t) _ 1(i, t)l N. |
(10.3) |
Функцией занятости восстанавливаю щей системы назовем |
|
|
|
9'4(i, t) = 1'/(i, t)/т, |
(10.4) |
где М(i, 1) |
математическое ожидание числа занятых восстанавливающих |
устройств в момент времени t > о при условии, что ВС начала функционировать в состоянии i Е Е( '; т число устройств в восстанавливающей системе.
Вектор-функция
R(t) = {Rk (t)}, k E E„ , |
(10.5) |
где координата Rk(t) определяется как вероятность того, что пpoизвoди-
тeльнocть системы, начавшей функционировать в состоянии 4 k i N, не менее производительности k машин на всем промежутке времени [0, 1),
E„” = {п, п +1, ..., N}. Учитывая (9.6) и (10.5), запишем:
Rk (t) = P{di E [0, t) –> S2(г) ^ Akkш I k ^ i < N};
Rk (t)=P{'diE[0, t)-(ti)
Rk (0) =1, Rk (+ao) = 0, k E E, |
(10.6) |
здесь S2(i) и (i) — соответственно производительность BC и количество
исправных машин в системе в момент времени i E [0, t); i — начальное co- cтoяниe BC.
464
10.2. Показатели потенциальной живучести вычислительных систем
Вектор-функция |
|
U(t) = {Uk(t)}, k E Eп , |
(10.7) |
где координата Uk (t) является вероятностью того, что в BC, имеющей начальное состояние i, 0 < i < k, будет восстановлен на промежутке времени уровень производительности не менее k ЭМ. Основываясь на (9.7) и[0,t)
(10.7), сделаем формальную запись:
|
Uk (t) =1— P{b'T E [0, 1) |
2(T) < Akkw I 0 < i < k}; |
|
|
|
ZIk(1)=I-P{dTE[O, t)->(т)<k I |
|
||
|
U(0)=0, Uk (+oo) =1, k E En . |
(10.8) |
||
По аналогии c (9.8) и (9.9) можно рассматривать вектор среднего вре- |
||||
мени безотказной работы (средней нapaбoтки до отказа) |
|
|||
|
|
|
^ |
|
|
{Оk}, |
Ok |
= 0 |
(10.9) |
|
|
|
|
|
и вектор среднего времени восстановления |
|
|||
|
|
|
ф |
|
|
T = {Т }, Tk = Itclt k (t) |
(10.10) |
||
|
|
|
0 |
|
вычислительной системы, k Е Е N . |
|
|
|
|
Вектор-функция готовности ВС |
|
|
|
|
|
S(t) = Isk(i)}, k Е Е : , |
(10.11) |
||
где Sk (t) |
вероятность того, что в момент времени t > 0 производитель- |
ность системы, начавшей работать в состоянии i Е Е, не менее производительности k ЭМ:
Sk (t) = P{'2(t) > Akkw I i E E" };
Sk (t) = P{^(t) > k I i E Е''}; |
(10.12) |
|
Sk (0) _ 11, |
если k < i < N; |
|
0, |
если 0 5 i < k; |
|
0< s(+ю) <1. |
|
|
Предельные значения показателей (10.3) и (10.4) при t -+ oo |
будут ха- |
рактеризовать потенциальную живучесть BC в стационарном режиме paбo-
ты. Пределы
465
10. Живучесть вычислительных систем
= limW(i, t); |
(10.13) |
t- |
|
=1im s4t(i, 1), |
(10.14) |
Г - m |
|
не зaвиcящиe от начального состояния i E Е' (10.3), (10.4), назовем коэффициентом пomeнцuaльнoй живучести BC и коэффициентом занятости восстанавливаю щей системы соответственно.
Воспользовавшись опытом обобщения (10.5), (10.7) показателей (9.6), (9.7) на случай живучих BC и формулами (9.13), (9.14), можно без особого труда определить вектор-функции оперативной надежности u вoccmaнo-
вимocmu: |
|
R"(t) = {Р:(Ё)}, u* (t) = {U(t)}, k E E'," , |
(10.15) |
компоненты которых соответственно равны: |
|
RK(t) =P{dTE[0, t)-+^(T)^k I P, k<iSN}; |
(10.16) |
Uk (t) =1— P{di E [0, t) —> Г(i) < k P, 0 < i < k}; |
(10.17) |
Rk (0) = Uk (U) _ ^ 1, |
(10.18) |
1=k |
|
где величины P вычиcляютcя по (9.50), (9.51).
Совокупность величин Sk =1im Sk (t) , не зaвиcящиx от начального co-
г—^o
cтoяния BC и представленных в виде |
|
S = {Sk }, k E E„", |
(10.19) |
называется вектор-коэффициентом готовности.
Введенные показатели достаточно полно характеризуют поведение
живучих BC в переходном (10.3)-(10.12) и стационарном (10.13)-(10.19) режимах функционирования. Уместно подчеркнуть значение для практики
лишь показателей (10.3) и (10.4). По функции потенциальной живучести BC
судят o том:
1) как быстро система, начавшая функционировать в одном из возможных состояний, войдет в стационарный режим работы (10.13);
2)какую производительность в среднем может обеспечить система в любой момент времени (10.3) или при длительной эксплуатации (10.13), roвopя иначе, на сколько машин в среднем можно рассчитывать в момент пocтyплeния задачи;
3)сколько машин в среднем может быть использовано при решении
задачи (сколько в среднем ветвей будет иметь место при реализации aдaп-
тиpyющeйcя параллельной программы).
466
10.3. 0 методике расчета показателей живучести вычислительных систем
Функция занятости восстанавливающей системы дает следующую информацию:
1) за какое время после начала работы ВС наступит установившийся режим восстановления отказавших машин (10.14);
2) как загружены в среднем восстанавливающие устройства на начальном участке работы ВС (10.4) и после длительной ее эксплуатации (10.14) или насколько эффективен выбранный состав восстанавливающих устройств.
При численном экспериментировании введенные функции потенциaльной живучести ВС и занятости восстанавливающей системы позволяют подобрать оптимальные параметры единого комплекса «вычислительная система восстанавливающая система».
Таким образом, в живyчиx ВС обеспечивается максимум эффективности использования вычислительных ресурсов при решении сложных задач.
B любой момент времени для решения сложных задач привлекаются все работоспособные ЭМ (если их число не менее п). Это сокращает время реше-
ния сложной задачи, но требует составления специальных программ c информационной избыточностью, т. e. адаптирующихся параллельных прогpамм. Процесс составления таких программ несущественно сложнее, чем написание программ c фиксированным числом параллельных ветвей.
10.3. о методике расчета показателей живучести вычислительных систем
Живучие BC представляют собой обобщение систем co структурной
избыточностью, следовательно, методика расчета координат вектор-
фyнкций (10.5), (10.7) и (10.11) ocтaeтcя неизменной по сравнению c мeтo-
дикой расчета функций надежности (9.6), вoccтaнoвимocти (9.7) и готовности Более того, если в расчетных формулах для показателей надежности(9.10).
заменить п на k, то получим формулы для координат соответствующихBC количественных характеристик живучести. Так, например, заменив n на k,
можно использовать формулы (9.20) и (9.21) для расчета компонентов век тopoв соответственно среднего времени безотказной работы (10.9) и cpeднero времени восстановления BC (10.10). Аналогичная процедура превращает
и (9.43) в расчетные формулы для координат вектор-функций опера- (9.36)
тивной надежности
Функции потенциальной живучести BC (10.3) и занятости восстанавливающей системы (10.4), безусловно, могут быть рассчитаны по известной
схеме (см. § 9.4), теории массового обслуживания. Пусть известно pacпpe- дeлeниe вероятностей состояний системы {P;(i, t)}, j, i E Е( , i — началь-
ное состояние BC, тогда математическое ожидание числа работоспособных ЭМ
467
10. Живучесть вычислительных систем
?( i, t) = |
(10.20) |
|
j=0 |
a среднее число занятых восстанавливающих устройств
N -rn |
N |
|
М(i, 1) = т |
1(i, t) + Е (N — j)Рj (i, t). |
(10.21) |
j=0 |
j=N-m+1 |
|
Из формул (10.20) и (10.21) следует, что сложность вычисления функций потенциальной живучести ВС и занятости восстанавливающей системы не менее сложности расчета функции готовности ВС (9. 10). Расчет существенно упрощается для стационарного режима работы ВС, однако и он не может быть выполнен без ЭВМ для практически необходимых значений N (от 10 до 106). Последнее следует из (9.50), (9.51), (10.20) и (10.21).
Как же преодолеть указанную трудность? Ясно, что кардинальный путь может быть основан лишь на новой стохастической модели функционирования ВС, которая:
1)была бы воплощением принципа квазианалогии (см. § 9.4);
2)приводила бы к простым формулам, допускающим счет без применения ЭВМ и для больших значений N.
При исследовании потенциальной живучести ВС вместо рассмотрения
всего ее пространства состояний Е = {0,1, ..., N}, т. e. учета функциониро-
вания каждой ЭМ, можно изучать поведение системы в целом как ансамбля большого числа идентичных ЭМ. Такой подход основывается на допущении, что в любой момент времени производительности вычислительной и восстанавливающей систем пропорциональны соответственно не случайному числу исправных ЭМ и не случайному числу занятых ВУ, a математическим ожиданиям соответствующих чисел. Допущение естественно для большемасштабных ВС (для систем c большим числом ЭМ и ВУ), в которых случайности, связанные c выходом ЭМ из строя или их восстановлением, либо c включением ВУ в ремонт ЭМ или освобождением ВУ, мало сказываются на значениях суммарной производительности систем. Эти значения для каждого момента времени оказываются близкими к средним значениям производительности систем. Случайности, связанные c выходом машин из строя и освобождением ВУ, сказываются, если количество работоспособных ЭМ в ВС становится небольшим или если число занятых устройств в вос-
станавливающей системе становится близким к m. Однако вероятности таких событий при существующем уровне надежности микропроцессоров
(Х-1 < 10к ч) чрезвычайно малы.
B работах по исследованию операций (см., например [25]) установлено, что при описании динамики боя вполне допустима замена случайного
468
10.3. 0 методике расчета показателей живучести вычислительных систем
Вычислительная система |
Восстанавливающая |
|
N ЭМ |
|
система |
|
|
m ВУ |
Oткaзавшие ЭМ |
|
Свобод ные ВУ |
(i, t) |
|
m - ???(i, t) |
v' t |
Реконфиrypатoр BC |
|
|
.!(i, |
t) |
Работоспособные ЭМ |
v" |
Занятые ВУ |
fl(i, t) |
|
? (i, t) |
Резерв
Рис. 10.2. Модель функционирования живучей ВС
числа его средним, если число элементов в каждой из систем противников не менее 50. B [5] показано, что такая замена применительно к ВС допусти-
ма, даже если число элементов (таких, как ЭМ, вычислительные модули, процессоры) на порядок меньше. Это объясняется тем, что в бою имеются два процесса взаимного уничтожения сторон, в то время как в ВС есть только один процесс уничтожения (поток отказов) и, кроме того, второй процесс
приводит к регенерации ресурсов (процесс восстановления отказавших ЭМ).
На основании вышесказанного при изучении потенциальной живучести ВС за основу берется стохастическая модель функционирования, представленнaя на рис. 10.2. Производительность ВС в любой момент времени t > 0 определяют машины вычислительного ядра, т. e. те работоспособные ЭМ, которые непосредственно используются для реализации адаптирующейся параллельной программы. Пусть 1(i, t) математическое ожидание
числа работоспособных ЭМ, на которых выполняeтся в момент t > 0 адаптирyющaяся программа; i число работоспособных машин при t =0, т. e.
Итак, считаем, что машин в момент t > 0
ляют вычислительное ядро ВС.
B случае отказа ЭМ «покидает» вычислительное ядро и берется на учет реконфигуратором ВС. Пусть среднее число отказавших
ЭМ, учитываемых реконфигуратором ВС в момент t > 0, i Е Е. Реконфи
гуратор исключает из вычислительного ядра отказавшие ЭМ, образует из оставшихся работоспособных ЭМ связную подсистему, сокращает число
параллельных ветвей в адаптирующейся программе и организует ее прохож-
дение на вычислительном ядре c новой структурой. B результате выполне-
469
10. Живучесть вычислительных систем
ния таких функций реконфигypатор c интенсивностью v' «переключает» отказавшие ЭМ из ядра в число машин, подлежащих восстановлению. Пусть
.Х(i, t) математическое ожидание числа отказавших машин, учитываемых восстанавливающей системой.
Как и ранее, ?19(i, t) среднее число устройств, занятых восстанов-
лением отказавших ЭМ; t интенсивность восстановления отказавших ЭМ одним ВУ. После восстановления ЭМ берутся на учет реконфигуратором ВС. Пусть L"(i, t) среднее число восстановленных ЭМ, взятых на учет реконфигyратором ВС. Включение восстановленных ЭМ в состав ядра осуществляется c интенсивностью v". Среднее время 1/ v" такого включения зависит от времени образования связного подмножества машин из существовавшего ядра и восстановленных ЭМ, времени перенастpойки параллельной программы на большее число ветвей и времени запуска этой прогpаммы на вновь созданном ядре.
При изучении большемасштабных реконфигурируемых ВС, как уже отмечалось в § 9.4, используются виртyaльные восстанавливающие устройства, и ремонт обнаруженных отказавших ЭМ сводится к их замене на машины из резерва. B этих случаях интенсивность µ воспринимается как среднее число машин резерва, включаемых в единицу времени одним виртуальным ВУ в состав вычислительной системы.
Очевидно следующее равенство:
L(i, t)+.J((i, t) + 11(i, 1) = N,
где t(i, t) = !'(i, t) + "(i, t) среднее число ЭМ, c которыми работает реконфигуратор ВС. Численные исследования показали, что учет интенсивностей переключения v' и v" ЭМ в состав машин, подлежащих восстановлению, и в
состав вычислительного ядра мало изменяет значения функций потенциальной живучести ВС и занятости восстанавливающей системы. Предположение o том, что такие переключения ЭМ совершаются мгновенно, при существую-
щиx параметрах а, и µ и алпаратурно-прогpаммныx средствах реконфигура-
ции ВС практически оправданно [5]. Поэтому далее будем считать, что
1/v' = 1/ v# = 0; оС'(i, t) = 0; .Х(i, t) = N — 11(i, t), i Е Е7
Таким образом, при анализе потенциальной живучести ВС достаточно знать математическое ожидание числа работоспособных ЭМ и числа занятых ВУ и не описывать дискретно каждое состояние системы (трудоемкими методами теории массового обслуживания).
Описанный подход к анализу потенциальной живучести большемасштабных ВС был предложен автором настоящей книги и назван контину-
альным.
470
10.4. Расчет функции потенциальной живучести вычислительных систем
10.4. Расчет функции потенциальной живучести
вычислительных систем
Из формул (10.3) и (10.4) следует, что расчет функций потенциальной живучести ВС DV(i, t) и занятости восстанавливающей системы М(i, t) сво-
дится к вычислению математических ожидании соответственно числа исправных ЭМ и числа занятых ВУ в момент времени t > 0
при условии, что в начальный момент t = 0 было i Е Е работоспособных машин.
Прежде чем вывести дифференциальные уравнения для
IV(i, t) , получим вспомогательные оцешт. Учитывая (2.14), (2.15) и (2.21),
найдем вероятность того, что в ЭМ произойдет не менее одного отказа за
время At:
^
1 - r(or) = r, (or) + 4 (6,0= ,ote 'ы + o(At) = ?',or[i - ?«At + k=2
+ o(Ot )] + o(At) = ?«(At) + o(At) = r, (Ot) + o(Or).
Следовательно, в машине за время At может произойти только один отказ c вероятностью ,Аt; вероятность появления за At более одного oткaзa есть величина порядка o(At).
Вспомним (2.14), что ?. — среднее число отказов, появляющихся в
машине за единицу времени, следовательно, 11(i, t)Аt есть среднее число отказов, возникающих в системе на промежутке времени [t, t + At). Пo- cкoлькy за время At в машине может произойти не более одного отказа, то 11(i, ОХлt и будет средним числом ЭМ, вышедших из строя на промежутке времени [t, t + At). Аналогично рассуждая, убеждаемся, что i'Y1(i, t)µАt есть среднее число восстановленных ЭМ на промежутке времени [t, t + At),
1EEо' .
Легко заметить, что математическое ожидание числа исправных ЭМ в BC в момент времени (t + At) равно этому числу в момент t, уменьшенному
на среднее число отказавших машин и увеличенному на среднее число вoc-
cтaнoвлeнныx ЭМ в последующие At единиц времени: |
|
^1(i, it + At) _ 11(i, r) - 17(t, r)?',er + 11(i, ogдt +offer>. |
(10.22) |
Перенеся 11(i, t) в левую часть (10.22), разделив на At и перейдя к пределу при At – 0, получим уравнение
471
10. Живучесть вычислительных систем
dt |
t) = - |
(i, t) + |
(i, t), |
(10.23) |
причем |
|
|
|
|
(i, t) j(m при N – (i, t) > m; |
(10.24) |
|||
|
^N –V/(i, t) |
в противном случае. |
|
|
Найдем решение уравнения (10.23) |
при начальном условии |
|||
yI(i, 0) = i, i e Eo , для всех практически важных случаев. |
пpoизвoди- |
|||
Случай 1. Восстанавливающая система имеет высокую |
||||
тeльнocть, т. e. для любого t 0 выполняется условие |
|
|||
|
N – yl(i, t) m, |
|
(10.25) |
где i E EN_„, _ {N–m, N–m+],..., N}.
Область определения устанавливается из следующего: неравенство
(10.25) должно выполняться и при t = 0, a в начальный момент y/(i, 0) = i,
значит, (10.25) превращается в неравенство N – i m.
B рассматриваемом случае уравнение (10.23), как легко установить из (10.24), (10.25), трансформируется к виду
|
t) = NF.I - (? + t)1 (i, |
t), // (l, O) = l, l E EN-m |
(10.26) |
Применив преобразование Лaплaca—Kapcoнa [9], вместо (10.26) мож- |
|||
но записать алгебраическое уравнение |
|
|
|
|
PIS% (i, P) – 11(i, 0)] = Nµ – (?, + µ) 1(i, P), |
|
|
где p |
комплексный параметр; 1(i, p) — изображение функции |
||
y/(i, t), |
i E EN_ m. Из последнего уравнения следует, что |
|
|
|
1(i, P) _ (ф + Nµ)/LP +( + µ)l. |
(10.27) |
|
Формула обращения преобразования Лaплaca—Kapcoнa |
|
||
|
(3 + aa–R е oг |
|
|
|
p+a a |
a |
|
позволяет вместо (10.27) записать решение уравнения (10.26) |
|
||
(i, t) = N µ + i (N – |
i E {N – m, N – m +1, ..., N}. |
(10.28) |
µµ
472