Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

khor32

.pdf
Скачиваний:
26
Добавлен:
29.02.2016
Размер:
8.16 Mб
Скачать

9. б. Расчет показателей надежности для стационарного режима

новлений 1 в системе будет также большим, т. e. если t - Со, то и 1 -4 о0.

Если это так, то при t

 

имеет место

i—n+1

 

 

и, следовательно (9.37),

с0

Е тяг (t) -+ 1

 

 

 

 

 

 

 

 

 

 

г=о

 

 

 

 

Q; (t) -> 1, i Е Е. Переходя к пределу при t -+ с0

в (9.36) и учитывая по-

ведение Qi (t) при t

00, получаем (9.41).

 

 

 

 

Действуя аналогично, находим, что функция (9.14)

 

 

 

n-1

ao

 

n—i—l+r

 

 

 

U*(t)=l_Iпг(t)

 

Иi(t).

(9.43)

 

 

i=O

r=O

 

1=0

 

 

Очевидно, что U(О) = S, U^(+oo) = urn U^(t) =1.

 

 

 

 

r

 

 

 

 

Оценкой сверху для U' (t) будет функция

 

 

 

 

 

Й*(t) =

n-1

n—i—i

 

 

 

 

 

 

и(t).

(9.44)

 

 

 

i=O

1=0

 

 

Выведенные в данном разделе формулы позволяют оценить функционирование BC в стационарном режиме.

9.6.2. Распределение вероятностей состояний вычислительных систем

Рассчитаем распределение вероятностей (9.5) состояний ВС для стационарного режима функционирования: {Р0, P, ..., Р; , ..., P } ; это позволит

вычислить функции (9.36) и (9.43) и коэффициент готовности (9.15) ВС. Для расчета P; , j Е Е, потребуется осуществить предельный пере-

ход при t - о0 в системе уравнений (9.29). Правые части всех ypавнений (9.29) при t -4 с0 имеют пределы. Следовательно, каждая из производных Pi, i Е Е'', при t -> 00 также имеет предел и такой предел может бьггь только нулем. Если бы какая-нибудь производная P; i Е Е, стремилась к числу, отличному от нуля, то соответствующее (t)l при t со неограниченно бы возрастало. Последнее противоречило бы физическому смыслу величин Р (t) (так как 0 < 1(t) < 1, i Е Ео) и формуле (9.5). Таким образом,

при t -> с0 имеет место 1'(t) -+ 0, i Е Е'. Следовательно, система диффе-

ренциальных уравнений (9.29) преобразуется в систему алгебраических

уравнений:

433

 

9. Надежность вычислительных систем

 

 

 

0= -rniaPo + ?,P1 ;

 

 

 

 

 

 

 

0 < j (N - rn);

 

0= тр'Р 1 - (]?. + rnt)Р + (j+

1)?J,

 

(9.45)

о = (N - j + 1)µР;-1 - [j + (N -

 

+ (]+ 1)?J,,

(N - т) < j < N;

 

 

0 = µPлs-1 - N&PN .

 

 

 

 

 

 

 

 

 

 

 

 

Если положить

 

 

 

 

 

 

 

 

 

 

 

 

тµР;-1 - AP./ = г;,

 

0<1 (N - т + 1);

 

 

(9.46)

[N - (j -1)]1 - j^Р; = г; , (N -rn+1)jNf'

 

 

 

то систему (9.45) можно записать в следующем виде:

 

 

 

 

 

г1

= 0;

 

 

 

 

 

 

 

 

 

 

 

 

— г;+1 = 0,

 

1 <j (N - т);

 

 

 

 

 

 

 

 

_ .

 

 

 

 

 

 

 

(9.47)

гN т+1

- гN-т+2 - 0,

 

 

 

 

 

 

 

 

- г^+1 = 0,

 

-rn+2) ]<(N

N;

 

 

 

гN = 0.

 

 

 

 

 

 

 

 

 

 

 

Из (9.47) следует, что

г = 0, 0 < j < (N - m + 1);

тогда, учитывая (9.46)

и принимая a = µ / ?,, получаем

 

 

 

 

 

 

 

 

 

тµ

 

ат

 

-

т'а'

1

j

-

 

+ 1).

(9.48)

Р=—Р

1 =---Р 1 ;

Р; -

. Р0,

(N m

 

 

j

 

 

 

J•

 

 

 

 

 

 

 

Кроме того, из (9.47) следует, что = 0,

(N - m +1) < j < N;

 

= [N -( j -1)]а

 

 

_ [N -( j -1)]. ..[N -(N-т)]а`-N+m D

 

Р; -

 

 

 

-

j(j -1)...(N -rn+1)

 

DN-т

 

]

 

 

 

 

 

 

 

a.j-N +тт(N -rn)! тN-maN-т

т !mN-ma.j

 

 

(9.49)

=

(N-])!]!

(N -rn)! Р0= (N-])!]! Р0 .

 

 

Используя условие нормировки и (9.48), (9.49), находим

 

 

 

Po =

1

а

1

 

N

а

1

 

-1

 

 

 

^

т

+ m! m N- т

^

 

 

 

 

 

(9.50)

 

1=0

1!

 

^

1=N-m+1 (N -1 )! 1 !]

 

 

 

 

Р; _

а'

 

 

 

 

 

 

т ! mN-т

Ро,

(9.51)

.^ 0(N - т-^)т + 0(j -

 

 

(N -j)! j

 

J

 

 

 

 

 

 

 

 

 

 

где j e {1, 2, ..., лт),

434

9.6. Расчет показателей надежности для стационарного режима

А(х)

если х 0;

= 0, если x < 0.

заметим, что в (9.48)—(9.51) принято 0 ° =1.

Рассмотрим два крайних случая: m =1, m = N. B первом случае, ко-

гда в ВС имеется одно восстанавливающее устройство, решение (9.51) принимает вид

1 1 -1 ,jЕЕоN

(9.52)

м l !

Если в (9.52) перейти к пределу при N --> щ получим вероятность то-

го, что при m =1 в стационарном режиме работы большемасштабной ВС

исправно j машин, равна:

Р. =

µ'

е , JЕо

(9.53)

]!

Распределение вероятностей (9.53) является распределением Пуассона. B случае, когда количество восстанавливающих устройств равно ко-

личеству машин в системе, решение (9.51) преобразуется к виду

N!

µ'Х,N '

>v

(9.54)

Р _ CN-J)!J!(?+oN , .1

Е Ео ,

 

a коэффициент готовности BC

 

 

 

S = 1- %1,N-п+1(^ +

 

(9.55)

9.6.3. Готовность масштабируемых вычислительных систем

Изучим влияние числа N при его неограниченном увеличен на потенциaльнyю готовность ВС к выполнению основных функций по переработке информации. B дальнейшем будем говорить, что ВС имеет высокую готов-

ность, если 1im S =1. Ранее было показано, что вероятность того, что матши-

ти-+

на в стационарном режиме исправна, равна ее коэффициенту s готовности

(2.26). Поскольку элементарные машины ВС независимо друг от друга могут

находиться в исправном состоянии или в состоя ии отказа, то, используя при условии v = (п —1)N-1 < s известные оценки биноминальньпх сумм [22],

можно показать, что коэффициент готовности ВС

435

9. Надежность вычислительных систем

 

S > 1 - e -NK , s = 1 _ е-Nк+о(1п N) ,

(9.56)

где к = v 1n(vs -1 ) + (1— v) ln[(1— v)(1 — s) 1 j. Из (9.56) следует, что ВС имеет

высокую готовность при выполнении условия v < s.

Наряду c монопрогpаммным режимом, когда на системе решается одна сложная задача, представленная в параллельной форме, в ВС широко использyются и мультипрогpаммные режимы (см. рaзд. 7.2.2). При организации мультипрограммной работы система программным способом разбивается на подсистемы. Количество подсистем соответствует количеству одновременно решаемых задач на ВС, a количество ЭМ в каждой из подсистем не менее ко-

личества ветвей в реализуемой параллельной программе. B связи c этим представляет интерес изучить, каким образом параметры подсистем влияют на

надежность (точнее, на коэффициент готовности) ВС в целом.

Пусть ВС состоит из h подсистем, причем подсистема c номером j Е Ег имеет следующие параметры: N; число ЭМ; п минимально

допустимое число исправных ЭМ, при котором подсистемой обеспечивается требуемый уровень производительности

 

^ N, =N;

v, = (п, —1)N^1 ;

v

1—v

 

s

' .

 

j=1

 

1- s

 

Рассмотрим случай, когда все подсистемы важны для существования

Тогда коэффициент готовности BC

BC.

 

 

h

h

 

 

 

S = ПS; > П(1— е-N'к' ),

(9.57)

 

 

j=1

1

 

где s,

коэффициент готовности подсистемы c номером j Е Е, a нера-

венство получено на основе (9.56).

 

 

 

Пусть числа

п; и N; (j Е Е;)

переменны, т. e. допускается их

варьирование и выполняются условия:

1)для каждой подсистемы c номером j параметр v; = const;

2)общее число машин постоянно: N = const.

Требуется найти такое распределение {лт; { , j Е Е1 , чисел ЭМ в под-

системах, при котором нижняя оценка (9.57) достигает максимума.

Точное решение сформулированной задачи методом множителей Ла гранжа при больших значениях NN , j Е Е, асимптотически совпадает c решением, получающимся при значениях N; , обеспечивающих постоянство сомножителей в оценке (9.57). Следовательно,

436

9. б. Расчет показателей надежности для стационарного режима

h

 

 

- 1

N = N к

к1

1

(9.58)

1=1

 

 

 

при этом

 

 

 

]Vк h _

1

 

h

S> 1 - e h к= —^ кd -1(9.59)

h 1=1

к средний гармонический коэффициент к; , j Е Е; [22, 23 ] .

Рассмотрим более общую ситуацию, при которой оснащение (моду-

..

лями памяти, внешними запоминающими устройствами, средствами вводавывода информации) ЭМ различно. Тогда каждая 1-я ЭМ будет иметь свой коэффициент готовности s1, 1 Е Е;' Можно показать, что в общем случае

сохраняются все вышеприведенные соотношения, если вместо s рассматри-

вать величину

N

s = N-1 ^ s1.

1=1

Исследуем теперь поведение BC в зависимости от степени дробления на подсистемы. Пусть количество N элементарных машин BC увеличивается

вместе c количеством h ее подсистем так, что

 

N_ 1+ E h 1n h— 1 h 1n d,

(9.60)

 

к

к

 

где d, &

произвольные действительные числа, d > 0.

Тогда из (9.59)

следует, что

е-dh1EI

 

 

 

при & < 0;

 

 

s е

(9.61)

 

 

 

>1—dh -E

при&>0.

 

Следовательно, ВС имеет высокую готовность, если c увеличением h

порядок роста N больше величины h 1n h / к Из (9.58)—(9.61) видно, что для достижения высокой готовности ВС необходимо выполнение условия

Ni >к^1 1nh, jЕЕ1.

9.6.4. Коэффициент готовности бQльшeмаcшта6ныx вычислительных систем

Выведем расчетные формулы для коэффициента готовности BC c боль-

количеством мauпш. для таких систем в cтoxacтичecких моделях счигает гuим cя, что N — oo, a фyFпщия готовности рассчитывается по формуле (9.30).

437

9. Надежность вычислительных систем

Полагая в (9.34) x = 0, находим

b0 (t) _

00

1im bo (t) =

00

 

P, (0)(1— e- ` )l ,

P (0) =1.

(9.62)

Если положить в (9.34) x =1, то

 

 

 

 

Ёьiсt) =

P(0) =1.

 

(9.63)

 

1=0

1=о

 

 

Из формул (9.62) и (9.63) при 1 > 1 следует, что 1im Ы (t) = 0. Учиты- t-+cO

вая (9.33) и последнюю формулу, получаем, что стационарными вероятностями состояний ВС будут

Р; = тµ 1 е-тµ

Е Е.

(9.64)

Заметим, что при m =1 формула (9.64) преобразуется в известный результат (9.5 3 ).

Предельный переход при t —> ао в (9.30) и результат (9.64) приводят к расчетной формуле для коэффициента готовности большемасштабной ВС:

S=1-1

е

(9.65)

J!

При анализе функционирования большемасштабных ВС (или ВС c массовым параллелизмом) можно использовать статистику не o потоке откaзов в одной ЭМ, a об отказах ВС в целом. Тогда стохастическую модель функционирования ВС можно изменить следующим образом. Пусть задана не интенсивность ? отказов одной ЭМ системы, a интенсивность л (простейшего) потока отказавших машин ВС. Тогда л представляет собой среднее количество отказавших ЭМ, поступающих на m восстанавливающих устройств за единицу времени. Пусть Р; вероятность того, что в стацио-

нарном режиме в ВС имеется j Е Е отказавших машин. Действуя традиционно, получаем:

-лРо + µР = 0;

 

 

АР;-1 -(л + ji)Р + (j + 1)µР;+1= 0,

1 ] < т;

(9.66)

AP;-1 - ( л + тµ)Р; + тµР;+1 =0,

m < ^..

 

438

9.6. Расчет показателей надежности для стационарного режима

Как было показано в (2.18), µ среднее число восстановлений ЭМ, которое может произвести одно восстанавливающее устройство в единицу времени. Тогда производительность восстанавливающей системы будет характеризоваться величиной mµ. Ясно, что очередь на восстановление отказавших ЭМ не будет расти безгранично и, следовательно, ресурсы ВС будут

эксплyатироваться c потенциально возможной эффективностью при условии

A<тµ.

Легко показать, что решениями системы уравнений (9.66) при выполнении условия нормировки и A < тµ будут:

 

 

(Ат1 1

(9.67)

^

‚0 1 кµJ (m-1)!(mµ—A)

µJ

 

J

Т J)1i+0(I — т)1

m]Po, j Е.

(9.68)

[

P^ —\µJ

m

 

 

Заметим, что по определению (9.2) п количество ЭМ основной под-

системы ВС со структурной избьггочностью, следовательно, n является пре-

дельно допустимым числом исправных машин, при котором производительность системы остается не ниже требуемого уровня. По аналогии c п в рамках данной стохастической модели целесообразно ввести п максимaльное количество отказавших ЭМ, при котором производительность ВС не ниже предельно допустимой. Следовательно, если ВС находится в со-

cтоянии j Е Е7, где Е = {О, 1, 2, ... , п }, Е c Е, то будем считать, что

она готова к выполнению основных ункцдчv по обработке информации. Тогда коэффициент готовности ВС рассчитывают по формуле

Л _

i =о

где величины P; определяются из (9.67) и (9.68).

Зная вероятности Р; , j Е Е, легко вычислить не только коэффици-

ент S готовности ВС, но и ряд других количественных характеристик надежности ВС для стационарного режима работы. Среднее количество отказавших машин ВС, ожидающих начала восстановления,

M=

A

P

1 mµ(1— А / тµ)2

 

при условии A < mµ. Математическое ожидание количества отказавших машин системы

439

п = N – п,

9. Надежность вычислительных систем

_ m-1

 

1

л

тРт

М2 = М1 + Ро ^ .

-1)!

t

+ 1– л / тµ

;=1

(j

Среднее число свободных восстанавливающих устройств

=ёо т -1 тз _j (J

^=о .1 ! µ

Вероятность того, что все восстанавливающие устройства заняты ре-

монтом отказавших машин ВС,

П = Pm (1

- !1 / 7Yi

1

 

Закон распределения времени 1 ожидания начала восстановления отказавшей ЭМ (в стационарном режиме) или вероятность того, что время пребывания отказавшей ЭМ в очереди на ремонт больше t,

P€i1 > t} = пе-(тµ-А)t

Математическое ожидание и дисперсия времени ожидания начала восстановления отказавшей ЭМ вычислительной системы соответственно равны

Mn = п/(тµ —л); Dri = Мi[г/(тµ —л)—Мт1].

B заключение следует подчеркнуть, что N –+ оо является парадигмой для построения стохастической модели функционирования большемас-

штабных ВС. B реальных системах N безусловно конечно, но при массовом параллелизме как N, так и n являются большими числами. Более того, производительность любой такой ВС оценивается (9.2) величиной по, которая близка к суммарной пиковой производительности Nго (см. рaзд. 3.3.3), с - производительность одной ЭМ (см. § 2.6). Основываясь на этом факте, при анализе готовности большемасштабных ВС можно считать, что

л= N.

9.7.Потенциальный контроль вычислительных систем

Работоспособные ресурсы в BC выявляются c помощью средств контроля и диагностики. При этом контроль системы (или ee части — пoдcиc-

темы) позволяет установить факт работоспособности или нepaбoтocпocoб-

нocти проверяемых ресурсов. Дuaгнocmuкa же (после установления нepaбo-

тocпocoбнocти BC или ee подсистемы) позволяет определить, какой из

440

9.7. Потенциальный контроль вычислительных систем

ресурсов системы неработоспособен. B качестве ресypсных элементов в ВС выступают, как правило, ЭМ или элементарный процессор.

Контроль и диагностику отдельной элементарной машины ВС можно

произвести так же, как традиционной ЭВМ. Это следует из того, что каждая ЭМ систем есть композиция ЭВМ и локального коммутатора или системно-

го устройства (см. гл. 7). Для контроля и диагностики в пределах ЭМ можно выделить контpольно-диагностическое ядро. При этом необходимым условием осуществления контроля и диагностики ЭМ будет работоспособность ядра. Проверка работоспособности ядра ЭМ вьшолняется специальными средствами. Остальная часть ЭМ проверяется c помощью контрольнодиагностических тестов (программ), выполняемых ядром. Ясно, что эффективность средств контроля и диагностики будет тем выше, чем будет меньше объем ядра по отношению к проверяемой части машины.

B вычислительной системе как совокупности из N ЭМ, взаимодействующих между собой через программно-настраиваемую сеть связей, может

быть применен нетрадиционный подход к контролю и диагностике. Программируемость структуры позволяет в пределах ВС организовывать такие топологически различные схемы из ЭМ, которые обеспечат полноту контpоля работоспособности всех ресурсов системы и полноту диагностики неисправностей (т. e. отыскания всех неработоспособных ЭМ c помощью взаимопроверок). Следовательно, по отношению к ВС вполне допустимо применение терминов «самоконтроль» и «самодиагностика».

Для самоконтроля ВС могут быть применены как универсальные, так и проблемно-ориентированные контрольные тесты. Проблемно-ориентиро- ванные тесты учитывают специфику сферы применения ВС, структуру ре-

шаемьх задач, частоту использования тех или иных команд и т. п. Кон-

тpольным тестом, адекватным структуре решаемой задачи (т. e. обеспечи-

вающим полноту проверки работоспособности системы, достаточную для решения задачи), будет, например, тест, являющийся наиболее характерной частью параллельной программы. Проблемно-ориентированные тесты существенно проще универсальных. Применение частей параллельной программы в качестве контрольных тестов не требует дополнительной емкости

памяти для их хранения. Состояние работоспособности или неработоспособности ресурсов конкретной подсистемы (или в пределе машины) устанавливается после сравнения результатов выполнения контрольного теста в

нескольких однородных подсистемах ( в нескольких ЭМ).

Возникает вопрос: в какие моменты времени должен производиться

(само)контроль ВС? Ясно, что выбор моментов (само)контроля находится в

прямой зависимости от надежности ВС. Надежность ВС определяется общим числом N машин, числом ЭМ в основной подсистеме, параметрами

Х,, A, m, µ (см. § 9.6) и может достигать сколь угодно высокого ypовня. Но

441

9. Надежность вычислительных систем

из последнего не должно следовать, что контроль правильности работы машин ВС должен производиться через очень большие промежутки времени. B самом деле, число работоспособных ЭМ может быть долгое время не меньше числа n < N, но среди отказавших могут быть машины, участвующие в решении сложной задачи (представленной параллельной программой из n ветвей). C другой стороны, при выборе моментов контроля машин системы нельзя ориентироваться лишь только на надежность одной ЭМ. Действительно, в условиях отсутствия структурной избыточности надежность одной ЭМ всегда выше надежности подсистемы из n машин . Таким образом, при выборе моментов (само)контроля ЭМ вычислительных систем необходимо ориентироваться на надежность подсистемы из n ЭМ, n < N.

При оценке надежности подсистемы воспользуемся средним временем безотказной работы 0 (9.8), (9.20). Поскольку допускается, что отказ даже одной ЭМ приводит к отказу подсистемы, то 0 = (п?,)-1 . Будем считать, что контроль правильности работы элементарных машин ВС будет достаточно эффективным, если он будет производиться через время 0.

Заметим, что техническая сложность элементарной машины ВС имеет тот же порядок, что и для (электронной части) ЭВМ. Следовательно, уровни надежности элементарных машин ВС и ЭВМ имеют один и тот же порядок:

=10-5...10-к ч.

Если число ЭМ в подсистеме n =10...10 6, то

0=10-1...10' ч.

Таким образом, через время 0 в каждой машине ВС должен пропускаться контрольный тест (общий для ЭМ одной подсистемы).

Оценим время, которое допустимо для реализации контрольных и диагностических тестов в ВС. Вполне естественно, что необходимо стремиться к тому, чтобы время 00, расходуемое в ВС на выполнение контрольного и диагностического тестов, было как можно меньше (но достаточное для полноты контроля и локализации неисправностей). По-видимому, удовлетворительным для практики будет время 00 < 0, 0010. Ориентируясь на современный уровень ВТ, легко заметить, что

09 < 10-4...104 ч.

При таком неравенстве построение и контрольных, и диагностических тестов для ЭМ не вызывает трудностей. Чем больше средняя скорость работы контрольных и диагностических тестов, тем выше не только интенсивность восстановления ЭМ, но и производительность ВС.

442

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]