khor32
.pdf9.1. Производительность вычислительных систем
пределенные ВС обладают свойством масштабируемости (Scalability), a ар-
хитектурно гибкие их представители характеризуются и программируемо-
стью структуры (structure Programmability).
B гл. 3 и 7 отмечалось, что ВС рассчитаны на работу в моно- и мультипрограммных режимах. B первом случае для решения любой задачи отводятся все ресурсы ВС, a во втором лишь часть из них. Очевидно, что монопрограммный режим целесообразен при решении на ВС сложных или трудоемких задач (см. разд. 3.3.4). К последним относят задачи, для решения которых требуется выполнить достаточно большое количество операций. Например, для ВС, состоящей из N ЭМ, сложной можно считать задачу c числом операций порядка N .101, где 1 Е {1, 2, 3, ... } .
Пусть N число ЭМ в распределенной ВС (c программируемой структурой). Будем говорить, что система находится в состоянии k Е Е ( , Е = {0, 1, 2, ... , N}, если в ней имеется k исправных ЭМ. Теоретически (на
основе анализа параллельных алгоритмов) и экспериментально (пyтем реа-
лизации параллельных программ сложных задач на действующих ВС) пока-
зано, что производительность (Performance) системы, находящейся в со-
стоянии k Е Е", равна
S2(k) = Ak kcд |
(9.1) |
где ш — показатель производительности ЭМ; A k — коэффициент. B качестве w может быть использовано быcтpoдeйcтвиe по Гибcoнy, номинальное и среднее быcтpoдeйcтвия машины (см. разд. 2.6.2).
Линейная зависимость производительности BC от количества ис-
правных ЭМ — следствие применения методики крупноблочного pacпa- paллeливaния сложных задач (см. § 3.3). Суть методики состоит в oднo-
poднoм разделении задачи на крупные блоки — пoдзaдaчи, между кoтo- pыми существует слабая связность. Говоря иначе, методика предписывает организацию таких однородных параллельных ветвей алгоритма решения сложной задачи, общее число операций в которых много больше числа операций обмена информацией между ветвями. Ясно, что это oбecпeчи-
вaeт высокую эффективность реализации параллельных программ cлoж-
ныx задач и, следовательно, значение коэффициента A k, близкое к eдини-
цe. Практически (на основе обработки результатов решения сложных задач различных классов на BC) установлено, что коэффициент A k не менее
единицы (Ak 1). Это неравенство объясняет «парадокс параллелизма»
(см. разд. 3.3.3) и является следствием «эффекта памяти» (в BC coкpaщaeтcя количество обращений к внешним запоминающим устройствам, бы- cтpoдeйcтвиe которых меньше скорости передачи информации по кaнa-
413
9. Надежность вычислительн нх систем
лам связи между ЭМ) и применения новых методов решения сложных
задач, не реализуемых на ЭВМ.
Формула (9.1) остается верной и при работе распределенных ВС в мультипрограммнык режимах (при обработке наборов задач или обслуживании потоков задач, см. рaзд. 7.2.2). B самом деле, в таких системах в отличие от матричных ВС каждая ЭМ обладает свсим устройством управления. Следовательно, в распределенных ВС имеется возможность одновременной реализации нескольких программ, причем каж цои на своей части системы, т. e. на своей подсистеме. B пределе каждую 'ЭМ можно заставить решать свою задачу. Накладные расходы, связанные c мультипрограммной работой
распределенных ВС, зависят от методов и алгоритмов организации функционирования. Созданные методы и алгоритмI (см., например [5]) эффективно реализуются на ЭВМ и системах (не требуют большой памяти и значительного компьютерного времени) и обес: течивают высокую загрузку технических ресурсов. Можно ожидать, что пр и мультипрограммной работе распределенной системы будет иметь место А,, >0,85, k Е Е
Таким образом, реальная производительь:ость ВС будет не менее 85 % суммарной производительности ЭМ как для i vоно-, так и для мультипрограммных режимов. Заметим, что такой уровень достигнут в матричных
системах (в частности, в ILLIAC-IV, см. § 5.2) только в режиме реализации
одной параллельной программы на всех N элементарных процессорах. При выполнении программ, имеющих число ветвей 1 < N, в матричных ВС бу-
дет простаивать (N —1) элементарных процессоров.
Раскрытию взаимосвязи между надежностью (безотказностью) и производительностью ВС и посвящена данная глава.
9.2. Вычислительные системы со структурной избыточностью
Вычислительные системы компонуются в общем случае из неабсолютно надежных ЭМ (см. § 2.8). Пусть интенсивность потока отказов в любой из N машин (см. (2.12), (2.14)). Следовательно, величина А, -' - среднее время безотказной работы одной ЭМ (или средняя наработка до отказа ЭМ).
Отказы, возникающие в ВС, устраняютс:i при помощи процедуры вос-
становления. Последняя предусматривает и контроль функционирования ВС, и локализацию неисправных ЭМ, и их ремонт или замену на исправные
машины, например из резерва. Будем считать, что эта процедура реализуется при помощи восстанавливающей системы , состоящей из т устройств,
1 тN.
414
9.2. Вычислительные системы со структурной избыточностью
После отказа ЭМ либо поступает на обслуживание в любое свободное восстанавливающее устройство (ВУ), либо (если таковых нет) ставится в очередь на восстановление. Считается, что в каждый момент времени любое из m ВУ может быть либо свободным, либо занятым восстановлением не более одной ЭМ. Пусть t интенсивность восстановления (2.18) отказавших ЭМ одним ВУ. Из сказанного следует, что в системе допустимы пере-
ходы из состояния k Е Е' как в состояние k —1 (k ^ 0), так и в состояние k+1(k^N).
B теории потенциальной надежности ВС введены системы со структypной избыточностью, которые являются обобщением систем c резервом [5, б] . Вычислительные системы со структурной избыточноcтью c позиций архитектуры и способов обработки информации не являются специальным
классом систем в ряду: конвейерные, матричные, мультипроцессорные ВС,
ВС c программируемой структурой и т. д. Вычислительная система со
структурной избыточностью по существу представляет собой виртуаль-
ную ВС или, точнее, программно-настроенную конфигурацию, в которой:
1)вьщелены основная подсистема (вычислительное ядро) из n ЭМ и подсистемы, подчиненные основной и составляющие избыточность из
(N—n) машин (п ^ 0, п Е Е");
2) основная подсистема предназначена для решения сложных задач,
представленных параллельными программами из п ветвей, a любая подчи
неннaя подсистема для решения фоновых задач;
3) функции отказавшей ЭМ основной подсистемы может взять на себя
любая исправная ЭМ любой подчиненной подсистемы; |
k =0, 1, 2, ... , N) |
4) производительность (при изменении состояния |
|
подчиняется следующему закону: |
|
= АЛ(k - n)q(n, o), |
(9.2) |
где A„ — коэффициент; |
|
fl, если k > n;
(9.3)
0, еслик<п;
х^ производительность (точнее, один из показателей производительности) ЭМ; ср(п, со) неубывающaя функция от n и ха (как правило, ср(п, со) = пш).
Очевидно, что для решения сложных задач требуются ВС c массовым параллелизмом и, следовательно, параллельные программы c большим числом ветвей. При этом можно считать, что n » (N — n), и произво-
дительность основной подсистемы будет близка к суммарной производительности ВС.
415
9. Надежность вычислительных систем
Таким образом, ВС со структурной избыт ^чностью выглядит для пользователей как (виpтуaльнaя) система из n ЭМ. Эта же ВС c позиций проектировщиков и эксплуатационников выглядит как система c высоким уровнем надежности, который достигается за счет (N — i) избыточных машин. Вели-
чина (N — n) структурной избыточности в таких системах изменяется про-
граммно, но для заданной сложной задачи (для выбранной области применения ВС) она постоянна. Значение n (и, следовательно, N — n) выбирается из
требований обеспечения производительности и надежности ВС. Параллельная программа решения задачи имеет фиксированный объ-
ем информационной избыточности, которая используется для того, чтобы исправная ЭМ структурной избыточности мог. та взять на себя функции от-
казавшей ЭМ основной подсистемы. Информационная и структурная избыточности не уменьшают времени решения задачи, a увеличивают надеж-
ность работы ВС в целом (как аппаратypно-программного комплекса).
9.3. Показатели надежности вычислительных систем
Для количественного анализа работы ВС используется набор показателей надежности. Главное требование, которое предъявляется к набору, это обеспечение полноты характеристики качества функционирования ВС. Следовательно, должны быть показатели, характеризующие производитель-
ность ВС и в текущий момент времени, и на промежутке времени, a также показатели, позволяющие оценить способность системы к восстановлению заданного уровня производительности после отказа ее отдельных машин. Среди показателей надежности ВС, безусловно, должны быть такие, которые характеризуют поведение систем и на начальном этапе функционирования (в переходном режиме), и при длительно: 1 эксплуатации (в стационарном режиме).
Как было показано ранее (9.1), производительность ВС определяется числом исправных машин. Ясно, что в условиях, когда имеются отказы и
восстановления машин, число исправных ЭМ в системе в момент времени t > 0 есть случайная функция, обозначим ее -iерез 4(t). Пусть i
ное состояние ВС, т. e. число исправных ма:иин в системе при t = 0, где i Е Е" Функция 4(t) определяется начальным состоянием i ВС (следова-
тельно, моментами освобождения восстанавливающих устройств, которые были заняты ремонтом при t = 0), моментам 4 появления новых отказов в
машинах (или поступления новых отказавших машин на обслуживание ВУ), моментами устранения новых отказов.
416
9.3. Показатели надежности вычислительных систем
Пусть в некоторый момент времени t` известно число исправных ма-
шин в системе, т. e. 4О* ). Очевидно, что значения 4(t) после t * (дальнейшее течение процесса обслуживания отказавших машин восстанавливаю-
щими устройствами) не зависят от того, что было до t * C одной стороны, моменты освобождения занятых ВУ не зависят от того, что было до t * , так как закон (2.18) распределения времени восстановления машины экспоненциальный. C другой стороны, моменты появления новых отказов не зависят от того, что было до t * , так как поток отказов простейший (2.15) и,
следовательно, в нем отсутствует последействие. Независимость окончания
устранения новых отказов в ЭМ от t* также следует из закона (2.18). Таким образом, все величины, определяющие 4(t), не зависят от того, что было до
момента времени t* Такие случайные процессы, течение которых не зависит от прошлого, называются марковскими процессами. Следовательно, (t)
является марковским случайным процессом.
Обозначим через {Р; (i, t) } распределение вероятностей состояний
системы в момент t > 0 при условии, что в начальный момент времени бы- N
ло исправно i Е Е машин; Е P; (i, t) =1 |
условие нормировки. Функция |
^=о |
|
вероятность того, что в системе, начавшей функционировать в состоянии i Е Е'', в момент t > 0 будет j Е Е исправных машин:
(9.4)
Тогда вероятность P; (i, 1) (i, j Е Ео) и будет показателем, характеризующим поведение ВС в переходном режиме функционирования. Очевидно, что при i ^ j, i, j Е Е'', имеют место равенства: P; (i, 0) = 0, 1(i, 0) =1.
Используя результаты теории массового обслуживания, нетрудно показать, что распределение {Р; } (j Е Е), где
Р. =1im |
Р; (i, t); |
(9.5) |
1 ^ао |
|
|
не зависит от начального состояния i Е Е ВС. Следовательно, P (j Е Ео )
есть показатель надежности для стационарного (или установившегося) режима работы ВС.
% 14-685 |
417 |
9. Надежность вычислительных систем
Переходный режим функционирования BC характеризуется дeтepмeниpoвaннo заданным начальным состоянием, a стационарный — распреде-
лением вероятностей состояний {P, }, таким, что для всякого j E Е (т. e.
Vi E EON) имеет место P ^ 0.
Для характеристики качества функционирования BC (co структурной
избытoчнocтью) в переходном режиме используются функции от времени
1: R(t), U(t) и S(t) — соответственно функция надежности (вероятность
безотказной работы), функция восстановимости (вероятность вoccтaнoвлe-
ния) и функция готовности BC.
Функцию надежности определим как вероятность того, что производительность BC, начавшей функционировать в состоянии i (n i < N)
на промежутке времени [0, t), равна производительности основной пoдcucmeмьa. Приведем формальную запись определения функции надежности BC:
R(t) = P{b'г E [0, t) -+ S2(г) = A„иwf п ^ i ^ N},
где Q(т) производительность системы в момент времени Т.
Говоря иначе, функция R(t) есть вероятность того, что в системе, начавшей функционировать с i, n < i < N, исправными машинами, на промежутке времени [0, t) будет не менее n исправных машин :
R(t) = P{di E [0, t) -+ (г) п п < i N}. |
(9.6) |
Очевидно, что R(0) = 1, R(+oo) = 0.
Под функцией восстановимости будем понимать вероятность того, что в BC, имеющей начальное состояние i (0 i < п), будет восстановлен
на промежутке времени [0, t) уровень производительности, равный пpouз
вoдumeльнocrrгu основной подсистемы. Функцию восстановимости BC можно определить c помощью двух эквивалентных выражений:
U(t) =1 — P{di E [0, |
t) —* S2(ъ) = 0^0 i < n}; |
|
U(t) =1— P{b'T E [0, |
t) — (т) < п b0 < i < п}. |
(9.7) |
Очевидно, что U(0) = 0, U(+oo) = 1.
B инженерной практике наиболее употребительны не R(t) и U(t), a
математическое ожидание времени безотказной работы (средняя нapaбoткa
дo отказа) и среднее время восстановления BC, которые по определению соответственно равны:
418
9.3. Показатели надежности вычислительных систем
6 = JR(t)dt; |
(9.8) |
о |
|
Т = t |
(9.9) |
о |
|
(см. формулы (2.11) и (2.18)).
Функцией готовности назовем вероятность того, что производительность системы, начавшей функционировать в состоянии i Е Е, равна в момент времени t > 0 производительности основной подсистемы:
s(t) = P{0(t) = Апп(4 Е Ео }.
Говоря иначе, функция S(t) есть вероятность того, что при t > 0 чис-
ло исправных ЭМ в ВС, имевшей начальное состояние i Е Е", не менее числа машин основной подсистемы:
S(t) = P{^(t) ? п и Eo }. |
(9.10) |
Из определения следует, что 0 < s(+) < 1,
1, если п < i < N; 0, если 0i <п
для нeвoccтaнaвливaeмыx BC R(t) = S(t). Если учесть (9.4) и (9.10), то функцию готовности системы можно выразить через вероятности ее состояний:
S(t) = P; (i, t), i E Е' |
(9.11) |
j=п
Таким образом, функции надежности u готовности характеризуют способности BC обеспечить требуемое быcmpoдeйcmвue на промежутке времени [0, t) .0 в момент t 0 соответственно. Функция вoccmaнoвuмo-
cmu раскрывает возможности системы к восстановлению, m. e. характеризует способность системы приобретать требуемый уровень пpouзвoдumeльнocmu после отказа всех избыточных машин u части машин основной подсистемы.
Предельные значения показателей (9.6), (9.7), (9.10) при t -+ ю будут
характеризовать надежность BC в стационарном режиме работы. Однако
для данного режима такие показатели, как R(t) и U(t), не информативны:
1im R(t) = 0, 1im U(t) =1. |
(9.12) |
% 14* |
419 |
9. Надежность вычислительных систем
Поскольку имеет место (9.12) и есть практическая потребность в
оценке на промежутке времени производительности BC, находящихся дли-
тeльнoe время в эксплуатации, то целесообразно рассматривать две фyнк-
ции: R'(t) и U* (t) (которые могли бы быть названы как функции оперативной надежности u вoccmaнoeгcмocmu BC').
Функция R' (t) определяется как вероятность того, что пpoизвoди-
тeльнocть системы, которая в начальный момент находится в состоянии i, п i N, c вероятностью P (9.5), равна на промежутке времени [0, t)
производительности основной подсистемы. Приведем формальную запись данного определения:
R* (t) =Р{V Е[О,н) -+0(т)=Апп(о'Р, ZEE„ },
или же, что эквивалентно,
R * (t)=РО/ТЕ[0,t)->4(т)? п'1, i Е }, |
(9.13) |
где Е N = {п, n + 1, ... , N} . Из (9.13) следует, что I?* (0) = |
Р . |
1 =п |
|
Под функцией U* (t) понимается вероятность того, что в ВС, находящейся в начальном состоянии i, 0 < i < n, c вероятностью Р (9.5), на промежутке времени [0, t) будет восстановлен уровень производительности
основной подсистемы. Приведем два эквивалентных выражения для данной
функции:
U*(t)=1_Р{Vт5[0, t)—+ 0(т)= 0IЕ, 0 i п}; |
|
U'(t) = 1— P{di E [0, t) — ,(T) < п IP, 0 5 i < n}. |
(9.14) |
n-I
Из определения U`(t) следует, что U" (0) = 1 — P.
=o
B отличие от функций надежности (9.6) и вoccтaнoвимocти (9.7) функция готовности (9.10) может быть использована в качестве количест -
венной характеристики стационарного режима работы BC. B самом деле, из
(9.10), (9.11) и (9.5) следует, что
urn S(t) = |
N |
N |
|
1im Pj (i, t) = |
:=S, |
(9.15) |
|
|
j=п |
j =п |
|
причем предел S не зависит от начального состояния системы i E Е |
Beли- |
чинy S называют коэффициентом готовности BC. Он является самым рас-
420
9.4. 0 методике расчета показателей надежности вычислительных систем
простpаненным показателем для стационарного режима функционирования ВС.
Отметим прикладное значение введенныx показателей надежности ВС. Показатели надежности устанавливают взаимосвязь между производитель-
ностью и собственно надежностью ВС. Следовательно, показатели надеж-
ности позволяют, во-первых, подобрать такой состав вновь компонуемой ВС, при котором обеспечиваются заданные уровни и производительности, и надежности; во-вторых, проанализировать качество работы существующей ВС и оценить ее возможности по решению задач. Последнее важно знать и при организации контpольно-профилактическиx и диагностических работ в ВС и при организации прохождения задач пользователей. Так, показатели надежности для переходного режима работы ВС позволяют получить следyющyю информацию:
1. C какой вероятностью задача пользователя будет решена, если в момент ее поступления производительность ВС не менее требуемой (9.б); говоря другими словами, сможет ли пользователь успеть решить свою задачy до отказа системы (9.8)?
2.Как быстро можно ожидать восстановления требуемого для пользователя уровня производительности, если в момент поступления задачи производительность ВС низка (9.7), (9.9)?
3.Будет ли ВС иметь необходимую производительность (точнее, c какой вероятностью она будет ее иметь) в момент поступления задачи в системy (9.10)?
Показатели надежности для стационарного режима функционирова-
ния ВС, в частности, информируют o следующем:
1. Могут ли быть решены поступающие задачи, если система длительно эксплуатируется? Могут ли быть решены задачи, если в момент их постyпления достоверно неизвестно, в каком состоянии находится система (9.13)?
2.Сколь быстро можно ожидать восстановления требуемого уровня производительности в условиях, когда ВС уже длительно эксплуатируется (9.14)?
3.Будет ли система иметь необходимую производительность в любой
момент поступления задачи, если она уже достаточно долго находится в эксплуатации (9.15)?
9.4.0 методике расчета показателей надежности
вычислительных систем
K методике расчета показателей качества работы ВС предъявляются следующие требования:
14685 |
421 |
9.Надежность вычислительных систем
1)приемлемость методики к большемасштабным и масштабируемым ВС, или, иначе говоря, к ансамблям c любым количеством одинаковых ЭМ или процессоров;
2)адекватность стохастических моделей функционирования ВС реальному процессу их работы или реализации принципа квазианалогии, который применительно к рассматриваемой проблеме гарантирует не подобие между стохастическими моделями и функционированием ВС, a удовлетворительную для практики точность расчетов;
з) единообразие методов и приемов исследования функционирования ВС как в переходном, так и в стационарном режимах;
4)простота численного анализа функционирования ВС при произвольном количестве машин (определение числовых значений показателей функционирования ВС не должно быть связано c трудоемкими вычислениями, т. e. c решением сложных задач, доступных мощным средствам ВТ);
5)возможность выявления общих количественных закономерностей по производительности и надежности функционирования ВС, которые от-
ражaют достигнутый и перспективный уровни технологии ВТ.
При расчете показателей надежности за основу берется стохастическая модель функционирования ВС, представленная на рис. 9.1. B случае отказа одной или нескольких ЭМ основной подсистемы и после их локализации (диагностики ВС) требуется реконфигурация ВС в целом. C помощью реконфигypатора в пределах ВС порождается новая конфигурация основной
подсистемы из n исправных ЭМ. B качестве |
таковой конфигурации, в част- |
., |
., |
ности, может выступать модернизированный вариант основной подсистемы,
который включает все исправные ЭМ исходной подсистемы и необходимое число исправных ЭМ структурной избыточности. B рамках сказанного
Вычислительная система,
N ЭМ
Подсистема отказавших ЭМ
t^
Основная подсистема, |
Восстанавливающая |
|
п ЭМ |
||
система, |
||
f v |
||
m ВУ |
Реконфигypатор BC
I
Структурная избыточность,
(N- п) ЭМ
J
Рис. 9.1. Модель функционирования ВС со структурной избыточностью
422