Добавил:
sergeevpavel0406@mail.ru СОВА Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Информатика в техническом университете / Информатика в техническом университете. Архитектура вычислительных систем

.pdf
Скачиваний:
59
Добавлен:
06.03.2018
Размер:
13.27 Mб
Скачать

8.6. Анализ транспьютерных технологий

Т9000

Рис. 8.12. Фрагмент двумерной транспьютерной системы

Для тpaнcпьютepa IMS T9000 имеется набор средств для разработки и oтлaдки программ (который почти аналогичен соответствующему набору

для транспьютеров семейства T800).

8.б. Анализ транспьютерных технологий

Понятие «транспьютерные технологии» охватывает не только мп-псро- электронные технологии в производстве ЭМ транспьютеров, но и архитектypные и функциональные решения по формирова шо систем как коллективов транспьютеров, a также методы организация параллельны вычисленийи про-

гр вания. Транспьютерные технологии широко внедрялись в 1980-x и 1990-x годах. Популярность таких технологий объяснялась тем, что транспью-

тeр в то время был единственным систел ным элементом, которых был способен реализовать как коммуяикационные, так и вычислительные функция .

Транспьютерные технологии в конце ХХ в. были восприняты много западными и отечественны и организациями , созданием высокопроизводнтельньпч средств обработки информации. Они позволяли создавать тех- шжо-экономически эффективные масштабируемые суперВС того времени.

Достижением организаций, занимавшихся созданием и развитием средств транспьютерных технологии, следует признать то, что они уже в 1990-x годах вплотную подошли к рубежу, начиная c которого суперВС могли бы быть реализованы на большемасштабных полупроводниковых

пластинах (в виде system-on-Chip).

Опыт создания транспьютерных ВС c массовым параллелизмом без-

условно будет востребован в XXI столетии.

9. HAДEЖHOCTЬ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ

Понять архитектуру ВС, оценить их функциональный потенциал невозможно без анализа эффективности. Специф ;'ка современных ВС не позволяет решить проблемы их эффективности ,гутем прямой трансформации методов существующей теории эффектив, части систем и ЭВМ. B ходе исследований по проблемам эффективности потребовалось:

a) ввести показатели качества функционирования ВС, которые устанавливали бы взаимосвязь между производительностью, надежностью, живучестью и технико-экономической эффективно тью; б) создать нетрудоемкий и адекватный математический аппарат для

V V

расчета этих показателен; провести численный анализ качества функционирования ВС; в) разработать технологию экспресс-анализа эффективности функционирования ВС.

B данной главе изyчается надежность (Reliability) распределенных ВС. Под

надежностью ВС будем понимать свойство с 'стемы сохранять заданный уровень производительности путем программного настройки ее структуры и прогрaммной организации функционального взаимс действия между ее ресурсами.

9.1. Производительность вычислительных систем

Содержание гл. 4-8 (a также [5, 6]) убеждает в том, что coвpeмeнными высокопроизводительными средствами обработки информации являются

распределенные BC (Distributed Computer Systms), системы c массовым пapaллeлизмoм (Massively Parallel Processing Systems). Число фyнкциoнaльнo-

кoнcтpyктивныx элементов обработки информации (ЭМ или процессоров) в таких BC уже сейчас составляет пopядкa 106. Это обстоятельство дaeт ocнo- вaниe специалистам в области анализа эффективности (производительности, надежности, живучести и тexникo-экoнoмичe ^кoй эффективности) средств

обработки информации называть распределен ные BC бoльшeмacштaбными (Large-Scalable Computer Systems).

Полнота воплощения принципов модели коллектива вычиcлитeлeй

определяет архитектурную гибкость BC. Oтмe чaлocь, что современные рас-

412

9.1. Производительность вычислительных систем

пределенные ВС обладают свойством масштабируемости (Scalability), a ар-

хитектурно гибкие их представители характеризуются и программируемо-

стью структуры (structure Programmability).

B гл. 3 и 7 отмечалось, что ВС рассчитаны на работу в моно- и мультипрограммных режимах. B первом случае для решения любой задачи отводятся все ресурсы ВС, a во втором лишь часть из них. Очевидно, что монопрограммный режим целесообразен при решении на ВС сложных или трудоемких задач (см. разд. 3.3.4). К последним относят задачи, для решения которых требуется выполнить достаточно большое количество операций. Например, для ВС, состоящей из N ЭМ, сложной можно считать задачу c числом операций порядка N .101, где 1 Е {1, 2, 3, ... } .

Пусть N число ЭМ в распределенной ВС (c программируемой структурой). Будем говорить, что система находится в состоянии k Е Е ( , Е = {0, 1, 2, ... , N}, если в ней имеется k исправных ЭМ. Теоретически (на

основе анализа параллельных алгоритмов) и экспериментально (пyтем реа-

лизации параллельных программ сложных задач на действующих ВС) пока-

зано, что производительность (Performance) системы, находящейся в со-

стоянии k Е Е", равна

S2(k) = Ak kcд

(9.1)

где ш показатель производительности ЭМ; A k коэффициент. B качестве w может быть использовано быcтpoдeйcтвиe по Гибcoнy, номинальное и среднее быcтpoдeйcтвия машины (см. разд. 2.6.2).

Линейная зависимость производительности BC от количества ис-

правных ЭМ — следствие применения методики крупноблочного pacпa- paллeливaния сложных задач (см. § 3.3). Суть методики состоит в oднo-

poднoм разделении задачи на крупные блоки — пoдзaдaчи, между кoтo- pыми существует слабая связность. Говоря иначе, методика предписывает организацию таких однородных параллельных ветвей алгоритма решения сложной задачи, общее число операций в которых много больше числа операций обмена информацией между ветвями. Ясно, что это oбecпeчи-

вaeт высокую эффективность реализации параллельных программ cлoж-

ныx задач и, следовательно, значение коэффициента A k, близкое к eдини-

цe. Практически (на основе обработки результатов решения сложных задач различных классов на BC) установлено, что коэффициент A k не менее

единицы (Ak 1). Это неравенство объясняет «парадокс параллелизма»

(см. разд. 3.3.3) и является следствием «эффекта памяти» (в BC coкpaщaeтcя количество обращений к внешним запоминающим устройствам, бы- cтpoдeйcтвиe которых меньше скорости передачи информации по кaнa-

413

9. Надежность вычислительн нх систем

лам связи между ЭМ) и применения новых методов решения сложных

задач, не реализуемых на ЭВМ.

Формула (9.1) остается верной и при работе распределенных ВС в мультипрограммнык режимах (при обработке наборов задач или обслуживании потоков задач, см. рaзд. 7.2.2). B самом деле, в таких системах в отличие от матричных ВС каждая ЭМ обладает свсим устройством управления. Следовательно, в распределенных ВС имеется возможность одновременной реализации нескольких программ, причем каж цои на своей части системы, т. e. на своей подсистеме. B пределе каждую 'ЭМ можно заставить решать свою задачу. Накладные расходы, связанные c мультипрограммной работой

распределенных ВС, зависят от методов и алгоритмов организации функционирования. Созданные методы и алгоритмI (см., например [5]) эффективно реализуются на ЭВМ и системах (не требуют большой памяти и значительного компьютерного времени) и обес: течивают высокую загрузку технических ресурсов. Можно ожидать, что пр и мультипрограммной работе распределенной системы будет иметь место А,, >0,85, k Е Е

Таким образом, реальная производительь:ость ВС будет не менее 85 % суммарной производительности ЭМ как для i vоно-, так и для мультипрограммных режимов. Заметим, что такой уровень достигнут в матричных

системах (в частности, в ILLIAC-IV, см. § 5.2) только в режиме реализации

одной параллельной программы на всех N элементарных процессорах. При выполнении программ, имеющих число ветвей 1 < N, в матричных ВС бу-

дет простаивать (N —1) элементарных процессоров.

Раскрытию взаимосвязи между надежностью (безотказностью) и производительностью ВС и посвящена данная глава.

9.2. Вычислительные системы со структурной избыточностью

Вычислительные системы компонуются в общем случае из неабсолютно надежных ЭМ (см. § 2.8). Пусть интенсивность потока отказов в любой из N машин (см. (2.12), (2.14)). Следовательно, величина А, -' - среднее время безотказной работы одной ЭМ (или средняя наработка до отказа ЭМ).

Отказы, возникающие в ВС, устраняютс:i при помощи процедуры вос-

становления. Последняя предусматривает и контроль функционирования ВС, и локализацию неисправных ЭМ, и их ремонт или замену на исправные

машины, например из резерва. Будем считать, что эта процедура реализуется при помощи восстанавливающей системы , состоящей из т устройств,

1 тN.

414

9.2. Вычислительные системы со структурной избыточностью

После отказа ЭМ либо поступает на обслуживание в любое свободное восстанавливающее устройство (ВУ), либо (если таковых нет) ставится в очередь на восстановление. Считается, что в каждый момент времени любое из m ВУ может быть либо свободным, либо занятым восстановлением не более одной ЭМ. Пусть t интенсивность восстановления (2.18) отказавших ЭМ одним ВУ. Из сказанного следует, что в системе допустимы пере-

ходы из состояния k Е Е' как в состояние k —1 (k ^ 0), так и в состояние k+1(k^N).

B теории потенциальной надежности ВС введены системы со структypной избыточностью, которые являются обобщением систем c резервом [5, б] . Вычислительные системы со структурной избыточноcтью c позиций архитектуры и способов обработки информации не являются специальным

классом систем в ряду: конвейерные, матричные, мультипроцессорные ВС,

ВС c программируемой структурой и т. д. Вычислительная система со

структурной избыточностью по существу представляет собой виртуаль-

ную ВС или, точнее, программно-настроенную конфигурацию, в которой:

1)вьщелены основная подсистема (вычислительное ядро) из n ЭМ и подсистемы, подчиненные основной и составляющие избыточность из

(N—n) машин (п ^ 0, п Е Е");

2) основная подсистема предназначена для решения сложных задач,

представленных параллельными программами из п ветвей, a любая подчи

неннaя подсистема для решения фоновых задач;

3) функции отказавшей ЭМ основной подсистемы может взять на себя

любая исправная ЭМ любой подчиненной подсистемы;

k =0, 1, 2, ... , N)

4) производительность (при изменении состояния

подчиняется следующему закону:

 

= АЛ(k - n)q(n, o),

(9.2)

где A„ — коэффициент;

 

fl, если k > n;

(9.3)

0, еслик<п;

х^ производительность (точнее, один из показателей производительности) ЭМ; ср(п, со) неубывающaя функция от n и ха (как правило, ср(п, со) = пш).

Очевидно, что для решения сложных задач требуются ВС c массовым параллелизмом и, следовательно, параллельные программы c большим числом ветвей. При этом можно считать, что n » (N — n), и произво-

дительность основной подсистемы будет близка к суммарной производительности ВС.

415

началь-

9. Надежность вычислительных систем

Таким образом, ВС со структурной избыт ^чностью выглядит для пользователей как (виpтуaльнaя) система из n ЭМ. Эта же ВС c позиций проектировщиков и эксплуатационников выглядит как система c высоким уровнем надежности, который достигается за счет (N — i) избыточных машин. Вели-

чина (N — n) структурной избыточности в таких системах изменяется про-

граммно, но для заданной сложной задачи (для выбранной области применения ВС) она постоянна. Значение n (и, следовательно, N — n) выбирается из

требований обеспечения производительности и надежности ВС. Параллельная программа решения задачи имеет фиксированный объ-

ем информационной избыточности, которая используется для того, чтобы исправная ЭМ структурной избыточности мог. та взять на себя функции от-

казавшей ЭМ основной подсистемы. Информационная и структурная избыточности не уменьшают времени решения задачи, a увеличивают надеж-

ность работы ВС в целом (как аппаратypно-программного комплекса).

9.3. Показатели надежности вычислительных систем

Для количественного анализа работы ВС используется набор показателей надежности. Главное требование, которое предъявляется к набору, это обеспечение полноты характеристики качества функционирования ВС. Следовательно, должны быть показатели, характеризующие производитель-

ность ВС и в текущий момент времени, и на промежутке времени, a также показатели, позволяющие оценить способность системы к восстановлению заданного уровня производительности после отказа ее отдельных машин. Среди показателей надежности ВС, безусловно, должны быть такие, которые характеризуют поведение систем и на начальном этапе функционирования (в переходном режиме), и при длительно: 1 эксплуатации (в стационарном режиме).

Как было показано ранее (9.1), производительность ВС определяется числом исправных машин. Ясно, что в условиях, когда имеются отказы и

восстановления машин, число исправных ЭМ в системе в момент времени t > 0 есть случайная функция, обозначим ее -iерез 4(t). Пусть i

ное состояние ВС, т. e. число исправных ма:иин в системе при t = 0, где i Е Е" Функция 4(t) определяется начальным состоянием i ВС (следова-

тельно, моментами освобождения восстанавливающих устройств, которые были заняты ремонтом при t = 0), моментам 4 появления новых отказов в

машинах (или поступления новых отказавших машин на обслуживание ВУ), моментами устранения новых отказов.

416

Р; (i, t)

9.3. Показатели надежности вычислительных систем

Пусть в некоторый момент времени t` известно число исправных ма-

шин в системе, т. e. 4О* ). Очевидно, что значения 4(t) после t * (дальнейшее течение процесса обслуживания отказавших машин восстанавливаю-

щими устройствами) не зависят от того, что было до t * C одной стороны, моменты освобождения занятых ВУ не зависят от того, что было до t * , так как закон (2.18) распределения времени восстановления машины экспоненциальный. C другой стороны, моменты появления новых отказов не зависят от того, что было до t * , так как поток отказов простейший (2.15) и,

следовательно, в нем отсутствует последействие. Независимость окончания

устранения новых отказов в ЭМ от t* также следует из закона (2.18). Таким образом, все величины, определяющие 4(t), не зависят от того, что было до

момента времени t* Такие случайные процессы, течение которых не зависит от прошлого, называются марковскими процессами. Следовательно, (t)

является марковским случайным процессом.

Обозначим через {Р; (i, t) } распределение вероятностей состояний

системы в момент t > 0 при условии, что в начальный момент времени бы- N

ло исправно i Е Е машин; Е P; (i, t) =1

условие нормировки. Функция

^=о

 

вероятность того, что в системе, начавшей функционировать в состоянии i Е Е'', в момент t > 0 будет j Е Е исправных машин:

(9.4)

Тогда вероятность P; (i, 1) (i, j Е Ео) и будет показателем, характеризующим поведение ВС в переходном режиме функционирования. Очевидно, что при i ^ j, i, j Е Е'', имеют место равенства: P; (i, 0) = 0, 1(i, 0) =1.

Используя результаты теории массового обслуживания, нетрудно показать, что распределение {Р; } (j Е Е), где

Р. =1im

Р; (i, t);

(9.5)

1 ^ао

 

 

не зависит от начального состояния i Е Е ВС. Следовательно, P (j Е Ео )

есть показатель надежности для стационарного (или установившегося) режима работы ВС.

% 14-685

417

9. Надежность вычислительных систем

Переходный режим функционирования BC характеризуется дeтepмeниpoвaннo заданным начальным состоянием, a стационарный распреде-

лением вероятностей состояний {P, }, таким, что для всякого j E Е (т. e.

Vi E EON) имеет место P ^ 0.

Для характеристики качества функционирования BC (co структурной

избытoчнocтью) в переходном режиме используются функции от времени

1: R(t), U(t) и S(t) соответственно функция надежности (вероятность

безотказной работы), функция восстановимости (вероятность вoccтaнoвлe-

ния) и функция готовности BC.

Функцию надежности определим как вероятность того, что производительность BC, начавшей функционировать в состоянии i (n i < N)

на промежутке времени [0, t), равна производительности основной пoдcucmeмьa. Приведем формальную запись определения функции надежности BC:

R(t) = P{b'г E [0, t) -+ S2(г) = A„иwf п ^ i ^ N},

где Q(т) производительность системы в момент времени Т.

Говоря иначе, функция R(t) есть вероятность того, что в системе, начавшей функционировать с i, n < i < N, исправными машинами, на промежутке времени [0, t) будет не менее n исправных машин :

R(t) = P{di E [0, t) -+ (г) п п < i N}.

(9.6)

Очевидно, что R(0) = 1, R(+oo) = 0.

Под функцией восстановимости будем понимать вероятность того, что в BC, имеющей начальное состояние i (0 i < п), будет восстановлен

на промежутке времени [0, t) уровень производительности, равный пpouз

вoдumeльнocrrгu основной подсистемы. Функцию восстановимости BC можно определить c помощью двух эквивалентных выражений:

U(t) =1 — P{di E [0,

t) —* S2(ъ) = 0^0 i < n};

 

U(t) =1— P{b'T E [0,

t) — (т) < п b0 < i < п}.

(9.7)

Очевидно, что U(0) = 0, U(+oo) = 1.

B инженерной практике наиболее употребительны не R(t) и U(t), a

математическое ожидание времени безотказной работы (средняя нapaбoткa

дo отказа) и среднее время восстановления BC, которые по определению соответственно равны:

418

9.3. Показатели надежности вычислительных систем

6 = JR(t)dt;

(9.8)

о

 

Т = t

(9.9)

о

 

(см. формулы (2.11) и (2.18)).

Функцией готовности назовем вероятность того, что производительность системы, начавшей функционировать в состоянии i Е Е, равна в момент времени t > 0 производительности основной подсистемы:

s(t) = P{0(t) = Апп(4 Е Ео }.

Говоря иначе, функция S(t) есть вероятность того, что при t > 0 чис-

ло исправных ЭМ в ВС, имевшей начальное состояние i Е Е", не менее числа машин основной подсистемы:

S(t) = P{^(t) ? п и Eo }.

(9.10)

Из определения следует, что 0 < s(+) < 1,

1, если п < i < N; 0, если 0i <п

для нeвoccтaнaвливaeмыx BC R(t) = S(t). Если учесть (9.4) и (9.10), то функцию готовности системы можно выразить через вероятности ее состояний:

S(t) = P; (i, t), i E Е'

(9.11)

j=п

Таким образом, функции надежности u готовности характеризуют способности BC обеспечить требуемое быcmpoдeйcmвue на промежутке времени [0, t) .0 в момент t 0 соответственно. Функция вoccmaнoвuмo-

cmu раскрывает возможности системы к восстановлению, m. e. характеризует способность системы приобретать требуемый уровень пpouзвoдumeльнocmu после отказа всех избыточных машин u части машин основной подсистемы.

Предельные значения показателей (9.6), (9.7), (9.10) при t -+ ю будут

характеризовать надежность BC в стационарном режиме работы. Однако

для данного режима такие показатели, как R(t) и U(t), не информативны:

1im R(t) = 0, 1im U(t) =1.

(9.12)

% 14*

419

9. Надежность вычислительных систем

Поскольку имеет место (9.12) и есть практическая потребность в

оценке на промежутке времени производительности BC, находящихся дли-

тeльнoe время в эксплуатации, то целесообразно рассматривать две фyнк-

ции: R'(t) и U* (t) (которые могли бы быть названы как функции оперативной надежности u вoccmaнoeгcмocmu BC').

Функция R' (t) определяется как вероятность того, что пpoизвoди-

тeльнocть системы, которая в начальный момент находится в состоянии i, п i N, c вероятностью P (9.5), равна на промежутке времени [0, t)

производительности основной подсистемы. Приведем формальную запись данного определения:

R* (t) =Р{V Е[О,н) -+0(т)=Апп(о'Р, ZEE„ },

или же, что эквивалентно,

R * (t)=РО/ТЕ[0,t)->4(т)? п'1, i Е },

(9.13)

где Е N = {п, n + 1, ... , N} . Из (9.13) следует, что I?* (0) =

Р .

1 =п

 

Под функцией U* (t) понимается вероятность того, что в ВС, находящейся в начальном состоянии i, 0 < i < n, c вероятностью Р (9.5), на промежутке времени [0, t) будет восстановлен уровень производительности

основной подсистемы. Приведем два эквивалентных выражения для данной

функции:

U*(t)=1_Р{Vт5[0, t)—+ 0(т)= 0IЕ, 0 i п};

 

U'(t) = 1— P{di E [0, t) ,(T) < п IP, 0 5 i < n}.

(9.14)

n-I

Из определения U`(t) следует, что U" (0) = 1 — P.

=o

B отличие от функций надежности (9.6) и вoccтaнoвимocти (9.7) функция готовности (9.10) может быть использована в качестве количест -

венной характеристики стационарного режима работы BC. B самом деле, из

(9.10), (9.11) и (9.5) следует, что

urn S(t) =

N

N

 

1im Pj (i, t) =

:=S,

(9.15)

 

j=п

j =п

 

причем предел S не зависит от начального состояния системы i E Е

Beли-

чинy S называют коэффициентом готовности BC. Он является самым рас-

420