Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

khor32

.pdf
Скачиваний:
26
Добавлен:
29.02.2016
Размер:
8.16 Mб
Скачать

9.8. Численное исследование надежности вычислительных систем

ственные системы МИНИМАКС и СУММА относились к распределен-

ным и имели программируемую структуру. Элементарные машины пер-

вой ВС формировались, в частности, из мини-ЭВМ M-6000, a второй

из машин «Электроника-100И». Несмотря на разницу в значениях таких характеристик, как быстpодействие, разрядность слов и емкость памяти, ЭМ систем и МИНИМАКС, и СУММА имели одни и те же показатели надежности:

2, =102... i0 1 /ч; µ = 0,1... 1, 0 1 /ч.

диапазоны значений для Х и µ установлены в результате анализа существовавших возможных вариантов компоновки элементарных машин.

Известно (см. § 6.6 и 7.6), что генерациями, следовавцп ми за л ини-ВС, являлись микроВС. Базовыми средствами для формирования микроВС были

микроЭВМ. Архитектуры мини-ВС и микроВС (и по свойствам, и по коли-

чественным характеристикам) были достаточно близки. B самом деле, границы для количества ЭМ и для их параметров эффективности остались неизменными. B микроЭВМ в отличие от мини-ЭВМ использовались инте-

гpaльные схемы (ИС) c малой степенью интеграции, a не узлы из

дискретных элементов. Последнее привело к миниатюризации самой машины, к ее удешевлению, но показатели производительности и надежности остались в тех же диапазонах, что и для мини-ЭВМ.

Отразим результаты численного анализа надежности микpомашиной ВС МИКРОС-1. Параметры Х и µ для возможных конфигураций, составляющих основу ЭМ, представлены в табл. 9.2.

Таблица 9.2

Номер

Конфигурация микроЭВМ или комплекса

 

 

конфигypа-

,'

µ, 1 /ч

ции 1

 

1,'/ч

 

 

 

 

1

МикроЭВМ «Электроника 6оМ»

0,001

1,0

2

Комплекс (15 ВУМС-28-026) на базе микроЭВМ

0,003

0,5

3

«Электроника 60М»

 

 

Расширенный комплекс (15 ВYMС-28-026) на базе

0,004

0,5

4

микроЭВМ «Электроника 60М»

 

 

МикроЭВМ «Электроника НЦ 80-01 Д»

0,0002

1,0

5

Комплекс ДВК

0,002

0,5

Графики для функции R(t) надежности BC MИKPOC-1 представлены

на рис. 9.15-9.18. Кривые рис. 9.15 характеризуют при m =1 временную зависимость вероятности безотказной работы BC от конфигураций ЭМ. Ce-

мeйcтвo кривых, изображенных пунктирными линиями, соответствует

453

 

 

9. Надежность вычислительных систем

 

R(t)

 

 

 

R(1)

 

 

0,

 

 

 

0,8

 

 

0,

 

 

 

0,6

 

т > 2-

0,4

 

 

 

0,4

 

 

0,2

 

 

 

0,2

 

 

0 200

600

1000

1400 t, ч

0

400

800 t, ч

Рис. 9.15. Функции надежности ВС

Рис. 9.16. Функция надежности ВС

МИKPОС-1:

 

 

 

МИKPОС-1:

 

N =i = 16,

п = 15,

m=1;

N=

128; п= 126;

1, 128;

N =i = 32,

п = 30,

т =1

?,= 0,0011 /ч;µ = 1,01

 

1 б-мaшинным ВС, в которых только одна ЭМ составляет избыточность (N = i = 16, n = 15). Второе семейство (сплошные линии) относится к ВС, каждая из которых сформирована из 32 ЭМ и имеет избыточность из двух машин (N = i = 32, n = 30). B качестве базовых средств при компоновке ЭМ при 1 =1 использовались микроЭВМ «Электроника 60М», при l = 2 вычислительные комплексы 15 ВУМС-28-026, при 1 = 3 расширенные ком-

плексы 15 ВУМС-28-026, при 1 = 4 микроЭВМ «Электроника Нц 80-01 Д»

и при 1 = 5 комплексы ДВК-2.

Таким образом, и 16-машинные, и 32-машинные конфигурации ВС обладали достаточно высокой надежностью (для 70-x годов ХХ в.). Усложнение состава ЭМ, безусловно, снижало надежность ВС в целом, однако она оставалась достаточной для параллельного моделирования и решения задач, не доступных для отдельно взятой микроЭВМ. Анализ графиков рис. 9.15 убеждает в том, что система МИКРОС-1 не уступала по надежности ВС С.ттр и Ст * (см. § 6.2, 6.6). Вместе c этим ВС МИКРОС-1

обладала большей архитектурной гибкостью, способностью к наращиванию вычислительных ресурсов (в то время как мини-ВС С.ттр

была рассчитана на фиксированное количество машин, которое не превышало 16).

454

9.8. Численное исследование надежности вычислительных систем

Ha рис. 9.16 приведена зависимость фyFпaц3и надежности BC M1'iKPOC-1 (N = i = 128, п = 126) от количество m восстанавливающих устройств

(т = 1, 128). B качестве ЭМ взята конфигурация на базе микроЭВМ «Элек-

тpoника 60М» (?. = 0, 001 1 /ч, µ = 1, 0 1 /ч). Кривые рис. 9.17 отражают вре-

меннyю зависимость вероятности безотказной работы ВС (N = i = 12 8, m = 1, = 0, 001 1 /ч, µ = 1, 0 1 /ч) от числа основных машшн п Е 1123, 124, ... , 128} или, что то же самое, от числа избыточных ЭМ (N - п) Е {0, 1, ... , 5}. Кроме того, на рис. 9.17 представлена и вероятность r(t) безотказной работы ЭМ

(2.14) пункгирной линией. Очевидно, что введение избыточности существенно повышает надежность ВС. Анализ графиков рис. 9.16 и 9.17 не только подтверждаeт справедливость эмпирическиx неравенств (9.69), но и усиливает их.

На рис. 9.18 приведена зависимость вероятности безотказной работы системы МИКРОС-1 от общего числа машин; N = i Е 164, 128, 256, 512}; m =1; = 0, 001 1 /ч; µ = 1, 0 1 /ч при фиксированной относительной избы-

точности. Пунктирные линии относятся к конфигурациям ВС, в которых избыточность оценивается максимальным числом ЭМ, не превышающим 1 % от общего числа машин. Сплошные линии соответствуют ВС при избыточности, близкой к 2 % от N. Из анализа кривых следует, что при фиксированно? относительной избыточности надежность ВС повышается c увеличением общего числа ЭМ.

п =123 -124--

 

 

 

 

 

0,

0,8

й

 

^

256

 

 

 

125

 

11

 

^

 

111

 

 

 

1

1

1

 

0,6

0,6

д

1

 

 

 

11

;

 

 

•t'КI

 

 

о,2

^; '►-^^

0,

126

 

^ / ^

512

128

0,4

 

 

 

 

 

0,4

III&

256 ,

 

 

128

 

 

 

 

 

 

600_1000

 

 

200 127

600

1000 1400 t,

ч

0

200

1400 t, ч

Рис. 9.17. Функция

надежности

ВС Рис. 9.18. Функция надежности BC

МИКРОС-1:

 

 

 

 

МИKPОС-1:

 

 

N = i = 128; m = 1; п = 123,128;

 

 

N=i=64, 128, 256, 512; m=1;

 

 

 

---------

(N - п) < 0, 01N;

 

2=0,001

1 /ч; i= 1,0 1/ч

 

 

 

 

 

 

 

 

(N -п) < 0, 02N

 

 

 

 

 

 

 

 

 

455

9.Надежность вычислительных систем

9.8.3.Надежность большемасштабных распределенных

вычислительных систем

Современные большемасштабные распределенные ВС или ВС c массовым параллелизмом являются ансамблями из значительного числа N эле-

ментарных машин или процессоров, N < 10 6 Естественно, возникает вопрос: как в таких ансамблях достичь уровня надежности, характерного для отдельно взятой ЭМ? Ориентиром здесь может служить среднее время

а = Х-' безотказной работы ЭВМ (2.11). B начале XXI столетия среднее

время безотказной работы электронной части персонального компьютера (в частности, и c архитектурой IBM РС) достигло нескольких лет: а = 50 000 ч.

Элементной базой для построения ВС служат микропроцессоры интегральные схемы c большим количеством компонентов. Надежность микропроцессорных БИС оценивается средним временем а безотказной работы в диапазоне i05... 108 ч.

При численном изучении потенциальной надежности большемасштабных ВС будем использовать следующие параметры для ЭМ:

? , =10 -5...10-8 1/ч; µ-' =0,001...0,25 ч.

диапазон значений для среднего времени восстановления µ-' ЭМ одним ВУ

установлен в результате анализа временнь'1 х возможностей виртуальных восстанавливающих устройств (точнее: контролёров, диагностов и реконфигураторов; см. рис. 9.2) для распределенных ВС.

При анализе надежности большемасштабных ВС будет применяться наиболее распространенный в инженерной практике показатель среднее время 9 безотказной работы (9.8).

На рис. 9.19-9.21 изображены графики зависимости значений математического ожидания времени безотказной работы большемасштабных ВС от параметров N, m и N — п. Так, на рис. 9.19 представлены значения 9 для ВС

со следующими параметрами: N = 65536; N — п = 0, 9; m > 1; а, =10-5 1 /ч. Эти

значения позволяют установить степень влияния интенсивности восстановления ЭМ и количества m ВУ на среднее время 9 безотказной работы ВС. Так, семейство сплошных линий показывает, что варьирование интенсивности µ в промежутке от 4 1 /ч до 1000 1 /ч даже при m =1 приводит к существенному улучшению качества функционирования ВС c большим количеством ЭМ.

Пунктирная линия соответствует значениям среднего времени & безотказной работы ВС для количества восстанавливающих устройств m > 2 (каждое из которых обладает интенсивностью µ = 4 1 /ч).

456

9.8. Численное исследование надежности вычислительных систем

6, ч

1 000 000

10010

000000

riвв^:в

1 000

вriв^в

 

100

 

 

10

 

 

1

1 2 3 4 5 б 7 8 N- n

 

 

Рис. 9.19. Среднее время безотказной работы большемасштабных ВС:

N = 65 536; т > 1; = 10-5 1 /ч; 1— µ = 4 1 /ч; 2 — р = 10 1 /ч; 3 — µ = 100 1 /ч; 4 — µ = 1000 1/ч

9, ч

100 000 uoo

10 000 000

1 000 000

100 000

10 000

1000

100

10

1 0 1 2 3 N- n 0 1 2 3 N - п 0 1 2 3 N-n

a б в

Рис. 9.20. Среднее время безотказной работы большемасштабных BC:

т = 1; ^ = 10-5 . . .10-9 1/ч; µ = 4 1 /ч; а — N = 1024; б N = 2048; в N = 4096; 1— ?'. = 10-5 1 /ч;

2—= 10 1 /ч; 3 — ? = 10-' 1 /ч; 4 =10-8 1 /ч; 5 ^ = 10-9 1

Видно, что при количестве избыточных ЭМ (N — п) > б (т. e. при из-

быточности в машинах, равной 0 ,009 %) достигается уровень надежности ВС, который не ниже, чем для одной ЭМ. Кроме того, имеется граница для количества ВУ, после которой увеличение m приводит к незначительному росту среднего времени безотказной работы ВС.

Зависимость показателя 8 от общего числа N машин большемасштабных ВС и от их избыточности (N — п) иллюстрируют рис. 9.20 и 9.21;

m=1, µ=4 1/ч.

15-685

457

9. Надежность вычислительных систем

9, ч

100 000 000

10 000 000

1 000 000

100 000 000

1000

100

10

о 1 2 3 N - n 0 1

2 3 N - n 0

1 2 3 N - n

a

б

в

Рис. 9.21. Среднее время безотказной работы большемасштабных ВС:

m = 1; ? = 10-5 ...10-9 1 /ч; µ = 4 1 /ч; а - N = 8192; б - N = 65536; в - N = 1048576;

1- = 10-5 1 /ч; 2 - Х = 10 1 /ч; 3 - . = 10-7 1 /ч; 4 - = 10_8 1 /ч; 5 - = 10-9 1 /ч

Приведенные на рис. 9.19-9.21 графики позволяют определить не только достигнутый уровень надежности большемасштабных ВС, но и оценить потенциальные возможности перспективных разработок.

Эмпирические формулы для m и (N n) большемасштабных

вычислительных систем

Анализ рис. 9.19-9.21 показывает, что для большемасштабных рас-

пpeдeлeнныx BC выбор количества m восстанавливающих устройств и ко

личecтвa (N – п) избыточных ЭМ следует осуществлять по формулам:

1 m [1g N]; 1 (N – п) < [1g N],

(9.70)

где N — количество ЭМ в системе; [1g N] — число, округленное до ближайшего к 1g N целого числа (снизу или сверху). Формулы (9.70) rapaнти-

pyют уровень надежности бoльшeмacштaбнoй BC не ниже уровня надежности одной ее ЭМ. При этом c ростом масштабности системы и c yвeличeни-

eм среднего времени безотказной работы одной ЭМ требуемое количество восстанавливающих устройств и избыточных машин относительно общего

количества ЭМ acимптoтичecки уменьшается.

Таким образом, за счет улучшения параметров ?, и µ относительные цены восстанавливающей системы и избыточности снижаются более чем на порядок по сравнению c ценами для предшествующих поколений BC (см.

(9.69), (9.70) и рис. 9.19-9.21).

458

9.9. Анализ вычислительных систем со структурной избыточностью

Численный анализ надежности ВС позволяет сделать следующие выводы.

1. C позиций надежности распределенные ВС являются перспективными средствами индустрии обработки информации. При современном уровне развития производственно-технологической базы микропроцессорной техники практически возможно построение высоконадежньх ВС c ко-

личеством ЭМ 10... 10, обеспечивающих производительность в диапазоне

10 GFLOPS...1 PFLOPS.

2. Для обеспечения уровня надежности большемасштабной распределенной ВС не менее уровня надежности одной ее ЭМ требуется избыточнocть в

мапп нах, не превьппающая десятичного логарифма числа составляющих ЭМ. з . для вьптолнения восстановительныx работ в распределенных ВС,

как правило, достаточно иметь одно (виртyaльное) восстанавливающее устройство независимо от количества ЭМ. Среднее время восстановления системы c избыточностью при этом имеет тот же порядок, что и среднее время восстановления одной машины.

9.9. Анализ вычислительных систем со структурной избыточностью

1.Вычислительные системы со структурной избьггочностью являются

обобщением систем c резервом. Со стороны пользователя они выглядят как виртуальные системы, способные реализовать параллельные программы c фиксированныи числом ветвей (равным числу основных элементарных маитин). C позиций проекгировщиков и эксплуатацион1инсов предложенные ВС пред- ставляют собой програмдишо-настроение конфигурации в пределах ВС, избыточность которых позволяет достичь любой априори заданной надежности.

2. Рассмотренные показатели надежности для переходного и стационарного режимов работы ВС и описанные инженерные методы их расчета вполне приемлемы для утилитарных целей (для анализа и синтеза ВС).

З . Численный анализ показывает, что при структурной избыточности, равной десятичному логарифму общего количества машин в большемасштабной распределенной ВС, достигается уровень надежности системы, который не ниже уровня надежности ее ЭМ.

Изученные архитектурные концепции (см. гл. 4-7) и описанный в данной главе подход к организации ВС c избыточностью позволяют создавать масштабируемые вычислительные суперсистемы c производительностью

от GFLOPS до PFLOPS. При этом в любой суперсистеме достигается на-

дежность, которая не ниже надежности любой из составляющих ЭМ (при цене относительно невысоких затрат).

15#

r, 1 < r < N,

10. ЖИВУЧЕСТЬ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ

B главе изучается одно из замечательных свойств распределенных ВС c программируемой структурой — живучесть (Robustness). Данным свойством ЭВМ не обладают, живучесть — это отличительная особенность средств обработки информации, основанных на модели коллектива вычислителей (см. . з.1).

Живучесть является более емким понятием, чем надежность ВС. Под живучестью понимается способность ВС (достигаемая программной организацией структуры и функционального воздействия между ее компонентами) в любой момент функционирования использовать суммарную производительность всех исправных ресурсов для решения задач.

Изучение проблемы живучести основывается на парадигме, получившей название живучей ВС и являющейся обобщением ВС со структурной избыточ - ностью (см. ^ 9.2). B данной главе вводятся показатели потенциальной живучести ВС и предлагается оригинальная методика их расчета, базирующаяся на континуальной стохастической модели. Адекватность модели обосновывается большемасштабностью распределенных ВС или, говоря иначе, их массовым параллелизмом — большим количеством ЭМ (до 10 6). Такая методология имеет свой аналог в механике сплошных сред.

10.1. Живучие вычислительные системы

Живучесть ВС должна достигаться при решении задач, представленных программами c любым допустимым числом параллельных ветвей или, что то же самое, с любым рангом где N общее количество ЭМ в

системе. Исключение не должны составлять задачи c переменным рангом r,

допускающим варьирование от r ° до r *, 1 < r °, r * < N, < r < r * Живу-

честь должна обеспечиваться и в монопрограммном, и в мультипрогpаммных режимах рaботы ВС. При монопрограммном режиме для определенности будем полагать, что переменный ранг задачи характеризуется величинами

r ° = п и r = N. Величина n одновременно является и нижней границей ко-

личества работоспособных ЭМ (считается, что при количестве отказавших

460

10.1. Живучие вычислительные системы

ЭМ, равном (N — n + 1), имеет место полный отказ ВС). При мультипрограм-

мировании сумма рангов одновремеино решаемых задач не превышает N.

C позиций анализа живучести ВС мультипрограммные режимы могут быть сведены к монопрограммному. При мультипрограммировании в ВС порождаются подсистемы, число машин в каждой из которых соответствует рангу решаемой задачи. Ясно, что в методическом плане ничто не мешает нам рассматривать каждую из таких подсистем как самостоятельную систему. Итак, не нарушая общности, при исследовании живучести ВС будем считать, что они функционируют в монопрогpаммном режиме.

Живучесть ВС рассматривается в двух аспектах: потенциальном и

структурном. При анализе потенциальной живучести ВС особенности

структуры или сети межмашинных связен в прямом виде не учитываются и считается, что в системе обеспечиваются возможности по достижению необходимой связности исправных ЭМ. При изучении структурной живучести ВС, как было показано в рaзд. 7.2.1, учитываются топологический вид сети межмашинных связен и надежностные характеристики компонентов этой сети.

В современных распределенных ВС единицей вычислительных ресурсов выступает ЭМ (омногополюсник», например микропроцессор c локaльным коммутатором и пинками связями, или тpанспьютер, или некое аппаратурно-прогpаммное образование, или виртyaльнaя ЭМ). Пусть N количество однородных ЭМ, составляющих ВС. Это число в современных

высокопроизводительных ВС достаточно большое, 10 < N < 10 6. Вычислительные системы, как правило, восстанавливаемые (или даже самовосстанавливаемые или реконфигypируемые). Будем считать, что ремонтные работы в ВС осуществляются некоторой (виртyaльной) восстанавливающей системой, состоящей из m устройств (ВУ), 1 < m < N. Каждое виртуальное ВУ в любой момент времени может производить ремонт только одной ЭМ.

Говорят, что ВС находится в состоянии k Е Е, Е' = {0, 1, ..., N}, если в ней имеется k работоспособных ЭМ. Программы, при реализации которых автоматически устанавливается число парaллельных ветвей, равное числу работоспособных машин в текущий момент времени, относятся к адаптирующимся. Теоретически и экспериментально установлено, что для достаточно широкого круга задач могут быть составлены эффективные параллельные программы, обладающие способностью адаптации к составу работоспособных вычислительных ресурсов.

Под живучей ВС понимается (виртуальная) конфигурация из N ЭМ, в

которой:

461

10.Живучесть вычислительных систем

1)указано минимально допустимое число n работоспособных ЭМ, обеспечивающее производительность системы не менее требуемой;

2)реализована возможность решения сложных задач, представленных адаптирующимися параллельными программами;

3)отказы любых ЭМ (вплоть до числа N — n) и восстановления отка-

завших машин приводят только к увеличению или уменьшению времени реализации параллельной программы;

4) при изменении состояния k = 0, 1, 2, ... , N производительность подчиняется следующему закону:

 

S2(k) = Ak 0(k — п)cp(k, со),

(10.1)

где Ak

коэффициент (в общем случае Ak ^ А, см. (9.2)); ср(k, со)

не-

убывающая функция от k и со (как правило, ср(k, о)) = kco при решении

сложных задач, см. разд. 3.3.4).

Следует обратить внимание на то, что в живучей ВС вычислительное ядро составляют все k Е {п, n +1, ... , N} исправных ЭМ и что число избыточных ЭМ в ней переменное и заключено между 0 и (N — n). B живучей

системе нет резервирования, нет простоев исправных машин. Все исправные ЭМ такой ВС включаются в вычислительное ядро и участвуют в реализации параллельных процессов, что приводит к сокращению времени решения задач.

Итак, в живучих ВС отказы ЭМ не приводят к отказу систем в целом. Более того, в таких ВС при выходе машин из строя сохраняется возможность продолжения счета на всех исправных ЭМ (при наличии отказавших вплоть до (N — n)). Реализация такого виртуального механизма переменной

избыточности машин уменьшает время решения сложной задачи на ВС. Качественные зависимости производительности п(k) от числа k ра-

ботоспособных машин для систем со структурной избыточностью и живучих ВС приведены на рис. 10.1.

Будем полагать, что для формирования в системе живучих конфигураций имеются специальные (аппаратно-прогpаммные) средства, составляющие реконфигуратор. Он предназначается для выполнения следующих функций: исключения из вычислительного ядра отказавших машин и включения в него машин после их восстановления; формирования вычислительного ядра из оставшихся работоспособных ЭМ и вновь отремонтированных машин; преобразования адаптирующейся параллельной программы c целью достигнуть соответствия между количеством ее ветвей и количеством машин вычислительного ядра; вложения преобразованной программы в ядро c новой структурой и организации ее прохождения.

462

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]