Добавил:
sergeevpavel0406@mail.ru СОВА Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Информатика в техническом университете / Информатика в техническом университете. Архитектура вычислительных систем

.pdf
Скачиваний:
59
Добавлен:
06.03.2018
Размер:
13.27 Mб
Скачать

9.7. Потенциальный контроль вычислительных систем

ресурсов системы неработоспособен. B качестве ресypсных элементов в ВС выступают, как правило, ЭМ или элементарный процессор.

Контроль и диагностику отдельной элементарной машины ВС можно

произвести так же, как традиционной ЭВМ. Это следует из того, что каждая ЭМ систем есть композиция ЭВМ и локального коммутатора или системно-

го устройства (см. гл. 7). Для контроля и диагностики в пределах ЭМ можно выделить контpольно-диагностическое ядро. При этом необходимым условием осуществления контроля и диагностики ЭМ будет работоспособность ядра. Проверка работоспособности ядра ЭМ вьшолняется специальными средствами. Остальная часть ЭМ проверяется c помощью контрольнодиагностических тестов (программ), выполняемых ядром. Ясно, что эффективность средств контроля и диагностики будет тем выше, чем будет меньше объем ядра по отношению к проверяемой части машины.

B вычислительной системе как совокупности из N ЭМ, взаимодействующих между собой через программно-настраиваемую сеть связей, может

быть применен нетрадиционный подход к контролю и диагностике. Программируемость структуры позволяет в пределах ВС организовывать такие топологически различные схемы из ЭМ, которые обеспечат полноту контpоля работоспособности всех ресурсов системы и полноту диагностики неисправностей (т. e. отыскания всех неработоспособных ЭМ c помощью взаимопроверок). Следовательно, по отношению к ВС вполне допустимо применение терминов «самоконтроль» и «самодиагностика».

Для самоконтроля ВС могут быть применены как универсальные, так и проблемно-ориентированные контрольные тесты. Проблемно-ориентиро- ванные тесты учитывают специфику сферы применения ВС, структуру ре-

шаемьх задач, частоту использования тех или иных команд и т. п. Кон-

тpольным тестом, адекватным структуре решаемой задачи (т. e. обеспечи-

вающим полноту проверки работоспособности системы, достаточную для решения задачи), будет, например, тест, являющийся наиболее характерной частью параллельной программы. Проблемно-ориентированные тесты существенно проще универсальных. Применение частей параллельной программы в качестве контрольных тестов не требует дополнительной емкости

памяти для их хранения. Состояние работоспособности или неработоспособности ресурсов конкретной подсистемы (или в пределе машины) устанавливается после сравнения результатов выполнения контрольного теста в

нескольких однородных подсистемах ( в нескольких ЭМ).

Возникает вопрос: в какие моменты времени должен производиться

(само)контроль ВС? Ясно, что выбор моментов (само)контроля находится в

прямой зависимости от надежности ВС. Надежность ВС определяется общим числом N машин, числом ЭМ в основной подсистеме, параметрами

Х,, A, m, µ (см. § 9.6) и может достигать сколь угодно высокого ypовня. Но

441

9. Надежность вычислительных систем

из последнего не должно следовать, что контроль правильности работы машин ВС должен производиться через очень большие промежутки времени. B самом деле, число работоспособных ЭМ может быть долгое время не меньше числа n < N, но среди отказавших могут быть машины, участвующие в решении сложной задачи (представленной параллельной программой из n ветвей). C другой стороны, при выборе моментов контроля машин системы нельзя ориентироваться лишь только на надежность одной ЭМ. Действительно, в условиях отсутствия структурной избыточности надежность одной ЭМ всегда выше надежности подсистемы из n машин . Таким образом, при выборе моментов (само)контроля ЭМ вычислительных систем необходимо ориентироваться на надежность подсистемы из n ЭМ, n < N.

При оценке надежности подсистемы воспользуемся средним временем безотказной работы 0 (9.8), (9.20). Поскольку допускается, что отказ даже одной ЭМ приводит к отказу подсистемы, то 0 = (п?,)-1 . Будем считать, что контроль правильности работы элементарных машин ВС будет достаточно эффективным, если он будет производиться через время 0.

Заметим, что техническая сложность элементарной машины ВС имеет тот же порядок, что и для (электронной части) ЭВМ. Следовательно, уровни надежности элементарных машин ВС и ЭВМ имеют один и тот же порядок:

=10-5...10-к ч.

Если число ЭМ в подсистеме n =10...10 6, то

0=10-1...10' ч.

Таким образом, через время 0 в каждой машине ВС должен пропускаться контрольный тест (общий для ЭМ одной подсистемы).

Оценим время, которое допустимо для реализации контрольных и диагностических тестов в ВС. Вполне естественно, что необходимо стремиться к тому, чтобы время 00, расходуемое в ВС на выполнение контрольного и диагностического тестов, было как можно меньше (но достаточное для полноты контроля и локализации неисправностей). По-видимому, удовлетворительным для практики будет время 00 < 0, 0010. Ориентируясь на современный уровень ВТ, легко заметить, что

09 < 10-4...104 ч.

При таком неравенстве построение и контрольных, и диагностических тестов для ЭМ не вызывает трудностей. Чем больше средняя скорость работы контрольных и диагностических тестов, тем выше не только интенсивность восстановления ЭМ, но и производительность ВС.

442

быточных» машин;

9.8. Численное исследование надежности вычислительных систем

При выполнении (само)диагностики ВС, во-первых, в качестве ядра могут быть использованы любые работоспособные ЭМ и в пределе ядро

любой произвольно выбранной машины и, во -вторых, выбор ядра ВС и оп-

ределение его работоспособности могут быть проведены автоматически (c помощью средств системы).

Заключение o работоспособности или неработоспособности отдельных ЭМ системы принимается коллективно всеми машинами на основе со-

поставления их индивидуальных заключений о работоспособности соседних c ними машин. Достоверность такого зактпочения хотя бы относительно од-

ной выбранной ЭМ достигается при условии, что Е < [(N —1)! 2], где Е

максимальное число неработоспособны ЭМ в системе; [х]

целая часть

числа х. При современном уровне развития ВТ вероятность того, что количество отказавших машин в восстанавливаемой ВС составляет более десятой части общего их количества, близка к нулю. Следовательно, последнее неравенство удовлетворяется практически всегда.

9.8. Численное исследование надежности вычислительных систем

в гл. 3-8 покaзано том что процесс развития архитектуры ВС отражает этапы максимизации степени воплощения принципов модели коллектива вычислителей: параллелизма при обработке информации, программируемости структуры и однородности конструкции (см. разд. 3.1.1). Независимо от изначальной архитектурной парадигмы (конвейерной, матричной,

мультипроцессорной и др.) группы разработчиков и фирмы - произво-

дители параллельных средств информатики перешли на платформу распределенных ВС. Такие ВС характеризуются не только массовым параллелизмом и программной реконфигурируемостью структуры, но и тем, что их основным функционально-конструктивным модулем является ЭМ (см. § 6.5, 6.6 и 7.1).

Распределенные ВС к началу XXI в. стали занимать доминирующее положение. При оценке потенциальных возможностей вычислительных систем будем ориентироваться на ВС c программируемой структурой (см. гл. 7), так как они обладают максимальной архитектурной гибкостью.

Целью численного исследования надежности ВС является выявление зависимости их показателей качества функционирования от следующих параметров: N количества элементарных машин; N — п количества <из-

интенсивности потока отказов в одной ЭМ; m количества (виртуальных) восстанавливающих устройств; µ интенсивно-

443

9. Надежность вычислительных систем

cти восстановления машин одним BУ; i — начального состояния (числа исправных ЭМ в момент времени t = 0).

При численном анализе надежности переходного режима фyнкциoниpoвaния BC будем использовать функции R(t), U(t) и S(t) соответственно

надежности, вoccтaнoвимocти и готовности BC (9.6), (9.7), (9.10). Методика вывода расчетных формул для этик показателей совсем не проста, и она нa-

xoдитcя за границами изучаемого здесь предмета. Именно поэтому в § 9.4

была изложена лишь схема для расчетов, основанная на методах теории

массового обслуживания и вычислительной математики. Читателям, кoтo-

pыe проявляют повышенный интерес к методике расчета показателей кaчecтвa функционирования систем в переходном режиме, могут быть

рекомендованы для изучения Приложение 2 и [5, 24].

B соответствии c принятой в данной книге концепцией представления

материала изучение надежности систем начнем c простейших BC и зaвepшим его системами c массовым параллелизмом. Это позволит читателю oзнaкoмитьcя c этапами совершенствования архитектуры BC и оценить пo-

тeнциaльныe пределы их эффективности.

9.8.1. Надежность вычислительных систем «Минск-222»

Вычислительная система «Минск-222» (см. § 7.3) конфигурировалась из ЭВМ второго поколения «Минск-2» (либо «Минск-22»). Ясно, что в современных условиях надежность таких ЭВМ оценивается как весьма низкая. Численный анализ функционирования ВС «Минск-222» представляет интерес и в настоящее время для специалистов создателей параллельных средств обработки информации. B самом деле, результаты такого анализа позволят:

установить потенциальные пределы снизу для показателей надежности вычислительных систем;

ответить на вопрос: могут ли быть созданы высоконадежные системы из низконадежных ЭМ или какова цена достижения уровня надежности ВС,

который не ниже надежности одной из составляющих их машин.

Прежде всего приведем числовые значения показателей надежности ЭВМ «Минск-2»: = 0, 024 1 /ч, µ = 0,7 1 /ч. Если же учитывались только

отказы устройства управления, арифметического устройства и магнитного ОЗУ ЭВМ <сМинск-2», то параметры принимают следующие значения:

=0, 0084 1 /ч, a µ = 0, 91 1 /ч. Приведенные значения для интенсивностей Х,

иµ ЭВМ «Минск-2» использованы и для ЭМ ВС «Минск-222», обоснованием чему служит предельная простота системного устройства (см. разд. 7.3.1).

444

функция надежности ЭМ

9.8. Численное исследование надежности вычислительных систем

Функция надежности BC. Функция R(t) надежности BC информиру-

ет пользователей o возможности решения тех или иных задач, тoчяee, она позволяет oцeнить сложность задач, доступных для решения на paccмaтpивaeмoй BC.

Степень влияния величины (N — п) структурной избыточности и ко-

личества m восстанавливающих устройств на значения функции надежности представлена на рис. 9.3. Ha этом же рисунке изображенаBC<dVlинcк-222»

(2.14) r(t) = exp(-0, 024t).

Видно (см. рис. 9.3), что ценой невысокой избыточности, т. e. при

(N — п) 3 и даже при m =1 можно было достичь в BC <dVlинcк-222» знa-

чeний вероятности безотказной работы, превышавших значения фун кции надежности базовой ЭВМ «Минск-2».

R(t)

monimmiki7

Т(0

R(t)

 

 

 

0,9

0,9

 

14

 

,

 

\

 

 

 

п =12 13 -'

1^^^^^^

 

 

 

0,7

 

 

0,7

 

 

 

0,3

^■ввввв^

 

0,3

 

 

 

'11`►111

14

 

 

 

0,5

 

 

 

 

 

 

0,5

 

 

 

 

02

б

10

14

 

t, ч

0 2

б 10

14

t, ч

 

 

 

a

 

 

 

 

б

 

 

R(t)

 

 

 

 

 

 

R(t)

 

 

 

0,9

 

 

 

п =12 13 -

0,9

 

п =12 - 13

 

 

 

 

 

 

 

 

 

 

14

 

0,7

 

 

 

 

 

 

о,7

 

 

 

0,5

 

 

 

 

 

 

0,5

 

 

 

0,з

 

 

 

 

 

 

0,з

 

 

 

 

0 2

б

10

14

 

t, ч

02

10

14

t, ч

 

 

 

в

 

 

 

 

г

 

 

Рис. 9.3. Функция надежности ВС «Mинск - 222»:

a—m=1;б—т=2;в—т=3;г—т=16; N = i = 16; п = 12, 16; ?.=0,0241/ч;µ=0,7 1/ч

445

9. Надежность вычислительных систем

R(t)

 

 

 

 

 

 

0,8

 

 

 

 

 

п =1 5 ^

0,6

 

 

 

 

 

 

0,4

 

 

 

 

 

 

0,2

 

 

 

15

 

 

 

 

 

 

 

0

4

8

12

16

20 24

28 t, ч

Рис. 9.4. Функция надежности ВС «Минск - 222»: N= i = 16; п = 15, 16; m = 1;

= 0,0084 1 /ч; µ = 0,91 1 /ч;

 

-?=0,024 1 /ч; µ = 0,7 1 /ч

R(t)

 

 

 

 

 

 

0,8

 

 

 

 

 

 

0,6

 

 

 

 

 

п =16

0,

 

 

 

 

 

15 1

 

 

 

 

 

 

0,2

 

 

 

 

 

 

0

10

20

30

40

50 б0

70 t, ч

Рис. 9.5. Зависимость функции надежности BC «Минск-222» от начального состояния:

- N = 16;

п = 13, т = 1, i = 13, 14, 15,

16; ?'.=0,024 1/ч; µ= 0,7 1/ч;

N = 16;

п = 14, m = 1, i = 14, 15, 16;

=0,024 1 /ч; µ = 0,7 1 /ч;

--- - N = 16; п = 15, т= 1, i = 15, 16; '.=0,024 1 /ч;µ= 0,7 1

далее, из анализа графиков рис. 9.3 следует, что даже при использовании низконадежных ЭМ существует предел в наращивании количества восстанавливающих устройств, после которого надежность ВС повышается практически несyщественно.

На рис. 9.4 и 9.5 представлены графики, показывающие влияние соответственно параметров А, и µ и начального состояния i на надежность 16-ма- шинной ВС. Из рисунков следует, что увеличение среднего времени Х -1 t восстановления отказавших ма-безотказнойработыЭМиинтенсивности шин приводит к заметному повышению надежности ВС (см. рис. 9.4). Видно

также, что надежность ВС резко падает во времени, если в момент начала

446

U(t) представлена на рис. 9.7.

 

9.8. Численное исследование надежности вычислительных систем

U(t)

U(t)

0,7

0,8

 

0

0,5

µ—

,5

,7

 

 

 

0,3

 

 

 

0,1

 

 

 

0

4

8

12 t, ч

Рис. 9.б. Функция восстановимости ВС «Минск-222»:

N = 10; п = 9; т = 1; i = 0; = 0,024 1 /ч; [ .t] = 1/ч

0,6

0,4

0,2

0

4

8

12

t, Ч

Рис. 9.7. Зависимость функции восстановимости ВС <сМинск-222» от начального состояния:

N= 10; n=9; m= 1; i= 0, 8;а.=0,024 1/ч; t=0,7 1/ч

функционирования количество отказавших ЭМ было близко к количеству

машин, составляющих избыточность.

Функция восстановимости BC. Функция U(t) есть вероятность того,

что при выполнении восстановительных работ в BC за время t будет достиr-

нyт утраченный уровень производительности и на системе можно будет

продолжать решение задач.

График зависимости функции восстановимости BC «Mинcк-222» от интенсивности µ показан на рис. 9.6. Илтпocтpaция влияния начального cocтoяния i E {0, 1, ..., 8} на значения

Ha рис. 9.6 четко видна существенная зависимость значений U(t) от

интенсивности восстановления отказавших машин. Вместе c тем анализ кривых, приведенных на рис. 9.3, позволяет выявить наличие <пpaницы» для наращивания числа восстанавливающих устройств (m —> N), начиная c кo-

тopoй значения функции надежности BC увеличивались незначительно.

Следовательно, для BC целесообразно было иметь небольшое (по cpaвнeнию c Л) количество высокопроизводительных BY (т. e. устройств, обладающих высокой интенсивностью восстановления).

Анализ функции U(t) убеждает в том, что в распределенных BC

легко обеспечить практически приемлемые значения показателей вoccтa-

нoвимocти.

447

9. Надежность вычислительных систем

0,9

 

 

 

 

0,9

 

 

 

0,8

 

 

 

 

0,8

 

 

 

0,7

 

 

 

 

0,7

 

 

 

0,6

 

 

 

 

0,6

 

 

 

0,5

4

8

12t,

 

0,5

4

 

12 t, ч

0

ч

0

б

 

 

a

 

 

 

 

 

 

 

 

 

 

S(t)

 

 

 

 

 

п =13 14

 

 

 

 

п =13 14

 

0,9

 

15

 

 

0,9

 

15

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0.8

 

 

 

 

0,8

 

 

 

0.7

 

 

 

 

0,7

 

 

 

0.6

 

16

 

 

0,6

 

16

 

 

 

 

 

 

 

 

0,5

4

8

12 t,

 

0,5

 

 

12t, ч

0

ч

0

 

8

 

 

в

 

 

 

 

г

 

Рис. 9.8. Функция готовности ВС «Минск-222»:

a m= 1;6 m=2;в m=3;г m=16; N = i = 16; п = 12, 16; ?=0,024 1/ч; µ=0,71 1/ч

Функция готовности ВС. Функция s(t) готовности ВС позволяет

судить об уровне производительности ВС в момент поступления задачи, будет ли производительность ВС достаточной для решения задачи.

Зависимость функции готовности ВС «Минск-222» от количества восстанавливающих устройств показана на рис. 9.8. На рисунке видно, что восстанавливаемые ВС могли иметь относительно высокий уровень готовности, даже если они сконфигypированы из низконадежных ЭВМ. Кроме того, системы сравнительно быстро входят в стационарный режим работы.

Уровни готовности ВС «Минск-222» (N = 16, n =11, 16, ? = 0, 024 1/ч, = 0, 7 1/ч) в стационарном режиме функционирования приведены в табл. 9.1.

448

9.8. Численное исследование надежности вычислительных систем

Из таблицы видно, что значения коэффициента готовности S были достаточно высоки, если в системе имелись избыточные машины. Кроме того, при точности счета 0,1 % максимумы S для n = 16 и n = 15 соответствовали

m =4, для п =14 и n =13 достигались при m =3, для n =12

при

m = 2, наконец, для n =11 при m =1.

 

п

 

 

 

т

1

2

3

4

 

16

0,485

0,577

0,582

0,583

15

0,751

0,894

0,902

0,903

14

0,887

0,975

0,985

0,985

13

0,953

0,995

0,998

0,998

12

0,982

0,999

1,000

1,000

11

0,993

1,000

1,000

1,000

...

...

...

...

. . .

...

Таблица 9.1

16

0,583

0,903

0,985

0,998

1,000

1,000

Эмпирические неравенства для выбора m и (N - п) в распредeленныx вычислительных системах

B распределенных ВС, построенных из средств ЭВМ второго поколения, при выборе количества восстанавливающих устройств и велиы из-

быточности достаточно было воспользоваться следующими эмпирическими соотношениями:

m ]O, 1N[, (N - п) ]O, 1N[,

(9.69)

где ]x[ - такое ближайшее к x целое число, что ]x[ > x. Это следует из того, что иметь числа m или (N - п) более ]0,1N[ было экономически нецелесообразно, так как их увеличение от ]0,1N[ соответственно до N и N -1 не

приводило к существенному повышению нaдeжнocти BC.

Таким образом, распределенные BC могут обладать высокой надежностью, если они cкoнфиrypиpoвaны даже из низкoнaдeжныx ЭМ. При этом

высокие уровни надежности, вoccтaнoвимocти и готовности BC дocтиraют- cя при незначительных ценах восстанавливающих систем и структурной

избыточности.

Функции оперативной надежности и вoccтaнoвимocти BC. Вероятность R"(t) позволяет оценить вoзмoжнocти решения задач на нeaбco-

лютнo надежных восстанавливаемых BC, находящихся длительное время в эксплуатации (9.13).

449

R *(t)
^=^^^^^^\
вввв\\►\
0,84 \■\^\\\^\\\ \\!:
■►^■►^в\^в^вв^ ■в■^в►^в■ ^►ввв,..
в1\1\\^\\\\►в\ \\\
0,68 ^■^■ввв^в^ввв►ввв
\^■■►\■►\■ \^!^►\\\ \\
в^ввв.•.ввввв^
■►^вввввввв-вв^
■\^■■в■■^\►i^\,^^ 0,52 ■в^■■►^%■►:^в\'в=:
■■►^■^в.вввi:^=
■■i■ 10 ►-!вв■■■
0,36 iв■■вв^■■►\■ 11 ^, •ll^вввв i^■■■в^в■■
^^■■■в■в::==____
0,20 вi■■■■■■■■■в■■в■■в■■■■■■■■■в■■■
■►в■■■■■■■■■■■■■
■в^■■^■■■■■■■■■
0,04 ■■ \^ ■■■■■■в■■
■■в-.^^■■■■■■■■■

 

 

 

 

9. Надежность вычислительных систем

 

R*(t)

 

 

 

 

 

 

R*(t)

 

 

 

0,8

вв•aввв..^

 

 

0,8

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

III п84i

0,6

►^влвп =8

r(t) -

0,6

0,

вввв

■в

^3i

 

*(t) _

0,

IIIIIIа 9

 

 

 

 

•I

10

 

0,2

в■в^

 

R

 

0,2

Il'.

R*( )

 

 

 

 

 

 

 

 

 

4 8

12 16 20 24 t, ч

 

4 8

12 16 20 24 t, ч

 

 

 

 

a

 

 

 

 

б

 

Рис. 9.9. Функция оперативной надежности ВС «.Минск-222»:

a - m = 1;б - m = 10;N =10; п = 8, 10

Проиллюстрируем зависимость функции оперативной надежности R* (t) ВС «Минск-222» от ее параметров. На рис. 9.9 представлены значения функции R* (t) системы при N = 10, n = 8, 9, 10, m =1 и m = 10, оценка R* (t) при n =8 (9.40) и функция оперативной надежности ЭМ для стацио-

нарного режима:

r* (t) = P,r(t) = е,

0

8

16

24 t, ч

Рис. 9.10. Функция оперативной надежности ВС «Mинск-222»:

N=16; п = 6,16; т=1

где Р вероятность того, что в стационарном режиме ЭМ исправна (2.19), r(t)

функция надежности ЭМ (2.14). Функция R* (t) оперативной надежности ВС для

N = 16, n = 6, 1 б, m =1 приведена на

рис. 9.10. На рис. 9.9 и 9.10 видно, что в ВС могут быть созданы структуры, надежность которых в стационарном режиме даже выше надежности одной ЭМ.

Из рис. 9.9 следует, что число m восстанавливающих устройств влияет на R * (t)

незначительно. Более наглядно это отражено на рис. 9.11, где приведены значения

функции оперативной надежности ВС

«Mинск-222» при N =1 б, n =13 и m = 1, 16.

450