Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

khor32

.pdf
Скачиваний:
26
Добавлен:
29.02.2016
Размер:
8.16 Mб
Скачать

4.5. Сверхвысокопроизводительные вычислительные системы семейства Cray X

ЭП 1 ЭП2 ЭПЗ ЭП4

Коммyтaтoр ВУ

МП 1 МП2

МП;

МП 15 МП 16

Связи c другими узлами

Рис. 4.8. Вычислительный узел Cray X 1:

ЭП — элементарный процессор; МП — модуль памяти

Взаимодействие между процессорами и оперативной памятью в узле осуще-

ствляется при помощи коммутатора ВУ (Crossbar). Следовательно, вычис-

лительный узел по своей функциональной структуре является мультипроцессорной ВС (см. разд. 3.4.2).

Каждый ЭП представляет собой специально спроектированный конвейерный (или векторный) процессор, обладающий производительностью

12,8 GFLОPS (при обработке 64-разрядных операндов). Процессор поддерживает также арифметику над 32-разрядными данными.

Элементарный процессор относится к типу мультипотоковьх процес-

соров (МSР Multi-streaming Processors), если придерживаться терминологии Cray Inc. Вообще такой процессор, по сути, является конвейерным (или

векторным), но c той особенностью, что он состоит из множества неболь-

ших конвейеров (Pipes), работающих параллельно. B вычислительной сис-

теме Cray X 1 функциональная структура MSP усовершенствована, в процес-

соре дополнительно имеются схемы синхронизации и кэш-память.

B системе Cray X 1 элементарный процессор (рис. 4.9) состоит из четы-

рех секций обработки информации (СОИ), четырех блоков кэш-пaмяти и коммyтaтора ЭП. Каждая из секций обработки включает в себя скалярньй блок c кэш-пaмятью для данных (СБ & КЭШ) и пару векторньх конвейеров (ВК). Скалярный блок имеет тактовую частоту 400 МГц и может выполнять две операции за такт. Быстродействие четырех скалярных блоков ЭП составляет

3,2 GIPS (3,2 109 операций c фиксированной запятой в секунду). Векторные конвейеры ЭП работают параллельно, синхронно и c так-

товой частотой 800 МГц. Их суммарная производительность составляет

12,8 GFLOPS или 25,6 GFLOPS при обработке 64или 32-разрядных дан-

ных. (B самом деле, на каждый из конвейеров поступает два вектора-опе- ранда, следовательно, за один такт восемь конвейеров способны обработать 16 элементов векторов.)

183

4. Конвейерные вычислительные системы

 

СОИ 2

сои

СОИ4

СБ&КЭШ

СБ&КЭШ

 

СБ&КЭШ

BK BK

Коммyтатор ЭП

КЭШ З КЭШ4

K коммутатору ВУ

(каналы для связи c оперативной памятью)

Рис.4.9. Элементарный процессор Cray Xl:

СОИ — система обработки информации; СБ — скалярны й блок; КЭШ — кэш-память; ВК — векторный конвейер

Следует отметить, что читатель без труда обнаружит сходство функциональных структур системы STAR-100 (см. разд. 4.2.1 и рис. 4.3) и секции

обработки информации Cray X1 (рис. 4.9). B той и другой структурах имеет-

., ., ., ся по два векторных конвейера и один скал: {рныи вычислитель со своей

сверхоперативной памятью (называемой буферной памятью и КЭШ соот-

ветственно в STAR-100 и Cray X1).

Кэш-память ВУ обеспечивает когерентн ость между быстродействием при обработке информации и скоростью ввод а данных из оперативной памяти, Т. e. она играет роль сверхоперативной буферной памяти между секциями обработки информации и оперативной памятью (см. разд. 4.2.1). Кэш-память состоит из четырех блоков, ее суммарная емкость достигает 2 Мбайт.

Коммутатор ЭП (Crossbar) обеспечивает доступ каждой секции обработки информации к любому блоку кэш-памяти.

Полоса пропускания в направлении от кэш-памяти к секциям обработки информации равна 102,4 Гбайт/c, a наоборот 51,2 Гбайт/c. Четыре канала (см. рис. 4.9) между кэш-блоками и оперативной памятью обеспечивают обмен информацией со скоростью 76,8 Гбайт/c.

B составе ВУ имеется оперативная память, достyпная каждому ЭП.

Память ВУ формируется из Rambus DRА VI-микросхем, производимых Samsung Electronics Co. Ltd. Raтbus-чины характеризуются значительными

емкостью и пропускной способностью.

184

4.5. Сверхвысокопроизводительные вычислительные системы семейства Cray X

Память любого узла (см. рис. 4.8) представляется множеством из 16 4-канальных МП; для максимизации ее пропускной способности используется 16 контpоллеров.

Каждый элементарный процессор (при помощи своих четырех кэш-

блоков) имеет доступ (через коммутатор ВУ) к каждому модулю ОП узла.

При этом любой кэш-блок ЭП связан только со своей группой из четырех модулей памяти. Поскольку любая из четырех секций обработки информации

(см. рис. 4.9) связана через коммутатор со всеми блоками {КЭШ ' i =1, 4, то в пределах узла любая СОИ i имеет доступ к любому модулю памяти МП , j = 1, 16. Пропускная способность <псанала» между ЭП и оператив-

ной памятью в вычислительном узле составляет 34,1 Гбайт/c.

Оперативная память ВУ доступна для других ВУ системы (см. рис. 4.8);

этотдоступреализуетсяприпомощиспециальныхмаршрyтизаторов.

Итак, все модули памяти в системе Cray X 1 физически распределены

по ВУ (и, следовательно, по элементарным процессорам), но логически они

доступны каждому ЭП, т. e. оперативная память ВС Cray X 1 является и рас-

пределенной, и общей.

Следует отметить, что элементарный процессор является основным функциональным элементом Cray X 1. Он конструктивно выполнен в виде многокристaльного модуля. Конструкция вычислительного узла Cray X 1 оформлена в виде платы, содержащей четыре конструктивных модуля процессора, схемы памяти и коммутатора.

4.5.3. Коммуникационная сеть Cray Х1

Взаимодействие между вычис тдительНыми ресурсами (узлами и, следоватeльно, элементарньпии процессорами и памятью) в системе Cray X 1 осуществляeтcя через коммуникационную сеть. Архитектурные решен я, заложенные в

коммуникационную сеть, позволили достичь в сверхвысокопроизводительнои

системе Cray X 1 высокой надежности и живучести, масштабируемости, боль-

шой пропускной способности и незначительной латентности (задержки) при

передаче информации между ресурсами. Так, например, пропускная способ-

ность сети в 64-процессорной конфигурации Cray X 1 (819,2 GFLOPS, 256 Гбaйт) c жидкостньпи охлаждением составляет 400 Гбaйт/c.

В системе Cray X 1 для реализации коммуникационной сети применен модифицированный двумерный тор (Modified 2D Torus). В чем состоит суть

модификации 2D-тора и что является его вершиной?

Выше (см. разд. 4.5.2) было отмечено, что ВУ (см. рис. 4.8) обладает

двумя маршрутами для связи c другими ВУ в пределах ВС Cray X 1. (Если

быть более точным, то в узле имеется 16 пар отдельных маршрyтов, по од-

185

4. Конвейерные вычислительные системы

Нечетные ВУ

К соседним вершина: vi

ВУ1 ВУ2

ВУЗ ВУ4 -

ВУ5 ВУб

ВУ7 ВУк

Рис. 4.10. Вычислительная вершина двумерной тороидальной системы Cray X 1:

M — маршрутизатор; ВУ — вычислительный узел

ной на каждый из 16 модулей памяти, что гарантирует живучесть и необходимую полосу пропускания связей между ВУ.) Один из этик маршрутов ис-

пользуется для того, чтобы организовать в системе Cray X 1 множество связ-

ных пар: «ВУ c нечетным номером смежный ВУ c четным номером».

другой маршрут служит для подключения ВУ к маршрутизатору (Router).

B качестве вершины (Vertex) двумерного тора используется композиция из четырех пар вычислительных узлов и двух маршрутизаторов (М 1 , М2), работающих на четыре внешних связи (рис. 4.10). Индекс в обозначе-

нии ВУ,', k =1, 8, не является физическим номером ВУ в пределах ВС, он

информирует лишь o четности или нечетности номера. Маршрутизаторы M 1 2 обеспечивают два параллельных канала связи данной вершины c соиМ

седними вершинами в 2D-торе.

Очевидно, что структура (граф) вершины в системе Cray X 1 обладает

диаметром, равным двум. (диаметр графа г^аксимальное расстояние, определяемое на множестве кратчайших путен между вершинами всевозможных пар.) Это следует из того, что маршрутизатор не имеет задержки, сравнимой со временем обмена информацией между памятями различных ВУ. Значит, в вершине обмен информацией между любыми ВУ осуществляется c использованием максимум одного транзитного узла или, говоря иначе, он производится посредством двух пересылок (Hops): из данного ВУ в транзитный, a затем в ВУ приЕ,мник.

Двумерный тор Cray X 1 представляет со мой «бублик», на поверхности

которого размещена двумерная структура, вершины (см. рис. 4.10) которой связаны в двух направлениях: по окружностг: «бублика» и по окружности его сечения. Примерами таких структур могут служить трех- и четырехмерные гиперкубы (c числами вершин и ребер, равными 8 и 3 или 16 и 4, см. рис. 3.2). Не требуется особого воображения увидеть в этих гиперкубах двумерные торы.

186

при передаче информации

4.5. Cверхвысокопроизводительные вычислительные системы семейства Cray X

Четырехмерны гиперкуб использован в конфигурации Cray X 1, состоящей из 128 ВУ (512 ЭП). Ясно, что в этой конфигурации ВС сама вершина имеет, в свою очередь, свою структуру из восьми ВУ и двух маршрутизаторов, a ребра в гиперкубе отражают двойные каналы межвершинных

связей (см. рис. 4.10).

Четырехмерный гиперкуб (см. рис. 3.2)

это структура из трехмер-

ного куба внутри такого же куба и c ребрами между соответствующими вершинами этих кубов. Четырехмерный куб Cray X 1 характеризуется тем,

что вершины (точнее, их маршрутизаторы) каждого трехмерного куба входят в двойные циклы. Следовательно, в четырехмерном кубе один из концентрических циклов представляет вычислительные узлы (см. рис. 4.10) c нечетными номерами, a другой ВУ c четными номерами. В четырехмер-

ном гиперкубе Cray X 1 имеют место также связи между соответствующими

циклами c нечетными ВУ двух трехмерных кубов, a также между циклами c четными узлами этих же кубов. Заметим, что связи между циклами c нечетными ВУ и c четными узлами организуются в пределах вершин и так, как это показано на рис. 4.10.

Оценим задержки, которые существуют

между вычислительными узлами в четырехмерном гиперкубе Cray X 1. Яс-

но, что максимальное расстояние (из кратчайших) между любыми двумя нечетными ВУ (или четными узлами) равно четырем, т. e. для обмена информацией между этими узлами потребуется максимум четыре пересылки. Максимальное расстояние (из кратчайших) между любыми нечетным и четным ВУ увеличивается на единицу. Здесь используется не три, a четыре транзитных узла (необходима пересылка между узлами внутри вершины).

Рассмотрим, как решается проблема масштабирования структуры ВС

Cray X 1. Корпорация Cray в конфигурациях системы Cray X 1 не использу-

ет структуры в виде гиперкубов при числе ВУ, превышающем 128. Гиперкубы большиx размерностей, чем четыре, потребовали бы включения в

состав вершин дополнительных маршрутизаторов (см. рис. 4.10), что по-

родило бы набор неоднородных вершин. Вместо этого Cray Inc. «растяги-

вает» четырехмерный куб, превращая его в 2D-тор c большей «окружностью», и тем самым увеличивает число вершин (рис. 4.11). Очевидно, что при таком способе масштабирования ВС величина «приращения» (или «сокращения») для количества вершин равна четырем. При этом следует заметить, что минимальное число вычислительных узлов в вершине равно двум. Следовательно, минимальная величина аппаратурного приращения ВС равна восьми ВУ (или 32 ЭМ).

Система Cray X 1 имеет иерархическyю структуру сети связей между вычислительными ресурсами. На каждом структурном уровне используется

187

4. Конвейерные вычислительные системы

Минимальный фрагмент для масштабирования структ; Тры

Рис. 4.11. Растянутый 4D-куб (2D-тор c 20 вершинами)

свой тип графа мeжpecypcньпc связей и свой тиii вычислительных ресурсов — элементов обработки информации (табл. 4.3). Гaкoe структурное решение в системе Cray X1 позволило достичь оптимума по эффективности в условиях

технических и технологических ограничений на рубеже между XX и XXI

столетиями.

Таблица 4.3

Структурный уровень Cray X 1

Макроуровень

двумерный тор

(см. рис. 3.2)

 

Структура вершины граф, состоящий из четырех пар связных ВУ c четными и нечетными номерами и двух маршрутизаторов, каждый из которых соединен ребрами либо c четными, либо c нечетными узлами (см. рис. 4.10). диаметр сети межузловых связей равен двум

Структура вычислительного узла граф, дающий связность каждого из четырех ЭП c каждым из 16 модулей памяти (см. рис. 4.8)

Вычислительный элемент структуры

Вершина четырехполюсник, отражающигi композицию из восьми вычислите пьных узлов (ВУ) и двух мар-

шрутиз^ фторов (M 1 , М2). Элементы M 1 и М2 форг4ируют два двумерных канала

Вычисл: дельный узел двухполюсник, представляющий композицию из

четырех элементарных процессоров (ЭП), 1(i модулей памяти (МП) и ком-

мутатор а ВУ.

Маршрутизатор четырехполюсник по внешним связям, позволяет формировать двумерные структуры

Элемен гарный процессор четырех-

полюсн ик, соответствующий композиции из четырех секций обработки ин- формам ии (СОИ), четырех блоков кэшпамяти и коммутатора ЭП. Коммутатор ВУ обеспечивает связность между процессорами ЭП 1—ЭП4 и модуля ии памяти (МП 1—МП 16)

188

4.5. Cверхвысокопроизводительные вычислительные системы семейства Cray X

Окончание табл. 4.3

Структурный уровень Cray X 1

Структура элементарного процессо-

ра граф, создающий связность каждой из четырех СОИ c каждым из четырех блоков кэш-памяти (см. рис. 4.9)

Вычислительный элемент структуры

Секция обработки информации

композиция из скалярного блока c кэш-

памятью (СБ & КЭШ) и двух вектор-

ных конвейеров (ВК).

Коммутатор ЭП дает связность между СОИ1—СОИ4 и блоками КЭШ 1—КЭШ4

4.5.4. Средства ввода- вывода Cray X1

Средства ввода-вывода информации BC Cray X1 распределены по ее By. Каждый BУ располагает четырьмя каналами ввода-вывода (1/0 System Port

Channels). Пиковая пропускная способность одного канала ввода-вывода

составляет 1,2 Гбaйт/c.

Каналы ввода-вывода BC Cray X 1 служат для подключения дисков и

других периферийных устройств. Предусмотрена возможность иcпoльзoвa-

ния вoлoкoннo-oптичecкиx линий связи.

Поддержка различных ceтeвыx протоколов (в частности, для rиraбит-

нoй Ethernet) осуществляется специальным cepвepoм CNS (Cray Network Server).

4.5.5. Конструкция системы Cray X1

Для формирования BC Cray X 1 используются корпуса двух вариантов,

cвoздyным и водяным охлаждением. B корпусе первого варианта paзмeщaeтcя четыре вычислительных узла (16 элементарных процессоров), a

второго варианта — 16 узлов (64 ЭП).

B табл. 4.4 приведены физические характеристики кoнcтpyктивoв для системы Cray X 1.

 

 

 

Таблица 4.4

Тип корпуса ВС

Размер площадки, м2

Вес, кг

Основной c воздушным

0,9 х 1,5

895

охлаждением

 

'

 

Основной с жидкостным

1 ,3

х 2,6

2610

охлаждением

 

'

 

Для средств ввода-

0,75

х 1,1

512

вывода

 

'

 

189

4. Конвейерные вычислительные системы

4.5.6. Программное обеспечение Cray X1

Архитектура сверхвысокопроизводительнсй ВС Cray X 1 является объединением архитектур PVP- и МРР-систем. Поэтому в ОС UNICOS/тр собрано все лучшее из PVP UNICOS и МРР UNICOS/mk.

Среди средств программирования Cray : Х 1 имеются языки высокого уровня (параллельные FORTRAN и C), интерфейсы передачи сообщений

(МРI), интерактивный отладчик, средства для анализа производительности ВС и др.

B системе Cray X 1 среда программирования поддерживается специальным сервером СРЕ (Cray Programming Е nvironment Server). B частности, компиляторы работают не на самой системе Cray X 1, a на СРЕ.

4.5.7. Области применения сис темы Cray X1

Cray X1 универсальная сверхвысоко производительная масштабируемая вычислительная система. Архитектура Cray X 1 позволяет формиро-

вать конфигурации ВС, в которых достигается оптимум между быстродействием, емкостью памяти, надежностью и цеп мой и которые адекватны областям применения. Все разнообразие видов деятельности человека, связанных c трудоемкими вычислениями, и составляет прикладные области

для Cray X 1. Но главными областями для дани эй ВС все же являются наука,

техника и экономика (как гражданской, так и военных сфер).

Области применения Cray Х1:

фундаментальные научные исследования, вычислительная математика,

физика, химия, астрономия (включая астрофизику), биология, науки o Земле;

биотехнические исследования (изучение геномов организмов и строения белка), биоинформатика и моделирование биологических процессов;

медицина и фармакология; виртуальная хирургия; создание лекарств; предсказание естественной пандемии и локаль: iых эпидемии;

экология, окружающая среда, климат, погода; моделирование процес-

сов ионосферной плазменной физики; моделирование климата и атмосферы,

долгосрочное, краткосрочное и очень краткосрочное прогнозирование погоды; изучение взаимодействия между океаны Еlескои, воздушной и земной средами; моделирование цунами и воздушны; течении, предсказание сильных штормов (бурь);

аэрокосмические исследования и индуса рия; вычислительная механика; моделирование летательных аппаратов; механика сплошных сред; аэро-

игидродинамика; проектирование в авиации i: космонавтике, анализ эффективности горючего;

экономика, моделирование национальной экономики и инвестиций в отрасли народного хозяйства (энергетику, трап апорт и др. );

190

4.6.Анализ конвейерных вычислительных систем

оборона и военные приложения; моделирование и планирование обороны, наступления и боя; управление сложными техническими системами; предсказание климата после военны действий и погоды после боя; борьба c биотерроризмом и эпидемиями;

промышленность, машиностроение, энергетика, металлургия; создание новых материалов; нанотехнологии и наноматериaлы; анализ, проектирование и обеспечение безопасности в автомобилестроении; нефтехимическии сейсмический анализ и др.

4.6.Анализ конвейерныx вычислительных систем

Значительный интерес (на протяжении более Зо последних лет ХХ в.) к конвейерным ВС объяснялся тем, что они позволили преодолеть барьер производительности машин третьего поколения и давали рекордную производительность.

Конвейерные процессоры являются пределом модификации архитектypы последовательной ЭВМ. Следовательно, возможности повышения быстродействия средств ВТ при помощи конвейерной обработки информации принципиально ограничены: последовательность операции при передаче результатов по конвейеру не может быть произвольно длинной хотя бы изза ограниченной надежности элементарных блоков обработки.

Конвейерные процессоры в архитектурном плане занимают промежуточное место среди средств обработки информации, базирующихся на модели вычислителя, и средств, основанных на модели коллектива вычислителей. Существует тенденция к неуклонному совершенствованию архитектуры конвейерных ВС в направлении к коллективу вычислителей. Высокий уровень быстpодействия был достигнут в конвейерных ВС за счет мультиконвейерности (параллельной работы множества конвейеров) и конвейеризации на микроуровне (на уровне фаз выполнения арифметическиx операций).

Параллельно-векторные системы (PVP-systems) отражают предельный вариант в совершенствовании архитектуры конвейерных ВС. B самом деле,

РVР-система это коллектив, образованный из процессоров, a последние, в свою очередь, есть ни что иное, как композиция конвейеров. Следовательно,

PVP-системы основываются на самой совершенной платформе на MIMD-

архитектуре и распределенности ресурсов.

Разнообразие конвейерных ВС следствие возможностей в технической реализации модели коллектива вычислителей. Три принципа (см. рaзд. 3.1.1), положенные в основу коллектива вычислителей, достаточно ярко проявляются во всех конвейерных системах.

191

4. Конвейерные вычислительные системы

1.Парaллельность выполнения операций в конвейерных системах обес-

печивается на различных уровнях. На макроуровне параллельность выража-

ется в возможности параллельной работы пропзвольного числа процессоров

(Cray-2 до 4, Cray Y-МР до 8, Cray С90 -- до 16, Cray Т90 до 32). На

уровне процессоров предусматривается возможность параллельной работы

порядка 10 конвейеров (в STAR-100 трех, в Cray-1

12). На микроуровне

закладывается возможность организации конве иеров из Десятков элементар-

ных блоков обработки информации (Cray-1 о т 1 до 14, STAR-100 до 30).

2. Программируемость структуры п.)инцип, который c развитием архитектуры конвейерных ВС находит все более полное воплощение. Так, например, в STAR-100 обеспечивалась избирательная обработка компонентов

векторов данных путем введения специального булевского вектора. B Cray-1

стало возможным программировать последовательность использования

12 конвейеров процессора. B последующих раз: заботках систем Cray реализо-

вана возможность программирования межпроцс;:ссорных взаимодействии.

3. Конструктивная однородность принцип, который в конвейерных ВС проявляется достаточно четко. Даже для простых конвейерных систем характерно наличие нескольких идентич Еiых (или почти идентичных) конвейеров, небольшое разнообразие элементарных блоков обработки для формирования конвейеров, регулярность связй между блоками в конвейере, наличие нескольких одинаковых блоков в конвейере. Мультиконвейерные ВС (РУР-системы) полностью основаны на принципе однородности: это композиция множества однородных процессоров. B мультиконвейерных ВС каждый процессор это композиция конвейеров c канонической структурои.

Мультиконвейерные ВС (PVP-systems) т юзволили достичь быстродействия, измеряемого в десятках GigaFLOPS.

Технико-экономические соображения и необходимость достижения высокой производительности и архитектурного с эвершенства обусловили пере-

ход Cray Research Inc. на платформу распреде пенных средств обработки ин-

формации, полностью основанных на модели коллектива вычислителей. Это дало возможность фирме создать ВС, обладаю гцие быстpодействием в диапа-

зоне от GigaFLOPS до TeraFLOPS (см. МРР-системы: Cray ТЗD и Cray ТЗЕ).

Архитектурным совершенством начала XXI в. обладают сверхвысо-

копроизводительные ВС семейства Cray X. Данное семейство полностью

основывается на модели коллектива вычисл^ителеи, оно в высшей степени

впитало в себя архитектурные, функциональные и структурные достижения

РУР- и МРР-систем.

Конвейерные ВС стартовали в 1970-x годах c производительностью

порядка 100 MFLOPS (STAR-100, 1973 г.; Сrа у-1, 1976 г.); к 1990 г. они достигли быстродействия 1 GFLOPS (Cray-2, 1986 г. и Cray Y-МР, 1989 г.).

192

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]