Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
3_Тексты лекций ПВС 2011.doc
Скачиваний:
26
Добавлен:
24.12.2018
Размер:
5.46 Mб
Скачать

«Гибридные» суперкомпьютеры CrayXt5h

Кроме «обычных» массово параллельных суперкомпьютеров фирма Сray может поставлять гибридные системы, в которых используются векторные процессоры или программируемые логические матрицы FPGA.

«Лезвия» векторной обработки Cray x2

Векторные процессоры сегодня в мире используются редко (естественно, речь не идет о графических процессорах или процессорах х86-архитектуры c векторными расширениями системы команд типа SSE, включающими обработку очень коротких векторов). Кроме унаследованных приложений, к применению векторных систем могут подтолкнуть, пожалуй, только очень высокие требования к пропускной способности оперативной памяти, где векторные процессоры – при обращении к последовательным адресам памяти – обладают преимуществами.

Для таких приложений в Cray XT5h используются «лезвия» векторной обработки Cray X2. Эти вычислительные «лезвия» состоят из двух векторных вычислительных узлов. Каждый узел представляет собой четырехпроцессорную симметричную систему с общим полем оперативной памяти емкостью 32-64 Гбайт (рис. 4).

Векторные процессоры (V) работают на частоте 1,6 ГГц, имеют производительность 25,6 GFLOPS и являются одноядерными. Каждый векторный процессор V содержит суперскалярный процессор и восемь векторных конвейеров. В состав векторного процессора V входит три уровня кэша, в том числе 512 Кбайт кэша второго уровня и 8 Мбайт – третьего. Обеспечивается когерентность кэш-памяти разных векторных процессоров V.

Рис. 4.

Производительность узла составляет свыше 100 GFLOPS (это, однако, меньше, чем у «обычных» узлов на базе процессоров Istanbul), а пропускная способность оперативной памяти в расчете на один векторный процессор V равна 28,5 Гбайт/с.

Внутри узла оперативная память однородна по времени доступа, но при доступе в оперативную память другого узла мы имеем модель NUMA. Для связи векторных узлов применяется другое, разработанное фирмой Cray, межсоединение с топологией «толстого дерева», представляющее собой один из вариантов сети Клоза.

Пропускная способность межсоединения для связей «точка-точка» составляет 9,4 Гбайт/с; в фирме Сray говорят и о низких величинах задержки. Структурно возможно масштабирование векторной подсистемы Cray ХТ5h до 32K векторных процессоров, работающих с общим глобальным адресным пространством.

Таким образом, речь фактически идет о векторной многопроцессорной системе с собственным межсоединением, «погруженной» в Cray XT5. Для взаимодействия векторной подсистемы с межсоединением SeaStar2+ применяются прямые интерфейсы в узлах, имеющие пропускную способность 4,8 Гбайт/с (рис. 4).

«Лезвия» этой векторной подсистемы размещаются в стойках высотой 2м и основанием 1м х 1,6м, вес которых составляет 1,1 тонн, а энергопотребление – до 45 кВт.

«Лезвия» с реконфигурируемой структурой

В Cray XT5h могут применяться «лезвия» XR1 с FPGA-процессорами. Каждое такое «лезви»е имеет два узла (рис. 5). Узлы содержат по одному процессору линии Opteron, который каналами HyperTransport связан с SeaStar2+ и с модулем RPU (Reconfigurable Processor Unit) разработки компании DRC Computer.

RPU (всего их в узле два) размещаются в процессорных разъемах AMD Socket 940 и поддерживают три интерфейса HyperTransport (через эти каналы два RPU связаны между собой) и 128-разрядные каналы в оперативную память DDR-400 c пропускной способностью 6,4 Гбайт/с. Этот же тип оперативной памяти используется в узле как локальная память для процессоров Opteron, но емкость последней составляет от 2 Гбайт до 8 Гбайт, а емкость локальной оперативной памяти для RPU – от 1 Гбайт до 4 Гбайт.

Фирма DRC Computer предлагает на рынке несколько моделей RPU; в узлах XR1 применяются RPU LX200/LP, в которых использованы мощные FPGA-процессоры Xilinx Virtex-4. LX-200 содержит 200448 логических ячеек и собственную память на плате с пропускной способностью 14,4 Гбайт/с. В RPU применяется память типа RLDRAM емкостью 256 Мбайт. Пропускная способность «внешних» (для FPGA) HyperTransport-каналов cоставляет 6,4 Гбайт/с – для интерфейса с SeaStar, 3,2 Гбайт/с – для интерфейса с процессорами Opteron.

Рис. 5.

В одной системе Cray ХТ5h может содержаться до 30 тыс. FPGA-процессоров Virtex-4, из расчета до 48 узлов (96 RPU) на стойку, с затратами на электропитание – до 12 кВт на стойку. Применение в RPU разъема, совместимого с Socket 940, и поддержка HyperTransport представляется эффективным техническим решением, обеспечивающим высокую пропускуную способность и низкие задержки.

FPGA-подсистема Cray ХТ5h может применяться для задач криптографии, рендеринга, сортировки, при поисках последовательностей, для некоторых задач моделирования и др.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]