
- •Что такое параллельные вычислительные системы и зачем они нужны
- •Некоторые примеры использования параллельных вычислительных систем Об использования суперкомпьютеров
- •Классификация параллельных вычислительных систем
- •Классификация современных параллельных вычислительных систем с учетом структуры оперативной памяти, модели связи и обмена Симметричные скалярные мультипроцессорные вычислительные системы
- •Несимметричные скалярные мультипроцессорные вычислительные системы
- •Массово параллельные вычислительные системы с общей оперативной памятью
- •Массово параллельные вычислительные системы с распределенной оперативной памятью
- •Серверы
- •Требования к серверам Основные компоненты и подсистемы современных серверов
- •Структуры несимметричных мвс с фирмы Intel Структурные особенности процессоров со структурой Nehalem
- •Структуры мвс с процессорами Nehalem
- •Мвс на базе процессоров фирмы amd
- •Структура шестиядерного процессора Istanbul приведена на рис. 23.
- •Примеры структур несимметричных мвс с процессорами линии Opteron Barcelona, Shanghai, Istanbul
- •Сравнение структур мвс с процессорами Barcelona, Shanghai, Istanbul с мвс с процессорами со структурой Nehalem
- •12 Ядерные процессоры Magny-Cours
- •Основные особенности 12-ти и 8-ми ядерных микросхем Magny-Cours
- •Структуры мвс с процессорами Magny--Cours
- •Перспективы развития процессоров фирмы amd для мвс
- •Мвс на базе процессоров фирмы ibm power6, power7 Основные особенности процессоров power6, power7
- •Процессор power6
- •Структуры мвс на базе процессоров power4, power5
- •Структуры мвс на базе процессоров power6, power7
- •Требования к серверам
- •Основные компоненты и подсистемы современных серверов
- •Поддерживаемые шины ввода-вывода
- •Raid контроллеры
- •Сервер Superdome 2 для бизнес-критичных приложений
- •Структура сервера
- •Надежность и доступность
- •Конфигурации и производительность
- •Основные особенности симметричных мультипроцессорных систем?
- •Векторные параллельные системы
- •Скалярная и векторная обработка
- •Основные особенности векторных параллельных систем
- •Векторные параллельные системы sx-6, sx-7 фирмы nec
- •Особенности вычислительной системы sx-7
- •Параллельная векторная система Earth Simulator
- •Cуперкластерная система
- •Суперкомпьютер CrayXt5h
- •«Лезвия» векторной обработки Cray x2
- •«Лезвия» с реконфигурируемой структурой
- •Массово параллельные вычислительные системы с скалярными вычислительными узлами и общей оперативной памятью
- •Массово параллельные вычислительные системы с скалярными вычислительными узлами и распределенной оперативной памятью
- •Cуперкомпьютеры семейства cray xt Семейство Cray xt5
- •«Гибридные» суперкомпьютеры CrayXt5h
- •«Лезвия» векторной обработки Cray x2
- •«Лезвия» с реконфигурируемой структурой
- •Развитие линии Cray хт5 – Cray xt6/xt6m
- •Модель Cray xe6
- •Процессор
- •Коммуникационная среда с топологией «3-мерный тор»
- •Реализация коммуникационных сред
- •Операционная система
- •Суперкомпьютер RoadRunner
- •Топологии связей в массово параллельных системах
- •Оценка производительности параллельных вычислительных систем
- •Необходимость оценки производительности параллельных вычислительных систем
- •Реальная производительность параллельных вычислительных систем Анализ «узких мест» процесса решения задач и их влияния на реальную производительность
- •«Узкие» места, обусловленные иерархической структурой памяти
- •Влияние на реальную производительность параллельных вычислительных систем соответствия их структуры и структуры программ
- •Анализ реальной производительности («узких» мест) мвс с общей оперативной памятью
- •Анализ реальной производительности («узких» мест) кластерных систем с распределённой оперативной памятью
- •Какие «узкие места» процесса решения задач существенно влияют на реальную производительность параллельных вычислительных систем?
- •Тенденции развития суперкомпьютеров. Список top500
- •Что такое список тор 500 и как он создается?
- •38 Редакция списка (ноябрь 2011 г.)
- •Коммуникационные технологии
- •Архитектуры, модели процессоров и их количество в системах списка
- •Основные тенденции развития суперкомпьютеров
- •Перспективные суперкомпьютеры тера- и экзафлопного масштаба
- •Производительность 500 лучших суперкомпьютеров за последние 18 лет
- •Перспективные суперкомпьютеры тера- и экзафлопного масштаба
- •Программа darpa uhpc
- •Основные положения программы uhpc
- •Экзафлопсный барьер: проблемы и решения
- •Проблемы
- •Эволюционный путь
- •Революционный путь
- •Кто победит?
- •Примеры перспективных суперкомпьютеров Суперкомпьютер фирмы ibm Mira
- •Стратегические суперкомпьютерные технологии Китая
Суперкомпьютер CrayXt5h
В векторных параллельных системах фирма Сray в узлах использует векторные процессоры или программируемые логические матрицы FPGA.
«Лезвия» векторной обработки Cray x2
Векторные процессоры сегодня в мире используются редко (естественно, речь не идет о графических процессорах или процессорах х86-архитектуры c векторными расширениями системы команд типа SSE, включающими обработку очень коротких векторов). Кроме унаследованных приложений, к применению векторных систем могут подтолкнуть, пожалуй, только очень высокие требования к пропускной способности оперативной памяти, где векторные процессоры – при обращении к последовательным адресам памяти – обладают преимуществами.
Для таких приложений в Cray XT5h используются «лезвия» векторной обработки Cray X2. Эти вычислительные «лезвия» состоят из двух векторных вычислительных узлов. Каждый узел представляет собой четырехпроцессорную симметричную систему с общим полем оперативной памяти емкостью 32-64 Гбайт (рис. 8).
Векторные процессоры (V) работают на частоте 1,6 ГГц, имеют производительность 25,6 GFLOPS и являются одноядерными. Каждый векторный процессор V содержит суперскалярный процессор и восемь векторных конвейеров. В состав векторного процессора V входит три уровня кэша, в том числе 512 Кбайт кэша второго уровня и 8 Мбайт – третьего. Обеспечивается когерентность кэш-памяти разных векторных процессоров V.
Рис. 8.
Производительность узла составляет свыше 100 GFLOPS (это, однако, меньше, чем у «обычных» узлов на базе процессоров Istanbul), а пропускная способность оперативной памяти в расчете на один векторный процессор V равна 28,5 Гбайт/с.
Внутри узла оперативная память однородна по времени доступа, но при доступе в оперативную память другого узла мы имеем модель NUMA. Для связи векторных узлов применяется другое, разработанное фирмой Cray, межсоединение с топологией «толстого дерева», представляющее собой один из вариантов сети Клоза.
Пропускная способность межсоединения для связей «точка-точка» составляет 9,4 Гбайт/с; в фирме Сray говорят и о низких величинах задержки. Структурно возможно масштабирование векторной подсистемы Cray ХТ5h до 32K векторных процессоров, работающих с общим глобальным адресным пространством.
Таким образом, речь фактически идет о векторной многопроцессорной системе с собственным межсоединением, «погруженной» в Cray XT5. Для взаимодействия векторной подсистемы с межсоединением SeaStar2+ применяются прямые интерфейсы в узлах, имеющие пропускную способность 4,8 Гбайт/с (рис. 4).
«Лезвия» этой векторной подсистемы размещаются в стойках высотой 2м и основанием 1м х 1,6м, вес которых составляет 1,1 тонн, а энергопотребление – до 45 кВт.
«Лезвия» с реконфигурируемой структурой
В Cray XT5h могут применяться «лезвия» XR1 с FPGA-процессорами. Каждое такое «лезви»е имеет два узла (рис. 9). Узлы содержат по одному процессору линии Opteron, который каналами HyperTransport связан с SeaStar2+ и с модулем RPU (Reconfigurable Processor Unit) разработки компании DRC Computer.
RPU (всего их в узле два) размещаются в процессорных разъемах AMD Socket 940 и поддерживают три интерфейса HyperTransport (через эти каналы два RPU связаны между собой) и 128-разрядные каналы в оперативную память DDR-400 c пропускной способностью 6,4 Гбайт/с. Этот же тип оперативной памяти используется в узле как локальная память для процессоров Opteron, но емкость последней составляет от 2 Гбайт до 8 Гбайт, а емкость локальной оперативной памяти для RPU – от 1 Гбайт до 4 Гбайт.
Фирма DRC Computer предлагает на рынке несколько моделей RPU; в узлах XR1 применяются RPU LX200/LP, в которых использованы мощные FPGA-процессоры Xilinx Virtex-4. LX-200 содержит 200448 логических ячеек и собственную память на плате с пропускной способностью 14,4 Гбайт/с. В RPU применяется память типа RLDRAM емкостью 256 Мбайт. Пропускная способность «внешних» (для FPGA) HyperTransport-каналов cоставляет 6,4 Гбайт/с – для интерфейса с SeaStar, 3,2 Гбайт/с – для интерфейса с процессорами Opteron.
Рис. 9.
В одной системе Cray ХТ5h может содержаться до 30 тыс. FPGA-процессоров Virtex-4, из расчета до 48 узлов (96 RPU) на стойку, с затратами на электропитание – до 12 кВт на стойку. Применение в RPU разъема, совместимого с Socket 940, и поддержка HyperTransport представляется эффективным техническим решением, обеспечивающим высокую пропускуную способность и низкие задержки.
FPGA-подсистема Cray ХТ5h может применяться для задач криптографии, рендеринга, сортировки, при поисках последовательностей, для некоторых задач моделирования и др.
Контрольные вопросы
-
Какие методы увеличения производительности вычислительных систем вы знаете?
-
В чем отличие между конвейерной и параллельной обработкой?
-
Что такое векторизация?
-
За счет чего увеличивается производительности при векторной обработке?
-
Какая разница между вектором данных и скаляром?
-
Можно ли считать вектором двумерный массив данных, например, матрицу?
-
Какие основные особенности векторно параллельных систем?
-
Структура векторного процессора Earth Simulator
-
Структура коммуникационной подсистемы Earth Simulator
Массово параллельные системы
Содержание
Отличительные особенности массово параллельных систем
Cуперкомпьютеры семейства CRAY XT
Семейство Cray XT5
Гибридные» суперкомпьютеры CrayXT5h
Развитие линии Cray ХТ5 – Cray XT6/XT6m
Модель Cray XE6
Система Blue Gene/L
Структура
Коммуникационная среда
Суперкомпьютер RoadRunner
Структура
Процессоры
Блэйд-модули TriBlade
Топологии связей в массово параллельных системах
Отличительные особенности массово параллельных систем
Поворот к массово параллельным вычислительным системам
Примерно в середине 90-х годов 20-го века быстрый темп развития сверхпроизводительных вычислительных систем был потерян. В качестве основных причин следует привести следующие: огромный спад государственной поддержки программы развития сверхпроизводительных вычислительных систем, как результат прекращения «холодной войны», плюс отсутствие рынка сбыта таких дорогих вычислительных систем, что объяснялось наличием вполне подходящих мини-суперЭВМ гораздо более дешевых и доступных.
В микроэлектронике господствовала технология КМОП, хотя и более медленная по сравнению с другими микроэлектронными технологиями, но имевшая ряд других очень важных преимуществ, а именно; меньшее энергопотребление, значительно большую степень интеграции, отработанность технологии и ряд других.
К середине 90-х годов прошлого века успехи микроэлектроники с технологией КМОП позволили в одной микросхеме иметь несколько миллионов транзисторов и реализовать высокопроизводительный суперскалярный процессор (пример, модели процессоров типа Pentium). На базе этих универсальных суперскалярных процессоров с одной и той же архитектурой строились массовые (и достаточно производительные) персональные компьютеры и рабочие станции. Так как эти процессоры производились десятками миллионов штук в год, то и стоили они относительно не дорого.
В то же время каждая векторная вычислительная система обладала уникальной архитектурой и структурой, а, следовательно, для каждой их них надо было разрабатывать оригинальные микросхемы, причем число таких микросхем исчислялось многими десятками. Для достижения максимально возможных характеристик по быстродействию в качестве элементной базы использовались микросхемы ECL типа. Это была самая быстродействующая элементная база, которая, как правило, использовалась в сверхпроизводительных векторно-конвейерных системах, но она же была и самой энергоемкой и самой малой по степени интеграции (степень интеграции составляла десятки тысяч транзисторов в микросхеме). Разработка специализированных микросхем очень дорогое дело. А если таких микросхем каждого типа производится немного, то и стоимость их очень большая. Большие проблемы возникали с охлаждением конструкций с такими энергоемкими микросхемами. А, значит, стоимость систем с учетом малой их серийности будет очень большой. В связи с существенным уменьшением государственного финансирования разработок и производства сверхпроизводительных вычислительных систем экономические факторы стали играть преобладающую роль. Фирмы должны были за свои средства разрабатывать конкурентноспособные вычислительные системы, производить и продавать их и, таким образом, получать прибыль, которая позволила бы окупить все произведенные затраты и дать возможность делать новые разработки.
Осознание того факта, что из сверхбольших интегральных микросхем (с количеством в десятки и сотни миллионов транзисторов в одной микросхеме) можно строить преимущественно параллельные вычислительные системы, изменило политику многих ведущих фирм в области разработки сверхпроизводительных вычислительных систем. Большинство производителей переориентировались на создание структур с массовым параллелизмом.
Окончательно линия на создание массово параллельных высокопроизводительных вычислительных систем возобладала после неудачи в начале 90-х годов прошлого века в разработке компанией Cray Computer векторно-конвейерной вычислительной системы Cray 4 c использованием самой быстрой на то время элементной базы на основе арсенида галлия.
Под массово параллельными вычислительными системами будем понимать вычислительные системы состоящие из многих десятков, сотен или тысяч процессоров.