- •Модели программирования систем класса mimd. Стандарт mpi. Операции поддерживаемые и неподдерживаемые в mpi. Содержимое реализации стандарта mpi. Структура mpi-программы.
- •Стандарт mpi. Идентификация в mpi. Цели разработчиков mpi. Классификация функций mpi. Структура mpi-программы. Пример программы.
- •Двухточечные передачи в mpi. Организация отложенных посылок/приемов сообщений. Функции (основные и вспомогательные), используемые при отложенных посылках и приемах сообщений. Примеры.
- •Типы данных в mpi-программе. Структурированные данные, виды и способы их передачи. Передача структурированных данных с сосредоточенными и распределенными элементами. Примеры.
- •Коллективные передачи данных в mpi. Виды коллективных операций. Барьерная синхронизация, распределение и сбор данных. Примеры.
- •Коллективные передачи данных в mpi. Виды коллективных операций. Рассылка данных и их редукция. Примеры.
- •1. Классификация Флина.
- •2. Классификация Хокни
- •3. Классификация по доступу к памяти
- •По степени интеграции ядер и устройств
- •2. По однородности ядер
- •3. По связям между ядрами
- •По степени интеграции ядер и устройств
- •2. По однородности ядер
- •3. По связям между ядрами
- •29. Сети и структуры сетей системы ibm Blue Gene/l. Конфигурация торовых колец. Монтаж на Midplane. Внешние сети и их подключение. Link Card и Service Card.
- •Объединённый модуль (Connected Unit)
- •Кластер Roadrunner
29. Сети и структуры сетей системы ibm Blue Gene/l. Конфигурация торовых колец. Монтаж на Midplane. Внешние сети и их подключение. Link Card и Service Card.
Внутренние сети – в них участвую вычислительные узлы.
1 – сеть для двух точечных передач (организована по принципу 3D тора)
2 – загрузки узлов и коллективных передач (организована по принципу дерева)
3 – сеть прерываний и барьерной синхронизации (по принципу дерева)
4 – сеть JTAG. Сеть диагностики и управления.
Внешние:
5. - функциональная (Gigabit Ethernet, осуществляет загрузку системы м ввод-вывод)
6. – диагностики и управления (Gigabit и Fast Ethernet, связана с JTAG)
Структура сети коллективных передач: Структура сети i/o, диагностики и управления:
Схема коммутации портов (все порты 21 канальные с 0 по 20):
Конфигурирование торовых колец:
Монтаж на Midplane
Р
азмерности
3D тора на разных уровнях
иерархии:
Compute Card – 1x2x1 (2 chip)
Node Card - -4x4x2 (16 CC)
Midplane – 8x8x8 (16 NC)
Rack – 8x8x16 (2 M)
System – 64 32 32 (64 R)
Подключение внешних сетей:
DB2 – БД управления + ОС
Service Node – узлы управления
Front-end Nodes – пользовательские узлы
I/ON – полное ядро Linux
CN – усечённое ядро Linux
P.S. нет service card
30. Массивно-параллельные (MPP) вычислительные системы, их сравнение с системами других классов. Вычислительные системы семейства Cray XT5. Узлы Cray XT5, их виды и структура. Топология и компоновка Cray XT5.
MPP – massive parallel system – создается массив вычислительных узлов, каждый из которых имеет свои процессоры и свои собственные блоки памяти. Память организована по принципу NORMA (no remote memory access) – физически и логически распределенная память.
Сложность программирования. Хорошая масштабируемость программ.
Очень хорошая масштабируемость.
Очень хорошая наращиваемость.
Хорошая решаемость слабо связных масштабируемых задач и плохая решаемость сильно связных задач.
Высокая себестоимость, т.к. эти системы эксклюзивные. Высокая себестоимость ПО.
Сравнение трёх типв NORMA систем:
|
MPP |
Cluster |
Grid |
1 |
(-) При создании программ необходимо учитывать специализацию ВС (+) Использ. спец. пакетов. |
(+) Самое простое (относительно) программирование. |
(+) В теории подготовка ПО автоматизирована. (-) Трудн. с эффективным планированием. |
2 |
(+,-) Масштабируемость ограничена топологией |
(+) Масштабируемость слабо ограничена |
(+) Масштабируемость неограничена |
3 |
(+,-) Наращиваемость ограничена параметрами компонентов системы |
(+) Наращиваемость слабо ограничена |
(+) Наращиваемость и реконфигурируемость неограниченна |
4 |
(+,-) Хорошо выполняются задачи, под которые специализирована система |
(+,-) Хорошо выполняются слабосвязанные задачи |
(-) Эффективность для каждого класса сильно зависит от текущей КС |
5 |
(-) Системы содержат много эксклюзивных компонентов и ПО что повышает их стоимость |
(+) Системы собираются из серийных компонентов с серийным ПО |
(+,-) Определяется стоимостью дополнительного ПО |
Новый лидер TOP500 Cray XT5 (Jaguar) создан на базе процессоров AMD Opteron, принадлежит Министерству энергетики США и размещается в Национальной лаборатории Окриджа (ORNL), а его производительность составляет 1,75 петафлопс.
Структура узла системы Cray XT5 (как вычислительные, так и сервисные)– seasrar (комутируется в 6-ти направлениях, чем напоминает морскую звезду)
Blade Control Processor Interface – контроль за узлом (датчики + интерфейс для диагностики)
Power PC 440 – коммуникационный процессор. Он имеет прямой доступ ко всем процессам узла.
AMD Opteron работают на частоте 2,6ГГц.
Во всём узле работает усечённая версия Linux.
Топология - 3D тор. CN – Compute Node, SN – Service Node.
Вопрос №31. Система IBM Roadrunner Структурные схемы модуля TriBlade и системы в целом. Многоядерный процессор Cell фирмы STI.
Суперкомпьютер создан компанией IBM для Министерства Энергетики США и установлен в Лос-Аламосской национальной лаборатории в Нью-Мексико, США.
Пиковая производительность 1.376 PFlop/s, производительность на тесте Linpack - 1.026 PFlop/s.
Построен по гибридной схеме из 6120 двухъядерных процессоров AMD Opteron и 12960(12240) процессоров IBM Cell 8i в специальных блэйд-модулях TriBlades.
TriBlades соединены с помощью коммуникационной сети Infiniband.
Структурно, система имеет три модуля: TriBlade, Connected Unit, кластер Roadrunner
Б
Физически TriBlade состоит
из одной платы LS21, платы расширения и
двух плат QS22. LS21 содержит два двухъядерных
процессора Opteron с 16 Гбайт памяти, по 4
Гбайт на ядро. Каждая плата QS22 содержит
два процессора PowerXCell 8i и 8 Гбайт памяти,
по 4 Гбайт на каждый процессор. Плата
расширения соединяет QS22 через четыре
разъёма PCI x8 с LS21, по два разъёма на QS22.
Также она обеспечивает подключение
Infiniband 4x DDR. В результате один блэйд-модуль
TriBlade занимает четыре слота, и три
TriBlades помещаются в шасси BladeCenter H.
лэйд-модули
TriBlade
IB – Infiniband
