- •Что такое параллельные вычислительные системы и зачем они нужны
- •Некоторые примеры использования параллельных вычислительных систем Об использования суперкомпьютеров
- •Классификация параллельных вычислительных систем
- •Классификация современных параллельных вычислительных систем с учетом структуры оперативной памяти, модели связи и обмена Симметричные скалярные мультипроцессорные вычислительные системы
- •Несимметричные скалярные мультипроцессорные вычислительные системы
- •Массово параллельные вычислительные системы с общей оперативной памятью
- •Массово параллельные вычислительные системы с распределенной оперативной памятью
- •Серверы
- •Требования к серверам Основные компоненты и подсистемы современных серверов
- •Структуры несимметричных мвс с фирмы Intel Структурные особенности процессоров со структурой Nehalem
- •Структуры мвс с процессорами Nehalem
- •Мвс на базе процессоров фирмы amd
- •Структура шестиядерного процессора Istanbul приведена на рис. 23.
- •Примеры структур несимметричных мвс с процессорами линии Opteron Barcelona, Shanghai, Istanbul
- •Сравнение структур мвс с процессорами Barcelona, Shanghai, Istanbul с мвс с процессорами со структурой Nehalem
- •12 Ядерные процессоры Magny-Cours
- •Основные особенности 12-ти и 8-ми ядерных микросхем Magny-Cours
- •Структуры мвс с процессорами Magny--Cours
- •Перспективы развития процессоров фирмы amd для мвс
- •Мвс на базе процессоров фирмы ibm power6, power7 Основные особенности процессоров power6, power7
- •Процессор power6
- •Структуры мвс на базе процессоров power4, power5
- •Структуры мвс на базе процессоров power6, power7
- •Требования к серверам
- •Основные компоненты и подсистемы современных серверов
- •Поддерживаемые шины ввода-вывода
- •Raid контроллеры
- •Сервер Superdome 2 для бизнес-критичных приложений
- •Структура сервера
- •Надежность и доступность
- •Конфигурации и производительность
- •Основные особенности симметричных мультипроцессорных систем?
- •Векторные параллельные системы
- •Скалярная и векторная обработка
- •Основные особенности векторных параллельных систем
- •Векторные параллельные системы sx-6, sx-7 фирмы nec
- •Особенности вычислительной системы sx-7
- •Параллельная векторная система Earth Simulator
- •Cуперкластерная система
- •Суперкомпьютер CrayXt5h
- •«Лезвия» векторной обработки Cray x2
- •«Лезвия» с реконфигурируемой структурой
- •Массово параллельные вычислительные системы с скалярными вычислительными узлами и общей оперативной памятью
- •Массово параллельные вычислительные системы с скалярными вычислительными узлами и распределенной оперативной памятью
- •Cуперкомпьютеры семейства cray xt Семейство Cray xt5
- •«Гибридные» суперкомпьютеры CrayXt5h
- •«Лезвия» векторной обработки Cray x2
- •«Лезвия» с реконфигурируемой структурой
- •Развитие линии Cray хт5 – Cray xt6/xt6m
- •Модель Cray xe6
- •Процессор
- •Коммуникационная среда с топологией «3-мерный тор»
- •Реализация коммуникационных сред
- •Операционная система
- •Суперкомпьютер RoadRunner
- •Топологии связей в массово параллельных системах
- •Оценка производительности параллельных вычислительных систем
- •Необходимость оценки производительности параллельных вычислительных систем
- •Реальная производительность параллельных вычислительных систем Анализ «узких мест» процесса решения задач и их влияния на реальную производительность
- •«Узкие» места, обусловленные иерархической структурой памяти
- •Влияние на реальную производительность параллельных вычислительных систем соответствия их структуры и структуры программ
- •Анализ реальной производительности («узких» мест) мвс с общей оперативной памятью
- •Анализ реальной производительности («узких» мест) кластерных систем с распределённой оперативной памятью
- •Какие «узкие места» процесса решения задач существенно влияют на реальную производительность параллельных вычислительных систем?
- •Тенденции развития суперкомпьютеров. Список top500
- •Что такое список тор 500 и как он создается?
- •38 Редакция списка (ноябрь 2011 г.)
- •Коммуникационные технологии
- •Архитектуры, модели процессоров и их количество в системах списка
- •Основные тенденции развития суперкомпьютеров
- •Перспективные суперкомпьютеры тера- и экзафлопного масштаба
- •Производительность 500 лучших суперкомпьютеров за последние 18 лет
- •Перспективные суперкомпьютеры тера- и экзафлопного масштаба
- •Программа darpa uhpc
- •Основные положения программы uhpc
- •Экзафлопсный барьер: проблемы и решения
- •Проблемы
- •Эволюционный путь
- •Революционный путь
- •Кто победит?
- •Примеры перспективных суперкомпьютеров Суперкомпьютер фирмы ibm Mira
- •Стратегические суперкомпьютерные технологии Китая
Процессор
Заказная микросхема вычислительного модуля (рис. 7) состоит из двух процессоров, формируемых из стандартных процессорных ядер PowerPC440 с низким потреблением энергии, разработанных для применения во встроенных системах.
Каждый процессор состоит из 32-разрядного ядра PowerPC440 для выполнения целочисленных операций, которое дополнено ядром PowerPC440FP2 для выполнения операций с плавающей точкой.
Ядро PowerPC440 имеет собственную кэш-память первого уровня, некогерентную с кэш-памятью первого уровня второго ядра. Это обусловлено тем, что PowerPC440 не содержит средств для образования мультипроцессорных конфигураций с симметричной мультипроцессорной структурой.
Каждое ядро (ядро 0 и ядро 1) имеет кэш-память 2-го уровня, объем которой 2 Кбайт. Кэш-память 2-го уровня снабжена устройством предвыборки данных и небольшой статической памятью (SRAM) для передач данных между ядрами через механизм «почтового ящика». Если требуемые данные находятся в кэш-памяти 2-го уровня (при попадании в кэш-память 2-го уровня), доставка данных длится от 6 до 10 тактов.

Рис. 7. Структура вычислительного узла Blue Gene/L
Ядро имеет также контроллер кэш-памяти 3-го уровня, реализованной на базе встроенной динамической оперативной памяти. Объем кэш-памяти 3-го уровня 4 Мбайт. При попадании в кэш-память 3-го уровня доставка данных занимает 25 тактов, а при промахе — 75 тактов. Промах в кэш-памяти 3-го уровня вызывает обращение к внекристальной оперативной памяти, обмен с которой выполняется через 16-разрядный интерфейс, функционирующий на частоте 1/2 или 1/3 тактовой частоты процессора. Кэш-памяти 2-го и 3-го уровней обоих ядер одного вычислительного модуля когерентны. Ядро имеет также встроенные контроллеры основной памяти, Giga Ethernet и JTAG.
Ядро PowerPC440FP2 имеет два блока, каждый из которых выполняет полный набор операций с плавающей точкой над 64-разрядными операндами, хранящимися в собственном регистровом файле блока, состоящем из 32 регистров. Блоки разделяют общий интерфейс к PowerPC440. В каждом такте по команде записи или чтения через 128-разрядный интерфейс между кэш-памятью PowerPC440 и регистрами PowerPC440FP2 может быть передано четыре 32-разрядных слова. Ядро PowerPC440FP2 является суперскалярным процессором, способным выполнять одновременно команду «умножение со сложением» в каждом блоке и обмен с памятью двумя 64-разрядными операндами. Оба блока могут функционировать как процессор с SIMD архитектурой.
Коммуникационная среда с топологией «3-мерный тор»
Каждый из 6 двунаправленных каналов вычислительного модуля имеет пропускную способность 400 Мбайт/с в каждом направлении. Коммуникационная среда с топологией 3-мерный тор используется как для передачи сообщениий между парой вычислительных модулей, так и для передачи сообщениий группе вычислительных модулей, участвующих в выполнении одной параллельной программы. Данные между вычислительными модулями передаются в виде пакетов. Пакеты могут иметь размер от 32 до 256 байт с дискретностью 32 байта. Аппаратные средства обеспечивают гарантированную доставку пакетов. Длинные сообщения передаются как совокупности пакетов.
Коммуникационная среда реализует как детерминированный алгоритм маршрутизации по кратчайшим путям, так и адаптивный алгоритм маршрутизации с установлением соединения на время передачи.
Каждый физический канал разделяется 4 виртуальными каналами, два из которых используют детерминированный алгоритм маршрутизации, а два других — адаптивный. Один из виртуальных каналов с детерминированным алгоритмом маршрутизации используется как гарантированный бездедлоковый маршрут, а второй — как канал передачи высоко приоритетных пакетов.
Алгоритмы маршрутизации работоспособны при наличии отказавших вычислительных модулей.
Коммуникационная среда с топологией «дерево»
Коммуникационная среда с топологией «дерево», в дальнейшем просто дерево, передает пакеты той же структуры, что и среда с топологией «тор». Структура узла дерева показана на рис. 8.

Рис. 8. Структура узла дерева
Канал дерева имеет пропускную способность 350 Мбайт/с. Передача пакета по дереву в одном направлении при 64 К модулей имеет задержку 1,5 микросекунды.
Каждый физический канал разделяется 2 виртуальными каналами. Операции на дереве управляются путем программной модификации состояния управляющих регистров.
Дерево используется либо для передач данных между двумя модулями, например между вычислительным модулем и модулем ввода-вывода, либо для выполнения вычислений на дереве.
Блок дерева, реализующий в вычислительном модуле или модуле ввода-вывода функции вершины дерева, имеет целочисленное АЛУ для обработки поступающих пакетов и формирования результирующего пакета. Содержимое пакетов может быть операндами побитовых логических операций или целочисленных операций, таких, как «+» или «максимум». Например, на дереве выполняется коллективная операция MPI Allreduce.
Для выполнения операции суммирования с плавающей точкой требуется два прохода по дереву: один для определения максимального значения порядка, а другой для соответствующего сдвига мантиссы и выдачи в дерево для суммирования.
Все пакеты передаются вниз по дереву в соответствии с управляющим perистром блока дерева и принимаются - при достижении адресатов.
Отдельное дерево формируется для быстрой асинхронной выработки глобальных значений логических функций «И» (AND) и «ИЛИ» (OR), используемых при барьерной синхронизации. Время выработки этих значений на дереве из 64К вершин составляет около 1,5 микросекунд.
