
- •Что такое параллельные вычислительные системы и зачем они нужны
- •Некоторые примеры использования параллельных вычислительных систем Об использования суперкомпьютеров
- •Классификация параллельных вычислительных систем
- •Классификация современных параллельных вычислительных систем с учетом структуры оперативной памяти, модели связи и обмена Симметричные скалярные мультипроцессорные вычислительные системы
- •Несимметричные скалярные мультипроцессорные вычислительные системы
- •Массово параллельные вычислительные системы с общей оперативной памятью
- •Массово параллельные вычислительные системы с распределенной оперативной памятью
- •Серверы
- •Требования к серверам Основные компоненты и подсистемы современных серверов
- •Структуры несимметричных мвс с фирмы Intel Структурные особенности процессоров со структурой Nehalem
- •Структуры мвс с процессорами Nehalem
- •Мвс на базе процессоров фирмы amd
- •Структура шестиядерного процессора Istanbul приведена на рис. 23.
- •Примеры структур несимметричных мвс с процессорами линии Opteron Barcelona, Shanghai, Istanbul
- •Сравнение структур мвс с процессорами Barcelona, Shanghai, Istanbul с мвс с процессорами со структурой Nehalem
- •12 Ядерные процессоры Magny-Cours
- •Основные особенности 12-ти и 8-ми ядерных микросхем Magny-Cours
- •Структуры мвс с процессорами Magny--Cours
- •Перспективы развития процессоров фирмы amd для мвс
- •Мвс на базе процессоров фирмы ibm power6, power7 Основные особенности процессоров power6, power7
- •Процессор power6
- •Структуры мвс на базе процессоров power4, power5
- •Структуры мвс на базе процессоров power6, power7
- •Требования к серверам
- •Основные компоненты и подсистемы современных серверов
- •Поддерживаемые шины ввода-вывода
- •Raid контроллеры
- •Сервер Superdome 2 для бизнес-критичных приложений
- •Структура сервера
- •Надежность и доступность
- •Конфигурации и производительность
- •Основные особенности симметричных мультипроцессорных систем?
- •Векторные параллельные системы
- •Скалярная и векторная обработка
- •Основные особенности векторных параллельных систем
- •Векторные параллельные системы sx-6, sx-7 фирмы nec
- •Особенности вычислительной системы sx-7
- •Параллельная векторная система Earth Simulator
- •Cуперкластерная система
- •Суперкомпьютер CrayXt5h
- •«Лезвия» векторной обработки Cray x2
- •«Лезвия» с реконфигурируемой структурой
- •Массово параллельные вычислительные системы с скалярными вычислительными узлами и общей оперативной памятью
- •Массово параллельные вычислительные системы с скалярными вычислительными узлами и распределенной оперативной памятью
- •Cуперкомпьютеры семейства cray xt Семейство Cray xt5
- •«Гибридные» суперкомпьютеры CrayXt5h
- •«Лезвия» векторной обработки Cray x2
- •«Лезвия» с реконфигурируемой структурой
- •Развитие линии Cray хт5 – Cray xt6/xt6m
- •Модель Cray xe6
- •Процессор
- •Коммуникационная среда с топологией «3-мерный тор»
- •Реализация коммуникационных сред
- •Операционная система
- •Суперкомпьютер RoadRunner
- •Топологии связей в массово параллельных системах
- •Оценка производительности параллельных вычислительных систем
- •Необходимость оценки производительности параллельных вычислительных систем
- •Реальная производительность параллельных вычислительных систем Анализ «узких мест» процесса решения задач и их влияния на реальную производительность
- •«Узкие» места, обусловленные иерархической структурой памяти
- •Влияние на реальную производительность параллельных вычислительных систем соответствия их структуры и структуры программ
- •Анализ реальной производительности («узких» мест) мвс с общей оперативной памятью
- •Анализ реальной производительности («узких» мест) кластерных систем с распределённой оперативной памятью
- •Какие «узкие места» процесса решения задач существенно влияют на реальную производительность параллельных вычислительных систем?
- •Тенденции развития суперкомпьютеров. Список top500
- •Что такое список тор 500 и как он создается?
- •38 Редакция списка (ноябрь 2011 г.)
- •Коммуникационные технологии
- •Архитектуры, модели процессоров и их количество в системах списка
- •Основные тенденции развития суперкомпьютеров
- •Перспективные суперкомпьютеры тера- и экзафлопного масштаба
- •Производительность 500 лучших суперкомпьютеров за последние 18 лет
- •Перспективные суперкомпьютеры тера- и экзафлопного масштаба
- •Программа darpa uhpc
- •Основные положения программы uhpc
- •Экзафлопсный барьер: проблемы и решения
- •Проблемы
- •Эволюционный путь
- •Революционный путь
- •Кто победит?
- •Примеры перспективных суперкомпьютеров Суперкомпьютер фирмы ibm Mira
- •Стратегические суперкомпьютерные технологии Китая
Перспективы развития процессоров фирмы amd для мвс
На рис. 29 представлены программы фирмы AMD по разработке процессоров для мультипроцессорных систем начиная с первого 2-хядерного процессора Opteron по 2010 год, а на рис. 30 – с 2010 по 2014 год.
Рис. 29.
Рис. 30.
Платформа Maranello предназначена для организации мощных двухсокетных (24-х ядерных), или четырехсокетных (48-ми ядерных) вычислительных систем, с процессорным разъемом Socket G34.
Процессоры со структурой Lisbon (серия Opteron 4000) имеют от четырех до шести ядер. Они являются ключевыми элементами платформы San Marino, предназначенной для одно- или двухсокетных вычислительных систем с разъемом Socket C32.
Дальнейшее развитие серверных платформ, и Maranello, и San Marino, связано с увеличением количества процессорных ядер. В случае платформы Maranello – это использование интегральных микросхем Interlagos, изготовленных по 32-нм техпроцессу, имеющих структуру Bulldozer и включающих в свой состав от двенадцати до шестнадцати процессорных ядер. Платформа San Marino, в свою очередь, будет иметь процессоры Valencia со структурой Bulldozer, также изготовленных по 32-нм техпроцессу. А вот количество процессорных ядер, по сравнению с Interlagos, будет снижено вдвое – планируется выпуск шести- и восьмиядерных решений.
Мвс на базе процессоров фирмы ibm power6, power7 Основные особенности процессоров power6, power7
Основными «строительными кирпичиками» МВС фирмы IBM в настоящее время являются процессоры POWER6 и POWER7.
На рис. 31 представлена временная последовательность разработок и основные особенности процессоров для МВС линии POWER4, POWER5, POWER6, POWER7.
Рис. 31. Временная последовательность разработок и основные особенности процессоров фирмы Intel для МВС линии POWER4, POWER5, POWER6, POWER7.
Процессор power6
Основные характеристики:
два ядера;
технологический процесс 65-нм;
максимальная тактовая частота — 4,7 ГГц;
количество транзисторов — более 790 млн.;
площадь — 341 кв. мм;
год выпуска – 2007.
На рис. 36 приведена структура процессора POWER6.
Рис. 32. Структура процессора POWER6.
Интерфейс ввода-вывода - 4 байта при чтении, 4 байта при записи. Может работать на ½ или 1/3 или 1/4 частоты процессора. Оперативная память - 400, 533, 667 (800) MHz DDR2 или 1066 MHz DDR3.
У процессора два суперскалярных ядра с поддержкой «одновременной многопотоковости» (Simultaneous Multithreading, SMT). Каждое ядро включает в себя два арифметических целочисленных устройства, два арифметических устройства с плавающей точкой и одно устройство для десятичной арифметики. Система команд POWER6 дополнена 50 новыми командами для выполнения десятичных операций и операций перевода из десятичной системы в двоичную и обратно. Процессор снабжен кэш-памятью второго уровня на 8 Мбайт. Предусмотрена поддержка общей для обоих ядер кэш-памяти третьего уровня емкостью до 32 Мбайт, двух контроллеров памяти, а также двухуровневого коммутатора SMP (Symmetric Multiprocessing). Процессор поддерживает наборы команд AltiVec (операции с плавающей точкой, выполняемые в режиме SIMD) и векторные операции ViVA-2 (Virtual Vector Architecture). На рис. 37 приведена упрощенная схема работы конвейера ядра.
Рис. 33.
Особо стоит отметить достижения, связанные с уменьшением энергопотребления. При удвоении производительности по сравнению с пройессором POWER5 за счет того, что частота увеличилась вдвое, а длину конвейера (показатель, определяющий супескалярность) удалось оставить прежней, рассеиваемая мощность осталась прежней.
Латентности кэш-памятей и оперативной памяти приведены в твблице 1.
Таблица 1.
L1 |
2 cycles |
75 / 37,5 GB/s |
L2 |
20-26 cycles |
150 / 75 GB/s |
L3 |
160 cycles |
18,8 / 18,8 GB/s |
Memory |
450 cycles |
4+ GB/s / core |
Фирма IBM следует утверждению "Невозможно увеличить производительность системы, просто удваивая количество ядер на одном кристалле. Совершенно необходимо поднимать как рабочую частоту процессора, так и пропускную способность шины оперативной памяти".
Реализовав процессор POWER6, фирма IBM обошла фирму Intel в "гонке за гигагерцами" т.к. одноядерные процессоры фирмы Intel работают на частотах, не превышающих 3,8 Ггц, а новые поколения многоядерных процессоров немного преодолевают барьер в 3 Ггц.
Особенности процессора POWER7
Блок-схема процессора POWER7 приведена на рис. 34.
Восьмиядерный кристалл площадью 567 мм2 выполнен по проектным нормам 45 нм, что позволило разместить на кристалле 1,2 млрд транзисторов.
Объем кэш-памяти третьего уровня на кристалле составляет 32 Мбайт eDRAM. Это большой шаг вперед по сравнению с предыдущими поколениями процессоров линии POWER, где кэш располагался на отдельном чипе в многокристальном модуле.
Каждый процессор POWER7 может выполнять 32 параллельные задачи (с восемью ядрами и четырьмя потоками на ядро), что в четыре раза больше максимального числа ядер систем POWER6 и в восемь раз больше количества потоков у ядер, чем у систем на базе POWER6. Кристаллы имеют следующие тактовые частоты: 3; 3,3; 3,5; 3,55; 3,8 и 4,1 ГГц.
Рис. 34. Блок-схема процессора POWER7.
Каждое ядро POWER7 включает 12 исполнительных блоков, два блока обработки с фиксированной запятой, два блока хранения/загрузки, четыре блока с плавающей запятой (двойной точности), один векторный блок и один блок десятичной арифметики. Все ядра поддерживают внеочередное выполнение инструкций и обеспечивают двоичную совместимость с предыдущими моделями POWER. Помимо встроенной раздельной кэш-памяти для команд (32 Кбайт) и данных (32 Кбайт) первого уровня (L1) с каждым ядром плотно связана 256 Кбайтная кэш-память второго уровня (L2). Кроме того, на кристалле реализована общая кэш-память третьего уровня (L3) размером 32 Мбайт, которая выполнена на базе так называемой встроенной динамической памяти с произвольным доступом (embedded DRAM). При этом в данной памяти выделены 4-Мбайт сегменты для каждого ядра процессора. Разумеется, eDRAM работает медленнее, чем статическая память SRAM, но она может быть расположена ближе к ядрам процессора и использует более широкие пути передачи данных (что существенно снижает латентность). Кроме того, для реализации одной ячейки SRAM (статический триггер) необходимо шесть транзисторов, а ячейка eDRAM состоит всего из одного транзистора и одного конденсатора.
В микросхеме имеется двухканальный контроллер оперативной памяти стандарта DDR3. Пропускная способность оперативной памяти поддерживается на уровне 100 Гб/с, в режиме SMP – 360 Гб/с.
Режим TurboCore, высокооптимизированный для баз данных и других рабочих нагрузок, связанных с обработкой транзакций, выполняет свою функцию, работая только с четырьмя активными ядрами и концентрируя большую часть ресурсов всех восьми ядер на процессорном кристалле. После того как четыре пассивных ядра передают активным свою кэш-память и каналы обращения к оперативной памяти, появляется возможность увеличения тактовой частоты (до 4,1 ГГц); как следствие, наблюдается существенный прирост производительности в расчете на ядро.
Режим TurboCore будут поддерживать отдельные модели серверов. Когда режим TurboCore не задействован, все процессоры POWER7 работают в режиме MaxCore, максимум с восемью ядрами на разъем (сокет) и четырьмя потоками на ядро – 32 потока в целом.
Другая особенность процессоров POWER7 – так называемые интеллектуальные потоки (Intelligent Threads), которые могут варьироваться в широких пределах в зависимости от требований рабочей нагрузки. Используя большее число потоков в POWER7, системы на базе этих процессоров обеспечивают увеличенную общую производительность в результате параллельного выполнения большего числа задач, например, при ежеминутном мониторинге потребления электроэнергии миллионами потребителей в интеллектуальных сетях энергоснабжения. Для рабочих нагрузок, которым требуется очень быстрая «индивидуальная» обработка данных, – таких как анализ информации в реальном времени или управление транзакциями в СУБД – максимальная требуемая производительность может быть достигнута с меньшим числом потоков. Функция Intelligent Threads работает во всех процессорах POWER7 и способна эффективно повышать мощность и общую производительность системы.
В таблице 2 приведены основные характеристики ряда процессоров POWER, в том числе и процессора POWER7.
Таблица 2. Основные характеристики ряда процессоров POWER
Модель |
POWER5 |
POWER5+ |
POWER6 |
POWER7 |
Проектные нормы, нм |
130 |
90 |
60 |
45 |
Площадь кристалла, кв. мм |
389 |
245 |
341 |
567 |
Количество транзисторов, млн шт. |
276 |
276 |
790 |
1200 |
Тактовая частота, ГГц |
1,65 |
1,9 |
4+ |
3–4 |
Размер кэш-памяти L2 |
1,9 Мбайт (общая) |
1,9 Мбайт (общая) |
4 Мбайт/ядро |
256 Кбайт/ядро |
Размер кэш-памяти L3 |
36 Мбайт |
36 Мбайт |
32 Мбайт |
4 Мбайт/ядро |
Количество ядер |
2 |
2 |
2 |
8 |
Количество потоков в одном ядре |
2 |
2 |
2 |
4 |