
- •Что такое параллельные вычислительные системы и зачем они нужны
- •Некоторые примеры использования параллельных вычислительных систем Об использования суперкомпьютеров
- •Классификация параллельных вычислительных систем
- •Классификация современных параллельных вычислительных систем с учетом структуры оперативной памяти, модели связи и обмена Симметричные скалярные мультипроцессорные вычислительные системы
- •Несимметричные скалярные мультипроцессорные вычислительные системы
- •Массово параллельные вычислительные системы с общей оперативной памятью
- •Массово параллельные вычислительные системы с распределенной оперативной памятью
- •Серверы
- •Требования к серверам Основные компоненты и подсистемы современных серверов
- •Структуры несимметричных мвс с фирмы Intel Структурные особенности процессоров со структурой Nehalem
- •Структуры мвс с процессорами Nehalem
- •Мвс на базе процессоров фирмы amd
- •Структура шестиядерного процессора Istanbul приведена на рис. 23.
- •Примеры структур несимметричных мвс с процессорами линии Opteron Barcelona, Shanghai, Istanbul
- •Сравнение структур мвс с процессорами Barcelona, Shanghai, Istanbul с мвс с процессорами со структурой Nehalem
- •12 Ядерные процессоры Magny-Cours
- •Основные особенности 12-ти и 8-ми ядерных микросхем Magny-Cours
- •Структуры мвс с процессорами Magny--Cours
- •Перспективы развития процессоров фирмы amd для мвс
- •Мвс на базе процессоров фирмы ibm power6, power7 Основные особенности процессоров power6, power7
- •Процессор power6
- •Структуры мвс на базе процессоров power4, power5
- •Структуры мвс на базе процессоров power6, power7
- •Требования к серверам
- •Основные компоненты и подсистемы современных серверов
- •Поддерживаемые шины ввода-вывода
- •Raid контроллеры
- •Сервер Superdome 2 для бизнес-критичных приложений
- •Структура сервера
- •Надежность и доступность
- •Конфигурации и производительность
- •Основные особенности симметричных мультипроцессорных систем?
- •Векторные параллельные системы
- •Скалярная и векторная обработка
- •Основные особенности векторных параллельных систем
- •Векторные параллельные системы sx-6, sx-7 фирмы nec
- •Особенности вычислительной системы sx-7
- •Параллельная векторная система Earth Simulator
- •Cуперкластерная система
- •Суперкомпьютер CrayXt5h
- •«Лезвия» векторной обработки Cray x2
- •«Лезвия» с реконфигурируемой структурой
- •Массово параллельные вычислительные системы с скалярными вычислительными узлами и общей оперативной памятью
- •Массово параллельные вычислительные системы с скалярными вычислительными узлами и распределенной оперативной памятью
- •Cуперкомпьютеры семейства cray xt Семейство Cray xt5
- •«Гибридные» суперкомпьютеры CrayXt5h
- •«Лезвия» векторной обработки Cray x2
- •«Лезвия» с реконфигурируемой структурой
- •Развитие линии Cray хт5 – Cray xt6/xt6m
- •Модель Cray xe6
- •Процессор
- •Коммуникационная среда с топологией «3-мерный тор»
- •Реализация коммуникационных сред
- •Операционная система
- •Суперкомпьютер RoadRunner
- •Топологии связей в массово параллельных системах
- •Оценка производительности параллельных вычислительных систем
- •Необходимость оценки производительности параллельных вычислительных систем
- •Реальная производительность параллельных вычислительных систем Анализ «узких мест» процесса решения задач и их влияния на реальную производительность
- •«Узкие» места, обусловленные иерархической структурой памяти
- •Влияние на реальную производительность параллельных вычислительных систем соответствия их структуры и структуры программ
- •Анализ реальной производительности («узких» мест) мвс с общей оперативной памятью
- •Анализ реальной производительности («узких» мест) кластерных систем с распределённой оперативной памятью
- •Какие «узкие места» процесса решения задач существенно влияют на реальную производительность параллельных вычислительных систем?
- •Тенденции развития суперкомпьютеров. Список top500
- •Что такое список тор 500 и как он создается?
- •38 Редакция списка (ноябрь 2011 г.)
- •Коммуникационные технологии
- •Архитектуры, модели процессоров и их количество в системах списка
- •Основные тенденции развития суперкомпьютеров
- •Перспективные суперкомпьютеры тера- и экзафлопного масштаба
- •Производительность 500 лучших суперкомпьютеров за последние 18 лет
- •Перспективные суперкомпьютеры тера- и экзафлопного масштаба
- •Программа darpa uhpc
- •Основные положения программы uhpc
- •Экзафлопсный барьер: проблемы и решения
- •Проблемы
- •Эволюционный путь
- •Революционный путь
- •Кто победит?
- •Примеры перспективных суперкомпьютеров Суперкомпьютер фирмы ibm Mira
- •Стратегические суперкомпьютерные технологии Китая
Проблемы
«Стена памяти», которая переросла теперь в более общую проблему «перемещения данных»;
Энергопотребление.
Оценки показывают, что если не предпринимать специальных мер, то для питания экзафлопсной системы потребуется 150-200 MВт, что сопоставимо с атомной силовой установкой современного многоцелевого авианосца. Кроме того, это очень дорого в эксплуатации – плата за электроэнергию будет составлять 100 млн долл. в год, поэтому ставится задача не превысить уровень потребляемой энергии в 20 MВт, хотя и это много.
Примечательно, что более 70% энергии уходит на хранение данных в памяти и их перемещение.
Чтобы добиться потребления в 20 MВт вместо 150-200, надо не только решить проблему экономной передачи и хранения данных, но и снизить накладные расходы на организацию параллельного выполнения огромного количества операций, которые могут в десятки раз превышать затраты на выполнение полезных операций.
Требуемый рост параллелизма и оптимизации накладных расходов обусловливают проблему обеспечения отказоустойчивости для систем такого масштаба, с которыми ранее не работали, а также тесного сотрудничества специалистов разных областей для оптимизации систем в такой степени, которая тоже раньше не встречалась.
Проблема роста параллелизма сложна и многогранна настолько, что требует привлечения к ее решению мирового сообщества.
Эволюционный путь
В работах эволюционного подхода выделяются два направления:
«тяжелое» – использование мощных по производительности и потребляемой энергии коммерчески доступных универсальных многоядерных процессоров и заказных коммуникационных сетей (пример - линейка Cray XT);
«легкое» – использование гораздо большего (чем в первом подходе) количества не очень мощных, но экономичных, заказных процессоров и сетей, специальных методов компоновки вычислительных узлов (линейка IBM BlueGene).
В таблице 3 приведены оценки специалистами Окриджской лаборатории эволюционного развития суперкомпьютеров «тяжелого» направления.
Оценки экспертов DARPA менее оптимистичны:
рост количества ядер в одном процессоре прогнозируется только до 64.
будет по 4-8 аппаратных поддерживаемых потоков (тредов) в каждом ядре.
Количество процессоров на одной серверной плате – 16.
Из-за ограничений по энергетике и теплоотводу тактовая частота ожидается около 1,5 ГГц.
Параллелизм запуска операций в процессорном ядре – четыре операции умножения-сложения за такт.
Пиковая производительность процессора – около 0,7 TFLOPS.
Таблица 3.
Специалисты DARPA выделяют два варианта развития событий:
без ограничений потребляемой энергии;
с ограничением в 20 МВт.
При этом выделяются две модели потребления энергии при передаче и хранении данных – оптимистичная и пессимистичная.
При энергопотреблении порядка 150 MВт в 2020 году будет достижима пиковая производительность системы:
для оптимистичной модели – в 160 PFLOPS (0,16 EFLOPS);
для пессимистичной модели – лишь 9,2 PFLOPS. Количество стоек – 600.
Вариант с ограничением потребляемой энергии в 20 MВт для оптимистичной модели обеспечит 20 PFLOPS (0,02 EFLOPS), а для Fully Scaled модели – 1 PFLOPS. Количество стоек – 78.
В чем причины таких низких оценок?
Процессорное ядро используемых процессоров оптимизировано для быстрого выполнения однотредовых (однопотоковых) программ за счет совмещения выполнения машинных команд – применяется спекулятивное выполнение команд не в порядке их следования в программе, что означает применение затратных механизмов динамического переименования архитектурных регистров, запуска команд по готовности операндов и ряда других приемов. Такие ядра слишком невыгодно масштабировать в кристалле из-за занимаемой ими площади и потребляемой энергии, вдобавок они эффективны лишь для программ с хорошей пространственно-временной локализацией обращений к памяти.
В таблице 4 приведены оценки специалистов Аргонской лаборатории эволюционного развития суперкомпьютеров «легкого» направления. Это направление эксперты DARPA рассматривают как более перспективное.
Таблица 4.
Структура процессоров для суперкомпьютеров этого направления принципиально выбиралась простой и экономной по энергетике, и, судя по таблице 2, такой подход оказался полезным и для масштабируемости ядер в процессоре – их будет 96. Простота ядра позволяет повысить и частоту – до 2,8 ГГц.
Тем не менее получение экзафлопса планируется здесь лишь к 2019 году и при двукратном превышении ограничения по потребляемой энергии – 40 MВт. Дополнительно стоит отметить специфичность решаемых на таких суперкомпьютерах задач — они не требуют глобально адресуемой памяти.