- •Что такое параллельные вычислительные системы и зачем они нужны
- •Некоторые примеры использования параллельных вычислительных систем Об использования суперкомпьютеров
- •Классификация параллельных вычислительных систем
- •Классификация современных параллельных вычислительных систем с учетом структуры оперативной памяти, модели связи и обмена Симметричные скалярные мультипроцессорные вычислительные системы
- •Несимметричные скалярные мультипроцессорные вычислительные системы
- •Массово параллельные вычислительные системы с общей оперативной памятью
- •Массово параллельные вычислительные системы с распределенной оперативной памятью
- •Серверы
- •Требования к серверам Основные компоненты и подсистемы современных серверов
- •Структуры несимметричных мвс с фирмы Intel Структурные особенности процессоров со структурой Nehalem
- •Структуры мвс с процессорами Nehalem
- •Мвс на базе процессоров фирмы amd
- •Структура шестиядерного процессора Istanbul приведена на рис. 23.
- •Примеры структур несимметричных мвс с процессорами линии Opteron Barcelona, Shanghai, Istanbul
- •Сравнение структур мвс с процессорами Barcelona, Shanghai, Istanbul с мвс с процессорами со структурой Nehalem
- •12 Ядерные процессоры Magny-Cours
- •Основные особенности 12-ти и 8-ми ядерных микросхем Magny-Cours
- •Структуры мвс с процессорами Magny--Cours
- •Перспективы развития процессоров фирмы amd для мвс
- •Мвс на базе процессоров фирмы ibm power6, power7 Основные особенности процессоров power6, power7
- •Процессор power6
- •Структуры мвс на базе процессоров power4, power5
- •Структуры мвс на базе процессоров power6, power7
- •Требования к серверам
- •Основные компоненты и подсистемы современных серверов
- •Поддерживаемые шины ввода-вывода
- •Raid контроллеры
- •Сервер Superdome 2 для бизнес-критичных приложений
- •Структура сервера
- •Надежность и доступность
- •Конфигурации и производительность
- •Основные особенности симметричных мультипроцессорных систем?
- •Векторные параллельные системы
- •Скалярная и векторная обработка
- •Основные особенности векторных параллельных систем
- •Векторные параллельные системы sx-6, sx-7 фирмы nec
- •Особенности вычислительной системы sx-7
- •Параллельная векторная система Earth Simulator
- •Cуперкластерная система
- •Суперкомпьютер CrayXt5h
- •«Лезвия» векторной обработки Cray x2
- •«Лезвия» с реконфигурируемой структурой
- •Массово параллельные вычислительные системы с скалярными вычислительными узлами и общей оперативной памятью
- •Массово параллельные вычислительные системы с скалярными вычислительными узлами и распределенной оперативной памятью
- •Cуперкомпьютеры семейства cray xt Семейство Cray xt5
- •«Гибридные» суперкомпьютеры CrayXt5h
- •«Лезвия» векторной обработки Cray x2
- •«Лезвия» с реконфигурируемой структурой
- •Развитие линии Cray хт5 – Cray xt6/xt6m
- •Модель Cray xe6
- •Процессор
- •Коммуникационная среда с топологией «3-мерный тор»
- •Реализация коммуникационных сред
- •Операционная система
- •Суперкомпьютер RoadRunner
- •Топологии связей в массово параллельных системах
- •Оценка производительности параллельных вычислительных систем
- •Необходимость оценки производительности параллельных вычислительных систем
- •Реальная производительность параллельных вычислительных систем Анализ «узких мест» процесса решения задач и их влияния на реальную производительность
- •«Узкие» места, обусловленные иерархической структурой памяти
- •Влияние на реальную производительность параллельных вычислительных систем соответствия их структуры и структуры программ
- •Анализ реальной производительности («узких» мест) мвс с общей оперативной памятью
- •Анализ реальной производительности («узких» мест) кластерных систем с распределённой оперативной памятью
- •Какие «узкие места» процесса решения задач существенно влияют на реальную производительность параллельных вычислительных систем?
- •Тенденции развития суперкомпьютеров. Список top500
- •Что такое список тор 500 и как он создается?
- •38 Редакция списка (ноябрь 2011 г.)
- •Коммуникационные технологии
- •Архитектуры, модели процессоров и их количество в системах списка
- •Основные тенденции развития суперкомпьютеров
- •Перспективные суперкомпьютеры тера- и экзафлопного масштаба
- •Производительность 500 лучших суперкомпьютеров за последние 18 лет
- •Перспективные суперкомпьютеры тера- и экзафлопного масштаба
- •Программа darpa uhpc
- •Основные положения программы uhpc
- •Экзафлопсный барьер: проблемы и решения
- •Проблемы
- •Эволюционный путь
- •Революционный путь
- •Кто победит?
- •Примеры перспективных суперкомпьютеров Суперкомпьютер фирмы ibm Mira
- •Стратегические суперкомпьютерные технологии Китая
Надежность и доступность
Все базовые аппаратные компоненты и пути, их соединяющие, в сервере Superdome 2 дублированы, а все основные аппаратные компоненты допускают возможность горячей замены по схеме OLARD (OnLine Addition, Replacement, Deletion). Повышение уровня доступности достигается благодаря применению системы разбиения на разделы, а также средств виртуализации. В таблице 1 представлена часть наиболее важных и интересных аппаратных особенностей основных подсистем сервера Superdome 2, способствующих повышению отказоустойчивости.
Таблица 1. Некоторые особенности сервера Superdome 2 по обеспечению отказоустойчивости и доступности
|
Подсистема |
Особенности |
|
Память |
ECC; SDDC; DDDC;scrubbing ОП; отказоустойчивость каналов (сбросы и повтор операций); дифференциация между CRC-ошибкой канала SMI и ECC-сбоем микросхем памяти |
|
Процессоры |
Обнаружение и коррекция ошибок кэша; самолечение кэшей L2, L3; применение в технологии изготовления специальных защелок для борьбы с мягкими ошибками (например, от космических лучей); защита логики ядер по четности и кодами ЕСС; продвинутые средства структуры обработки ошибок МСА; восстановление от МСА-ошибок на уровне HP UX; обнаружение и коррекция ошибок путей QPI (с применением CRC, возможности повтора операции и др.) |
|
Каналы (ввода/вывода, ячеек и межсоединения) |
Повторение операции на канальном уровне; уменьшение эффективной ширины сбоящего канала; горячая замена XFM; подсоединение IOX через XFM |
|
Коммутатор |
Избыточные каналы к ячейкам; явная поддержка аппаратных разделов |
|
Слоты I/O |
Обнаружение и коррекция ошибок; изоляция сбоев PCI в одном слоте; улучшенное восстановление после ошибок I/O; поддержание многих путей; возможности OLARD для плат PCI-E. |
|
Набор микросхем |
Обнаружение и коррекция ошибок внутренних путей данных; применение специальных защелок против «мягких» ошибок; запасные строки кэша в L4 |
|
Поддержка разделов и Инфраструктура системы |
nPartitions (аппаратная и программная изоляция разделов); OLARD для ячеек; избыточные тактовые генераторы с горячей заменой; полностью избыточные пути распространения синхросигналов; управление автоматическим обходом ошибок и горячей заменой (OA, GPSM); избыточность и автоматический обход ошибок в межсоединении с пакетным протоколом; возможности ремонта без выключения нескольких разделов; избыточность источников питания (2N); избыточность вентиляторов; пассивные системные платы; средства Analysis Engine |
В подсистеме памяти применяются не только коды ECC, но и технология SDDC (Single Device Data Correction, известна также под названием Chipkill), позволяющая обойти сбои одной микросхемы в DIMM и DDDC (Double Device Data Correction), а также корректировать сбои сразу в двух последовательных микросхемах. Для памяти применяется технология scrubbing тестирования и исправления ошибок одновременно с работой приложений.
Эти и ряд других аппаратных усовершенствований в сервере Superdome 2 позволили в 17 раз уменьшить вероятность поломки модулей DIMM и минимизировать риск повреждения данных. Кроме того, в самих процессорах возросла доля аппаратуры, контролируемой на наличие ошибок, — средствами контроля покрывается весь кэш и 70% возможных источников сбоев ядер. По разным оценкам, надежность Tukwilla вдвое выше, чем у массовых процессоров.
Применение отказоустойчивых каналов в ячейках, подсистеме ввода/вывода и системном коммутаторе означает высокую доступность всех аппаратных разделов сервера Superdome 2. Cервисное обслуживание каналов не требует остановки системы, а удаление большинства компонентов, потенциально способных вызвать аппаратных ошибки подсистемы ввода/вывода, позволило поднять время доступности сервера Superdome 2 в 20-25 раз по сравнению с предыдущей модификацией. Отказоустойчивость повышена и благодаря возможностям онлайн-ремонта компонентов подсистемы ввода/вывода.
Что касается управления сервера Superdome 2, то следует отметить перенос обнаружения и регистрации аппаратных ошибок с уровня операционной системы на встроенное программное обеспечение (firmware) благодаря применению средств диагностики Analysis Engine, позволяющее анализировать сбои, даже если нельзя загрузить раздел. Единой точкой входа для сервисного обслуживания сервера Superdome 2 являются (задублированные) модули средств управления OA. Вся система и все iLO ячеек управляются через OA, которые имеют доступ и к средствам конфигурирования разделов. Работа с OA может осуществляться через командную строку или Web-интерфейс, причем к ОA можно обратиться, даже если сервер не работает. В качестве некоторого более примитивного аналога такого подхода можно упомянуть платы IPMI в серверах стандартной архитектуры.
Cами модули OA, как и задублированные модули GPSM (Global Partitions Service Modules), содержащие, в частности, тактовые генераторы и средства мониторинга блоков питания и вентиляторов верхней половины узлов, допускают возможность горячей замены.
