
- •Что такое параллельные вычислительные системы и зачем они нужны
- •Некоторые примеры использования параллельных вычислительных систем Об использования суперкомпьютеров
- •Классификация параллельных вычислительных систем
- •Классификация современных параллельных вычислительных систем с учетом структуры оперативной памяти, модели связи и обмена Симметричные скалярные мультипроцессорные вычислительные системы
- •Несимметричные скалярные мультипроцессорные вычислительные системы
- •Массово параллельные вычислительные системы с общей оперативной памятью
- •Массово параллельные вычислительные системы с распределенной оперативной памятью
- •Серверы
- •Требования к серверам Основные компоненты и подсистемы современных серверов
- •Структуры несимметричных мвс с фирмы Intel Структурные особенности процессоров со структурой Nehalem
- •Структуры мвс с процессорами Nehalem
- •Мвс на базе процессоров фирмы amd
- •Структура шестиядерного процессора Istanbul приведена на рис. 23.
- •Примеры структур несимметричных мвс с процессорами линии Opteron Barcelona, Shanghai, Istanbul
- •Сравнение структур мвс с процессорами Barcelona, Shanghai, Istanbul с мвс с процессорами со структурой Nehalem
- •12 Ядерные процессоры Magny-Cours
- •Основные особенности 12-ти и 8-ми ядерных микросхем Magny-Cours
- •Структуры мвс с процессорами Magny--Cours
- •Перспективы развития процессоров фирмы amd для мвс
- •Мвс на базе процессоров фирмы ibm power6, power7 Основные особенности процессоров power6, power7
- •Процессор power6
- •Структуры мвс на базе процессоров power4, power5
- •Структуры мвс на базе процессоров power6, power7
- •Требования к серверам
- •Основные компоненты и подсистемы современных серверов
- •Поддерживаемые шины ввода-вывода
- •Raid контроллеры
- •Сервер Superdome 2 для бизнес-критичных приложений
- •Структура сервера
- •Надежность и доступность
- •Конфигурации и производительность
- •Основные особенности симметричных мультипроцессорных систем?
- •Векторные параллельные системы
- •Скалярная и векторная обработка
- •Основные особенности векторных параллельных систем
- •Векторные параллельные системы sx-6, sx-7 фирмы nec
- •Особенности вычислительной системы sx-7
- •Параллельная векторная система Earth Simulator
- •Cуперкластерная система
- •Суперкомпьютер CrayXt5h
- •«Лезвия» векторной обработки Cray x2
- •«Лезвия» с реконфигурируемой структурой
- •Массово параллельные вычислительные системы с скалярными вычислительными узлами и общей оперативной памятью
- •Массово параллельные вычислительные системы с скалярными вычислительными узлами и распределенной оперативной памятью
- •Cуперкомпьютеры семейства cray xt Семейство Cray xt5
- •«Гибридные» суперкомпьютеры CrayXt5h
- •«Лезвия» векторной обработки Cray x2
- •«Лезвия» с реконфигурируемой структурой
- •Развитие линии Cray хт5 – Cray xt6/xt6m
- •Модель Cray xe6
- •Процессор
- •Коммуникационная среда с топологией «3-мерный тор»
- •Реализация коммуникационных сред
- •Операционная система
- •Суперкомпьютер RoadRunner
- •Топологии связей в массово параллельных системах
- •Оценка производительности параллельных вычислительных систем
- •Необходимость оценки производительности параллельных вычислительных систем
- •Реальная производительность параллельных вычислительных систем Анализ «узких мест» процесса решения задач и их влияния на реальную производительность
- •«Узкие» места, обусловленные иерархической структурой памяти
- •Влияние на реальную производительность параллельных вычислительных систем соответствия их структуры и структуры программ
- •Анализ реальной производительности («узких» мест) мвс с общей оперативной памятью
- •Анализ реальной производительности («узких» мест) кластерных систем с распределённой оперативной памятью
- •Какие «узкие места» процесса решения задач существенно влияют на реальную производительность параллельных вычислительных систем?
- •Тенденции развития суперкомпьютеров. Список top500
- •Что такое список тор 500 и как он создается?
- •38 Редакция списка (ноябрь 2011 г.)
- •Коммуникационные технологии
- •Архитектуры, модели процессоров и их количество в системах списка
- •Основные тенденции развития суперкомпьютеров
- •Перспективные суперкомпьютеры тера- и экзафлопного масштаба
- •Производительность 500 лучших суперкомпьютеров за последние 18 лет
- •Перспективные суперкомпьютеры тера- и экзафлопного масштаба
- •Программа darpa uhpc
- •Основные положения программы uhpc
- •Экзафлопсный барьер: проблемы и решения
- •Проблемы
- •Эволюционный путь
- •Революционный путь
- •Кто победит?
- •Примеры перспективных суперкомпьютеров Суперкомпьютер фирмы ibm Mira
- •Стратегические суперкомпьютерные технологии Китая
Конфигурации и производительность
Кроме процессоров Itanium 9350, в сервере Superdome 2 могут применяться модели 9340 с тактовой частотой 1,6 ГГц и кэшем L3 емкостью 20 Гбайт. Имеются три группы моделей серверов, отличающихся числом процессорных разъемов (8, 16 и 32): сервер Superdome 2 8s, -16s и -32s. Старшие модели отличаются также числом IOX — до 4 в сервере Superdome 2 8s, и до 8 — в остальных. Сервер Superdome 2 32s содержат до 128 ядер и обеспечивают суммарную пропускную способность ввода/вывода до 816 Гбайт/с, а производительность межсоединения достигает при этом рекордного в индустрии показателя — 1,248 Тбайт/с.
Серверы Superdome 2 могут работать c разными ОС, включая Windows Server 2008 R2, но основной следует считать HP UX 11i — рекордные показатели производительности были установлены именно в этой среде. На тестах TPC-H (для систем поддержки принятия решений) c емкостью хранения в 1 Тбайт сервер Superdome 2 в конфигурации с 64 ядрами в среде HP-UX 11i v3/Oracle 11g R2 Enterprise Edition достиг результата 140181 QphH. Предыдущий рекорд — 123323 QphH, принадлежащий серверу Superdome, был получен тоже на 64 ядрах (32 процессора Itanium 2 9140N 1,6 ГГц).
Имеется целая иерархия средств организации сервера Superdome 2 в виде набора изолированных разделов, в которых можно образовать виртуальные разделы vPars (c гранулярностью до одного ядра и одной платы PCI-E). Применяя средства HPVM (HP Integrity Virtual Machines), можно достигнуть гранулярности меньше одного ядра, а надежность обеспечивается средствами HP UX SRP (Secure Resource Partitions).
Серверы Superdome нашли широкое применение при решении самых различных вычислительных проблем, включая ресурсоемкие задачи квантовой химии, требующие больших объемов памяти на один процесс, а использование Superdome 2 для таких задач оказывается еще эффективнее. В любом случае, как следует из анализа структуры, наиболее важная область применения серверов Superdome 2 — критические для бизнеса приложения.
Контрольные вопросы
-
Основные особенности структуры МВС?
-
По каким признакам классифицируются современные МВС?
-
Основные особенности симметричных мультипроцессорных систем?
-
Основные особенности несимметричных мультипроцессорных систем?
-
Почему симметричные МВС плохо масштабируются?
-
Какие процессоры фирмы AMD используются в современных несимметричных МВС?
-
Какие процессоры фирмы IBM используются в современных несимметричных МВС?
-
Основные особенности процессоров со структурой Nehalem?
-
Основные особенности процессоров линии Opteron?
-
Основные особенности процессоров POWER7?
-
Структуры МВС на базе процессоров со структурой Nehalem
-
Структуры МВС на базе процессоров линии Opteron
-
Структуры МВС на базе процессоров POWER7
-
Что такое сервер?
-
Основные области применения серверов?
-
Требования к серверам?
-
Основные компоненты и подсистемы современных серверов?
-
Какие требования предъявляются к дисковой подсистеме сервера?
-
Почему в серверах используют RAID-контроллеры для работы с дисками?
Векторные параллельные системы
Содержание
Методы повышения быстродействия вычислительных систем
Принципы векторной обработки данных
Скалярная и векторная обработка
Что такое векторизация?
Как осуществить векторизацию?
Реализация принципов векторной обработки
Основные особенности векторных параллельных систем
Векторные параллельные системы SX-6, SX-7 фирмы NEC
Векторная параллельная система Earth Simulator
Векторная параллельная система CrayXT5h
Методы повышения быстродействия вычислительных систем
Область применения методов достижения высокого и сверхвысокого быстродействия охватывает все уровни создания вычислительных систем.
На самом нижнем уровне - это передовая технология конструирования и изготовления быстродействующих элементов и плат с высокой плотностью монтажа. В этой сфере лежит наиболее прямой путь к увеличению скорости, поскольку если бы, например, удалось все задержки в вычислительной системе сократить в к раз, то это привело бы к увеличению быстродействия в такое же число раз. В последние годы были достигнуты огромные успехи в создании быстродействующей элементной базы и соответствующих методов монтажа, и ожидается дальнейший прогресс, основанный на использовании новых технологий и снижения размеров устройств. Этот путь, однако, имеет ряд ограничений:
1. Для определенного уровня технологии обеспечивается определенный уровень быстродействия элементной базы: как только он оказался достигнутым, дальнейшее увеличение быстродействия сопровождается огромными расходами вплоть до достижения того порога, за которым уже нет технологий, обеспечивающих большее быстродействие.
2. Более быстродействующие элементы обычно имеют меньшую плотность монтажа, что, в свою очередь, требуют более длинных соединительных кабелей между платами и, следовательно, приводит к увеличению задержек (за счет соединений) и уменьшению выигрыша в производительности.
3. Более быстродействующие элементы обычно рассеивают больше тепла. Поэтому требуются специальные меры по отводу тепла, что еще больше снижает плотность монтажа и, следовательно, быстродействие. Для того чтобы избежать дополнительных расходов, задержек за счет соединений и увеличения рассеяния тепла, целесообразно, по-видимому, применять быстродействующие элементы не везде, а только в тех частях, которые соответствуют «узким местам». Однако, путь увеличения быстродействия элементов имеет свои ограничения и может наступить момент, когда станет необходимым или более целесообразным использовать для реализации операции сложения другие способы.
Следующий шаг в направлении повышения быстродействия предполагает уменьшение числа логических уровней при реализации комбинационных схем. Хорошо известно, что любая функция может быть реализована с помощью схем с двумя логическими уровнями. Однако в сложных системах это приводит к появлению громоздких устройств, содержащих очень большое число вентилей с чрезмерными коэффициентами соединений по входу и выходу. Следовательно, на данном этапе конструкторская задача состоит в создании схем с малым числом логических уровней, которое бы удовлетворяло ограничениям по количеству вентилей и их коэффициентам соединений по входу и выходу. В настоящее время разработаны принципы построения схем, требующих меньшее число вентилей и обладающих меньшими задержками, и предложены методы их создания. В силу присущих ограничений только один этот путь, как правило, не может дать требуемого увеличения производительности.
Следующий уровень охватывает способы реализации основных операций, таких как сложение, умножение и деление. Для того, чтобы увеличить cкорость выполнения этих операций, необходимо использовать алгоритмы, которые приводили бы к быстродействующим комбинационным схемам и требовали небольшого числа циклов. В результате успешных исследований и разработок в области арифметических устройств создан ряд алгоритмов, которые могут быть использованы в условиях тех или иных ограничений. С точки зрения применения высокопроизводительных вычислительных систем для научных расчетов особый интерес представляет реализация принципа опережающего просмотра при операциях сложения, сложения с сохраняемым переносом и записи при матричном умножении. Сюда же относятся проблемы использования избыточности при делении и реализация деления в виде цепочки операций умножения.
Еще один резерв, используемый для повышения эффективности работы процессора - это сокращение временных затрат при обращениях к оперативной памяти. Обычные подходы здесь состоят, во-первых, в расширении путей доступа за счет разбиения оперативной памяти на модули, обращение к которым может осуществляться одновременно; во-вторых, в применении дополнительной сверхбыстродействующей памяти (кэш-памяти) и, наконец, в увеличении числа внутренних регистров в процессоре.
Использование всех перечисленных способов тесно связано с организацией вычислительных систем. Длительность исполнения одной команды может быть уменьшена за счет временного перекрытия различных ее фаз. К примеру, вычисление адреса, по которому нужно записать результат, может быть выполнено одновременно с самой операцией. Этот подход требует, разумеется, дополнительного оборудования, поскольку модули оперативной памяти не могут быть одновременно задействованы в совмещаемых фазах. Увеличение быстродействия, которое можно при этом достичь, зависит от формата (состава) команды, поскольку именно им определяется наличие независимых фаз.
Одним из методов повышения производительности вычислительных систем является конвейеризация. Основу конвейерной обработки составляет раздельное выполнение некоторой операции в несколько этапов (за несколько ступеней) с передачей данных одного этапа следующему. Производительность при этом возрастает благодаря тому, что одновременно на различных ступенях конвейера выполняются несколько операций. Конвейеризация эффективна только тогда, когда загрузка конвейера близка к полной, а скорость подачи новых операндов соответствует максимальной производительности конвейера. Если происходит задержка, то параллельно будет выполняться меньше операций и суммарная производительность снизится.
Наконец, необходимо рассмотреть структуру алгоритма, по которому работает система. На этом уровне основной подход к повышению быстродействия состоит в том, чтобы выполнять одновременно несколько команд. Этот подход отличается от того, который реализован в обычной фон-неймановской машине, когда команды исполняются строго последовательно одна за другой. Параллельный подход приводит к различным вариантам структуры в зависимости от способа, по которому осуществляется задание очередности следования команд и управление их исполнением. Распараллеливание позволяет значительно увеличить производительность систем при решении широкого класса прикладных задач.
Перечисленные подходы касаются аппаратуры, логической организации и структуры систем. Усилия, затрачиваемые в этих областях, необходимо поддержать на программно-алгоритмическом уровне. На этом уровне должны использоваться либо специальные языки программирования, предоставляющие средства для явного описания параллелизма, либо методы выявления параллелизма в последовательных программах. Кроме того, алгоритм приложений должен обладать внутренним параллелизмом, соответствующим особенностям данной структуры вычислительной системы. Использование неадекватных алгоритмов и языков способно практически свести на нет возможности для реализации высокоскоростных вычислений, заложенные в структуре.
Использование конвейерного принципа и других структурных методов позволило существенно повысить производительность вычислительных систем – еще примерно на 3-4 десятичных порядка. Однако возможности традиционных структурных методов ускорения выполнения команд практически исчерпаны.
Следовательно, единственное направление, ведущее к дальнейшему повышению производительности - это более полное использование параллелизма при обработке данных, в частности, использование векторной обработки.
Принципы векторной обработки данных