Структура векторного процессора Структуры типа "память-память" и "регистр-регистр". Ускорение вычислений в векторных системах

Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Набережночелнинский институт КФУ

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Ответы Архитектура ВС.docx

Скачиваний:

Добавлен:

31.08.2019

Размер:

2.86 Mб

Скачать

☆

<<< < Предыдущая 18 19 20 21 22 23 24 25 26 27 28 29 30 31 3233 / 4233 34 35 36 37 38 39 40 41 42 > Следующая >>>

Структура векторного процессора Структуры типа "память-память" и "регистр-регистр". Ускорение вычислений в векторных системах

Структура векторного процессора

Обобщенная структура векторного процессора приведена на рис. На схеме показаны основные узлы процессора, без детализации некоторых связей между ними.

Особенности векторного процессора

Обработка всех n компонентов векторов-операндов задается одной векторной командой.
Элементы векторов представляются числами в форме с плавающей запятой (ПЗ).
АЛУ векторного процессора может быть реализовано в виде:
- единого конвейерного устройства, способного выполнять все предусмотренные операции над числами с ПЗ
- АЛУ состоит из отдельных блоков сложения и умножения, а иногда и блока для вычисления обратной величины, когда операция деления x/y реализуется в видеx(1/y). Каждый из таких блоков также конвейеризирован.

Состав векторной системы:

Cкалярный процессор, что позволяет параллельно выполнять векторные и скалярные команды.
Векторные регистры для хранения векторов-операндов, которые представляют собой совокупность скалярных регистров, объединенных в очередь типа FIFO, способную хранить 50-100 чисел с плавающей запятой.

Набор векторных регистров (V_a, V_b, V_c,...) имеется в любом векторным процессоре. Система команд векторного процессора поддерживает работу с векторными регистрами и обязательно включает в себя команды:

загрузки векторного регистра содержимым последовательных ячеек памяти, указанных адресом первой ячейки этой последовательности;
выполнения операций над всеми элементами векторов, находящихся в векторных регистрах;
сохранения содержимого векторного регистра в последовательности ячеек памяти, указанных адресом первой ячейки этой последовательности.
Регистр длины вектора. Этот регистр определяет, сколько элементов фактически содержит обрабатываемый в данный момент вектор, то есть сколько индивидуальных операций с элементами нужно сделать.
Регистр максимальной длины вектора, определяющий максимальное число элементов вектора, которое может быть одновременно обработано аппаратурой процессора. Этот регистр используется при разделении очень длинных векторов на сегменты, длина которых соответствует максимальному числу элементов, обрабатываемых аппаратурой за один прием.
Регистр маски вектора служит для выполнения таких операций, в которых должны участвовать не все элементы векторов. В этом регистре каждому элементу вектора соответствует один бит. Установка бита в единицу разрешает запись соответствующего элемента вектора результата в выходной векторный регистр, а сброс в ноль — запрещает.
Регистр вектора индексов по структуре аналогичен регистру маски. Служит для выполнения операций упаковки/распаковки для получения вектора, содержащего ненулевые элементы и для обратной операции соответственно. В векторе индексов каждому элементу исходного вектора соответствует один бит. Нулевое значение бита свидетельствует, что соответствующий элемент исходного вектора равен нулю.

Достоинства векторного процессора

Вместо многократной выборки одних и тех же команд достаточно произвести выборку только одной векторной команды, что позволяет сократить издержки за счет устройства управления и уменьшить требования к пропускной способности памяти.
Векторная команда обеспечивает процессор упорядоченными данными. Когда инициируется векторная команда, ВС знает, что ей нужно извлечь n пар операндов, расположенных в памяти регулярным образом. Таким образом, процессор может указать памяти на необходимость начать извлечение таких пар. Если используется память с чередованием адресов, эти пары могут быть получены со скоростью одной пары за цикл процессора и направлены для обработки в конвейеризированный функциональный блок. При отсутствии чередования адресов или других средств извлечения операндов с высокой скоростью преимущества обработки векторов существенно снижаются.

Структуры типа «память-память» и «регистр-регистр»

Принципиальное различие архитектур векторных процессоров проявляется в том, каким образом осуществляется доступ к операндам. При организации «память-память» элементы векторов поочередно извлекаются из памяти и сразу же направляются в функциональный блок. По мере обработки получающиеся элементы вектора результата сразу же заносятся в память. В архитектуре типа «регистр-регистр» операнды сначала загружаются в векторные регистры,каждый из которых может хранить сегмент вектора, например 64 элемента. Векторная операция реализуется путем извлечения операндов из векторных регистров и занесения результата в векторные регистры.

Advanced Scientific Computer фирмы Texas Instruments Inc.
Control Data Corporation (Star 100, Cyber 200)

Все эти вычислительные системы появились в середине 70-х прошлого века после длительного цикла разработки, но к середине 80-х годов от них отказались. Причиной послужило слишком большое время запуска - порядка 100 циклов процессора. Это означает, что операции с короткими векторами выполняются очень неэффективно, и даже при длине векторов в 100 элементов процессор достигал только половины потенциальной производительности.

В вычислительных системах типа «регистр-регистр» векторы имеют сравнительно небольшую длину (в ВС семейства Cray - 64), но время запуска значительно меньше чем в случае «память-память». Преимущество ВС с режимом «регистр-регистр» - эффективная обработка коротких векторов Недостаток: обработка длинных векторов (векторные регистры должны загружаться сегментами несколько раз). В настоящее время ВП типа «регистр-регистр» доминируют на компьютерном

Реализация систем типа «регистр-регистр»

Cray Research Inc. Y-MP и С-90
фирмы Fujitsu, Hitachi и NEC

Это вычислительные системы фирмы, в частности модели Y-MP и С-90. Аналогичный подход заложен в системы фирм Fujitsu, Hitachi и NEC. Время цикла в современных ВС варьируется от 2,5 нс (NEC SX-3) до 4,2 нс (Cray C90), а производительность, измеренная по тесту UNPACK, лежит в диапазоне от 1000 до 2000 MFLOPS (от 1 до 2 GFLOPS).

<<< < Предыдущая 18 19 20 21 22 23 24 25 26 27 28 29 30 31 3233 / 4233 34 35 36 37 38 39 40 41 42 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
27.11.201970.66 Кб2Основы эконом. теории (ГиМУ).doc
#
10.11.2018104.96 Кб2от венеры.doc
#
26.02.201624.87 Кб135От мифа к логосу.docx
#
26.02.201623.21 Кб93От мифа к логосу.docx
#
24.11.2019121.34 Кб3Ответа на тест из 31%.doc
#
31.08.20192.86 Mб59Ответы Архитектура ВС.docx
#
12.11.201986.02 Кб6ответы иднит 8 -19.doc
#
26.02.201688.98 Кб17ответы к экзамену мини.docx
#
26.02.201691.23 Кб74ответы к экзамену оик.docx
#
13.09.201939.09 Кб10ответы на вопросы для зачета по социологии.docx
#
24.11.2019106.5 Кб2Ответы на тест из 41%.doc