Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Московский государственный университет приборостроения и информатики

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Конвейерно-Векторные системы.doc

Скачиваний:

Добавлен:

16.12.2019

Размер:

156.16 Кб

Скачать

☆

<<< < Предыдущая 12 / 42 3 4 > Следующая >>>

3. Структура векторного процессора

Обобщенная структура векторного процессора приведена на рис. 7.6. На схеме показаны основные узлы процессора, без детализации некоторых связей между ними.

Рис. 7.6. Упрощенная структура векторного процессора

Обработка всех n компонентов векторов-операндов задается одной век- торной командой. Элементы векторов представляются числами в форме с пла-вающей запятой (ПЗ). АЛУ векторного процессора может быть реализовано в виде единого конвейерного устройства, способного выполнять все предусмот-ренные операции над числами с ПЗ. Однако более распространена иная струк-тура, в которой АЛУ состоит из отдельных блоков сложения и умножения, а иногда и блока для вычисления обратной величины, когда операция деления реализуется в виде . Каждый из таких блоков также конвейеризирован. Кроме того, в состав векторной вычислительной системы обычно включается и скалярный процессор, что позволяет параллельно выполнять векторные и скалярные команды.

Для хранения векторов-операндов вместо множества скалярных регист- ров используются векторные регистры, представляющие собой совокупность скалярных регистров, объединенных в очередь типа FIFO, способную хранить 50–100 чисел с плавающей запятой. Набор векторных регистров (V_a, V_b, V_c,…) имеется в любом векторном процессоре. Система команд векторного процес- сора поддерживает работу с векторными регистрами и обязательно включает в себя команды:

 загрузки векторного регистра содержимым последовательных ячеек па- мяти, указанных адресом первой ячейки этой последовательности;

 выполнения операций над всеми элементами векторов, находящихся в векторных регистрах;

 сохранения содержимого векторного регистра в последовательности ячеек памяти, указанных адресом первой ячейки этой последовательности.

Примером одной из наиболее распространенных операций, возлагаемых на векторный процессор, может служить операция перемножения матриц. Рас-смотрим перемножение двух матриц А и В размерности 3×3.

Элементы матрицы результата С связаны с соответствующими элемента- ми исходных матриц A и B операцией скалярного произведения:

Так, элемент с₁₁ вычисляется как

с₁₁₌a₁₁×b₁₁+ a₁₂×b₂₁ +a₁₃×b₃₁_.

Это требует трех операций умножения и после инициализации с₁₁ нулем – трех операций сложения. Общее число умножений и сложений для рассмат-риваемого примера составляет 9×3=27. Если рассматривать связанные операции умножения и сложения как одну кумулятивную операцию с+a×b, то для умно-жения двух матриц n×n необходимо n³операций типа «умножение-сложение». Вся процедура сводится к получению n²скалярных произведений, каждое из которых является итогом n операций «умножение-сложение», учитывая, что пе-ред вычислением каждого элемента с_ijего необходимо обнулить. Таким образом, скалярное произведение состоит из k членов:

С = А₁В₁+А₂В₂+А₃В₃+A₄B₄+ … +A_kB_k.

Векторный процессор с конвейеризированными блоками обработки для вычисления скалярного произведения показан на рис. 7.7.

Рис. 7.7. Векторный процессор для вычисления скалярного произведения

Векторы А и В, хранящиеся в памяти начиная с адресов adr_Aи adr_B, за-гружаются в векторные регистры V_A и V_Bсоответственно. Предполагается, что конвейерные умножитель и сумматор состоят из четырех сегментов, которые вначале инициализируются нулем, поэтому в течение первых восьми циклов, пока оба конвейера не заполнятся, на выходе сумматора будет 0. Пары (A_i,B_i) подаются на вход умножителя и перемножаются в темпе одна пара за цикл. После первых четырех циклов произведения начинают суммироваться с дан- ными, поступающими с выхода сумматора. В течение следующих четырех цик-лов на вход сумматора поступают суммы произведений из умножителя с нулем. К концу восьмого цикла в сегментах сумматора находятся четыре первых про-изведения A₁B₁,…,A₄B₄, а в сегментах умножителя–следующие четыре про- изведения: A₅B₅,…,A₈B₈. К началу девятого цикла на выходе сумматора будет A₁B₁, а на выходе умножителя–А₅В₅. Таким образом, девятый цикл начнется со сложения в сумматоре А₁В₁и А₅В₅. Десятый цикл начнется со сложения A₂B₂+A₆B₆ и т.д. Процесс суммирования в четырех секциях выглядит так:

C = A₁B₁+A₅B₅+A₉B₉+A₁₃B₁₃+…

+A₂B₂+A₆B₆+A₁₀B₁₀+A₁₄B₁₄+…

+A₃B₃+A₇B₇+A₁₁B₁₁+A₁₅B₁₅+…

+A₄B₄+A₈B₈+A₁₂B₁₂+A₁₆B₁₆+…

Когда больше не остается членов для сложения, система заносит в умно-житель четыре нуля. При этом в четырех сегментах конвейера сумматора со-держатся четыре скалярных произведения, соответствующие четырем суммам, приведенным в четырех строках показанного выше уравнения. Далее четыре частичных суммы складываются для получения окончательного результата.

Программа для вычисления скалярного произведения векторов А и В, хра-нящихся в областях памяти с начальными адресами adr_A и adr_B,имеет вид:

V_load V_A, adr_A

V_load V_B, adr^B

V_multiply V_C, V_A, V_B

Первые две векторные командыV_load загружают векторы из памяти в векторные регистры V_A и V_B. Векторная команда умножения V_multiply вычисляет произведение для всех пар одноименных элементов векторов и записывает полученный вектор в векторный регистр V_C.

Важным элементом векторного процессора (ВП) является регистр длины вектора. Этот регистр определяет, сколько элементов фактически содержит об-рабатываемый в данный момент вектор, то есть сколько индивидуальных опе-раций с элементами нужно сделать. В некоторых ВП присутствует также ре- гистр максимальной длины вектора, определяющий максимальное число эле-ментов вектора, которое может быть одновременно обработано аппаратурой процессора. Этот регистр используется при разделении очень длинных векторов на сегменты, длина которых соответствует максимальному числу элементов, обрабатываемых аппаратурой за один прием.

Часто приходится выполнять такие операции, в которых участвуют не все элементы векторов. Векторный процессор обеспечивает данный режим с помо-щью регистра маски вектора. В этом регистре каждому элементу вектора со-ответствует один бит. Установка бита в единицу разрешает запись соответст-вующего элемента вектора результата в выходной векторный регистр, а сброс в ноль – запрещает.

Элементы векторов в памяти расположены регулярно и при выполнении векторных операций достаточно указать значение шага по индексу. Существу- ют случаи, когда необходимо обрабатывать только ненулевые элементы век- торов. Для поддержки подобных операций в системе команд ВП предусмот- рены операции упаковки/распаковки (gather/scatter). Операция упаковки форми-рует вектор, содержащий только ненулевые элементы исходного вектора, а опе-рация распаковки производит обратное преобразование. Обе этих задачи век-торный процессор решает с помощью вектора индексов, для хранения кото- рого используется регистр вектора индексов, по структуре аналогичный ре-гистру маски. В векторе индексов каждому элементу исходного вектора со-ответствует один бит. Нулевое значение бита свидетельствует, что соответст-вующий элемент исходного вектора равен нулю.

Применение векторных команд окупается по двум причинам. Во-первых, вместо многократной выборки одних и тех же команд достаточно произвести выборку только одной векторной команды, что позволяет сократить издержки за счет устройства управления и уменьшить требования к пропускной способ-ности памяти. Во-вторых, векторная команда обеспечивает процессор упорядо-ченными данными. Когда инициируется векторная команда, ВС знает, что ей нужно извлечь n пар операндов, расположенных в памяти регулярным образом. Таким образом, процессор может указать памяти на необходимость начать изв-лечение таких пар. Если используется память с чередованием адресов, эти пары могут быть получены со скоростью одной пары за цикл процессора и направ- лены для обработки в конвейеризированный функциональный блок. При отсут-ствии чередования адресов или других средств извлечения операндов с высо- кой скоростью преимущества обработки векторов существенно снижаются.

<<< < Предыдущая 12 / 42 3 4 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
15.03.2016222.72 Кб69Колебания типа E в прямоугольном объемном резонаторе.docx
#
27.08.20191.1 Mб32Комолова.doc
#
12.07.201960.12 Кб45комп.преступление2.docx
#
02.12.20192.18 Mб6КОМПЛЕКС ЛЕКЦИЙ РАЗДЕЛ 1 ТЕОРИЯ СТАТИСТИКИ.doc
#
09.04.2015463.87 Кб75Компьютерные сети Лабораторная 01.doc
#
16.12.2019156.16 Кб12Конвейерно-Векторные системы.doc
#
05.01.2020628.16 Кб8Конечная математика - метода.docx
#
23.01.2020427.52 Кб2Конспект Лекции_Инновационный менеджмент.doc
#
20.04.20191.19 Mб90Конспект лекций 4306 - 2007.doc
#
14.03.2016176.13 Кб278Конспект лекций материаловед.2...doc
#
09.04.20154.36 Mб566Конспект лекций от мешка 1.doc