4.2. Пример применения систолического массива

Особенности функционирования систолической массива рассмотрим на следующем примере.

Систолический массив применяется для умножения типа Y=AX, где A-ленточная матрица (матрица nxn), ширина полосы =p+q-1, а Х – вектор (см. рис.)

В данном случае p=2 и q=3. Управление операциями производится следующим образом. В начальном состоянии значения всех yi равно нулю. На основные операционные элементы РЕ с интервалом в два такта в порядке возрастания индекса i подаются xi и yi соответственно вправо и влево с интервалом в один такт. Элементы а ленточной матрицы перемещаются сверху вниз. Таким образом, в следующем по отношению к показанному на рисунке состоянию (через один такт) y₁ перемещается в РЕ2, у₂- в РЕ4, х₁- в РЕ2, а₁₁ –в РЕ2. В процессорных элементах поступившие значения х и а перемножаются, а результаты суммируются с поступившими значениями у (т. е. имеет место операция умножения с суммированием). При этом в процессорном элементе РЕ2 у₁ принимает значение а₁₁х₁, а в РЕ4 значение у₂ остается равным нулю. Далее, в состоянии через два такта в процессорном элементе РЕ₁ производятся операции умножения и суммирования поступивших х₂, а₁₂ и у₁в соответствии с выражением у₁у₁+а₁₂х₂, т.е. у₁ принимает значение а₁₁х₁+а₁₂х₂. В процессорных элементах РЕ2 и РЕ4 операции не производятся из-за отсутствия в них

а₁₁а₁₂0 х₁y₁

а₂₁ а₂₂ а₂₃ . . . х₂ y₂

а₃₁ а₃₂ а₃₃ а₃₄  х₃ = y₃

0 а₄₂ а₄₃ а₄₄ . . . х₄ y₄

0 0 а_{53
. . . . . .}

A X Y

а)

Рис. 4.3 Ленточный процесс на основе систолических массивов и схема векторного умножителя

данных. В РЕ3 операции умножения и суммирования осуществляются над имеющимися в нем данными х₁, а₂₁ и у₂в соответствии с выражением у₂0+а₂₁х₁. В состоянии через три такта у₁ выдается в виде значения а₁₁х₁+а₁₂х₂, а в РЕ2 производятся умножение и суммирование элементов х₂, а₂₂ и у₂ в соответствии с выражением у₂ у₂+а₂₂х₂, в результате чего у₂ принимает значение а₂₁х₁+а₂₂х₂, в результате чего у₂принимает значение а₂₁х₁+а₂₂х₂. В это время в РЕ4 значение у₃ становится равным а₃₁х₁. В РЕ1 и РЕ3 операции не производятся из-за отсутствия в них данных. В дальнейшем подобные операции повторяются, и с левого конца конвейера с процессорного элемента РЕ1 выдаются через каждые два такта значения уi в порядке возрастания индекса, начиная с у₁. Если при ширине ленточной матрицы  в структуре, аналогичной показанной на рис 6.3 управлять  процессорными элементами, то все расчеты завершаются через 2n+ тактов. При выполнении всех вычислений для умножения АХ в обычной последовательной машине потребовалось бы время, пропорциональное n. В структуре на рис. 4.3.

Анализ функционирования систолических массивов показывает, что такие массивы имеют черты как процессорных матриц (совокупность связанных ПЭ, выполняющих единую команду), так и явные признаки конвейерного вычислителя (результат формируется по тактам).

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 1213 / 1813 14 15 16 17 18 > Следующая >>>

Соседние файлы в папке Методические указания к лабораторным и список литературы

#
01.05.2014736.26 Кб30Методические указания.doc
#
01.05.201466.05 Кб20Учебно-методическая литература.doc