Пример вычислений с помощью систолического процессора

Организацию вычислительного процесса в систолических массивах различной конфигурации с использованием ПЭ, функциональная схема которого показана на рис. 29.19, удобнее всего пояснить на примере умножения матрицы на вектор Х={х₁,х₂,...,х_n}.

Рис.29.19. Функциональная схема процессорного элемента систолической матрицы

Элементы вектора произведения Y = {у₁,у ₂,..., у_n} могут быть получены периодически повторяющимися операциями

где k — номер шага вычислений.

Пусть имеется матрица А размером пхп с шириной полосы ненулевых элементов р + q- 1= 4. Схема умножения вектора на матрицу в этом случае представлена на рис. 29. 20.

Рис.29.20. Схема умножения вектора на матрицу

Определенная выше последовательность операций для вычисления компонентов вектора Y может быть получена за счет конвейерного прохождения х_i и y_i, через р + q - 1 последовательно соединенных ПЭ (рис. 29.21)

Рис.29.21. Организация вычисления в линейной систолической структуре

Компоненты y_i(i = 1,..., п) вектора Y, имеющие в начальный момент нулевое значение, поступают на вход массива и продвигаются через ПЭ справа налево, в то время как компоненты вектора X движутся слева направо. Элементы матрицы в порядке, указанном на рисунке, вводятся в ПЭ сверху вниз. Промежуточные результаты у_i(k) накапливаются по мере продвижения от одного ПЭ к другому.

В табл. 29.1 показаны первые 6 шагов алгоритма умножения для рассматриваемой структуры.

Таблица 29.1. Последовательность умножения матрицы на вектор в систолической ВС

Шаг	Состояние				Комментарий
Шаг	ПЭ₁	ПЭ₂	ПЭ₃	ПЭ₄	Комментарий
0				y₁	Элемент y₁поступил в ПЭ₄ поступил в ПЭ₄
1	x₁		y₁		Элемент x₁ поступил в ПЭ₁, элемент y_i движется влево
2		y₁ a₁₁ x₁		y₂	Элемент а₁₁ поступил в ПЭ₂, у₁= у₁₊ а_11*х_1,то есть у₁=а₁₁₊х₁
3	y₁ a₁₂ x₂		y₂ a₂₁ x₁		Элемент а₁₂ поступил в ПЭ_1, а₂₁ — в ПЭ₃, у₁= а_11х₁+а_12х_2,у₂=а_21*х₁
4		y₂ a₂₂ x₂		y₃ a₃₁ x₁	Элемент у₁ вышел из ПЭ₁, у₁= а_21х₁+а_22х_2,у₃=а_31*х₁
5	y₂ a₂₃ x₃		y₃ a₃₂ x₂		у₂= а_21х₁+а_22х₂+а_23х₃ у₃=а_31х₁+а_32*х₂
6		y₃ a₃₃ x₃		y₄ a₄₂ x₂	Элемент у₂ вышел из ПЭ₁, у₄ = а₄₂ * х₂, уз ⁼ а_31х₁ + а_32х₂+а_33*х₃

Заметим, что при такой организации вычислительного процесса для каждого ПЭ такты выполнения операции чередуются с тактами простоя. Таким образом, в каждый момент времени активны только процессорных элементов, следовательно, каждый выходной результат формируется за два такта. Для вычисления всех п элементов выходного вектора Y необходимо 2п + р + q - 1 тактов.

<<< < Предыдущая 1 2 3 4 5 6 78 / 98 9 > Следующая >>>

Соседние файлы в папке Lection

#
10.05.2015259.07 Кб18810.doc
#
10.05.2015165.38 Кб15111.doc
#
10.05.2015264.7 Кб10824.doc
#
10.05.2015203.26 Кб16825.doc
#
10.05.201572.19 Кб10127.doc
#
10.05.2015338.94 Кб19229.doc
#
10.05.201582.94 Кб10930.doc
#
10.05.2015279.55 Кб1135.doc
#
10.05.2015230.4 Кб1067.doc
#
10.05.2015513.54 Кб1238.doc
#
10.05.2015151.55 Кб1009.doc