Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Книги / Книга Проектирование ВПОВС (часть 2)

.pdf
Скачиваний:
84
Добавлен:
01.06.2015
Размер:
4.62 Mб
Скачать

где

{1,2,3,4}

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

В этом случае из процессора выдается только одна переменная на

шины,

параллельные

x

l

и

x

r

соответственно, а прием производится

 

 

одновременно с двух числовых шин. Совмещение приема возможно и при наличии специального буфера на входе микропроцессора.

Проведенное исследование позволяет сформулировать окончательный алгоритм работы обобщенного цифрового интегратора, который имеет вид

 

t

Z

i 1

 

 

 

 

 

 

 

 

 

t

Z

i 1

 

 

 

O

z (i 1)

 

 

 

 

A

 

A

 

 

p(i K 1) j

;

t

 

K 0

t

 

 

 

 

K 0

 

 

 

 

 

A

B

O ,

 

 

t

 

 

 

 

 

 

 

 

 

t

 

D

 

zi

 

 

 

 

 

Q t Zi 1

 

,

 

q

Z

 

 

,

 

 

i

1

 

 

 

t

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

B

 

B

 

y

q(i K 1)(

j S 1)

t

 

KS

t

 

 

 

K ,S 0

 

 

 

 

(4.7)

 

 

 

 

 

D xr ,

j 0, N,

i 0,1, 2, ...

 

 

Для

организации обмена

(B

KS

 

t

y

q(i K 1)( j S 1)

)

необходимо

 

 

 

 

и формирования слагаемых

в состав цифрового интегратора

включать блок многовходовой памяти. Схема подключения блока памяти к ПЭ показана на рис. 5.18.

5.3. Организация синхронных проблемно-ориентированных систем с

узловым распараллеливанием

Вернемся теперь к системе (1.42). Для того чтобы она могла быть реализована, необходимо, чтобы число обобщенных цифровых интеграторов было равно размерности системы. В соответствии с общей структурой (см.

рис. 5.18) все обобщенные цифровые интеграторы объединяются с помощью полнодоступного коммутатора». Так как каждый обобщенный цифровой интегратор представляет собой ансамбль ПЭ, то последнее утверждение

311

относится к каждому ПЭ. На рис. 5.18 показана векторная вычислительная структура, содержащая М обычных цифровых интеграторов, каждый из которых содержит N-процессорных элементов. Процессорные элементы,

принадлежащие одному интегратору, в соответствии с сформулированными выше требованиями, должны объединяться с 4-шинной сегментированной магистралью. На рис 5.19 она для простоты изображена одной линией.

Одноименные ПЭ различных интеграторов объединены через коммутатор и образуют узловой процессор.

По аналогичному правилу можно организовать и двухмерную структуру. Двухмерная структура с узловым распараллеливанием показана на рис.5.19. Кружочками с индексом r1 обозначены процессорные элементы,

принадлежащие обобщенным цифровым интеграторам по направлению x1, а с индексом r2 направлению x2. Все процессорные элементы r = r1+ r2

объединяются через полнодоступный коммутатор и образуют матричный узловой процессор. Все r процессорных элементов узлового процессора участвуют в реализации системы (1.42). Однако такой подход к построению вычислительной структуры обладает существенным недостатком,

заключающимся в том, что система не в состоянии адаптироваться к исходной задаче.

Векторная структура с узловым распараллеливанием показана на рис. 5.18.

312

1-й ОЦИ

1

2

3

...

n

 

 

 

 

 

2-й ОЦИ

313

r-й ОЦИ

1

...

1

Коммутатор 1-й узловой точки

2

...

2

Коммутатор

2-й узловой точки

3

...

3

Коммутатор

3-й узловой точки

...

...

...

n

...

n

Коммутатор

N-й узловой точки

1-й узловой

2-й узловой

3-й узловой

n-й узловой

процессор

процессор

процессор

процессор

 

Рис. 5.18

 

 

313

 

 

x

 

 

x

22

 

 

x

 

 

 

21

 

 

 

 

 

 

11

r

1

12

r

1

1n

r

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

11

r

2

 

 

r

2

 

 

r

2

 

 

 

 

 

 

 

 

 

 

 

21

r

1

22

r

1

2n

r

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

12

r

2

 

 

r

2

 

 

r

2

 

 

 

 

 

 

 

 

 

 

 

n1

r

1

n2

r

1

nn

r

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

1n

r

2

 

 

r

2

 

 

r

2

 

 

 

 

 

 

 

 

 

 

 

Рис. 5.19

Действительно, пусть исходная система содержит N уравнений и из них

R операций обобщенного интегрирования или дифференцирований по

переменной x . Тогда при

N r

и

R r

система (1.42) не может быть

1

 

 

1

 

реализована структурно, хотя по общему числу элементов ограничения нет.

Для устранения этого противоречия, по аналогии с векторной структурой,

необходимо, чтобы число магистралей по каждому ив направлений x1 и x2

было равным числу ПЭ. В этом случае каждый из ПЭ должен иметь возможность подключения к одной из магистралей по направлению x1 или x2.

Это позволяет оперативно перераспределять ПЭ между каждой из направлений. В результате для решения задачи достаточно выполнить условие r N (количество ПЭ в узловом процессоре должно быть больше или равно исходной системе уравнений).

Указанная методика распространяется и на системе произвольной мерности. В этом случае ПЭ дополнительно снабжается либо коммутатором выбора направления (рис. 5.20 а), либо 4l – входовой памятью, где l

314

размерность пространства (рис. 5.20, б). Передача данных между ПЭ внутри узлового процессора осуществляется через полнодоступный коммутатор.

Существует значительное число исследований по методам коммутаций цифровых интеграторов и способов построения неординарных коммутаторов,

которые допускают подключение всех входов на один выход [82, 180, 181].

Сложность такого коммутатора можно оценить по числу вентилей

SB p(m2 m m) , где m – число входов, p – число разрядов. Если входы записи внешних данных не включать в число входов коммутатора, то n = r,

т.е. равно числу ПЭ. Следует также учесть, что формирование и дальнейшая обработка данных разнесены во времени, поэтому необходима промежуточная память либо на входе, либо на выходе ПЭ. При наличии памяти на выходе ПЭ общее число ячеек равно r, так как в каждом такте передачи ПЭ выдает на выход только один квант информации, поэтому

S

 

pr

3

4r p,

B

 

 

 

 

 

где p – разрядность данного ПЭ.

ПЭ

RG yP

RG yq

 

Мульти-

 

yp1

 

 

yp2

 

плексор ...

 

 

 

yp(m+R)

 

 

...

y1

y2

yk

 

Мульти-

 

yq1

 

 

yq2

 

плексор ...

 

 

 

yq(m+R)

 

 

...

y1

y2

yk

Рис. 5.20, а

315

ПЭ с буферной памятью и коммутатором направления на

мультиплексорах.

 

ПЭ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

направление

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ЗУ

 

 

 

 

 

 

 

 

 

Б1

Б2

Б3

Б4

Б1

Б2

Б3

Б4

Б1

Б2

Б3

Б4

...

Б1

Б2

 

Б3

Б4

 

 

 

 

 

 

 

 

 

 

 

 

...

 

 

 

 

 

 

x

1

 

 

x

2

 

 

x

3

 

 

 

 

x

l

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рис. 5.20, б

Процессорный элемент с многовходовым буфером на входе показан на рис. 5.20, б.

При наличии памяти на входе ПЭ число ячеек для хранения данных в одном ПЭ равно (4rp), так как при неординарном соединение на вход одного ПЭ могут поступить одновременно данные из всех ПЭ. Тогда общее число ячеек равно

 

S

 

 

r4r p 4r

2

p,

 

 

 

 

q

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

откуда

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S

 

 

p(r

3

4rp)

 

 

r

 

p

 

 

 

B

 

 

 

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S

 

 

4r

2

p

 

 

4

r

 

 

 

q

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Практически для всех реальных случаев

1

, поэтому коммутация с

 

 

 

помощью буферной памяти на входе ПЭ предпочтительнее.

Схема узлового процессора с коммутирующей буферной памятью на входах ПЭ показана на рис. 5.21. Следует, однако, отметить, что при большом числе ПЭ значительно растет число шин (r*p). При этом каждая шина передачи бита требует отдельного мощного шинного формирователя. В

результате, с одной стороны, возрастает потребляемая мощность, а с другой – надежность системы резко падает из-за взаимного влияния шин друг на друга

316

при передаче больших массивов данных.

Для снижения числа шин можно уменьшить либо r до 1 – общая магистраль, либо р – передача последовательным кодом. Таким образом,

имеем

1)r * р – передача параллельным кодом по r магистралям, время

передачи ;

2)1* p – последовательная передача r – чисел по одной магистрали,

время передачи r ;

3)r *1 – параллельная передача по r – шинам r-последовательных

чисел, время передачи

p

;

4)1*1 – последовательная передача по одной шине r-

последовательных чисел, время передачи

rp

.

 

Первый способ наиболее быстродействующий, однако имеет малую надежность и экономичность. В настоящее время ведутся широкие исследования по применению волоконной оптики для организации шин. По сообщениям печати [180] в этой области получены положительные результаты, которые найдут применение в перспективных вычислительных

системах.

Однако в ближайшем будущем наиболее целесообразно использовать способ 2 или 3. С точки зрения аппаратурных затрат эти методы эквивалентны. В 3-м методе необходимо дополнительно ставить на выходе ПЭ преобразователь параллельного кода в последовательный. Временные затраты

на передачу данных при p r у этих двух методов совпадают. Если

r p

, то

 

выгоднее использовать 2-й метод.

Узловой процессор с коммутирующей памятью на входах ПЭ показан на рис. 5.21.

317

318

Рис.5.21

318

В случае, когда число передаваемых данных значительно больше их

разрядности,

r p

, целесообразно использовать 3 метод, который является

 

базовым при построении систем большой размерности.

Полученные результаты могут быть положены в основу анализа системы передачи данных между узловыми процессорами. Этот анализ показывает, что и в этом случае целесообразна передача последовательным кодом. Из системы уравнений Шеннона следует, что наряду с коммутацией должно осуществляться суммирование поступающих данных. В общем случае необходимо суммировать переменные, формируемые во всех ПЭ, а так как суммирование переменных производится последовательно друг за другом,

следовательно, необходимо устройство для хранения информации на период выполнения операции. С целью сокращения оборудований на это устройство можно возложить операцию коммутации между ПЭ. Преобразуем алгоритм работ узлового процессора таким образом, чтобы сохранив все положительные свойства, обеспечиваемые буфером, существенно уменьшить объем требуемого

N N

 

 

dt Zk , j apqkZ p dt qq ,

 

p 0 q 0

 

 

 

 

M 1

 

 

dt Zl , j a0qkdt Zq ,

 

q 0

 

 

n M 1

z p ,

 

dt Zd , j bpSd

 

S 1 p 0

xS

 

Z0 1, Z1 t, ZK (0 X j ) ZK 0 ( X j ),

 

,

apqk 0,1; bpSd 0,1;

 

 

K 2,3,..., M 1;

l M , M 1,..., M L;

 

 

оборудования. Запишем систему (1.42.) в виде

 

 

 

d M L 1, M L 2,..., N; M N R L 1,

 

 

 

 

319

 

 

 

в которой операции суммирования записаны в виде

l l M , M L

равенств.

 

Это позволит вынести операции суммирования из ПЭ и выполнять их на специальных многовходовых сумматорах. Укажем, что при построении таких сумматоров необходимо предусмотреть управление его входами, так как

коэффициенты

a

меняются от равенства к равенству. Так как

a

0qK

 

0qK

 

 

принимают только два значения 0 или 1, то управление можно осуществить с помощью обычных схем совпадений. В качестве основного элемента при построении сумматора используем 3-входовой комбинационный сумматор. Схема 4-

входового сумматора показана на рис. 5.23. Сумматор содержит 3

комбинационных сумматора, в которых каждый вход управляется с помощью встроенных схем совпадения, и регистр для запоминания переносов. В общем случае число сумматоров, необходимых для построения N-входового

сумматора, равно (N – 1) , a регистров

N

 

 

 

4 ЦЕЛ

.

4-входовой сумматор-коммутатор на 3-входовых комбинационных сумматорах показан на рис. 5.23.

 

 

 

 

 

 

 

 

 

 

x0

 

 

&

 

 

А1

S0

 

А1

S0

 

 

 

y0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ИМ-1

 

ИМ-1

x1

 

&

 

 

B1

 

 

B1

 

 

 

 

 

 

y1

 

 

P0

 

P0

P2

 

P0

 

 

 

 

P0

 

P0

 

 

 

 

 

 

 

 

 

 

x2

&

А1

S0

D0

y2

 

 

 

 

 

 

 

 

ИМ-1

 

x3

&

B1

 

D1 RG

y3

P1

 

P0

 

 

 

 

 

P0

D2

 

Рис. 5.23

320