Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Книги / Книга Проектирование ВПОВС (часть 2)

.pdf
Скачиваний:
84
Добавлен:
01.06.2015
Размер:
4.62 Mб
Скачать

301

Рис. 5.8

Рис. 5.9

Соответственно для n

 

 

 

 

 

 

 

n // enter (log

2

(N ln 2) 1// 2,

 

 

 

 

 

 

 

 

 

 

где

// enter (log

2

(N ln 2) 1//

– ближайшее целое, превышающее значение

 

 

 

 

 

 

величины

log

2

(N ln 2)

.

 

 

 

 

 

 

 

 

 

 

Определим число процессоров в группе. Допустим, что разбиение

проведено и каждая

P // enter (log

2

N 1//

 

 

группа содержит 4 процессора, тогда

N

4

и

2P

 

 

 

2

.

 

Учитывая, что

ln 2

0,7

и

enter log

2

(ln 2) 0

. Таким образом, при

 

 

 

 

построении вычислительной структуры следует формировать группы процессоров так, чтобы они содержали не менее четырех процессоров и не более семи (т. е. 4, 5, 6 процессоров). При достижении числа процессоров равного 5 или 6 дальнейшее разбиение лишь увеличивает время обмена.

Поэтому разбиение начинается с максимального числа процессоров в группе и завершается, если при разбиении оказалось, что все группы содержат одно из разрешённого числа процессоров. В этом случае процесс деления на группы прекращается.

Общее время обмена данными в структуре, изображенной на рис. 5,8,

равно

Tоб

3

[log

2

(N ln 2)]

4

 

цел

 

.

Оно значительно меньше, чем в исходной структуре, но все же оказывается достаточно большим. Это связано с последовательным обменом данными между объединениями групп. Для устранения указанного недостатка,

рассмотрим процесс передачи информации в соседних группах, например первой и второй группах (рис. 5.8). Если в этих группах процессоры 1 и 6

производят выдачу информации (возбужденные процессоры), а процессоры 1, 3, 7, 8 принимают информацию, то процессоры 4, 5, 9, 10 пассивны, т. е. не принимают и не выдают информацию. В то же время, в соответствии с алгоритмом обмена, процессоры 4 и 5 должны обмениваться данными с

302

процессором 6. Однако при наличии одной шины передачи данных в группе невозможно совместить передачу информации из процессора I в процессоры 2, 3 и процессора 6 в процессоры 4,5. Введем еще одну дополнительную шину передачи данных, как это показано на рис. 5.10. Показанные отрезки числовых шин связывают соответственно процессоры групп и по два граничных процессора в соседних группах. Таким образом, при обмене между процессорами 1, 2, 3, происходящим по основной числовой шине,

одновременно можно производить обмен между процессорами 6, 4, 5 по вспомогательной числовой шине. Общая схема вычислительной структуры с двумя числовыми шинами показана на рис. 5.11. Обмен данными в этой структуре между группами совмещается с обменом внутри группы и, как нетрудно увидеть, происходит за время, равное

T

 

,

P

об

 

 

где Р – чисто процессоров в группе.

Число процессоров, объединяемых в группу, может быть произвольным,

но не менее 5. Это связано с тем, что при p < 5 время и сложность обмена возрастает. Отметим, что ПЭ имеет только один вход и, следовательно, может принимать информацию в каждый отдельный момент времени только из одного процессора.

Рассмотрим структуру с двумя числовыми шинами и четырьмя процессорами в каждой группе (рис. 5.12). Предположим, что первыми выдают информацию крайние левые процессоры в группах. В этом случае в каждом третьем процессоре группы на входе образуется клинч, попытка записи информации из двух процессоров одновременно. Для исключения этого явления можно ввести приоритеты, например данные, поступающие слева,

принимаются первыми, справа – вторыми. В таком случае обмен занимает два такта. Такая же ситуация возникает при выдаче информации из всех процессоров группы. Таким образом, время обмена в структуре возрастает и равно Tоб = 8 , a в устройстве управления необходимо предусматривать анализ приоритетных признаков данных.

303

1

2

3

4

5

6

7

8

9

10

Рис. 5.10

1

2

3

4

5

6

7

N-5

N-4

N-3

N-2

N-1

N

 

 

 

...

 

 

 

 

 

...

 

 

U

уп

 

 

U

уп

 

 

 

 

 

 

 

...

 

 

 

 

 

...

 

 

 

U

уп

U

уп

 

Рис. 5.11

1

2

3

4

5

6

7

8

9

10

...

...

Рис. 5.12

Двухшинная структура с временем обмена, независящим от числа процессоров в обобщенном цифровом интеграторе

С целью устранения последовательной записи введем в состав ПЭ многовходовой буфер, позволяющий принимать информацию с нескольких направлений одновременно и выдавать по запросам последовательно на один выход. Схема такого ГО показана на рис. 5.13, Он содержит дополнительное устройство памяти, включающее два блока Б1 и Б2. Наличие двух блоков памяти позволяет одновременно занести информацию в память с двух направлений, а затем считывать информацию в ПЭ в темпе вычислений. В этом

304

случае клинч на входах процессоров отсутствует и время обмена оказывается равным

T

 

4

об

 

 

ПЭ

 

ЗУ

Б1

Б2

.

Выход

Вх. 1

Вх. 2

Рис. 5.13

Дальнейшее снижение числа процессоров в группах невозможно, так как нарушается конфигурация системы. Фрагмент обобщенного интегратора,

содержащего группы из трех ПЭ, показан на рис. 4.14. Здесь оказывается, что отдельные ПЭ (ПЭ, заштрихованный на рис. 4.14) принимают информацию из разных участков одной и той же числовой шины. Соответственно и выдают информацию в разные участки числовой шины. Если же вспомогательную числовую шину разбить на участки, объединяющие три процессора, то отдельные процессоры оказываются не связанными друг с другом, что требует введения последовательного обмена информацией между группами,

аналогично тому, как описано для структур с одной числовой шиной. Чтобы сохранить тенденцию уменьшения времени обмена, введем еще одну числовую шину. На рис. 5.14 участки с нечетными номерами образуют вторую вспомогательную шину, а участки с четными номерами образуют третью вспомогательную шину. Время обмена в такой структуре равно Тоб = 2 .

Уменьшим число процессоров в груше до одного, а количество шин увеличим до такого уровня, чтобы обеспечивался одновременный обмен во всех процессорах. Вычислительная структура такого типа приведена на рис. 5.15.

Количество числовых шин в такой структуре равно четырем, а обмен

305

совершается за один такт. Для исключения клинча на входе процессора каждый из них имеет буферное запоминающее устройство, состоящее из 4-х блоков (Б1,

Б2, БЗ, Б4).

...

 

 

...

...

 

 

...

1

2

3

4

Рис. 5.14

Уменьшение времени обмена, как видно из рисунка 5.14, достигается за счет увеличения числа шин. Однако если учесть, что между процессорами передаются не величины, а их разности высокого порядка (третьего, четвертого и т. д.), имеющие небольшие разрядности, то количество проводов,

используемых для передачи данных, имеет приемлемый уровень.

Рассмотрим особенности вычислительной структуры, отображающей двумерное дискретное пространство (рис. 5.16). Каждой точке пространства поставим в соответствие процессор. Тогда, как это следует из формул численного дифференцирования, каждый процессор должен обмениваться информацией только с процессорами, расположенными на направлениях,

параллельных осям x1 и x2. Это позволит объединить все процессоры с помощью шин, располагаемых параллельно осям координат и не связанных друг с другом. Двумерная структура с одной числовой шиной по одному направлению показана на рис. 5.17. Процессор располагается как бы на пересечении двух числовых шин, выдает и принимает информацию, т. е. связан с каждой из них. Для определения стратегии обмена обратимся к системе уравнений (1.42). В соответствии с ней на каждом шаге реализуется либо операция интегрирования, либо операция дифференцирования, либо операция интегрирования с одновременным дифференцированием по пространственным переменным (обобщенное интегрирование), либо суммирование. При

306

выполнении операции интегрирования и суммирования обмен не происходит.

При выполнении операций дифференцирования и обобщенного интегрирования обмен информацией между процессорами необходим. Причем оказывается, что при выполнении операции дифференцирования обмен происходит только между процессорами, расположенными на прямой параллельной пространственной переменной, по которой производится дифференцирование.

Так как во всех процессорах выполняется одна и та же операция, то обмен в двумерной структуре можно рассматривать как обмен в R не связанных между собой линейных структурах, где R – число точек дискретизации по одной из независимых переменных. Таким образом, оптимизация времени обмена в двухмерной структуре равносильна оптимизации в линейной структуре.

Отсюда сразу следует, что оптимальной в смысле времени обмена, является структура с четырьмя числовыми шинами по каждому направлению.

Обобщенный цифровой интегратор с четырьмя сегментированными шинами, обеспечивающими минимальное время обмена

x1

... ...

...

...

...

...

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

...

...

...

...

...

...

...

x2

...

Рис. 5.15

307

1

2

3

4

5

6

7

8

9

308

 

 

 

 

 

...

 

 

 

 

 

...

U

уп

 

U

уп

 

 

 

 

 

 

 

 

 

 

...

 

 

 

 

 

...

 

U

уп

 

U

уп

 

 

 

 

 

 

 

 

 

...

 

 

 

 

 

...

U

уп

U

уп

 

 

...

...

Uуп

Рис. 5.16

308

...

...

...

...

...

...

...

...

...

...

...

...

...

...

 

 

 

...

...

...

...

...

...

Рис. 5.17

Двумерное дискретное пространство и соответствующий ему двумерный обобщенный цифровой интегратор

Далее рассмотрим операцию интегрирования с одновременным дифференцированием по пространственным переменным

 

 

 

d

z

 

 

ypj

d

 

yqj

.

 

 

 

 

 

 

 

 

 

 

 

t

 

j

 

x

t x

r

 

 

 

 

 

 

 

 

 

l

 

 

 

При выполнении указанной операции процессор должен обмениваться

информацией

как с процессорами,

расположенными

на числовой шине,

параллельной

координате

x

l ,

так

и

с процессорами,

расположенными на

 

линии, параллельной координате xr . Однако в таком общем случае не удается совместить обмен по этим двум направлениям. Последнее связано с тем, что

309

процессор в точке j должен выдавать две переменные yp и yq, а так как он имеет один канал для приема выдачи (см. рис. 5.11), то обмен будет производиться в два такта. В первом такте обмен производится после выдачи переменной yp, во втором такте после выдачи переменной yq. В силу чего, при использовании ПЭ в качестве основы дли построения узлового процессора обобщенную операцию следует приводить к виду

d

 

d

 

 

y

qj

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t

qj

 

 

t

 

x

 

 

 

 

 

 

 

 

 

 

r

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

d z

 

 

y

pj

d

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t

j

 

x

 

 

 

t

 

 

qj

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

l

 

 

 

 

 

 

 

или

d

 

 

d

 

y

pj

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t

pj

 

 

t

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

l

 

 

d z

 

 

 

 

d

 

y

qj

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t

j

 

 

pj

 

t

 

x

 

 

 

 

 

 

 

 

 

 

r

 

 

 

 

 

 

 

 

 

 

 

  ,

 

 

 

 

 

 

 

.

 

 

 

 

 

 

С точки зрения времени обмена эти записи эквивалентны (требуют двух тактов), а с точки зрения простоты регулярности обмена предпочтительнее (на каждом шаге решения из процессора выдается только

одна переменная). С другой стороны, если

 

 

y

p

 

y

q

y

, то

 

 

 

 

 

 

 

 

 

 

 

 

 

 

d

z

 

 

dy

d

 

y

.

 

 

 

 

 

 

 

j

 

 

 

t

 

 

 

 

 

 

 

 

 

 

t

 

 

dx

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

r

 

 

 

 

 

 

 

 

 

 

 

 

 

l

 

 

 

 

 

 

 

 

 

 

 

 

Такая форма записи оказывается более удобной, так как позволяет

сократить время обмена. Требуется

выдача

 

из

 

процессора только

одной

переменной y, совмещается приём информации

 

и

направлений

x

l

и xr .

 

 

Аналогично удается совместить передачу данных в операциях типа:

 

 

 

z

 

u

 

 

 

 

u

 

,

 

 

 

 

 

 

 

x

 

 

x

 

 

 

 

 

 

 

 

 

j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

l

 

 

 

 

 

 

 

r

 

 

 

 

 

 

 

 

 

 

 

310