Добавил:

Novilit Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Национальный исследовательский ядерный университет (МИФИ)

Предмет:

Технологии и методы программирования

Файл:

Алгоритмы / Алгоритм Фокса.doc

Скачиваний:

Добавлен:

06.07.2016

Размер:

152.58 Кб

Скачать

☆

1 / 41 2 3 4 > Следующая >>>

Доклад по теме «Алгоритм Фокса умножения матриц при блочном разделении данных»

Выполнил Литвинов Михаил.

Для многих методов матричных вычислений характерным является повторение одних и тех же вычислительных действий для разных элементов матриц. Данное свойство свидетельствует о наличии параллелизма по данным при выполнении матричных расчетов, и, как результат, распараллеливание матричных операций сводится в большинстве случаев к разделению обрабатываемых матриц между процессорами используемой вычислительной системы. Выбор способа разделения матриц приводит к определению конкретного метода параллельных вычислений; существование разных схем распределения данных порождает целый ряд параллельных алгоритмов матричных вычислений.

Наиболее общие и широко используемые способы разделения матриц состоят в разбиении данных на полосы (по вертикали или горизонтали) или на прямоугольные фрагменты (блоки).

Блочное разбиение матрицы. При блочном (chessboard block) разделении матрица делится на прямоугольные наборы элементов – при этом, как правило, используется разделение на непрерывной основе. Пусть количество процессоров составляет p = s * q, количество строк матрицы является кратным s, а количество столбцов – кратным q, то есть m = k * q и n = l * q. Представим исходную матрицу A в виде набора прямоугольных блоков следующим образом:

Двойные круглые скобки 28

A₀₀ A₀₁ . . . A_0
q-1

A = . . .

A_{s-1 0} A_{s-1 1} . . . A_s_-1_q_{-1
,} где A_ij — блок матрицы, состоящий из элементов:

Двойные круглые скобки 29

a_i0
j0 a_i0j1 . . . a_i0
jl-1

A = . . .

a_{ik-1 j0} a_{ik-1 j1} . . . a_ik-1
jl-1

При таком подходе целесообразно, чтобы вычислительная система имела физическую или, по крайней мере, логическую топологию процессорной решетки из s строк и q столбцов. В этом случае при разделении данных на непрерывной основе процессоры, соседние в структуре решетки, обрабатывают смежные блоки исходной матрицы. Следует отметить, однако, что и для блочной схемы может быть применено циклическое чередование строк и столбцов.

В данной лекции рассматриваются три параллельных алгоритма для умножения квадратной матрицы на вектор. Каждый подход основан на разном типе распределения исходных данных (элементов матрицы и вектора) между процессорами. Разделение данных меняет схему взаимодействия процессоров, поэтому каждый из представленных методов существенным образом отличается от двух остальных.

Определение подзадач

При блочном способе разделения данных исходные матрицы А, В и результирующая матрица С представляются в виде наборов блоков. Для более простого изложения следующего материала будем предполагать далее, что все матрицы являются квадратными размера nxn, количество блоков по горизонтали и вертикали одинаково и равно q (т.е. размер всех блоков равен kxk, k=n/q ). При таком представлении данных операция матричного умножения матриц А и B в блочном виде может быть представлена так:

Двойные круглые скобки 30 Двойные круглые скобки 31 Двойные круглые скобки 32 A₀₀ A₀₁ . . . A_0
q-1 B₀₀ B₀₁ . . . B_0
q-1 C₀₀ C₀₁ . . .

. . . x . . . = . . .

A_{q-1 0} A_{q-1 1} . . . A_q-1
q-1B_q-1
0 B_q-1
1 . . . B_q_-1_q_-1 C_q_-1
0 C_q_-1
1 . . . C_q_-1

где каждый блок C_ij матрицы C определяется в соответствии с выражением

_q-1

C_ij = ∑ A_is
*B_sj

^s=0

При блочном разбиении данных для определения базовых подзадач естественным представляется взять за основу вычисления, выполняемые над матричными блоками. С учетом сказанного определим базовую подзадачу как процедуру вычисления всех элементов одного из блоков матрицы С.

Для выполнения всех необходимых вычислений базовым подзадачам должны быть доступны соответствующие наборы строк матрицы A и столбцов матрицы B. Размещение всех требуемых данных в каждой подзадаче неизбежно приведет к дублированию и к значительному росту объема используемой памяти. Как результат, вычисления должны быть организованы таким образом, чтобы в каждый текущий момент времени подзадачи содержали лишь часть необходимых для проведения расчетов данных, а доступ к остальной части данных обеспечивался бы при помощи передачи данных между процессорами. Один из возможных подходов – алгоритм Фокса ( Fox ) – рассмотрен далее в данном подразделе.

Выделение информационных зависимостей

Итак, за основу параллельных вычислений для матричного умножения при блочном разделении данных принят подход, при котором базовые подзадачи отвечают за вычисления отдельных блоков матрицы C и при этом в подзадачах на каждой итерации расчетов располагается только по одному блоку исходных матриц A и B. Для нумерации подзадач будем использовать индексы размещаемых в подзадачах блоков матрицы C, т.е. подзадача (i,j) отвечает за вычисление блока C_ij – тем самым, набор подзадач образует квадратную решетку, соответствующую структуре блочного представления матрицы C.

Возможный способ организации вычислений при таких условиях состоит в применении широко известного алгоритма Фокса ( Fox ).

В соответствии с алгоритмом Фокса в ходе вычислений на каждой базовой подзадаче (i,j) располагается четыре матричных блока:

блок C_ij матрицы C, вычисляемый подзадачей;
блок A_ij матрицы A, размещаемый в подзадаче перед началом вычислений;
блоки A'_ij, B'_ij матриц A и B, получаемые подзадачей в ходе выполнения вычислений.

Выполнение параллельного метода включает:

этап инициализации, на котором каждой подзадаче (i,j) передаются блоки A_ij, B_ij и обнуляются блоки C_ij на всех подзадачах;
этап вычислений, в рамках которого на каждой итерации l, 0<=l<q, осуществляются следующие операции:

для каждой строки i, 0<=i<q, блок A_ij подзадачи (i,j) пересылается на все подзадачи той же строки i решетки; индекс j, определяющий положение подзадачи в строке, вычисляется в соответствии с выражением j = (i + l) mod q, где mod есть операция получения остатка от целочисленного деления;
полученные в результаты пересылок блоки A'_ij, B'_ij каждой подзадачи (i,j) перемножаются и прибавляются к блоку C_ij
блоки B'_ij каждой подзадачи (i,j) пересылаются подзадачам, являющимся соседями сверху в столбцах решетки подзадач (блоки подзадач из первой строки решетки пересылаются подзадачам последней строки решетки).

1 / 41 2 3 4 > Следующая >>>

Соседние файлы в папке Алгоритмы

#
06.07.201631.74 Кб2710.2 Алгоритм факторизации, основанный на полном переборе.doc
#
06.07.2016257.36 Кб27Referat_Algoritm_Floyda.doc
#
06.07.201672.19 Кб105Алгоритм Дейкстры.doc
#
06.07.201627.08 Кб37Алгоритм Прима.docx
#
06.07.2016152.58 Кб31Алгоритм Фокса.doc
#
06.07.201665.02 Кб47Параллельный алгоритм быстрой сортировки.doc
#
06.07.201693.18 Кб36Поиск минимального разбиения.doc