Добавил:

Novilit Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Национальный исследовательский ядерный университет (МИФИ)

Предмет:

Технологии и методы программирования

Файл:

Алгоритмы / Параллельный алгоритм быстрой сортировки

.doc

Скачиваний:

Добавлен:

06.07.2016

Размер:

65.02 Кб

Скачать

☆

Доклад на тему «Параллельный алгоритм быстрой сортировки».

Выполнил Литвинов Михаил.

Параллельное обобщение алгоритма быстрой сортировки наиболее простым способом может быть получено для случая, когда количество вычислительных элементов p=. Пусть исходный набор данных логически разделен на 2p блоков одинакового размера n/2p. Тогда блоки данных образуют (N+1) - мерный гиперкуб. Возможный способ выполнения первой итерации параллельного метода при таких условиях может состоять в следующем:

выбрать каким-либо образом ведущий элемент (например, в качестве ведущего элемента можно взять среднее арифметическое элементов, расположенных на выбранном ведущем блоке);
сформировать пары блоков, для которых необходимо выполнить взаимообмен данными на данной итерации алгоритма: пары образуют блоки, для которых битовое представление номеров отличается только в позиции (N+1);
для каждой пары блоков определить вычислительный элемент, который будет выполнять необходимые операции;
параллельно выполнить операцию «Сравнить и разделить» над всеми парами блоков, в результате такого обмена в блоках, для которых в битовом представлении номера бит позиции N+1 равен 0, должны оказаться части блоков со значениями, меньшими ведущего элемента; блоки с номерами, в которых бит N+1 равен 1, должны собрать, соответственно, все значения данных, превышающие значение ведущего элемента.

В результате выполнения такой итерации сортировки исходный набор оказывается разделенным на две части, одна из которых (со значениями меньшими, чем значение ведущего элемента) располагается в блоках данных, в битовом представлении номеров которых бит N+1 равен 0. Таких блоков всего p и, таким образом, исходный (N+1) - мерный гиперкуб также оказывается разделенным на два гиперкуба размерности N. К этим подгиперкубам, в свою очередь, может быть параллельно применена описанная выше процедура. После (N+1) - кратного повторения подобных итераций для завершения сортировки достаточно упорядочить полученные блоки данных, каждый вычислительный элемент упорядочивает 2 блока.

Пример упорядочивания данных при n = 16, p = 2, N = 1, число блоков равно 2p = 4, каждый блок содержит 4 элемента.

Прямоугольник 5 1 итерация – начало 1 итерация – завершение

Прямоугольник 19 Б Прямоугольник 15 Прямоугольник 16 Прямоугольник 20 Прямоугольник 10 лок 0 Блок 1 Блок 0 Блок 1

25 7 67 3 25 7 11 3 9

11 44 9 55 1 4 23 11 25

Двойная стрелка вверх/вниз 1 Двойная стрелка вверх/вниз 2 Двойная стрелка вверх/вниз 3 Двойная стрелка вверх/вниз 4

Б Прямоугольник 17 Прямоугольник 21 Прямоугольник 22 лок 2 Блок 3 Блок 2 Блок 3

1 Прямоугольник 18 35 11 44 44 67 55

4 23 76 25 35 44 76

На первой итерации рассматриваются биты в позиции N + 1 = 2 (нумерация начинается справа с 1), следовательно, сравниваются блоки 0 и 2, 1 и 3. В качестве вычислительного элемента для блоков 0 и 2 выберем элемент 0, для блоков 1 и 3 – элемент 1. В качестве ведущего элемента возьмем среднее арифметическое. Ведущий элемент равен 27,5. Элементы меньшие ведущего попадают в блоки 0 и 2, большие – 1 и 3.

Так исходный (N+1) - мерный гиперкуб оказывается разделенным на два гиперкуба размерности N. К этим подгиперкубам параллельно применим описанную выше процедуру еще раз.

2 итерация – начало 2 итерация – завершение

Прямоугольник 23 Прямоугольник 25 Прямоугольник 27 Прямоугольник 28 Блок 0 Блок 1 Блок 0 Блок 1

Двойная стрелка влево/вправо 8 2 Двойная стрелка влево/вправо 6 5 7 11 3 9 7 11 1 25 23

1 4 23 11 25 4 3 9 25

Прямоугольник 24 Прямоугольник 26 11

Прямоугольник 30 Б Прямоугольник 29 лок 2 Блок 3 Блок 2 Блок 3

Двойная стрелка влево/вправо 9 Двойная стрелка влево/вправо 6 44 67 55 44 35 67 55

35 44 76 44 76

На второй итерации взаимодействуют блоки 0 с 1 и 2 с 3. В качестве вычислительного элемента для блоков 0 и 1 выберем элемент 0, для блоков 2 и 3 – элемент 1. В качестве ведущего элемента для блоков 0 и 1 выбран элемент 11,9 (среднее арифметическое элементов блоков 0 и 1), для блоков 2 и 3 – элемент 53,5

По результатам обменов блоки отсортированы. Осталось провести локальную сортировку каждого блока.

Анализ эффективности.

Пусть у нас имеется (N+1) - мерный гиперкуб, состоящий из 2p=2^{N
+ 1}блоков данных, где 2p <n.

Эффективность параллельного метода быстрой сортировки, как и в последовательном варианте, во многом зависит от правильности выбора значений ведущих элементов. Определение общего правила для выбора этих значений представляется затруднительным. Сложность такого выбора может быть снижена, если выполнить упорядочение локальных блоков процессоров перед началом сортировки и обеспечить однородное распределение сортируемых данных между потоками параллельной программы.

Определим вначале вычислительную сложность алгоритма сортировки. На каждой из log₂(2p) итераций сортировки каждый поток осуществляет операцию «Сравнить и разделить» над парой блоков в соответствии со значением ведущего элемента. Сложность этой операции составляет n/p операций (будем предполагать, что на каждой итерации блок данных делится на равные по размеру части относительно ведущего элемента и, следовательно, размер блоков данных в процессе сортировки остается постоянным).

При завершении вычислений потоки выполняют сортировку двух блоков, что может быть выполнено при использовании быстрых алгоритмов за 2×1,4 ×(n/2p)log₂(n/2p) операций.

Таким образом, общее время вычислений параллельного алгоритма быстрой сортировки составляет

где есть время выполнения базовой операции перестановки.

Предположим, что выбор ведущих элементов осуществляется самым наилучшим образом, количество итераций алгоритма равно log₂(2p), и все блоки данных сохраняют постоянный размер (n/2p). При таких условиях, на каждой итерации сравнения блоков выполняется считывание всего сортируемого массива. Далее на этапе локальной сортировки блоков каждый вычислительный элемент считывает упорядочиваемые блоки данных на каждой итерации повторно. Таким образом, затраты на считывание необходимых данных из оперативной памяти в кэш составляют:

Если, как и в предыдущих разделах, учесть латентность памяти, то время доступа к памяти можно подсчитать по следующей формуле:

С учетом всех полученных соотношений общая трудоемкость алгоритма оказывается равной:

Кроме того, необходимо учесть накладные расходы на организацию параллельности. На каждой итерации алгоритма создается параллельная секция для выполнения операции «Сравнить и разделить». Еще одна параллельная секция создается для выполнения финальной локальной сортировки блоков на всех потоках параллельной программы, т.е.:

Для более точной оценки необходимо учесть частоту кэш промахов γ:

Следует отметить, что при построении оценок предполагалось, что выбор ведущих элементов осуществляется наилучшим образом. На практике обеспечить такой выбор ведущих элементов, который приводил бы к равному разделению блоков потоков и, соответственно, к равномерному распределению вычислительной нагрузки, достаточно сложно.

Соседние файлы в папке Алгоритмы

#
06.07.201631.74 Кб2810.2 Алгоритм факторизации, основанный на полном переборе.doc
#
06.07.2016257.36 Кб27Referat_Algoritm_Floyda.doc
#
06.07.201672.19 Кб105Алгоритм Дейкстры.doc
#
06.07.201627.08 Кб37Алгоритм Прима.docx
#
06.07.2016152.58 Кб31Алгоритм Фокса.doc
#
06.07.201665.02 Кб47Параллельный алгоритм быстрой сортировки.doc
#
06.07.201693.18 Кб36Поиск минимального разбиения.doc