Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Казанский национальный исследовательский технический университет им. А. Н. Туполева

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Структуры и алгоритмы обработки данных.doc

Скачиваний:

365

Добавлен:

12.03.2015

Размер:

1.81 Mб

Скачать

☆

<<< < Предыдущая 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 4950 / 5350 51 52 53 > Следующая >>>

5.7. Внешняя сортировка

Пусть требуется выполнить сортировку сверхбольшого набора данных, который целиком в ОП не помещается. В этом случае рассмотренные ранее методы сортировки массивов не работают и приходится использовать внешние файлы. Исходный набор данных хранится во внешнем файле и, очевидно, многократно должен считываться в ОП. В каждый момент времени в ОП находится лишь частьполного набора. Главным критерием при разработке методов сортировки становитсяминимизация числа обращенийк внешней памяти.

Основой большинства алгоритмов внешней сортировки является принципслияниядвух упорядоченных последовательностей в единый упорядоченный набор.

Например, пусть имеются две упорядоченные числовые последовательности: (5, 11, 17) и (8, 9, 19, 25)

Их слияние выполняется следующим образом:

сравниваются первые числа 5 и 8, наименьшее (5) помещается в выходной набор: (5)
сравниваются 11 и 8, наименьшее (8) – в выходной набор: (5, 8)
сравниваются 11 и 9, наименьшее (9) – в выходной набор: (5, 8, 9)
сравниваются 11 и 19, наименьшее (11) – в выходной набор: (5, 8, 9, 11)
сравниваются 17 и 19, наименьшее (17) – в вых. набор: (5, 8, 9, 11, 17)
остаток второй последовательности (19, 25) просто копируется в выходной набор с получением окончательного результата: (5, 8, 9, 11, 17, 19, 25)

В общем виде алгоритм слияния можно представить следующим образом. Пусть А={a_i} иB={b_j} – две исходные упорядоченные последовательности,R– результирующая последовательность.

сравниваем а₁иb₁, если а₁<b₁, то записываем а₁вR, иначе -b₁вR
если в уменьшившемся наборе остались числа, то сравниваем его минимальный элемент с минимальным элементом другого набора и записываем наименьший из них в R
повторяем шаг 2 до тех пор, пока не закончится какой-нибудь из наборов
как только заканчивается какой-нибудь набор, все оставшиеся элементы другой последовательности копируются в результирующий набор

Алгоритм слияния можно использовать и для сортировки массивов, если последовательно применить его несколько раз ко все более длиннымупорядоченным последовательностям. Для этого:

в исходном наборе выделяются две подряд идущие возрастающие подпоследовательности (серии)
эти подпоследовательности (серии) сливаются в одну более длинную упорядоченную последовательность так, как описано выше
шаги 1 и 2 повторяются до тех пор, пока не будет достигнут конец входного набора
шаги 1 –3 применяются к новому полученному набору, т.е. выделяются пары серий, которые сливаются в еще более длинные наборы, и.т.д. до тех пор, пока не будет получена единая упорядоченная последовательность.

Пример. Пусть имеется входной неупорядоченный набор чисел:

24, 08, 13, 17, 06, 19, 20, 11, 07, 55, 33, 22, 18, 02, 40

Этап 1. Выделяем в нем серии (показаны скобками) и попарно сливаем их:

(24), (08, 13, 17), (06, 19, 20), (11), (07, 55), (33), (22), (18), (02, 40)

(24) + (08, 13, 17) = (08, 13, 17, 24)

(06, 19, 20) + (11) = (06, 11, 19, 20)

(07, 55) + (33) = (07, 33, 55)

(22) + (18) = (18, 22)

Новый набор чисел:

08, 13, 17, 24, 06, 11, 19, 20, 07, 33, 55, 18, 22, 02, 40

Этап 2. Выделяем в новом наборе серии и попарно сливаем их (число серий уменьшилось):

(08, 13, 17, 24), (06, 11, 19, 20), (07, 33, 55), (18, 22), (02, 40)

(08, 13, 17, 24) + (06, 11, 19, 20) = (06, 08, 11, 13, 17, 19, 20, 24)

(07, 33, 55) + (18, 22) = (07, 18, 22, 33, 55)

Новый набор:

06, 08, 11, 13, 17, 19, 20, 24, 07, 18, 22, 33, 55, 02, 40

Этап 3. Выделяем в новом наборе серии (всего три) и сливаем их:

(06, 08, 11, 13, 17, 19, 20, 24), (07, 18, 22, 33, 55), (02, 40)

(06, 08, 11, 13, 17, 19, 20, 24) + (07, 18, 22, 33, 55) = (06, 07, 08, 11, 13, 17, 18, 19, 20, 22, 24, 33, 55)

Новый набор и его две серии:

(06, 07, 08, 11, 13, 17, 18, 19, 20, 22, 24, 33, 55), (02, 40)

Этап 4. После слияния этих двух серий получим полностью упорядоченный набор:

02, 06, 07, 08, 11, 13, 17, 18, 19, 20, 22, 24, 33, 40, 55

Данный метод сортировки называется естественным слиянием. Его особенностью является то, что для его реализации на каждом шаге достаточно сравниватьтолько два элемента. Именно это позволяет хранить все основные элементы в дисковых файлах, загружая в ОП только небольшое число элементов из каждой серии.

Алгоритм слияния эффективно работает на длинныхсериях и неэффективно на коротких. Поэтому егонецелесообразноприменять с самого начала сортировки, поскольку для случайного входного набора на первых шагах будут получатьсяочень короткиесерии, что приведет к неоправданно большому числу обращений к дисковой памяти.

Для устранения этого недостатка можно поступить следующим образом:

исходный сверхбольшой набор данных разделяется на отдельные фрагменты такого размера, чтобы каждый фрагмент мог целикомразместиться в ОП
каждый фрагмент отдельнозагружается в ОП исортируетсякаким-нибудь классическим улучшенным методом (например – алгоритмом быстрой сортировки)
каждый отсортированный фрагмент рассматривается как серия и сохраняется во вспомогательном файле; в простейшем случае достаточно двух вспомогательных файлов, в которые серии сбрасываются поочередно (нечетные серии – в один файл (A), четные – в другой (B)).

Эти действия носят подготовительный характер.

Файл А

Серия 1

Серия 3

Серия 5

Серия 2

Серия 4

Серия 6

Файл В

Фрагмент 1

Фрагмент 2

Фрагмент 3

Фрагмент 4

Фрагмент 5

Фрагмент 6

Сортировка фрагментов в ОП:

(фрагментi ) => (серия i )

После этого начинается 2-ой этап сортировки:

выполняется объединение первых серий из разных файлов, т.е. серий 1 и 2, и результат записывается в третий вспомогательный файл С
выполняется объединение вторых серий из разных файлов, т.е. серий 3 и 4, и результат записывается во вспомогательный файл D
выполняется объединение третьих серий из разных файлов, т.е. серий 5 и 6, и результат записывается опять в файл С
серии 7 и 8 после объединения записываются в файл D и т.д.

В итоге, в файлах С и D получатся объединенные серии, которые потом между собой начинают попарно объединяться с записью результата во вспомогательные файлы А и В и т. д. Процесс укрупнения серий продолжается до тех пор, пока не будет получена одна единственная серия, представляющая полученный результат.

Файл А

Серия 1

Серия 3

Серия 5

Серия 2

Серия 4

Серия 6

Файл В

Файл С

Серия 1+2

Серия 5+6

Серия 3+4

Файл D

Серия 1+2+3+4

Серия 5+6

Серия 1+2+3+4+5+6

Для программной реализации данного метода сортировки необходимы:

достаточно большой массив в ОП для реализации 1-го этапа
пять файлов, из которых один исходный и 4 вспомогательных.

Если необходимой для четырех вспомогательных файлов дисковой памяти не хватает, то можно обойтись двумя вспомогательными файлами, но за счет замедления процесса сортировки. В этом случае объединенные серии из А и В помещаются в исходный файл, а потом распределяются опять в А и В. Тем самым появляется дополнительный шаг распределения серий из исходного файла по двум вспомогательным.

Исх.

Наоборот, если требуется ускорить сортировку за счет дополнительной дисковой памяти, то вместо 4-х вспомогательных файлов можно использовать 6,8,10 и т.д. Ускорение работы происходит за счет того, что объединяются не 2 серии, а 3, 4 или 5 и т.д.

<<< < Предыдущая 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 4950 / 5350 51 52 53 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.03.2025599.04 Кб0Стратегический менеджмент методичка.DOC
#
01.04.2025442.37 Кб0Страхование лекции.doc
#
22.03.2016605.49 Кб21Стрежнева.pdf
#
01.05.202528.02 Кб0СТРЕЛОЧНЫЙ ПЕРЕВОД.docx
#
27.09.201993.25 Кб5Структура философии.docx
#
12.03.20151.81 Mб365Структуры и алгоритмы обработки данных.doc
#
12.03.2015835.7 Кб26Сттатистические методы управления качеством.pdf
#
01.05.2025113.17 Mб0СТУДЕНТЛАР ӨЧЕН ТАТАР ТЕЛЕ ӘСБАБЫ переделанная...docx
#
19.12.20186.64 Mб23СУсЧПУ_1201_Ведерников.doc
#
22.07.2019377.85 Кб8СУХТП_Венера.docx
#
27.11.2019311.81 Кб9Т 4.1.doc