Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Белорусская государственная академия искусств

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

iofs_shpory.docx

Скачиваний:

Добавлен:

01.05.2025

Размер:

1.58 Mб

Скачать

☆

<<< < Предыдущая 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 1819 / 2619 20 21 22 23 24 25 26 > Следующая >>>

40. Алгоритмы обработки информации на базе графовых моделей.

Хеширование данных

Основная идея метода заключается в том, что множество данных разбивается на конечное число классов. Для В классов, пронумерованных от 0 до В-1, строится хеш-функция h, которая для любого элемента x исходного множества функция h(x) принимает целочисленное значение из интервала 0, ..., В-1, соответствующее классу, которому принадлежит элемент x. Элемент x называют ключом, h(x) – хеш-значением х, а классы – сегментами. Массив (таблица сегментов), проиндексированный номерами сегментов 0, 1, ... В-1, содержит заголовки для В списков. Элемент х i-го списка – это элемент исходного множества, для которого h(x)=i. Если сегменты приблизительно равны по размеру, то в этом случае списки всех сегментов должны быть наиболее короткими при данном числе сегментов. Если исходное множество состоит из N элементов, тогда средняя длина списков будет N/B элементов. Если удается оценить величину N и выбрать B как можно ближе к этой величине, то в каждом списке будет один- два элемента. Тогда время выполнения операций с данными будет малой постоянной величиной, зависящей от N или от В. Однако не всегда ясно, как выбрать хеш-функцию h так, чтобы она примерно поровну распределяла элементы исходного множества по всем сегментам.

Идеальной хеш-функцией является такая, которая для любых двух

неодинаковых ключей выдает неодинаковые адреса, т. е.

Однако подобрать такую функцию можно в случае, если все возможные значения ключей известны заранее.

Внешние деревья поиска

Обобщением дерева двоичного поиска является m-арное дерево, в котором каждый узел имеет не более m сыновей. Так же, как и для деревьев бинарного поиска, для m-арного дерева считается, что выполняется следующее условие: если n1 и n2 являются двумя сыновьями одного узла и n1 находится слева от n2 , тогда все элементы, исходящие вниз от n1 , оказываются меньше элементов, исходящих вниз от n2 . Операции поиска, вставки и удаления элементов для m-арного дерева поиска реализуются путем обобщения аналогичных операций для деревьев бинарного поиска.

Внутренний узел содержит указатели на своих m сыновей, а также m-1 ключевых значений, которые разделяют потомков этих сыновей. Листья также являются блоками, содержащими записи основного файла.

В-дерево – это особый вид сбалансированного m-арного дерева, который

позволяет выполнять операции поиска, вставки и удаления записей из

внешнего файла с гарантированной производительностью для самой

неблагоприятной ситуации.

В-дерево порядка m представляет собой m-арное дерево поиска,

характеризующееся следующими свойствами.:

1 Корень либо является листом, либо имеет хотя бы двух сыновей.

2 Каждый узел, кроме корня и листьев, имеет от m/2 до m сыновей.

3 Все пути от корня до любого листа имеют одинаковую длину.

В-дерево можно рассматривать как иерархический индекс, каждый узел вкотором занимает блок во внешней памяти. Корень В-дерева является индексом первого уровня. Каждый нелистовой узел на В-дереве имеет форму

p0 , k1, p1, k2 , p2 ,...kn , pn ), где pi является указателем на i-ого сына,

0<= i<= n, а ki – ключ, 1<=i<=n.

Ключи в узле упорядочены, поэтому k1<k2<...< kn .

Все ключи в поддереве, на которое указывает p0 , меньше, чем k1 . В случае

1<=i<=n все ключи в поддереве, на которое указывает pi , имеют значения, не

меньшие, чем ki , и меньшие, чем ki+1. Все ключи в поддереве, на которое

указывает pn , имеют значения, не меньшие, чем kn .

Сравнение методов

На практике сравнивают количество обращений к блокам для разных

методов, связанное с выполнением той или иной операции с файлами.

Хеширование зачастую является самым быстрым из методов. Оно

требует в среднем двух обращений к блокам по каждой операции, не считая

обращений к блокам, которые требуются для просмотра самой таблицысегментов, если количество сегментов достаточно велико для того, чтобытипичный сегмент использовал только один блок. Однако в случае

хеширования сложно обращаться к записям в отсортированнойпоследовательности.

В-деревья получили большую популярность как средство доступа к

файлам в системах баз данных. Причина этой популярности частичнозаключается в их способности обрабатывать запросы, запрашивая записи с

ключами, относящимися к определенному диапазону. Кроме того, В-деревьяудачно использовать в качестве вторичных указателей, когда ключи вдействительности не определяют ту или иную уникальную запись. Всеперечисленные методы намного эффективнее обычного последовательного

просмотра файла. Временные различия между ними невелики и не поддаются

точной аналитической оценки, особенно с учетом того, что соответствующие

параметры такие, как ожидаемая длина файла и коэффициенты заполненности

блоков, трудно прогнозировать заранее.

<<< < Предыдущая 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 1819 / 2619 20 21 22 23 24 25 26 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
04.02.2016450.05 Кб113Erikh_Fromm_Iskusstvo_lyubit.doc
#
01.05.2025262.88 Кб2FILOSOFIYa_I_ESTYeTIKA.docx
#
04.08.201968.1 Кб9filo_vopr_i_otvety.doc
#
08.07.2019360.96 Кб10formant2.doc
#
04.02.201628.36 Кб104FSA_pragrama_ekzamenu.docx
#
01.05.20251.58 Mб2iofs_shpory.docx
#
30.10.201892.67 Кб20Karpic.doc
#
09.11.2019259.07 Кб7KUL_TURALOGIYa_-_VMK.doc
#
20.11.20191.88 Mб84Kurs_Lekcij_Rtr_XXv_war.doc
#
01.07.202532.59 Кб2Kutuzov_otvety.docx
#
04.02.20164.37 Mб15Litaraturnaya_klasika_dapamozhnik.pdf