Лекция 12

Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Московский государственный университет им. М.В. Ломоносова

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

algorithms.doc

Скачиваний:

Добавлен:

06.12.2018

Размер:

9.73 Mб

Скачать

☆

<<< < Предыдущая 25 26 27 28 29 30 31 32 33 34 35 36 37 3839 / 4939 40 41 42 43 44 45 46 47 48 49 > Следующая >>>

Лекция 12

Хеширование

Фактически, алгоритмы работы со всеми структурами данных, связанными с деревьями, основаны на операции сравнения. Можно использовать другой подход. Попробуем на основе значения элемента x, заносимого в структуру данных, вычислять некоторую функцию h(x), которая будет так или иначе отражать положение элемента x в структуре данных (например, индекс элемента в массиве). Такая функция называется хэш-функцией. Сама структура данных, поиск элементов в которой использует хэш-функцию, называется хэшируемой.

Наиболее прямолинейным способом хранения хэшируемых данных является массив массивов элементов. Т.е. для каждого значения хэш-функции отводится свой массив, в котором хранятся элементы, рассматриваемого типа. Например, для работы с множеством целых чисел, при использовании хэш-функции h(x) со значениями 0h(x)<M, можно использовать массивы

int h_array[M][N], l_array[M];

Здесь константа N задает ограничение на количество чисел, содержащихся в структуре данных, для каждого значения хэш-функции. Данные, соответствующие значению хэш-функции h(x)=i, хранятся в массиве h_array[i], количество элементов в этом массиве хранится в переменной l_array[i].

Преимущества и недостатки такого подхода очевидны: основным преимуществом является простота и удобство работы при равномерном распределении значений хэш-функции, а недостатком – неэффективность при неравномерной работе хэш-функции. Отметим также, что время работы для добавления элемента меньше времени работы для удаления элемента, т.к. в последнем случае приходится сдвигать часть массива.

Метод многих списков

Модификацией вышеописанного алгоритма является алгоритм, хранящий данные методом многих списков. В нем каждому значению хэш-функции сопоставляется свой список значений, содержащий хранимые данные. В этом случае на языке С при использовании стандартных списков (L1 или L2) для организации данных следует завести массив указателей на вершину списка:

CList *h_list[M];

здесь M – (как и выше) константа, ограничивающая максимальное значение хэш-функции; CList – тип переменной для хранения одной вершины списка.

Инициализация структуры данных тривиальна:

void Init(Clist *h_list[]){memset(h_list,0,M*sizeof(Clist*));}

Можно оценить среднее время поиска элемента в такой структуре данных в ситуации, когда у нас используется `идеальная’ хэш-функция, т.е. время ее работы равно O(1) и она с равной вероятностью выдает все свои значения для потока входных данных. В этом случае среднее время поиска элемента пропорционально среднему количеству элементов в произвольном списке из массива h_list.

Итак, пусть у нас хранится всего N элементов в M списках. Вероятность попадания элемента в один определенный список равна p=1/M. Тогда вероятность попадания k элементов в один конкретный список равна p_k=C_N^kp^k(1-p)^N^-^k. Средняя длина списка равна

l_N=_k₌₀^k^^N k p_k= Np = N/M

Данная формула доказывается следующим образом:

(x-q)^N=_k₌₀^k^^N C_N^kx^k q^N^-^k ; продифференцируем по x:

(x-q)^N^‘= N(x-q)^N^-1= _k₌₀^k^^N k C_N^kx^k^-1 q^N^-^k

Теперь, если взять x=p, q=1-p, то получим

l_N=_k=0^k^^N k p_k= p N(p- (1-p))^N-1=Np

Т.о., мы доказали следующую теорему

Теорема. Если хэш-функция h(x) с равной вероятностью принимает все свои значения 0h(x)<M, то среднее время поиска, добавления, удаления элемента в хэшируемом множестве, реализованном с помощью метода многих списков,

T_N_,_M= (N/M).

В худшем случае для поиска, добавления, удаления элемента требуется время, равное (N).

Для случая хэширования с помощью массивов оценки аналогичны.

<<< < Предыдущая 25 26 27 28 29 30 31 32 33 34 35 36 37 3839 / 4939 40 41 42 43 44 45 46 47 48 49 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
13.11.2019150.39 Кб1Alcohol, Tobacco, Fuel and Electricity Excise D...docx
#
14.08.20193.51 Mб4alehin_karmolickiy_Админа.doc
#
27.10.2018486.4 Кб12ALG.doc
#
21.11.201915.7 Mб487Algebra.doc
#
06.12.20189.83 Mб33algorithms-2010.doc
#
06.12.20189.73 Mб29algorithms.doc
#
17.04.2019128.03 Кб2alice in wonderland.docx
#
18.11.20191.19 Mб3alik_akimaliev.doc
#
12.11.2019279.04 Кб13Alkany_vyvod_formul_2011.doc
#
06.12.20182.84 Mб28All os.doc
#
18.11.2019349.7 Кб3Alle_sieben_Wellen.doc

Лекция 12

Хеширование

Метод многих списков