Лекция 12 Хеширование

Фактически, алгоритмы работы со всеми структурами данных, связанными с деревьями, основаны на операции сравнения. Можно использовать другой подход. Попробуем на основе значения элемента x, заносимого в структуру данных, вычислять некоторую функцию h(x), которая будет так или иначе отражать положение элемента x в структуре данных (например, индекс элемента в массиве). Такая функция называется хэш-функцией. Сама структура данных, поиск элементов в которой использует хэш-функцию, называется хэшируемой.

Наиболее прямолинейным способом хранения хэшируемых данных является массив массивов элементов. Т.е. для каждого значения хэш-функции отводится свой массив, в котором хранятся элементы, рассматриваемого типа. Например, для работы с множеством целых чисел, при использовании хэш-функции h(x) со значениями 0h(x)<M, можно использовать массивы

int h_array[M][N], l_array[M];

Здесь константа N задает ограничение на количество чисел, содержащихся в структуре данных, для каждого значения хэш-функции. Данные, соответствующие значению хэш-функции h(x)=i, хранятся в массиве h_array[i], количество элементов в этом массиве хранится в переменной l_array[i].

Преимущества и недостатки такого подхода очевидны: основным преимуществом является простота и удобство работы при равномерном распределении значений хэш-функции, а недостатком – неэффективность при неравномерной работе хэш-функции. Отметим также, что время работы для добавления элемента меньше времени работы для удаления элемента, т.к. в последнем случае приходится сдвигать часть массива.

Метод многих списков

Модификацией вышеописанного алгоритма является алгоритм, хранящий данные методом многих списков. В нем каждому значению хэш-функции сопоставляется свой список значений, содержащий хранимые данные. В этом случае на языке С при использовании стандартных списков (L1 или L2) для организации данных следует завести массив указателей на вершину списка:

CList *h_list[M];

здесь M – (как и выше) константа, ограничивающая максимальное значение хэш-функции; CList – тип переменной для хранения одной вершины списка.

Инициализация структуры данных тривиальна:

void Init(Clist *h_list[]){memset(h_list,0,M*sizeof(Clist*));}

Можно оценить среднее время поиска элемента в такой структуре данных в ситуации, когда у нас используется `идеальная’ хэш-функция, т.е. время ее работы равно O(1) и она с равной вероятностью выдает все свои значения для потока входных данных. В этом случае среднее время поиска элемента пропорционально среднему количеству элементов в произвольном списке из массива h_list.

Итак, пусть у нас хранится всего N элементов в M списках. Вероятность попадания элемента в один определенный список равна p=1/M. Тогда вероятность попадания k элементов в один конкретный список равна p_k=C_N^kp^k(1-p)^N^-^k. Средняя длина списка равна

l_N=_k₌₀^k^^N k p_k= Np = N/M

Данная формула доказывается следующим образом:

(x-q)^N=_k₌₀^k^^N C_N^kx^k q^N^-^k ; продифференцируем по x:

(x-q)^N^‘= N(x-q)^N^-1= _k₌₀^k^^N k C_N^kx^k^-1 q^N^-^k

Теперь, если взять x=p, q=1-p, то получим

l_N=_k=0^k^^N k p_k= p N(p- (1-p))^N-1=Np

Т.о., мы доказали следующую теорему

Теорема. Если хэш-функция h(x) с равной вероятностью принимает все свои значения 0h(x)<M, то среднее время поиска, добавления, удаления элемента в хэшируемом множестве, реализованном с помощью метода многих списков,

T_N_,_M= (N/M).

В худшем случае для поиска, добавления, удаления элемента требуется время, равное (N).

Для случая хэширования с помощью массивов оценки аналогичны.

<<< < Предыдущая 22 23 24 25 26 27 28 29 30 31 32 33 34 35 3637 / 4637 38 39 40 41 42 43 44 45 46 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
12.07.201986.53 Кб3ALBUM POCO DI BUONO 14 CANZONE.doc
#
13.11.2019150.39 Кб2Alcohol, Tobacco, Fuel and Electricity Excise D...docx
#
14.08.20193.51 Mб6alehin_karmolickiy_Админа.doc
#
27.10.2018486.4 Кб17ALG.doc
#
21.11.201915.7 Mб583Algebra.doc
#
06.12.20189.83 Mб36algorithms-2010.doc
#
06.12.20189.73 Mб35algorithms.doc
#
17.04.2019128.03 Кб3alice in wonderland.docx
#
18.11.20191.19 Mб10alik_akimaliev.doc
#
12.11.2019279.04 Кб18Alkany_vyvod_formul_2011.doc
#
06.12.20182.84 Mб34All os.doc