3.9.3. Хешированные таблицы и функции хеширования

Как отмечалось выше, в каждой реальной таблице фактическое множество ключей является лишь небольшим подмножеством множества всех теоретически возможных ключей. Поскольку память является одним из самых дорогостоящих ресурсов вычислительной системы, из соображений ее экономии целесообразно назначать размер пространства записей равным размеру фактического множества записей или превосходящим его незначительно. В этом случае мы должны иметь некоторую функцию, обеспечивающую отображение точки из пространства ключей в точку в пространстве записей, т.е. преобразование ключа в адрес записи: r = H(k), где - r адрес записи, k - ключ.

Такая функция называется функцией хеширования (другие ее названия - функция перемешивания, функция рандомизации).

При попытке отображения точек из некоторого широкого пространства в узкое неизбежны ситуации, когда разные точки в исходном пространстве отобразятся в одну и ту же точку в целевом пространстве. Ситуация, при которой разные ключи отображаются в один и тот же адрес записи, называется коллизией или переполнением, а такие ключи называются синонимами. Коллизии - основная проблема для хешированных таблиц, решение которой будет рассмотрено далее.

Если функция H, преобразующая ключ в адрес, может порождать коллизии, то однозначной обратной функции: k = H`(r), позволяющей восстановить ключ по известному адресу, существовать не может.

Поэтому ключ должен обязательно входить в состав записи хешированной таблицы как одно из ее полей.

К функции хеширования в общем случае предъявляются следующие требования:

она должна обеспечивать равномерное распределение отображений фактических ключей по пространству записей;
она должна порождать как можно меньше коллизий для данного фактического множества записей;
она не должна отображать какую-либо связь между значениями ключей в связь между значениями адресов;
она должна быть простой и быстрой для вычисления.

В книге Кнута приведен почти исчерпывающий обзор и анализ применяемых на практике функций хеширования, мы же ограничимся лишь обзором некоторых наиболее простых.

Простейшей функцией хеширования является деление по модулю числового значения ключа на размер пространства записи. Результат интерпретируется как адрес записи. Хотя эта функция и применяется во всех приводимых ниже примерах данного раздела, следует иметь в виду, что такая функция плохо соответствует первым трем требованиям к функции хеширования и сама по себе может быть применена лишь в очень ограниченном диапазоне реальных задач. Однако операция деления по модулю обычно применяется как последний шаг в более сложных функциях хеширования, обеспечивая приведение результата к размеру пространства записей.

Функция середины квадрата. Значение ключа преобразуется в число, это число затем возводится в квадрат, из него выбираются несколько средних цифр и интерпретируются как адрес записи.

Функция свертки. Цифровое представление ключа разбивается на части, каждая из которых имеет длину, равную длине требуемого адреса. Над частями производятся какие-то арифметические или поразрядные логические операции, результат которых интерпретируется как адрес. Например, для сравнительно небольших таблиц с ключами - символьными строками неплохие результаты дает функция хеширования, в которой адрес записи получается в результате сложения кодов символов, составляющих строку-ключ.

Функция преобразования системы счисления. Ключ, записанный как число в некоторой системе счисления P, интерпретируется как число в системе счисления Q>P. Обычно выбирают Q = P+1. Это число переводится из системы Q обратно в систему P, приводится к размеру пространства записей и интерпретируется как адрес.

<<< < Предыдущая 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 2627 / 2927 28 29 > Следующая >>>

Соседние файлы в папке Структуры данных

#
23.02.2015189.44 Кб47Лабораторный практикум ДО.doc
#
23.02.20151.29 Mб49Си структуры данных1.doc
#
23.02.20151.36 Mб127Си структуры данных2.doc
#
23.02.20156.53 Mб48Сортировки доп.doc