Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Data Structures and Algorithms in C++ 2e (На ру...docx
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
2.37 Mб
Скачать

376 Глава 9. Хеш-таблицы, карты и списки пропуска

9.2.2 Функции мешанины

Вторая часть структуры хеш-таблицы - функция, h, вызвал функцию мешанины, которая наносит на карту каждый ключ k в нашей карте к целому числу в диапазоне [0, N- 1], где N

мощность ведра выстраивает для этого стола. Оборудованный такой функцией мешанины,

h, мы можем применить метод множества ведра к произвольным ключам. Главная идея этого подхода состоит в том, чтобы использовать стоимость функции мешанины, h (k), как индекс в наше множество ведра, A, вместо ключа k (который является наиболее вероятно несоответствующим для использования в качестве индекса множества ведра). Таким образом, мы храним вход (k, v) в ведре [h (k)].

Конечно, если будет два или больше ключа с той же самой стоимостью мешанины, то два различных записей будут нанесены на карту к тому же самому ведру в A. В этом случае мы говорим, что столкновение произошло. Ясно, если каждое ведро A может сохранить только единственный вход, то мы не можем связать больше чем один вход с единственным ведром, которое является проблемой в случае столкновений. Безусловно, есть способы иметь дело со столкновениями, которые мы обсуждаем позже, но лучшая стратегия состоит в том, чтобы попытаться избежать их во-первых. Мы говорим, что функция мешанины «хороша», если она наносит на карту ключи в нашей карте таким способом как, чтобы минимизировать столкновения как можно больше. По практическим причинам мы также хотели бы, чтобы функция мешанины была быстра и легка вычислить.

Мы рассматриваем оценку функции мешанины, h (k), как состоящий из двух действий - отображение ключа k к целому числу, названному кодексом мешанины и отображением кодекса мешанины

к целому числу в пределах ряда индексов ([0, N- 1]) множества ведра, названного

функция сжатия. (См. рисунок 9.3.)

Рисунок 9.3: две части функции мешанины: крошите функция сжатия и кодекс.

9.2.3 Кодексы мешанины

Первое действие, которое выполняет функция мешанины, должно взять произвольный ключ k в нашей карте

и назначьте ему целочисленное значение. Целое число, назначенное на ключ k, называют мешаниной

кодекс для k. Это целочисленное значение не должно быть в диапазоне [0, N- 1], и может даже быть

9.2. Хеш-таблицы 377

отрицательный, но мы хотим набор кодексов мешанины, порученных на наши ключи избегать столкновений

как можно больше. Если кодексы мешанины наших ключей вызывают столкновения, то нет никакой надежды на нашу функцию сжатия, чтобы избежать их. Кроме того, чтобы быть совместимыми со всеми нашими ключами, кодекс мешанины мы используем для ключа k, должен совпасть с кодексом мешанины для любого ключа, который равен k.

Кодексы мешанины в C ++

Кодексы мешанины, описанные ниже, основаны на предположении что число

части каждого типа известны. Эта информация предоставлена в стандарте, включают файл <пределы>. Это включает файл, определяет templated класс числовые пределы. Учитывая основной тип T (такой как случайная работа, интервал или float), число битов в переменной типа T дано «числовыми пределами <T> .digits». Давайте рассмотрим несколько типов общих данных и некоторые функции в качестве примера для назначения кодексов мешанины к объектам этих типов.

Преобразование в целое число

Чтобы начаться, мы отмечаем, что, для любого типа данных X, который представлен, используя самое большее как

много битов как наша мешанина целого числа кодируют, мы можем просто взять интерпретацию целого числа его битов как кодекс мешанины для X. Таким образом, для C ++ фундаментальная случайная работа типов, короткая, и международная, мы можем достигнуть хорошего кодекса мешанины просто, бросив этот тип к интервалу.

На многих машинах у типа долго есть маленькое представление, которое является в два раза длиннее, чем интервалом типа. Один возможный кодекс мешанины для длинного объекта должен просто разрушить его к целому числу и затем применить кодекс мешанины целого числа. Проблема состоит в том, что такой кодекс мешанины игнорирует половину информации, существующей в первоначальной стоимости. Если многие ключи в нашей карте только будут отличаться по этим битам, то они столкнутся, используя этот простой кодекс мешанины. Лучший кодекс мешанины, который принимает все оригинальные биты во внимание, суммирует представление целого числа старших битов с представлением целого числа битов младшего разряда.

Действительно, подход подведения итогов компонентов может быть расширен на любой объект x, чье двойное представление может быть рассмотрено как k-кортеж (x0, x1..., xk-1) целых чисел, потому что мы можем тогда сформировать кодекс мешанины для x какåki=01 xi. Например, учитывая любого -

Число floating-пункта, мы можем суммировать его мантиссу и образца как длинные целые числа, и

тогда примените кодекс мешанины для длинных целых чисел к результату.

Многочленные кодексы мешанины

Кодекс мешанины суммирования, описанный выше, не является хорошим выбором для характера

последовательности или другие объекты переменной длины, которые могут быть рассмотрены как кортежи формы (x0, x1..., xk-1), где заказ xi's значительный. Например, рассмотрите кодекс мешанины для строки символов s, который суммирует ценности ASCII знаков

378

Глава 9. Хеш-таблицы, Карты и Списки Пропуска в s. К сожалению, этот кодекс мешанины производит много нежелательных столкновений для com-групп в понедельник последовательностей. В частности «temp01» и «temp10» сталкиваются, используя эту функцию, также, как и «остановка», «вершины», «горшки» и «пятно». Лучший кодекс мешанины учитывает положения xi's. Альтернативный кодекс мешанины, который делает точно это, выбирает константу отличную от нуля, = 1, и использование

x0ak-1 + x1ak-2 + + xk-2a + xk-1

как кодовое обозначение мешанины. Математически разговор, это - просто полиномиал в, который берет компоненты (x0, x1..., xk-1) объекта x как его коэффициенты. Эта мешанина

кодекс поэтому называют многочленным кодексом мешанины. Правлением Хорнера (см. C-4.16 Осуществления), этот полиномиал может быть переписан как

xk-1 + (xk-2 + (xk-3 + + (x2 + (x1 + ax0)))).

Интуитивно, многочленный кодекс мешанины использует умножение константой как способ «создать место» для каждого компонента в кортеже ценностей, в то время как также preserv-луг характеристика предыдущих компонентов. Конечно, на типичной com-короткой клюшке для гольфа, оценивая полиномиал сделан, используя конечное представление долота для кодекса мешанины; следовательно, стоимость периодически overflows биты используется для целого числа. Так как мы больше интересуемся хорошим распространением объекта x относительно других ключей, мы просто игнорируем такой overflows. Однако, мы должны быть внимательными, что такие overflows происходят и выбирают константу так, чтобы у нее были некоторые биты младшего разряда, отличные от нуля, которые служат, чтобы сохранить часть информационного содержания, даже если мы находимся в overflow ситуации.

Мы сделали некоторые экспериментальные исследования, которые предполагают, что 33, 37, 39, и 41 хороший выбор для, работая со строками символов, которые являются английскими словами. Фактически, в списке более чем 50 000 английских слов сформировался как союз списков слов, предоставленных в двух вариантах Unix, мы нашли, что взятие, чтобы быть 33, 37, 39, или 41 произвело меньше чем семь столкновений в каждом случае! Много внедрений хеширования последовательности выбирают многочленную функцию мешанины, используя одну из этих констант для a, как кодекс мешанины по умолчанию. Ради скорости, однако, некоторые внедрения только применяют многочленную функцию мешанины к части знаков в длинных последовательностях.

Циклические кодексы мешанины изменения

Вариант многочленного кодекса мешанины заменяет умножение с циклическим

изменение частичной суммы определенным числом битов. Такая функция, относился к строкам символов в C ++, мог, например, быть похожим на следующий. Мы принимаем 32-битную длину слова целого числа, и мы принимаем доступ к функции hashCode (x) для целых чисел. Чтобы достигнуть 5-битного циклического изменения, мы формируемся «bitwise или» (см. Раздел 1.2) 5 битов, оставленных изменение и 27-битное правильное изменение. Как прежде, мы используем неподписанное целое число так, чтобы правильные изменения заполнились нолями.

9.2. Хеш-таблицы

интервал hashCode (случайная работа константы* p, интервал len)

неподписанный интервал h = 0;

для (интервал i = 0; я <len; я ++)

h = (h <<5) (h>> 27);

h + = (неподписанный интервал) p [я];

возвратите hashCode (интервал (h));

//крошите множество характера

//5-битное циклическое изменение//добавляет в следующем характере

379

Как с традиционным многочленным кодексом мешанины, используя циклическое изменение крошат кодекс пере -

печатные листы некоторая точная настройка. В этом случае мы должны мудро выбрать сумму, чтобы перейти для каждого нового характера.

Результаты эксперимента

В Таблице 9.1 мы показываем результаты некоторого пробега экспериментов в списке просто

25 000 английских слов, которые сравнивают число столкновений для различных сумм изменения.

Столкновения Столкновения

Изменение Общее количество Макс Изменение Общее количество Макс

0

23739

86

9

18

2

1

10517

21

10

277

3

2

2254

6

11

453

4

3

448

3

12

43

2

4

89

2

13

13

2

5

4

2

14

135

3

6

6

2

15

1082

6

7

14

2

16

8760

9

8

105

2

Таблица 9.1: Сравнение поведения столкновения для циклического варианта изменения поли - nomial крошит кодекс в применении к списку чуть более чем 25 000 английских слов. «Полная» колонка делает запись общего количества столкновений, и колонка «Макса» делает запись максимального количества столкновений для любого кодекса мешанины. Обратите внимание на то, что, с циклическим изменением 0, этот кодекс мешанины возвращается к тому, который просто суммирует все знаки.

Они и наши предыдущие эксперименты показывают, что, если мы выбираем наш постоянный a или нашу стоимость изменения мудро, тогда или многочленный кодекс мешанины или его вариант циклического изменения подходят для любого объекта, который может быть написан как кортеж (x0, x1..., xk-1),

380

Глава 9. Хеш-таблицы, Карты и Списки Пропуска, где заказ в вопросах кортежей. В частности обратите внимание на то, что использование изменения 5 или 6 особенно хорошо для английских слов. Кроме того, отметьте, как плохо простое добавление ценностей было бы без перемены (то есть, для изменения 0).

Хеширование количеств с плавающей запятой

На большинстве машин интервал типов и float - оба 32-битные количества. Тем не менее,

подход кастинга float переменной, чтобы напечатать интервал не произвел бы хорошую функцию мешанины, так как это усечет фракционную часть стоимости floating-пункта. В целях крошить, мы действительно не заботимся о стоимости числа. Достаточно рассматривать число как последовательность битов. Предполагая, что случайная работа сохранена как 8-битный байт, мы могли интерпретировать 32 бита float как множество характера с четырьмя элементами и 64 бита дважды как множество характера с восемью элементами. C ++ обеспечивает операцию, названную давать иное толкование броском, чтобы бросить между такими несвязанными типами. Этот бросок рассматривает количества как последовательность битов и не предпринимает попытки разумно преобразовать значение одного количества другому.

Например, мы могли проектировать функцию мешанины для float первым иным толкованием ему как множество знаков, и затем применение множества характера hashCode функция определило выше. Мы используем оператора sizeof, который возвращает число байтов в типе.

интервал hashCode (константа oat& x) //имеет h fl o в

интервал len = sizeof (x);

случайная работа константы* p = дает иное толкование броску <случайная работа константы*> (&x); возвратите hashCode (p, len);

Дайте иное толкование броскам, обычно не портативные операции, так как результат зависит

на кодировании особой машины типов как образец битов. В нашем случае мобильность не проблема, так как мы интересуемся только интерпретацией стоимости пункта floating как последовательность битов. Единственная собственность, которой мы требуем, состоит в том, что у float переменных с равными ценностями должна быть та же самая последовательность долота.

9.2.4 Функции сжатия

Кодекс мешанины для ключа k, как правило, не подходит для непосредственного использования с ведром

множество, потому что диапазон возможных кодексов мешанины для наших ключей, как правило, превышает ряд юридических индексов нашего ведра, выстраивает A. Таким образом, неправильно используя кодекс мешанины, поскольку индекс в наше множество ведра может привести к состоянию ошибки, или потому что индекс отрицателен, или это превышает способность A. Таким образом, как только мы определили кодекс мешанины целого числа для ключевого объекта k, есть все еще проблема отображения того целого числа

9.2. Хеш-таблицы 381

в диапазон [0, N- 1]. Этот шаг сжатия - второе действие что мешанина

функция выступает.

Метод подразделения

Одна простая функция сжатия, чтобы использовать

h (k) =|k модник Н, которого называют методом подразделения. Кроме того, если мы берем N, чтобы быть началом

число, тогда эта функция мешанины помогает «распространить» распределение крошивших ценностей. Действительно, если N не главный, есть более высокая вероятность, что образцы в распределении ключей будут повторены в распределении кодексов мешанины, таким образом вызывая столкновения.

Например, если мы крошим ключи200, 205, 210, 215, 220..., 600 к ведру

множество размера 100 использований метода подразделения, тогда каждый кодекс мешанины сталкивается с

три других. Но если этот тот же самый набор ключей так же крошится ко множеству ведра размера 101, то нет никаких столкновений. Если функция мешанины выбрана хорошо, она должна гарантировать, что вероятность двух различных ключей, крошивших к тому же самому ведру, 1/Н. Выбор N, чтобы быть простым числом не всегда достаточно, однако, потому что, если есть повторный образец значений ключа формы в + j для нескольких отличающихся, я, тогда есть все еще столкновения.

БЕЗУМНЫЙ метод

Более сложная функция сжатия, которая помогает устранить повторенный кусочек -

крачки в ряде ключей целого числа являются умножением, добавляют и делят (или «БЕЗУМНЫЙ») метод. В использовании этого метода мы определяем функцию сжатия как

h (k) =|ak + b модник Н, где N - простое число, и a и b, является неотрицательными целыми числами, беспорядочно выбранными

в то время, когда функция сжатия определена, так, чтобы модник Н = 0. Эта функция сжатия выбрана, чтобы устранить повторные образцы в наборе кодексов мешанины и получить нас ближе к наличию «хорошей» функции мешанины, то есть, одному наличию вероятности, что любые два различных ключа сталкиваются, 1/Н. Это хорошее поведение совпало бы с, если бы эти ключи были «брошены» в однородно наугад.

С функцией сжатия, такой как это, которое распространяет n целые числа справедливо равномерно

в диапазоне [0, N- 1], и отображение ключей в нашей карте к целым числам, мы имеем

эффективная функция мешанины. Вместе, такая функция мешанины и множество ведра определяют

ключевые компоненты внедрения хеш-таблицы карты ADT.

Но прежде чем мы можем дать детали того, как выполнить такие операции как находка, вставить и стереть, мы должны сначала решить вопрос о как мы, чтобы обращаться со столкновениями.