Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Анатомия крупномасштабного Гипертекстовая поиск...docx
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
159.81 Кб
Скачать

4.2.4 Lexicon

Лексиконе имеет несколько различных форм. Одним из важных изменений от предыдущих систем является то, что лексика может поместиться в памяти за разумную цену. В текущей реализации мы можем держать в памяти лексику на машине с 256 МБ оперативной памяти. Нынешний лексикон содержит 14 миллионов слов (хотя некоторые редкие слова не были добавлены в лексике). Он реализован на две части - список слов (объединены вместе, но разделенных нулями) и хэш-таблицы указателей. Различные функции, список слов имеет некоторую вспомогательную информацию, которая выходит за рамки этой статьи полностью объяснить.

4.2.5 Списки Хитов

Расстрельный список соответствует список вхождений определенного слова в конкретном документе, включая положение, шрифт, а капитализация информации. Хитов списки составляют большую часть пространства, используемого как в прямом и перевернутом индексов. В связи с этим, важно, чтобы представлять их настолько эффективно, насколько это возможно. Мы рассмотрели несколько вариантов кодирования положение, шрифт, а капитализация - простое кодирование (тройка целых чисел), компактный кодирования (рука оптимизированное распределение битов) и кодирование Хаффмана. В конце концов мы выбрали руку оптимизированы компактного кодирования, поскольку он требует гораздо меньше места, чем простое кодирование и гораздо меньше, чем манипуляции с битами кодирования Хаффмана. Детали из хитов показаны на рисунке 3.

Наши компактные кодирования использует два байта для каждого хита. Есть два типа просмотров: модные хиты и просто хиты. Необычные хитов включает хиты, происходящих в URL, название, якорный текст, или мета-тега. Обычная хитов включают все остальные. Просто хит состоит из капитализации бит, размер шрифта и 12 бит положение слова в документе (все позиции выше, чем 4095 помечены 4096). Размер шрифта представлена ​​по отношению к остальной части документа с использованием трех битов (всего семь значений фактически используется, потому что 111 является флагом, который сигнализирует фантазии удар). Фантазии хит состоит из капитализации немного, размер шрифта установлен в 7, указав Это излюбленное место хит, 4 бита для кодирования типа фантазии хитом, и 8 бит положение. Для якорных хиты, 8 бит позиции разделены на 4 бита за положение в якорь и 4 бита для хэш DocId якоря происходит дюйма Это дает нам некоторую ограниченную поиска по фразе тех пор, пока не так много якорей для определенное слово. Мы ожидаем, что для обновления таким образом, что якорь хитов хранятся, чтобы обеспечить более высокое разрешение в положении и docIDhash полей. Мы используем размер шрифта по отношению к остальной части документа, поскольку при поиске, вы не хотите занять место в противном случае идентичных документов по-разному только потому, что один из документов, является более крупным шрифтом.

Рисунок 3. Прямой и обратный Индексы и Лексикон

 

Длина списка результатов, хранится до хитов себя. Для экономии места длины список совпадений в сочетании с wordID в прямом индекса и DocId в инвертированный индекс. Это ограничивает его до 8 и 5 битов соответственно (Есть несколько трюков, которые позволяют 8 битов, которые будут заимствованы из wordID). Если длина больше, чем соответствовало бы в том, что многие бит, управляющий код используется в тех битов, а следующие два байта содержат фактические длины.