Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Анатомия крупномасштабного Гипертекстовая поиск...docx
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
159.81 Кб
Скачать

4.2 Основные структуры данных

Структур данных Google, оптимизированы таким образом, что большая коллекция документ может быть пополз, индексирования и поиска с небольшими затратами. Хотя, процессоров и объемной цены ввода-вывода значительно улучшились за эти годы, по-прежнему стремятся диска требуется около 10 мс, чтобы закончить. Google предназначен для предупреждения диску когда это возможно, и это оказало значительное влияние на дизайн структур данных.

4.2.1 BigFiles

BigFiles виртуальные файлы, охватывающие несколько файловых систем и которые адресуются по 64 битных целочисленных. Распределение между несколькими файловыми системами обрабатывается автоматически. BigFiles пакет также обрабатывает выделение и освобождение дескрипторов файлов, так как операционные системы не обеспечивают достаточно для наших нужд. BigFiles также поддерживают рудиментарные опции сжатия.

4.2.2 Репозиторий

  

Рисунок 2. Структура хранилища данных

Репозиторий содержит полный HTML каждой веб-страницы. Каждая страница сжимается с помощью Zlib (см. RFC1950 ). Выбор технологии сжатия компромисс между скоростью и степенью сжатия. Мы выбрали Zlib в скорости более значительное улучшение сжатия, предлагаемые BZIP . Степень сжатия BZIP было примерно 4 к 1 в хранилище по сравнению с Zlib в 3 к 1 сжатия. В репозитории хранятся документы один за другим и начинаются с DocId, длину и URL, как можно видеть на рисунке 2. Хранилище не требует никаких других структур данных, которые будут использоваться для того, чтобы получить к нему доступ. Это помогает с данными совместимость, и возможность развития гораздо проще, мы можем восстановить все другие структуры данных только из репозитория и файл в котором перечислены гусеничном ошибок.

4.2.3 Индекс документа

Индекс документа хранит информацию о каждом документе. Это фиксированная ширина ISAM (Index режиме последовательного доступа) индекса, упорядоченные по DocId.Информация, хранящаяся в каждой записи включает в себя текущее состояние документа, указатель в хранилище, документ, контрольная сумма, а также различные статистические данные. Если документ выполнен обход, он также содержит указатель в переменную ширину файл называется DOCINFO который содержит его адрес и название. В противном случае указатель указывает в URLlist который содержит только URL. Это дизайнерское решение было обусловлено желанием иметь достаточно компактные структуры данных, а также возможность извлекать запись в одной поиск по диску во время обыска

Кроме того, есть файл, который используется для преобразования адресов в DocIds. Это список URL контрольных сумм с соответствующими DocIds и сортируется по контрольной сумме. Для того чтобы найти DocId конкретного URL, контрольная сумма в URL вычисляется и бинарный поиск выполняется на контрольные суммы файла, чтобы найти свою DocId. URL-адреса могут быть конвертированы в DocIds в партию, выполнив слияние с этим файлом. Это техника URLresolver использует URL-адресов, чтобы включить в DocIds.Этот пакетный режим обновления очень важно, поскольку в противном случае мы должны выполнить одно искать каждое звено которой предполагая, один диск может продлиться более месяца для наших 322000000 ссылка набора данных.