
- •Анатомия крупномасштабного Гипертекстовая поисковый сайт Сергей Брин и Лоуренс страницу
- •Абстрактный
- •1. Введение
- •1,1 Поисковики в интернете - Расширение масштабов: 1994 - 2000
- •1.2. Google: масштабирование с веб-
- •1,3 Целей проектирования
- •1.3.1 Повышение качества поиска
- •1.3.2 Научные исследования поисковых
- •2. Особенности системы
- •2,1 PageRank: наведение порядка в Web
- •2.1.1 Описание Расчет PageRank
- •2.1.2 Обоснование Интуитивно
- •2,2 Якорный текст
- •2.3 Другие особенности
- •3 Связанные работы
- •3.1 Информационно-поисковая
- •3.2 Различия между веб-и хорошо контролируемых Коллекции
- •4 Система Анатомии
- •4.1 Google Обзор архитектуры
- •4.2 Основные структуры данных
- •4.2.1 BigFiles
- •4.2.2 Репозиторий
- •4.2.3 Индекс документа
- •4.2.4 Lexicon
- •4.2.5 Списки Хитов
- •4.2.6 Переднего указателя
- •4.2.7 Инвертированный индекс
- •4.3 Сканирования Интернета
- •4,4 Индексирования веб-
- •4.5 Поиск
- •4.5.1 Система ранжирования
- •4.5.2 Обратная связь
- •5 Результаты и оценочные
- •5.1 Требования хранения
- •5.2 Производительность системы
- •5.3 Эффективность поиска
- •6 Выводы
- •6.1 Дальнейшая работа
- •6,2 Высококачественного поиска
- •6,3 Масштабируемая архитектура
- •6,4 Исследовательский инструмент
- •7 Благодарности
- •9 Приложение b: Масштабируемость
- •9. 1 Масштабируемость Google
- •9.2 Масштабируемость архитектуры централизованного индексирования
4.2 Основные структуры данных
Структур данных Google, оптимизированы таким образом, что большая коллекция документ может быть пополз, индексирования и поиска с небольшими затратами. Хотя, процессоров и объемной цены ввода-вывода значительно улучшились за эти годы, по-прежнему стремятся диска требуется около 10 мс, чтобы закончить. Google предназначен для предупреждения диску когда это возможно, и это оказало значительное влияние на дизайн структур данных.
4.2.1 BigFiles
BigFiles виртуальные файлы, охватывающие несколько файловых систем и которые адресуются по 64 битных целочисленных. Распределение между несколькими файловыми системами обрабатывается автоматически. BigFiles пакет также обрабатывает выделение и освобождение дескрипторов файлов, так как операционные системы не обеспечивают достаточно для наших нужд. BigFiles также поддерживают рудиментарные опции сжатия.
4.2.2 Репозиторий
Рисунок 2. Структура хранилища данных |
4.2.3 Индекс документа
Индекс документа хранит информацию о каждом документе. Это фиксированная ширина ISAM (Index режиме последовательного доступа) индекса, упорядоченные по DocId.Информация, хранящаяся в каждой записи включает в себя текущее состояние документа, указатель в хранилище, документ, контрольная сумма, а также различные статистические данные. Если документ выполнен обход, он также содержит указатель в переменную ширину файл называется DOCINFO который содержит его адрес и название. В противном случае указатель указывает в URLlist который содержит только URL. Это дизайнерское решение было обусловлено желанием иметь достаточно компактные структуры данных, а также возможность извлекать запись в одной поиск по диску во время обыска
Кроме того, есть файл, который используется для преобразования адресов в DocIds. Это список URL контрольных сумм с соответствующими DocIds и сортируется по контрольной сумме. Для того чтобы найти DocId конкретного URL, контрольная сумма в URL вычисляется и бинарный поиск выполняется на контрольные суммы файла, чтобы найти свою DocId. URL-адреса могут быть конвертированы в DocIds в партию, выполнив слияние с этим файлом. Это техника URLresolver использует URL-адресов, чтобы включить в DocIds.Этот пакетный режим обновления очень важно, поскольку в противном случае мы должны выполнить одно искать каждое звено которой предполагая, один диск может продлиться более месяца для наших 322000000 ссылка набора данных.