
- •Анатомия крупномасштабного Гипертекстовая поисковый сайт Сергей Брин и Лоуренс страницу
- •Абстрактный
- •1. Введение
- •1,1 Поисковики в интернете - Расширение масштабов: 1994 - 2000
- •1.2. Google: масштабирование с веб-
- •1,3 Целей проектирования
- •1.3.1 Повышение качества поиска
- •1.3.2 Научные исследования поисковых
- •2. Особенности системы
- •2,1 PageRank: наведение порядка в Web
- •2.1.1 Описание Расчет PageRank
- •2.1.2 Обоснование Интуитивно
- •2,2 Якорный текст
- •2.3 Другие особенности
- •3 Связанные работы
- •3.1 Информационно-поисковая
- •3.2 Различия между веб-и хорошо контролируемых Коллекции
- •4 Система Анатомии
- •4.1 Google Обзор архитектуры
- •4.2 Основные структуры данных
- •4.2.1 BigFiles
- •4.2.2 Репозиторий
- •4.2.3 Индекс документа
- •4.2.4 Lexicon
- •4.2.5 Списки Хитов
- •4.2.6 Переднего указателя
- •4.2.7 Инвертированный индекс
- •4.3 Сканирования Интернета
- •4,4 Индексирования веб-
- •4.5 Поиск
- •4.5.1 Система ранжирования
- •4.5.2 Обратная связь
- •5 Результаты и оценочные
- •5.1 Требования хранения
- •5.2 Производительность системы
- •5.3 Эффективность поиска
- •6 Выводы
- •6.1 Дальнейшая работа
- •6,2 Высококачественного поиска
- •6,3 Масштабируемая архитектура
- •6,4 Исследовательский инструмент
- •7 Благодарности
- •9 Приложение b: Масштабируемость
- •9. 1 Масштабируемость Google
- •9.2 Масштабируемость архитектуры централизованного индексирования
4,4 Индексирования веб-
Разбор - Любой парсер, который предназначен для работы на всей Web должен обрабатывать огромный массив возможных ошибок. Они варьируются от опечатки в HTML теги для килобайт нулей в середине тега, не-ASCII символов, HTML теги вложенные сотни глубоко, и великое множество других ошибок, что воображение бросаю вызов любому, чтобы придумать с одинаково творческих. Для достижения максимальной скорости, вместо использования YACC генерировать CFG анализатор, мы используем гибкий для создания лексического анализатора, который мы снаряжение с собственным стеком. Развивая это парсер, который работает на разумной скорости и является очень надежным участвует достаточно много работы.
Индексирования документов в бочки - После каждого документ разобран, его шифрования в ряде баррелей. Каждое слово преобразуется в wordID помощью в памяти хэш-таблицы - лексиконе. Новые дополнения к таблице хэш лексики записываются в файл. После слов преобразуют в wordID, их вхождения в настоящем документе, переводятся в хит списки и записываются в прямом баррелей. Основная трудность с распараллеливания индексации фазы является то, что лексика должна быть общей. А не делиться с лексикой, мы взяли способ записи лог всех лишних слов, которые не были в базовой лексики, которую мы зафиксирована на уровне 14 миллионов слов. Таким образом, несколько индексаторы могут выполняться параллельно, а затем небольшой лог-файл лишних слов может быть обработан одним окончательным индексатор.
Сортировка - В целях получения инвертированного индекса, сортировщик принимает каждый из бочки вперед и сортирует его wordID производить перевернутой бочке для заголовка и якорь ударов и полный текст инвертируется баррель. Этот процесс происходит один ствол за один раз, таким образом, требует мало временного хранения. Кроме того, мы распараллелить фазу сортировки использовать столько машин, сколько у нас есть просто запустив несколько сортировщики, которая может обрабатывать различными ковшами в то же время. Поскольку баррелей не вписываются в основной памяти, сортировщик дальнейшего подразделяет их в корзинах которые вписываются в памяти на основе wordID и DocId. Тогда сортировщик, грузы каждой корзины в память, сортирует его и записывает его содержимое в короткие перевернутой бочки и полный перевернутой бочке.
4.5 Поиск
Целью поисков является обеспечение качества результатов поиска эффективно. Многие крупные коммерческие поисковые машины, казалось, сделали большой шаг вперед с точки зрения эффективности. Таким образом, мы обращали больше внимания на качество поиска в нашем исследовании, хотя мы считаем, что наши решения масштабируемых коммерческих объемах с немного больше усилий. Оценка Google запроса процесса показано на рисунке 4.
Сортировать документы, которые соответствуют по рангам и вернуться к верхней. Рисунок 4. Вычисление запросов Google |
Положить предел на время отклика, как только определенное количество (в настоящее время 40 000) соответствующих документов обнаружили, поисковик автоматически переходит к шагу 8 на рисунке 4. Это означает, что, возможно, что суб-оптимальных результатов будут возвращены. Мы в настоящее время изучают другие способы решения этой проблемы. В прошлом, мы разобрались хитов по PageRank, который, казалось, улучшить ситуацию.