
- •Анатомия крупномасштабного Гипертекстовая поисковый сайт Сергей Брин и Лоуренс страницу
- •Абстрактный
- •1. Введение
- •1,1 Поисковики в интернете - Расширение масштабов: 1994 - 2000
- •1.2. Google: масштабирование с веб-
- •1,3 Целей проектирования
- •1.3.1 Повышение качества поиска
- •1.3.2 Научные исследования поисковых
- •2. Особенности системы
- •2,1 PageRank: наведение порядка в Web
- •2.1.1 Описание Расчет PageRank
- •2.1.2 Обоснование Интуитивно
- •2,2 Якорный текст
- •2.3 Другие особенности
- •3 Связанные работы
- •3.1 Информационно-поисковая
- •3.2 Различия между веб-и хорошо контролируемых Коллекции
- •4 Система Анатомии
- •4.1 Google Обзор архитектуры
- •4.2 Основные структуры данных
- •4.2.1 BigFiles
- •4.2.2 Репозиторий
- •4.2.3 Индекс документа
- •4.2.4 Lexicon
- •4.2.5 Списки Хитов
- •4.2.6 Переднего указателя
- •4.2.7 Инвертированный индекс
- •4.3 Сканирования Интернета
- •4,4 Индексирования веб-
- •4.5 Поиск
- •4.5.1 Система ранжирования
- •4.5.2 Обратная связь
- •5 Результаты и оценочные
- •5.1 Требования хранения
- •5.2 Производительность системы
- •5.3 Эффективность поиска
- •6 Выводы
- •6.1 Дальнейшая работа
- •6,2 Высококачественного поиска
- •6,3 Масштабируемая архитектура
- •6,4 Исследовательский инструмент
- •7 Благодарности
- •9 Приложение b: Масштабируемость
- •9. 1 Масштабируемость Google
- •9.2 Масштабируемость архитектуры централизованного индексирования
1,1 Поисковики в интернете - Расширение масштабов: 1994 - 2000
Технология поисковой машины пришлось резко масштабироваться, чтобы идти в ногу с ростом сети. В 1994 году одной из первых поисковых Интернет, World Wide Web червь (WWWW) [McBryan 94] были индекс 110 000 веб-страниц и веб доступных документов. По состоянию на ноябрь 1997 года топ поисковых систем утверждают, что индекс от 2000000 (WebCrawler) до 100 миллионов веб-документов (от поиска Часы Engine) . Можно предположить, что к 2000 году, всеобъемлющий индекс Web будет содержать более миллиарда документов. В то же время, количество запросов ручки поисковых систем вырос невероятно тоже. В марте и апреле 1994 года World Wide Web Worm получали в среднем около 1500 запросов в день. В ноябре 1997 года утверждал, что это Altavista обрабатывается примерно 20 миллионов запросов в день. С ростом числа пользователей в Интернете, и автоматизированные системы, которые запросов поисковых систем, вполне вероятно, что топ поисковых систем будет обрабатывать сотни миллионов запросов в день к 2000 году.Цель нашей системы заключается в решении многих проблем, как по качеству, и масштабируемость, введенный масштабирования поисковой технологии такого внеочередного номера.
1.2. Google: масштабирование с веб-
Создание поисковой системы, который масштабирует даже современных веб-представляет много проблем. Технология быстрого сканирования необходимо собрать веб-документов и держать их в актуальном состоянии. Дисковое пространство должно быть эффективно использованы для хранения индексов и, возможно, сами документы. Индексации система должна обрабатывать сотни гигабайт данных эффективно. Запросы должны быть обработаны быстро, со скоростью сотен до тысяч в секунду.
Эти задачи становятся все сложнее по мере роста Интернета. Тем не менее, производительность оборудования и стоимость значительно улучшились частично компенсировать трудности. Есть, однако, несколько заметных исключений из этого прогресса, таких как время доступа и надежность операционной системы. При разработке Google, мы рассмотрели как скорость роста сети Интернет и технологические изменения. Google предназначен для масштабирования хорошо очень больших наборах данных. Это позволяет эффективно использовать складские помещения для хранения индекса. Его структуры данных оптимизированы для быстрого и эффективного доступа (см. раздел 4.2 ). Кроме того, мы ожидаем, что индекс стоимости и текст магазине или HTML, в конечном счете снижаться по отношению к количеству, которое будет доступно (см. Приложение B ). Это приведет к благоприятные свойства масштабирования для централизованных систем, таких как Google.
1,3 Целей проектирования
1.3.1 Повышение качества поиска
Наша цель заключается в улучшении качества поисковые машины. В 1994 году, некоторые люди считают, что полный индекс поиска позволят найти что-либо легко. СогласноЛучшее в Интернете 1994 - Навигаторы, "Лучшая навигационная служба должна сделать его легко найти почти все, в интернете (После того как все данные введены)." Тем не менее, веб-1997 совершенно иная. Любой, кто использовал поисковую систему недавно, может свидетельствовать, что легко полноты индекса не является единственным фактором, определяющим качество результатов поиска. "Junk результаты" часто промывать любые результаты, которые интересуют пользователя дюйма В самом деле, по состоянию на ноябрь 1997 года, только один из четырех крупнейших коммерческих поисковых оказывается (возвращает свою собственную страницу поиска в ответ на его имя в первой десятке результаты). Одной из основных причин этой проблемы является то, что ряд документов по индексам увеличивается на много порядков величины, но возможность пользователей Для открытия документов не имеет. Люди по-прежнему только желающих посмотреть на первые несколько десятков результатов. Из-за этого, как сбор увеличивается в размерах, необходимо инструменты, которые имеют очень высокую точность (количество соответствующих документов результата поиска, например, в верхней десятков результаты).Действительно, мы хотим, чтобы наши понятие "соответствующий", чтобы включить только самые лучшие документы, так как там может быть десятки тысяч слегка соответствующих документов. Это очень высокая точность важна даже за счет вызова (общее количество соответствующих документов система может вернуться). Существует довольно мало оптимизма, что последние использование более гипертекстовой информации может помочь улучшить поиск и другие приложения [ Marchiori 97 ] [ 97 Spertus ] [ Weiss 96 ] [Клейнберг 98 ]. В частности, структура ссылок [ стр. 98 ] и текстовая ссылка предоставить много информации для принятия решений актуальность и качество фильтрации. Google использует и структура ссылок и якорного текста (см. разделы 2.1 и 2.2 ).