
- •Анатомия крупномасштабного Гипертекстовая поисковый сайт Сергей Брин и Лоуренс страницу
- •Абстрактный
- •1. Введение
- •1,1 Поисковики в интернете - Расширение масштабов: 1994 - 2000
- •1.2. Google: масштабирование с веб-
- •1,3 Целей проектирования
- •1.3.1 Повышение качества поиска
- •1.3.2 Научные исследования поисковых
- •2. Особенности системы
- •2,1 PageRank: наведение порядка в Web
- •2.1.1 Описание Расчет PageRank
- •2.1.2 Обоснование Интуитивно
- •2,2 Якорный текст
- •2.3 Другие особенности
- •3 Связанные работы
- •3.1 Информационно-поисковая
- •3.2 Различия между веб-и хорошо контролируемых Коллекции
- •4 Система Анатомии
- •4.1 Google Обзор архитектуры
- •4.2 Основные структуры данных
- •4.2.1 BigFiles
- •4.2.2 Репозиторий
- •4.2.3 Индекс документа
- •4.2.4 Lexicon
- •4.2.5 Списки Хитов
- •4.2.6 Переднего указателя
- •4.2.7 Инвертированный индекс
- •4.3 Сканирования Интернета
- •4,4 Индексирования веб-
- •4.5 Поиск
- •4.5.1 Система ранжирования
- •4.5.2 Обратная связь
- •5 Результаты и оценочные
- •5.1 Требования хранения
- •5.2 Производительность системы
- •5.3 Эффективность поиска
- •6 Выводы
- •6.1 Дальнейшая работа
- •6,2 Высококачественного поиска
- •6,3 Масштабируемая архитектура
- •6,4 Исследовательский инструмент
- •7 Благодарности
- •9 Приложение b: Масштабируемость
- •9. 1 Масштабируемость Google
- •9.2 Масштабируемость архитектуры централизованного индексирования
2.1.1 Описание Расчет PageRank
Академическая литература цитата была применена к Сети, в значительной степени путем подсчета цитат или обратных ссылок на данной странице. Это дает некоторое приближение важности страницы или качества. PageRank расширяет эту идею, не считая ссылки со всех страниц в равной степени, и путем нормализации по количеству ссылок на странице. PageRank определяется следующим образом:
Мы предполагаем странице есть страницы T1 ... Tn, которые указывают на его (т. е. являются цитаты). Параметр D является коэффициентом затухания, который может быть установлен между 0 и 1. Мы обычно Набор D до 0,85. Есть более подробную информацию о D в следующем разделе. Кроме того, C (A) определяется как количество ссылок выходя из A. страница PageRank страницы в задается следующим образом:
PR (A) = (1-г) + д (PR (T1) / C (T1) + ... + PR (Tn) / C (Tn))
Следует отметить, что PageRanks образуют распределение вероятностей по веб-страниц, так что сумма PageRanks все веб-страницы "будет один.
PageRank или PR (A) может быть рассчитана с использованием итеративного алгоритма и соответствует главному собственный вектор нормированной матрицы ссылка полотна.Кроме того, PageRank на 26 миллионов веб-страниц может быть вычислена через несколько часов на среду станция размера. Есть много других деталей, которые выходят за рамки данной статьи.
2.1.2 Обоснование Интуитивно
PageRank можно рассматривать в качестве модели поведения пользователя. Мы предположим, что существует "случайный серфер", который дается на веб-страницу наугад и держит переходе по ссылкам, никогда не нажать "назад", но в конце концов надоедает и начинает на другую случайную страницу. Вероятность того, что случайный серфер посещает страницу является его PageRank. А, D фактор затухания вероятность на каждой странице "случайного серфера" будет скучать и просить другой случайной странице. Одним из важных изменений является только добавить коэффициент демпфирования D на одну страницу или группу страниц. Это дает возможность персонализации и может сделать это почти невозможно преднамеренно вводить в заблуждение системы, чтобы получить более высокий рейтинг. У нас есть несколько других расширений PageRank, опять же см. [ стр. 98 ].
Другой интуитивное оправдание в том, что страница может иметь высокий PageRank, если есть много страниц, которые указывают на него, или если есть несколько страниц, которые указывают на это и имеют высокий PageRank. Интуитивно, страницы, которые хорошо цитируется по многих местах по всему веб которые стоит посмотреть. Кроме того, страницы, которые имеют, пожалуй, только одну цитату от чего-то, как Yahoo! домашнюю страницу, также в целом стоит посмотреть. Если страница не была высокого качества, или же о битой ссылке, то вполне вероятно, что домашнюю страницу Yahoo, не ссылку на него. PageRank ручки обоих этих случаях и все между ними путем рекурсивного распространяющихся веса через структуру ссылок в Интернете.
2,2 Якорный текст
Текст ссылки обрабатывается специальным образом в нашей поисковой системе. Большинство поисковых систем связать текст ссылки со страницей, что ссылка на. Кроме того, мы ассоциируем его со страницей ссылка указывает. Это имеет несколько преимуществ. Во-первых, якорей часто обеспечивают более точное описание веб-страницы, чем сами страницы. Во-вторых, якоря могут существовать для документов, которые не могут быть проиндексированы текстовой поисковой системы, такие как изображения, программ и баз данных. Это позволяет вернуть веб-страницы, которые не были на самом деле обхода. Обратите внимание, что страницы, которые не были пополз может вызвать проблемы, так как они никогда не проверяются на достоверность, прежде чем вернулся к пользователю. В этом случае, поисковая система может даже вернуться на страницу, на самом деле никогда не существовала, но была гиперссылок, указывающих на него. Тем не менее, можно сортировать результаты, так что эта проблема случается редко.
Эта идея распространяется якорный текст на страницу, это относится к реализована в World Wide Web Worm [ McBryan 94 ], особенно потому что она помогает не-поиска текстовой информации, и расширяет охват поиска с меньшим количеством загруженных документов. Мы используем якоря распространения главным образом потому, якорный текст может помочь обеспечить более качественных результатов. Использование текста привязки эффективно технически сложно из-за большого количества данных, которые должны быть обработаны. В нашем текущем обход 24000000 страниц, у нас было более 259 миллионов якоря, которые мы индексироваться.