
- •Анатомия крупномасштабного Гипертекстовая поисковый сайт Сергей Брин и Лоуренс страницу
- •Абстрактный
- •1. Введение
- •1,1 Поисковики в интернете - Расширение масштабов: 1994 - 2000
- •1.2. Google: масштабирование с веб-
- •1,3 Целей проектирования
- •1.3.1 Повышение качества поиска
- •1.3.2 Научные исследования поисковых
- •2. Особенности системы
- •2,1 PageRank: наведение порядка в Web
- •2.1.1 Описание Расчет PageRank
- •2.1.2 Обоснование Интуитивно
- •2,2 Якорный текст
- •2.3 Другие особенности
- •3 Связанные работы
- •3.1 Информационно-поисковая
- •3.2 Различия между веб-и хорошо контролируемых Коллекции
- •4 Система Анатомии
- •4.1 Google Обзор архитектуры
- •4.2 Основные структуры данных
- •4.2.1 BigFiles
- •4.2.2 Репозиторий
- •4.2.3 Индекс документа
- •4.2.4 Lexicon
- •4.2.5 Списки Хитов
- •4.2.6 Переднего указателя
- •4.2.7 Инвертированный индекс
- •4.3 Сканирования Интернета
- •4,4 Индексирования веб-
- •4.5 Поиск
- •4.5.1 Система ранжирования
- •4.5.2 Обратная связь
- •5 Результаты и оценочные
- •5.1 Требования хранения
- •5.2 Производительность системы
- •5.3 Эффективность поиска
- •6 Выводы
- •6.1 Дальнейшая работа
- •6,2 Высококачественного поиска
- •6,3 Масштабируемая архитектура
- •6,4 Исследовательский инструмент
- •7 Благодарности
- •9 Приложение b: Масштабируемость
- •9. 1 Масштабируемость Google
- •9.2 Масштабируемость архитектуры централизованного индексирования
3.2 Различия между веб-и хорошо контролируемых Коллекции
Сети является обширная коллекция полностью неконтролируемой гетерогенных документов. Документов в Интернете имеют большие внутренние изменения к документам, а также во внешней мета-информации, которые могут быть доступны. Например, документы отличаются внутренне на их языке (как человеческих, так и программирование), лексики (адреса электронной почты, ссылки, почтовые индексы, номера телефонов, номера продуктов), тип или формат (текст, HTML, PDF, изображения, звуки) и может даже машины генерируется (лог-файлов и выход из базы данных). С другой стороны, мы определим внешний метаинформации в качестве информации, которая может быть выведена о документе, но не содержится в ней. Примеры внешних мета-информации относятся вещи, как репутация источника, частота обновления, качество, популярность или использовании, и цитат. Мало того, что возможные источники внешней информации мета разнообразны, но вещи, которые измеряются меняться на много порядков, а также. Сравните, например, использование информации из основной страницы, как Yahoo, которая в настоящее время получает миллионы просмотров страниц каждый день с о мрачных страницах истории, которые могли бы стать одной из точек зрения получать каждые десять лет. Очевидно, что эти два вопроса должны рассматриваться совершенно по-разному поисковой системе.
Еще одна большая разница между веб-и традиционных хорошо контролируемых коллекции является то, что нет практически никакого контроля над тем, что люди могут положить в Интернете. Пара эта гибкость публиковать что-либо с огромным влиянием поисковых систем, чтобы маршрут движения и компании, которые сознательно манипулирования поисковыми системами с целью получения прибыли стало серьезной проблемой. Это проблема, которая не рассматривается в традиционных закрытых информационно-поисковых систем. Кроме того, интересно отметить, что метаданные усилия по большей части не с двигателями веб-поиск, потому что любой текст на странице, который непосредственно не представлен пользователю злоупотребляют манипулировать поисковыми системами. Есть даже многочисленные компании, которые специализируются на манипулировании поисковых системах для получения прибыли.
4 Система Анатомии
Во-первых, обеспечит высокую обсуждение уровне архитектуры. Кроме того, есть некоторые углубленные описания важных структур данных. Наконец, основные приложения: сканирование, индексирование и поиск будет рассмотрен в глубину.
Рисунок 1. High Level Architecture Google |
4.1 Google Обзор архитектуры
В этом разделе мы дадим краткий обзор того, как работает система в целом как изображено на рисунке 1. В последующих разделах будут обсуждаться приложений и структур данных, не упомянутые в этом разделе. Большинство Google реализован на С или С + + для повышения эффективности и может работать как в Solaris или Linux.
В Google, сканирования Интернета (загрузка веб-страниц) осуществляется по нескольких распределенных сканерам. Существует URLserver который посылает списки URL-адресов, которые будут выбраны к сканерам. Веб-страниц, которые выбираются затем отправляются в storeserver. Storeserver затем сжимает и сохраняет веб-страницы в хранилище. Каждая веб-страница имеет соответствующий идентификационный номер называется DocId которое присваивается, когда новый URL разбирается из веб-страницы. Индексации функцию выполняют индексации и сортировщика. Индексатор выполняет несколько функций. Она читает хранилища, распаковывает документы, и анализирует их. Каждый документ преобразуется в набор вхождений слов называют хитами. Бьет рекорды словом, положение в документе, приближение размера шрифта и капитализации. Индексатор распределяет эти хиты в набор "бочки", создавая частично отсортированный переднего указателя. Индексатор выполняет еще одну важную функцию. Он анализирует все ссылки в каждой веб-страницы и сохраняет важную информацию о них в файл якорями. Этот файл содержит достаточно информации, чтобы определить, где каждая ссылка ведет от и до, и текст ссылки.
URLresolver читает файл якорями и преобразует относительный URL-адресов в абсолютные URL-адреса и в свою очередь на DocIds.Это ставит якорный текст в передний указатель, связанный с DocId, что точки привязки. Он также создает базу данных ссылок, которые являются парами DocIds. Связи баз данных используется для вычисления веса PageRank для всех документов.
Сортировщик принимает бочки, которые сортируются по DocId (это упрощение, см. раздел 4.2.5 ), а также курорты их wordID для создания инвертированного индекса. Это делается на месте так, что мало временное пространство необходимо для этой операции. Сортировщик также выдает список wordIDs и смещений в инвертированный индекс. Программа под названием DumpLexicon принимает этот список вместе с лексикон производства индексатор и генерирует новый лексикон, который будет использоваться искатель. Искатель запускается веб-сервером и использует лексику построен DumpLexicon вместе с перевернутой индекса и PageRanks для ответа на запросы.