
- •Анатомия крупномасштабного Гипертекстовая поисковый сайт Сергей Брин и Лоуренс страницу
- •Абстрактный
- •1. Введение
- •1,1 Поисковики в интернете - Расширение масштабов: 1994 - 2000
- •1.2. Google: масштабирование с веб-
- •1,3 Целей проектирования
- •1.3.1 Повышение качества поиска
- •1.3.2 Научные исследования поисковых
- •2. Особенности системы
- •2,1 PageRank: наведение порядка в Web
- •2.1.1 Описание Расчет PageRank
- •2.1.2 Обоснование Интуитивно
- •2,2 Якорный текст
- •2.3 Другие особенности
- •3 Связанные работы
- •3.1 Информационно-поисковая
- •3.2 Различия между веб-и хорошо контролируемых Коллекции
- •4 Система Анатомии
- •4.1 Google Обзор архитектуры
- •4.2 Основные структуры данных
- •4.2.1 BigFiles
- •4.2.2 Репозиторий
- •4.2.3 Индекс документа
- •4.2.4 Lexicon
- •4.2.5 Списки Хитов
- •4.2.6 Переднего указателя
- •4.2.7 Инвертированный индекс
- •4.3 Сканирования Интернета
- •4,4 Индексирования веб-
- •4.5 Поиск
- •4.5.1 Система ранжирования
- •4.5.2 Обратная связь
- •5 Результаты и оценочные
- •5.1 Требования хранения
- •5.2 Производительность системы
- •5.3 Эффективность поиска
- •6 Выводы
- •6.1 Дальнейшая работа
- •6,2 Высококачественного поиска
- •6,3 Масштабируемая архитектура
- •6,4 Исследовательский инструмент
- •7 Благодарности
- •9 Приложение b: Масштабируемость
- •9. 1 Масштабируемость Google
- •9.2 Масштабируемость архитектуры централизованного индексирования
Анатомия крупномасштабного Гипертекстовая поисковый сайт Сергей Брин и Лоуренс страницу
{Сергей, стр.} @ cs.stanford.edu
Факультет Вычислительной Техники, Стэнфордский университет, Стэнфорд, Калифорния 94305
Абстрактный
В этой статье мы представляем Google, прототип крупномасштабную поисковую машину, которая активно использует структуры присутствуют в гипертекст. Google предназначена для сканирования и индексирования Web эффективно и производят гораздо больше удовлетворения, чем результаты поиска существующих систем.Прототип с полным текстом и гиперссылку данных по крайней мере 24 миллионов страниц можно получить на http://google.stanford.edu/ инженеру поисковой системы является сложной задачей. Поисковые системы индексов в десятки и сотни миллионов веб-страниц с участием сопоставимых число различных условиях. Они отвечают на десятки миллионов запросов каждый день. Несмотря на важность крупномасштабных поисковых систем в интернете, очень мало научных исследований было сделано на них. Кроме того, из-за быстрого развития технологий и веб-распространения, создания системы веб-поиска в настоящее время очень сильно отличается от трех лет назад. В данном документе приводится подробное описание наших крупномасштабных поисковых веб -. Первый такой подробный публичного описания мы знаем на сегодняшний день Помимо проблем масштабирования традиционные методы поиска данных такого масштаба, появляются новые технические проблемы связанные с использованием дополнительного представления информации в гипертекстовой для повышения качества результатов поиска. Эта статья рассматривает этот вопрос, как построить практическую крупномасштабные системы, которые могут использовать дополнительные представления информации в гипертекст. Также мы смотрим на проблемы, как эффективно бороться с неконтролируемым коллекции гипертекстовых где любой желающий может опубликовать все, что хотят.
Ключевые слова : World Wide Web, Поисковые системы, поиск информации, PageRank, Google
1. Введение
(Примечание:.. Существуют две версии этой бумаги - больше полную версию и более короткой печатной версии Полная версия доступна на веб-конференции и CD-ROM) веб создает новые проблемы для поиска информации. Количество информации в сети быстро растет, а также количество новых пользователей неопытный в искусстве веб-исследований. Люди, скорее всего, работать в Интернете, используя ссылку графика, часто начиная с высоким качеством человека поддерживается индексов, таких как Yahoo! или в поисковых системах. Человека поддерживается перечни вошли популярные темы эффективно, но субъективны, дорого строить и поддерживать, медленное улучшение, и не может охватить все эзотерические темы. Автоматизированные поисковые системы, которые полагаются на соответствия ключевых слов обычно возвращают слишком много матчей низким качеством. Что еще хуже, некоторые рекламодатели пытаются привлечь к себе внимание людей, принимая меры, призванные ввести в заблуждение двигателей автоматизированного поиска. Мы построили крупномасштабных поисковую машину, которая решает многие из проблем, существующих систем. Это делает особенно интенсивного использования дополнительных нынешней структуре в гипертекстовых обеспечить гораздо более высокие результаты качества поиска. Мы выбрали наше имя системы, Google, потому что она является общей написание гугол, или 10 100 и хорошо вписывается в нашу цель создания сверхбольших поисковыми системами.