
- •Анатомия крупномасштабного Гипертекстовая поисковый сайт Сергей Брин и Лоуренс страницу
- •Абстрактный
- •1. Введение
- •1,1 Поисковики в интернете - Расширение масштабов: 1994 - 2000
- •1.2. Google: масштабирование с веб-
- •1,3 Целей проектирования
- •1.3.1 Повышение качества поиска
- •1.3.2 Научные исследования поисковых
- •2. Особенности системы
- •2,1 PageRank: наведение порядка в Web
- •2.1.1 Описание Расчет PageRank
- •2.1.2 Обоснование Интуитивно
- •2,2 Якорный текст
- •2.3 Другие особенности
- •3 Связанные работы
- •3.1 Информационно-поисковая
- •3.2 Различия между веб-и хорошо контролируемых Коллекции
- •4 Система Анатомии
- •4.1 Google Обзор архитектуры
- •4.2 Основные структуры данных
- •4.2.1 BigFiles
- •4.2.2 Репозиторий
- •4.2.3 Индекс документа
- •4.2.4 Lexicon
- •4.2.5 Списки Хитов
- •4.2.6 Переднего указателя
- •4.2.7 Инвертированный индекс
- •4.3 Сканирования Интернета
- •4,4 Индексирования веб-
- •4.5 Поиск
- •4.5.1 Система ранжирования
- •4.5.2 Обратная связь
- •5 Результаты и оценочные
- •5.1 Требования хранения
- •5.2 Производительность системы
- •5.3 Эффективность поиска
- •6 Выводы
- •6.1 Дальнейшая работа
- •6,2 Высококачественного поиска
- •6,3 Масштабируемая архитектура
- •6,4 Исследовательский инструмент
- •7 Благодарности
- •9 Приложение b: Масштабируемость
- •9. 1 Масштабируемость Google
- •9.2 Масштабируемость архитектуры централизованного индексирования
1.3.2 Научные исследования поисковых
Помимо огромного роста, Интернет также становится все более коммерческим течением времени. В 1993 году 1,5% веб-серверов были на. COM доменов. Это число выросло до более 60% в 1997 году. В то же время, поисковые системы мигрировали из академических домена в коммерческих. До сих пор самым развитие поисковой системы не пошел на в компаниях с небольшим публикацию технических деталей. Этот двигатель причины технология поиска остается в значительной степени черную магию и быть ориентированной рекламы (см. Приложение ). С помощью Google, у нас есть сильная цель подтолкнуть больше развития и понимания в академическую сферу.
Другой важной целью проекта было создание системы, разумное количество людей, могут фактически использовать. Статистика было важно для нас, потому что мы думаем, что некоторые из наиболее интересных исследований будет предусматривать активизацию огромное количество использования данных, которые доступны от современных веб-систем.Например, есть много десятков миллионов поисковых запросов каждый день. Тем не менее, очень трудно получить эти данные, главным образом потому что считается коммерчески ценным.
Наша конечная цель дизайна заключается в создании архитектуры, которые могут поддерживать новые научные исследования на крупномасштабных веб-данных. Для поддержки новых исследований использует, Google хранит все фактические отсканированных ей в сжатом виде. Одна из наших главных целей в области проектирования Google было создание среды, в которой другие исследователи могут прийти в быстро обрабатывать большие куски в Интернете, и дать интересные результаты, которые было бы очень трудно производить в противном случае. За короткое время система работала, там уже было посвящено несколько работ с использованием баз данных порожденных Google, и многие другие продолжаются. Другой цели у нас есть, создать Spacelab-среде, где исследователи или даже студенты могут предлагать и делать интересные эксперименты на наших крупномасштабных данных Интернета.
2. Особенности системы
Двигатель поиска Google имеет две важные особенности, которые помогают ему получения высоких результатов точности. Во-первых, он использует структуру ссылок в Web для расчета рейтинга качества для каждой веб-страницы. Этот рейтинг называется PageRank и подробно описаны в [Страница 98]. Во-вторых, Google использует ссылку для улучшения результатов поиска.
2,1 PageRank: наведение порядка в Web
Цитата (Ссылка) график веб является важным ресурсом, который в значительной степени ушла в существующие неиспользованные поисковые машины. Мы создали карты, содержащие больше, чем 518 миллионов из этих гиперссылки значимой выборки от общего количества. Эти карты позволяют быстрое вычисление веб-страницы "PageRank", объективная мера его упоминание важности, что вполне соответствует субъективное состояние людей идею важности. Из-за этой переписки, PageRank является отличным способом для установления приоритетности результатов веб-поиска ключевых слов. Для большинства популярных предметов, простой текст, соответствующих критерию поиска, которая ограничена названия веб-страницы выполняет превосходно, когда PageRank приоритеты результатов (демо доступны на google.stanford.edu ). Для типа полнотекстовый поиск в основной системе Google, PageRank также помогает много.