
- •Анатомия крупномасштабного Гипертекстовая поисковый сайт Сергей Брин и Лоуренс страницу
- •Абстрактный
- •1. Введение
- •1,1 Поисковики в интернете - Расширение масштабов: 1994 - 2000
- •1.2. Google: масштабирование с веб-
- •1,3 Целей проектирования
- •1.3.1 Повышение качества поиска
- •1.3.2 Научные исследования поисковых
- •2. Особенности системы
- •2,1 PageRank: наведение порядка в Web
- •2.1.1 Описание Расчет PageRank
- •2.1.2 Обоснование Интуитивно
- •2,2 Якорный текст
- •2.3 Другие особенности
- •3 Связанные работы
- •3.1 Информационно-поисковая
- •3.2 Различия между веб-и хорошо контролируемых Коллекции
- •4 Система Анатомии
- •4.1 Google Обзор архитектуры
- •4.2 Основные структуры данных
- •4.2.1 BigFiles
- •4.2.2 Репозиторий
- •4.2.3 Индекс документа
- •4.2.4 Lexicon
- •4.2.5 Списки Хитов
- •4.2.6 Переднего указателя
- •4.2.7 Инвертированный индекс
- •4.3 Сканирования Интернета
- •4,4 Индексирования веб-
- •4.5 Поиск
- •4.5.1 Система ранжирования
- •4.5.2 Обратная связь
- •5 Результаты и оценочные
- •5.1 Требования хранения
- •5.2 Производительность системы
- •5.3 Эффективность поиска
- •6 Выводы
- •6.1 Дальнейшая работа
- •6,2 Высококачественного поиска
- •6,3 Масштабируемая архитектура
- •6,4 Исследовательский инструмент
- •7 Благодарности
- •9 Приложение b: Масштабируемость
- •9. 1 Масштабируемость Google
- •9.2 Масштабируемость архитектуры централизованного индексирования
2.3 Другие особенности
Кроме PageRank и использование текста привязки, Google имеет несколько других особенностей. Во-первых, у него есть информация о местоположении для всех хитов и поэтому имеет широкое использование в поисках близости. Во-вторых, Google отслеживает некоторые визуальные детали презентации, такие как размер шрифта слова. Слова в большей или смелее шрифта взвешиваются выше, чем другие слова. В-третьих, полная сырого HTML страниц доступен в репозитории.
3 Связанные работы
Поиск исследований в Интернете имеет короткий и краткая история. World Wide Web Worm (WWWW) [McBryan 94] был одним из первых поисковых систем Интернета.Впоследствии он был последовал ряд других академических поисковых систем, многие из которых в настоящее время публичных компаний. По сравнению с ростом Интернета и важность поисковых системах есть очень мало документов о последних поисковых [ Пинкертон 94 ]. По словам Майкла Молдина (главный научный сотрудник, Lycos Inc) [Молдина]", различные услуги (в том числе Lycos) тесно охранять детали этих баз данных". Тем не менее, было достаточно много работы от индивидуальных особенностей поисковых системах. Особенно широко представлены работы, которые могут получить результаты пост-обработки результатов существующих коммерческих поисковых систем, или производят небольших масштабах "индивидуальный" поисковые системы. Наконец, было много исследований по информационно-поисковых систем, особенно на хорошо контролируется коллекций. В следующих двух разделах мы обсудим некоторые районы, где это исследование должно быть расширено, чтобы работать лучше в Интернете.
3.1 Информационно-поисковая
Работа в информационно-поисковых систем насчитывает много лет и хорошо разработана [ Виттен 94 ]. Тем не менее, большинство исследований на информационно-поисковых систем на небольших хорошо контролируемых однородных коллекций, таких как сборники научных трудов или новости по этой теме. Действительно, основной ориентир для поиска информации, конференции и извлечения текста [ TREC 96 ], использует довольно небольшой, хорошо управляется коллекцию для своих тестов. "Очень большой корпус" тест только по сравнению с 20GB 147GB нашего обхода 24000000 веб-страниц. Вещи, которые хорошо работают на TREC часто не приводит к хорошим результатам в Интернете. Например, стандартная модель векторного пространства пытается вернуть документ, который наиболее близко соответствует запросу, при условии, что оба запроса и документа являются векторами определяется их вхождению слова. В Интернете, эта стратегия часто возвращается очень короткий документов, запросов, а также несколько слов. Например, мы видели, основной поисковой вернуться страница, содержащая только "Билл Клинтон отстой" и картинка из "Билл Клинтон" запроса. Некоторые утверждают, что в Интернете, пользователи должны определить более точно, что они хотят, и добавить несколько слов на их запрос. Мы существенно расходятся во мнениях с этой позицией. Если пользователь выполняет запрос, как "Билл Клинтон" они должны получить разумные результаты, так как есть огромное количество качественной информации доступно на эту тему. Приведенные примеры, как эти, мы считаем, что стандартная работа поиска информации должна быть расширена, чтобы эффективно бороться с Интернет.