
- •Анатомия крупномасштабного Гипертекстовая поисковый сайт Сергей Брин и Лоуренс страницу
- •Абстрактный
- •1. Введение
- •1,1 Поисковики в интернете - Расширение масштабов: 1994 - 2000
- •1.2. Google: масштабирование с веб-
- •1,3 Целей проектирования
- •1.3.1 Повышение качества поиска
- •1.3.2 Научные исследования поисковых
- •2. Особенности системы
- •2,1 PageRank: наведение порядка в Web
- •2.1.1 Описание Расчет PageRank
- •2.1.2 Обоснование Интуитивно
- •2,2 Якорный текст
- •2.3 Другие особенности
- •3 Связанные работы
- •3.1 Информационно-поисковая
- •3.2 Различия между веб-и хорошо контролируемых Коллекции
- •4 Система Анатомии
- •4.1 Google Обзор архитектуры
- •4.2 Основные структуры данных
- •4.2.1 BigFiles
- •4.2.2 Репозиторий
- •4.2.3 Индекс документа
- •4.2.4 Lexicon
- •4.2.5 Списки Хитов
- •4.2.6 Переднего указателя
- •4.2.7 Инвертированный индекс
- •4.3 Сканирования Интернета
- •4,4 Индексирования веб-
- •4.5 Поиск
- •4.5.1 Система ранжирования
- •4.5.2 Обратная связь
- •5 Результаты и оценочные
- •5.1 Требования хранения
- •5.2 Производительность системы
- •5.3 Эффективность поиска
- •6 Выводы
- •6.1 Дальнейшая работа
- •6,2 Высококачественного поиска
- •6,3 Масштабируемая архитектура
- •6,4 Исследовательский инструмент
- •7 Благодарности
- •9 Приложение b: Масштабируемость
- •9. 1 Масштабируемость Google
- •9.2 Масштабируемость архитектуры централизованного индексирования
4.5.1 Система ранжирования
Google сохраняет гораздо больше информации о веб-документов, чем обычные поисковые системы.Каждый хитлист включает положение, шрифт, а капитализация информации. Кроме того, мы фактором хиты от якорный текст и PageRank документа. Объединение всех этих данных в ранге трудно. Мы разработали наш рейтинг функции, так что никаких особых факторов не может быть слишком много влияния. Во-первых, рассмотрим простейший случай - одно из слов запроса. Для того, чтобы оценить документ с помощью одного запроса слова, Google смотрит на список, который ударил документа для этого слова. Google считает, что каждый удар по одной из нескольких различных типов (название, Якорь, URL, простой текст крупным шрифтом, простой текст мелким шрифтом, ...), каждая из которых имеет свой собственный тип веса. Типа весов составляющих вектора проиндексированы типа. Google подсчитывает количество хитов каждого типа в расстрельный список. Затем каждому пункту преобразуется в отсчета веса. Отсчет веса линейно возрастать со счетчиками на первый, но быстро сходят на нет, так что больше определенного количества не поможет. Возьмем скалярного произведения вектора отсчета весов с вектором типа весов для расчета ИК Оценка для документа. Наконец, оценка ИК в сочетании с PageRank с получением конечного ранга документа.
Для нескольких слов поиска, ситуация более сложная. Теперь несколько списков хит должны быть отсканированы через сразу так, чтобы элементы, происходящих близко друг к другу в документе взвешиваются выше, чем хитов, происходящие далеко друг от друга. Хиты из нескольких списках хит подобраны таким образом, чтобы рядом хитов подбираются вместе.Для каждого подобранный набор хитов, близость вычисляется. Близость основана на том, как далеко друг от друга хиты в документе (или якорь), но подразделяются на 10 различных значения "бункеры", начиная от фразы матч "даже близко не подошли". Графы вычисляются не только для каждого типа хит, но для каждого типа и близость. Каждый тип и близость пары имеет тип-Prox-веса. Рассчитывает преобразуются в отсчета весов, и мы берем скалярного произведения отсчета веса и типа Prox-весов для расчета ИК счет. Все эти цифры и матрицы могут быть отображены с результатами поиска с помощью специального режима отладки. Эти дисплеи были очень полезны в развитии системы ранжирования.
4.5.2 Обратная связь
Рейтинг функция имеет много параметров, таких как тип весов и типа Prox-весов. Выяснение того, правильные значения для этих параметров является чем-то вроде черной магии.Для того, чтобы сделать это, у нас есть механизм обратной связи с пользователями в поисковой системе. Доверенный пользователь может дополнительно оценивать все результаты, возвращенные. Эта обратная связь сохраняется. Потом, когда мы изменим функция ранжирования, мы можем видеть влияние этих изменений на всех предыдущих поисков, которые были выстроены в ряд. Хотя далеко от совершенства, это дает нам некоторое представление о том, как изменение в рейтинге функция влияет на результаты поиска.