
- •Анатомия крупномасштабного Гипертекстовая поисковый сайт Сергей Брин и Лоуренс страницу
- •Абстрактный
- •1. Введение
- •1,1 Поисковики в интернете - Расширение масштабов: 1994 - 2000
- •1.2. Google: масштабирование с веб-
- •1,3 Целей проектирования
- •1.3.1 Повышение качества поиска
- •1.3.2 Научные исследования поисковых
- •2. Особенности системы
- •2,1 PageRank: наведение порядка в Web
- •2.1.1 Описание Расчет PageRank
- •2.1.2 Обоснование Интуитивно
- •2,2 Якорный текст
- •2.3 Другие особенности
- •3 Связанные работы
- •3.1 Информационно-поисковая
- •3.2 Различия между веб-и хорошо контролируемых Коллекции
- •4 Система Анатомии
- •4.1 Google Обзор архитектуры
- •4.2 Основные структуры данных
- •4.2.1 BigFiles
- •4.2.2 Репозиторий
- •4.2.3 Индекс документа
- •4.2.4 Lexicon
- •4.2.5 Списки Хитов
- •4.2.6 Переднего указателя
- •4.2.7 Инвертированный индекс
- •4.3 Сканирования Интернета
- •4,4 Индексирования веб-
- •4.5 Поиск
- •4.5.1 Система ранжирования
- •4.5.2 Обратная связь
- •5 Результаты и оценочные
- •5.1 Требования хранения
- •5.2 Производительность системы
- •5.3 Эффективность поиска
- •6 Выводы
- •6.1 Дальнейшая работа
- •6,2 Высококачественного поиска
- •6,3 Масштабируемая архитектура
- •6,4 Исследовательский инструмент
- •7 Благодарности
- •9 Приложение b: Масштабируемость
- •9. 1 Масштабируемость Google
- •9.2 Масштабируемость архитектуры централизованного индексирования
5.3 Эффективность поиска
Улучшение производительности поиска не был основным направлением наших исследований до этого момента. Текущая версия Google Answers большинство запросов в диапазоне от 1 до 10 секунд. На этот раз в основном преобладают диск IO над NFS (с дисками расположены на нескольких машинах). Кроме того, Google не имеет каких-либо оптимизаций, таких как кэширование запросов, подиндексы на общих основаниях, и других общих оптимизаций. Мы намерены ускорить Google значительно через распределение и оборудование, программное обеспечение и алгоритмические улучшения. Наша цель, чтобы иметь возможность обрабатывать несколько сотен запросов в секунду. Таблица 2 содержит некоторые примеры запросов раза по сравнению с текущей версией Google. Они повторяются, чтобы показать ускорений результате кэшировать IO.
|
|
||||||||||||||||||||||||||||||
Таблица 2. Время поиска |
6 Выводы
Google предназначен для масштабируемой поисковой системы. Основная цель заключается в обеспечении высокого качества результатов поиска на быстро растущем World Wide Web. Google использует ряд методов для улучшения качества поиска, включая Page Rank, якорный текст, и близость информации. Кроме того, Google является полная архитектура для сбора веб-страниц, их индексации, а также выполнение поисковых запросов по ним.
6.1 Дальнейшая работа
Крупномасштабных веб-поисковой системы представляет собой сложную систему, и еще многое предстоит сделать. Нашей ближайшей целью является повышение эффективности поиска и масштабироваться до около 100 миллионов веб-страниц.Некоторые простые усовершенствования включают эффективность кэширования запросов, умные распределения диска и подиндексы. Еще одна область, которая требует много исследований обновлений. У нас должны быть умные алгоритмы, чтобы решить, что старые веб-страницы должны быть сканируются повторно и какие новые следует сканировать. Работа в этом направлении было сделано в [ Чо 98 ]. Одним из перспективных направлений исследований является использование прокси-кэшей создания поисковых баз данных, так как они спросом. Мы планируем добавить простые функции, поддерживаемые коммерческих поисковых систем, как логические операторы, отрицание, и вытекающие. Тем не менее, другие функции только начинают быть изучены такие как обратная связь актуальность и кластеризации (Google в настоящее время поддерживает простую кластеризации на основе хоста). Мы также планируем поддерживать контекст пользователя (например, местоположение пользователя), а результат обобщения. Мы также работаем над расширением использования ссылочной структуры и текст ссылки. Простые эксперименты показывают PageRank можно персонализировать за счет увеличения веса дома пользователем страницы или закладки. Что касается текстовой ссылки, мы экспериментируем с окружающими с помощью текстовых ссылок в дополнение к ссылке самого текста.Системы веб-поиска является очень богатую среду для научно-исследовательских идей. У нас слишком много, чтобы перечислять их здесь, поэтому мы не ожидаем, что это будущее раздел работы, чтобы стать намного короче в ближайшем будущем.