Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Анатомия крупномасштабного Гипертекстовая поиск...docx
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
159.81 Кб
Скачать

5.3 Эффективность поиска

Улучшение производительности поиска не был основным направлением наших исследований до этого момента. Текущая версия Google Answers большинство запросов в диапазоне от 1 до 10 секунд. На этот раз в основном преобладают диск IO над NFS (с дисками расположены на нескольких машинах). Кроме того, Google не имеет каких-либо оптимизаций, таких как кэширование запросов, подиндексы на общих основаниях, и других общих оптимизаций. Мы намерены ускорить Google значительно через распределение и оборудование, программное обеспечение и алгоритмические улучшения. Наша цель, чтобы иметь возможность обрабатывать несколько сотен запросов в секунду. Таблица 2 содержит некоторые примеры запросов раза по сравнению с текущей версией Google. Они повторяются, чтобы показать ускорений результате кэшировать IO.

 

Начальный запрос

Повторные одном запросе (IO основном кэшировать) 

Запрос

CPU раз (а)

Всего раз (а)

CPU раз (а)

Всего раз (а)

Альберт Гор

0,09

2,13

0,06

0,06

Вице-президент

1,77

3,84

1,66

1,80

жесткие диски

0,25

4,86

0,20

0,24

поисковые системы

1,31

9,63

1,16

1,16

 

Таблица 2. Время поиска

  

6 Выводы

Google предназначен для масштабируемой поисковой системы. Основная цель заключается в обеспечении высокого качества результатов поиска на быстро растущем World Wide Web. Google использует ряд методов для улучшения качества поиска, включая Page Rank, якорный текст, и близость информации. Кроме того, Google является полная архитектура для сбора веб-страниц, их индексации, а также выполнение поисковых запросов по ним.

6.1 Дальнейшая работа

Крупномасштабных веб-поисковой системы представляет собой сложную систему, и еще многое предстоит сделать. Нашей ближайшей целью является повышение эффективности поиска и масштабироваться до около 100 миллионов веб-страниц.Некоторые простые усовершенствования включают эффективность кэширования запросов, умные распределения диска и подиндексы. Еще одна область, которая требует много исследований обновлений. У нас должны быть умные алгоритмы, чтобы решить, что старые веб-страницы должны быть сканируются повторно и какие новые следует сканировать. Работа в этом направлении было сделано в [ Чо 98 ]. Одним из перспективных направлений исследований является использование прокси-кэшей создания поисковых баз данных, так как они спросом. Мы планируем добавить простые функции, поддерживаемые коммерческих поисковых систем, как логические операторы, отрицание, и вытекающие. Тем не менее, другие функции только начинают быть изучены такие как обратная связь актуальность и кластеризации (Google в настоящее время поддерживает простую кластеризации на основе хоста). Мы также планируем поддерживать контекст пользователя (например, местоположение пользователя), а результат обобщения. Мы также работаем над расширением использования ссылочной структуры и текст ссылки. Простые эксперименты показывают PageRank можно персонализировать за счет увеличения веса дома пользователем страницы или закладки. Что касается текстовой ссылки, мы экспериментируем с окружающими с помощью текстовых ссылок в дополнение к ссылке самого текста.Системы веб-поиска является очень богатую среду для научно-исследовательских идей. У нас слишком много, чтобы перечислять их здесь, поэтому мы не ожидаем, что это будущее раздел работы, чтобы стать намного короче в ближайшем будущем.