Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Анатомия крупномасштабного Гипертекстовая поиск...docx
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
159.81 Кб
Скачать

1,1 Поисковики в интернете - Расширение масштабов: 1994 - 2000

Технология поисковой машины пришлось резко масштабироваться, чтобы идти в ногу с ростом сети. В 1994 году одной из первых поисковых Интернет, World Wide Web червь (WWWW) [McBryan 94] были индекс 110 000 веб-страниц и веб доступных документов. По состоянию на ноябрь 1997 года топ поисковых систем утверждают, что индекс от 2000000 (WebCrawler) до 100 миллионов веб-документов (от поиска Часы Engine) . Можно предположить, что к 2000 году, всеобъемлющий индекс Web будет содержать более миллиарда документов. В то же время, количество запросов ручки поисковых систем вырос невероятно тоже. В марте и апреле 1994 года World Wide Web Worm получали в среднем около 1500 запросов в день. В ноябре 1997 года утверждал, что это Altavista обрабатывается примерно 20 миллионов запросов в день. С ростом числа пользователей в Интернете, и автоматизированные системы, которые запросов поисковых систем, вполне вероятно, что топ поисковых систем будет обрабатывать сотни миллионов запросов в день к 2000 году.Цель нашей системы заключается в решении многих проблем, как по качеству, и масштабируемость, введенный масштабирования поисковой технологии такого внеочередного номера.

1.2. Google: масштабирование с веб-

Создание поисковой системы, который масштабирует даже современных веб-представляет много проблем. Технология быстрого сканирования необходимо собрать веб-документов и держать их в актуальном состоянии. Дисковое пространство должно быть эффективно использованы для хранения индексов и, возможно, сами документы. Индексации система должна обрабатывать сотни гигабайт данных эффективно. Запросы должны быть обработаны быстро, со скоростью сотен до тысяч в секунду.

Эти задачи становятся все сложнее по мере роста Интернета. Тем не менее, производительность оборудования и стоимость значительно улучшились частично компенсировать трудности. Есть, однако, несколько заметных исключений из этого прогресса, таких как время доступа и надежность операционной системы. При разработке Google, мы рассмотрели как скорость роста сети Интернет и технологические изменения. Google предназначен для масштабирования хорошо очень больших наборах данных. Это позволяет эффективно использовать складские помещения для хранения индекса. Его структуры данных оптимизированы для быстрого и эффективного доступа (см. раздел 4.2 ). Кроме того, мы ожидаем, что индекс стоимости и текст магазине или HTML, в конечном счете снижаться по отношению к количеству, которое будет доступно (см. Приложение B ). Это приведет к благоприятные свойства масштабирования для централизованных систем, таких как Google.

1,3 Целей проектирования

1.3.1 Повышение качества поиска

Наша цель заключается в улучшении качества поисковые машины. В 1994 году, некоторые люди считают, что полный индекс поиска позволят найти что-либо легко. СогласноЛучшее в Интернете 1994 - Навигаторы,   "Лучшая навигационная служба должна сделать его легко найти почти все, в интернете (После того как все данные введены)." Тем не менее, веб-1997 совершенно иная. Любой, кто использовал поисковую систему недавно, может свидетельствовать, что легко полноты индекса не является единственным фактором, определяющим качество результатов поиска. "Junk результаты" часто промывать любые результаты, которые интересуют пользователя дюйма В самом деле, по состоянию на ноябрь 1997 года, только один из четырех крупнейших коммерческих поисковых оказывается (возвращает свою собственную страницу поиска в ответ на его имя в первой десятке результаты). Одной из основных причин этой проблемы является то, что ряд документов по индексам увеличивается на много порядков величины, но возможность пользователей Для открытия документов не имеет. Люди по-прежнему только желающих посмотреть на первые несколько десятков результатов. Из-за этого, как сбор увеличивается в размерах, необходимо инструменты, которые имеют очень высокую точность (количество соответствующих документов результата поиска, например, в верхней десятков результаты).Действительно, мы хотим, чтобы наши понятие "соответствующий", чтобы включить только самые лучшие документы, так как там может быть десятки тысяч слегка соответствующих документов. Это очень высокая точность важна даже за счет вызова (общее количество соответствующих документов система может вернуться). Существует довольно мало оптимизма, что последние использование более гипертекстовой информации может помочь улучшить поиск и другие приложения [ Marchiori 97 ] [ 97 Spertus ] [ Weiss 96 ] [Клейнберг 98 ]. В частности, структура ссылок [ стр. 98 ] и текстовая ссылка предоставить много информации для принятия решений актуальность и качество фильтрации. Google использует и структура ссылок и якорного текста (см. разделы 2.1 и 2.2 ).