Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Анатомия крупномасштабного Гипертекстовая поиск...docx
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
159.81 Кб
Скачать

1.3.2 Научные исследования поисковых

Помимо огромного роста, Интернет также становится все более коммерческим течением времени. В 1993 году 1,5% веб-серверов были на. COM доменов. Это число выросло до более 60% в 1997 году. В то же время, поисковые системы мигрировали из академических домена в коммерческих. До сих пор самым развитие поисковой системы не пошел на в компаниях с небольшим публикацию технических деталей. Этот двигатель причины технология поиска остается в значительной степени черную магию и быть ориентированной рекламы (см. Приложение ). С помощью Google, у нас есть сильная цель подтолкнуть больше развития и понимания в академическую сферу.

Другой важной целью проекта было создание системы, разумное количество людей, могут фактически использовать. Статистика было важно для нас, потому что мы думаем, что некоторые из наиболее интересных исследований будет предусматривать активизацию огромное количество использования данных, которые доступны от современных веб-систем.Например, есть много десятков миллионов поисковых запросов каждый день. Тем не менее, очень трудно получить эти данные, главным образом потому что считается коммерчески ценным.

Наша конечная цель дизайна заключается в создании архитектуры, которые могут поддерживать новые научные исследования на крупномасштабных веб-данных. Для поддержки новых исследований использует, Google хранит все фактические отсканированных ей в сжатом виде. Одна из наших главных целей в области проектирования Google было создание среды, в которой другие исследователи могут прийти в быстро обрабатывать большие куски в Интернете, и дать интересные результаты, которые было бы очень трудно производить в противном случае. За короткое время система работала, там уже было посвящено несколько работ с использованием баз данных порожденных Google, и многие другие продолжаются. Другой цели у нас есть, создать Spacelab-среде, где исследователи или даже студенты могут предлагать и делать интересные эксперименты на наших крупномасштабных данных Интернета.

2. Особенности системы

Двигатель поиска Google имеет две важные особенности, которые помогают ему получения высоких результатов точности. Во-первых, он использует структуру ссылок в Web для расчета рейтинга качества для каждой веб-страницы. Этот рейтинг называется PageRank и подробно описаны в [Страница 98]. Во-вторых, Google использует ссылку для улучшения результатов поиска.

2,1 PageRank: наведение порядка в Web

Цитата (Ссылка) график веб является важным ресурсом, который в значительной степени ушла в существующие неиспользованные поисковые машины. Мы создали карты, содержащие больше, чем 518 миллионов из этих гиперссылки значимой выборки от общего количества. Эти карты позволяют быстрое вычисление веб-страницы "PageRank", объективная мера его упоминание важности, что вполне соответствует субъективное состояние людей идею важности. Из-за этой переписки, PageRank является отличным способом для установления приоритетности результатов веб-поиска ключевых слов. Для большинства популярных предметов, простой текст, соответствующих критерию поиска, которая ограничена названия веб-страницы выполняет превосходно, когда PageRank приоритеты результатов (демо доступны на google.stanford.edu ). Для типа полнотекстовый поиск в основной системе Google, PageRank также помогает много.