Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
40
Добавлен:
28.06.2014
Размер:
345.97 Кб
Скачать

Модель работы поисковой машины Google

Общий принцип работы современной поисковой системы был описан выше, поэтому рассмотрим особенности работы поисковой машины Google.

Основные принципы ранжирования Google:

  1. наиболее релевантные запросу результаты;

  2. стараться сделать алгоритмы как можно проще;

  3. полная автоматизация, никакого ручного вмешательства в работу алгоритмов.

Понимание страниц

Одна из ключевых технологий для понимания страниц привязывает логически-важные понятия к странице, даже если она их не содержит.

Допустим, мы найдем официальный сайт Sprovieri Gallery в Лондоне по запросу на итальянском [galleria sprovieri londra], хотя на сайте нет ни слова London, ни Londra. В США пользователь, ищущий [cool tech pc vancouver, wa] найдет страницу www.cooltechpc.com несмотря на то, что нигде на странице не указано, что они находятся в Ванкувере. Другие технологии включают в себя распознавание более важных и менее важных слов на странице и свежесть информации на сайте.

Понимание запросов

Важно понимать, что ищут пользователи (больше, чем просто слова в их запросе).

Многие пользователи время от времени используют систему распознавания содержимого. Системе известно, что кто-то, вводящий в строке поиска [kofee annan], на самом деле ищет мистера Кофи Аннана, и подсказывает ему об этом: Did you mean: kofi annan; тогда как если кто-то ищет [kofee beans], то ему на самом деле нужны coffee beans (кофейные бобы).

Синонимы — это фундамент работы по пониманию запросов. Это одна из самых сложных проблем, решаемых в Google. Даже если что-то очевидно для человека, это может быть неразрешимой проблемой для автоматического языкового обработчика.

Как пользователь, я не хочу слишком много думать о том, какие слова мне использовать для запросов. Часто я даже не знаю, какие слова правильные. Здесь включается в работу система синонимов. Она может выполнять сложные модификации запросов, то есть она знает, что слово ‘Dr’, в запросе [Dr Zhivago], означает Doctor, в то время как в [Rodeo Dr] оно значит Drive. Пользователь, который ищет [back bumper repair] получает результаты для rear bumper repair. Для [Ramstein ab] мы автоматически получим результат для Ramstein Air Base, а при запросе [ b&b ab] мы будем искать Bed and Breakfasts in Alberta, Canada.

Другая технология, которая используется в системе ранжирования — это поиск идеи. Обнаружение главной идеи запроса позволяет возвратить намного более релевантные результаты. Например, алгоритмы поймут, что в запросе [new york times square church] пользователь ищет известную церковь на Times Square, а не статьи из New York Times.

Понимание пользователей

Работа по пониманию намерений пользователя нацелена на возврат результатов, которые действительно хотят пользователи получить, а не просто тех, которые они написали в своем запросе. Эта работа начинается с системы локализации мирового уровня. И добавляет улучшенную технологию индивидуализации и несколько других больших шагов, таких как Универсальный Поиск.

Упор на принцип «наиболее релевантные запросу результаты» отражается в работе по локализации. Один и тот же запрос, написанный в различных странах, даст абсолютно разные результаты. Пользователь, ищущий [bank] в США, должен получить Американские банки, в то время как пользователь в Великобритании ищет Bank Fashion line или British financial institutions. Результаты этого запроса должны содержать местные финансовые подразделения в других англоговорящих странах, таких как Австралия, Канада, Новая Зеландий, ЮАР.

Персонализация

Персонализация — это еще одна сильная особенность поисковой системы Google, которая подгоняет результаты поиска для каждого пользователя.

Пользователи, которые "залогинились" во время поиска и имеют включенный журнал посещений, получают результаты, которые более релевантны для них, чем общие результаты Google. Например, пользователь, который имеет множество запросов, относящихся к футболу, получит более «футбольные» результаты на запрос [giants], тогда как другие пользователи могут получить результаты, относящиеся к бейсбольной команде.

Соседние файлы в папке Лабораторная работа 1