Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
36
Добавлен:
28.06.2014
Размер:
338.41 Кб
Скачать

Принципы и модель работы поисковой машины Google. Технологии ранжирования Google

Понимание страниц

За годы Google глубоко продвинулись в технологии краулинга и индексирования. В результате получается очень большой и свежий каталог. Одна из ключевых технологий, которую Google разработали для понимания страниц, привязывает логически-важные понятия к странице, даже если она их не содержит.

Допустим, мы найдем официальный сайт Sprovieri Gallery в Лондоне по запросу на итальянском [galleria sprovieri londra], хотя на сайте нет ни слова London, ни Londra. В США пользователь, ищущий [cool tech pc vancouver, wa] найдет страницу www.cooltechpc.com несмотря на то, что нигде на странице не указано, что они находятся в Ванкувере.

Понимание запросов

Важно понимать, что ищут пользователи (больше, чем просто слова в их запросе). Google создали лучшую в своем роде систему распознавания текстового содержимого, развитую систему синонимов и очень мощную систему анализирования.

Система распознавания содержимого. Системе известно, что кто-то, вводящий в строке поиска [kofee annan], на самом деле ищет мистера Кофи Аннана, и подсказывает ему об этом: Did you mean: kofi annan; тогда как если кто-то ищет [kofee beans], то ему на самом деле нужны coffee beans (кофейные бобы).

Синонимы — это фундамент работы Google по пониманию запросов. Даже если что-то очевидно для человека, это может быть неразрешимой проблемой для автоматического языкового обработчика.

Пользователь не хочет слишком много думать о том, какие слова ему использовать для запросов. Часто он даже не знает, какие слова правильные. Здесь включается в работу система синонимов. Она может выполнять сложные модификации запросов, то есть она знает, что слово ‘Dr’, в запросе [Dr Zhivago], означает Doctor, в то время как в [Rodeo Dr] оно значит Drive.

Поиск идеи. Обнаружение главной идеи запроса позволяет возвратить намного более релевантные результаты. Например, алгоритмы Google поймут, что в запросе [new york times square church] пользователь ищет известную церковь на Times Square, а не статьи из New York Times. Но мы не останавливаемся на поиске идей, мы добавляем правильные идеи, когда, например, кто-то ищет [PC and its impact on people], то на самом деле он ищет impact of computers on society (влияние компьютеров на общество), а пользователю, ищущему [rainforest instructional activities for vocabulary], нужны rain forest lesson plans.

Понимание пользователей

Работа по пониманию намерений пользователя нацелена на возврат результатов, которые действительно хотят пользователи получить, а не просто тех, которые они написали в своем запросе. Эта работа начинается с системы локализации мирового уровня. И добавляет улучшенную технологию индивидуализации и несколько других больших шагов, таких как Универсальный Поиск.

Работа по локализации. Один и тот же запрос, написанный в различных странах, даст абсолютно разные результаты. Пользователь, ищущий [bank] в США, должен получить Американские банки, в то время как пользователь в Великобритании ищет Bank Fashion line или British financial institutions. Результаты этого запроса должны содержать местные финансовые подразделения в других англоговорящих странах, таких как Австралия, Канада, Новая Зеландий, ЮАР.

Персонализация

Персонализация подгоняет результаты поиска для каждого пользователя.

Пользователи, которые "залогинились" во время поиска и имеют включенный журнал посещений, получают результаты, которые более релевантны для них, чем общие результаты Google.

Универсальный поиск

Универсальным Поиском — это ещё один пример толкования намерений пользователя для предоставления им того, что они на самом деле хотят. Т.е., кто ищет [bangalore], получают не только нужные веб-страницы, также ему становится доступна карта, видео, жизнь на улицах Бангалоре и т.д., и плюч ко всему еще и новости/блоги о Бангалоре.

Cross Language Information Retrieval (CLIR). Позволяет пользователям сначала получить информацию не на их родном языке, а затем, используя технологию перевода Google информация становится доступной. Пользователь, который ищет биографию Тони Блэра в России, набирающий [Тони Блэр биография] получает предложение посмотреть результаты, переведенные с английского.

Соседние файлы в папке Лабораторная работа 1