- •Принцип адресации ресурсов в сети internet
- •Принципы построения и модели работы поисковых машин разных поколений
- •Современная модель работы поисковой системы
- •Понятие релевантности
- •Функции оценки релевантности
- •Модель работы поисковой машины Yandex
- •Модель работы поисковой машины Google
- •Расширенный режим подачи запросов к поисковой системе
- •Достоинства и недостатки различных функций оценки релевантности
- •Обзор методов борьбы с нерелевантным содержимым
- •Список использованных источников
Модель работы поисковой машины Google
Общий принцип работы современной поисковой системы был описан выше, поэтому рассмотрим особенности работы поисковой машины Google.
Основные принципы ранжирования Google:
наиболее релевантные запросу результаты;
стараться сделать алгоритмы как можно проще;
полная автоматизация, никакого ручного вмешательства в работу алгоритмов.
Понимание страниц
Одна из ключевых технологий для понимания страниц привязывает логически-важные понятия к странице, даже если она их не содержит.
Допустим, мы найдем официальный сайт Sprovieri Gallery в Лондоне по запросу на итальянском [galleria sprovieri londra], хотя на сайте нет ни слова London, ни Londra. В США пользователь, ищущий [cool tech pc vancouver, wa] найдет страницу www.cooltechpc.com несмотря на то, что нигде на странице не указано, что они находятся в Ванкувере. Другие технологии включают в себя распознавание более важных и менее важных слов на странице и свежесть информации на сайте.
Понимание запросов
Важно понимать, что ищут пользователи (больше, чем просто слова в их запросе).
Многие пользователи время от времени используют систему распознавания содержимого. Системе известно, что кто-то, вводящий в строке поиска [kofee annan], на самом деле ищет мистера Кофи Аннана, и подсказывает ему об этом: Did you mean: kofi annan; тогда как если кто-то ищет [kofee beans], то ему на самом деле нужны coffee beans (кофейные бобы).
Синонимы — это фундамент работы по пониманию запросов. Это одна из самых сложных проблем, решаемых в Google. Даже если что-то очевидно для человека, это может быть неразрешимой проблемой для автоматического языкового обработчика.
Как пользователь, я не хочу слишком много думать о том, какие слова мне использовать для запросов. Часто я даже не знаю, какие слова правильные. Здесь включается в работу система синонимов. Она может выполнять сложные модификации запросов, то есть она знает, что слово ‘Dr’, в запросе [Dr Zhivago], означает Doctor, в то время как в [Rodeo Dr] оно значит Drive. Пользователь, который ищет [back bumper repair] получает результаты для rear bumper repair. Для [Ramstein ab] мы автоматически получим результат для Ramstein Air Base, а при запросе [ b&b ab] мы будем искать Bed and Breakfasts in Alberta, Canada.
Другая технология, которая используется в системе ранжирования — это поиск идеи. Обнаружение главной идеи запроса позволяет возвратить намного более релевантные результаты. Например, алгоритмы поймут, что в запросе [new york times square church] пользователь ищет известную церковь на Times Square, а не статьи из New York Times.
Понимание пользователей
Работа по пониманию намерений пользователя нацелена на возврат результатов, которые действительно хотят пользователи получить, а не просто тех, которые они написали в своем запросе. Эта работа начинается с системы локализации мирового уровня. И добавляет улучшенную технологию индивидуализации и несколько других больших шагов, таких как Универсальный Поиск.
Упор на принцип «наиболее релевантные запросу результаты» отражается в работе по локализации. Один и тот же запрос, написанный в различных странах, даст абсолютно разные результаты. Пользователь, ищущий [bank] в США, должен получить Американские банки, в то время как пользователь в Великобритании ищет Bank Fashion line или British financial institutions. Результаты этого запроса должны содержать местные финансовые подразделения в других англоговорящих странах, таких как Австралия, Канада, Новая Зеландий, ЮАР.
Персонализация
Персонализация — это еще одна сильная особенность поисковой системы Google, которая подгоняет результаты поиска для каждого пользователя.
Пользователи, которые "залогинились" во время поиска и имеют включенный журнал посещений, получают результаты, которые более релевантны для них, чем общие результаты Google. Например, пользователь, который имеет множество запросов, относящихся к футболу, получит более «футбольные» результаты на запрос [giants], тогда как другие пользователи могут получить результаты, относящиеся к бейсбольной команде.
