- •Принцип адресации ресурсов в сети internet
- •Принципы построения и модели работы поисковых машин разных поколений
- •Современная модель работы поисковой системы
- •Принципы и модель работы поисковой машины Yandex. Матрикснет
- •Принципы и модель работы поисковой машины Google. Технологии ранжирования Google
- •Расширенный режим подачи запросов к поисковой системе.
- •Idf (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в документах коллекции. Учёт idf уменьшает вес широкоупотребительных слов.
- •Обзор методов борьбы с нерелевантным содержимым.
Принципы и модель работы поисковой машины Google. Технологии ранжирования Google
Понимание страниц
За годы Google глубоко продвинулись в технологии краулинга и индексирования. В результате получается очень большой и свежий каталог. Одна из ключевых технологий, которую Google разработали для понимания страниц, привязывает логически-важные понятия к странице, даже если она их не содержит.
Допустим, мы найдем официальный сайт Sprovieri Gallery в Лондоне по запросу на итальянском [galleria sprovieri londra], хотя на сайте нет ни слова London, ни Londra. В США пользователь, ищущий [cool tech pc vancouver, wa] найдет страницу www.cooltechpc.com несмотря на то, что нигде на странице не указано, что они находятся в Ванкувере.
Понимание запросов
Важно понимать, что ищут пользователи (больше, чем просто слова в их запросе). Google создали лучшую в своем роде систему распознавания текстового содержимого, развитую систему синонимов и очень мощную систему анализирования.
Система распознавания содержимого. Системе известно, что кто-то, вводящий в строке поиска [kofee annan], на самом деле ищет мистера Кофи Аннана, и подсказывает ему об этом: Did you mean: kofi annan; тогда как если кто-то ищет [kofee beans], то ему на самом деле нужны coffee beans (кофейные бобы).
Синонимы — это фундамент работы Google по пониманию запросов. Даже если что-то очевидно для человека, это может быть неразрешимой проблемой для автоматического языкового обработчика.
Пользователь не хочет слишком много думать о том, какие слова ему использовать для запросов. Часто он даже не знает, какие слова правильные. Здесь включается в работу система синонимов. Она может выполнять сложные модификации запросов, то есть она знает, что слово ‘Dr’, в запросе [Dr Zhivago], означает Doctor, в то время как в [Rodeo Dr] оно значит Drive.
Поиск идеи. Обнаружение главной идеи запроса позволяет возвратить намного более релевантные результаты. Например, алгоритмы Google поймут, что в запросе [new york times square church] пользователь ищет известную церковь на Times Square, а не статьи из New York Times. Но мы не останавливаемся на поиске идей, мы добавляем правильные идеи, когда, например, кто-то ищет [PC and its impact on people], то на самом деле он ищет impact of computers on society (влияние компьютеров на общество), а пользователю, ищущему [rainforest instructional activities for vocabulary], нужны rain forest lesson plans.
Понимание пользователей
Работа по пониманию намерений пользователя нацелена на возврат результатов, которые действительно хотят пользователи получить, а не просто тех, которые они написали в своем запросе. Эта работа начинается с системы локализации мирового уровня. И добавляет улучшенную технологию индивидуализации и несколько других больших шагов, таких как Универсальный Поиск.
Работа по локализации. Один и тот же запрос, написанный в различных странах, даст абсолютно разные результаты. Пользователь, ищущий [bank] в США, должен получить Американские банки, в то время как пользователь в Великобритании ищет Bank Fashion line или British financial institutions. Результаты этого запроса должны содержать местные финансовые подразделения в других англоговорящих странах, таких как Австралия, Канада, Новая Зеландий, ЮАР.
Персонализация
Персонализация подгоняет результаты поиска для каждого пользователя.
Пользователи, которые "залогинились" во время поиска и имеют включенный журнал посещений, получают результаты, которые более релевантны для них, чем общие результаты Google.
Универсальный поиск
Универсальным Поиском — это ещё один пример толкования намерений пользователя для предоставления им того, что они на самом деле хотят. Т.е., кто ищет [bangalore], получают не только нужные веб-страницы, также ему становится доступна карта, видео, жизнь на улицах Бангалоре и т.д., и плюч ко всему еще и новости/блоги о Бангалоре.
Cross Language Information Retrieval (CLIR). Позволяет пользователям сначала получить информацию не на их родном языке, а затем, используя технологию перевода Google информация становится доступной. Пользователь, который ищет биографию Тони Блэра в России, набирающий [Тони Блэр биография] получает предложение посмотреть результаты, переведенные с английского.
