- •Принцип адресации ресурсов в сети internet
- •Принципы построения и модели работы поисковых машин разных поколений
- •Современная модель работы поисковой системы
- •Понятие релевантности
- •Функции оценки релевантности
- •Модель работы поисковой машины Yandex
- •Модель работы поисковой машины Google
- •Расширенный режим подачи запросов к поисковой системе
- •Достоинства и недостатки различных функций оценки релевантности
- •Обзор методов борьбы с нерелевантным содержимым
- •Список использованных источников
Достоинства и недостатки различных функций оценки релевантности
TF/IDF
Достоинства:
Учитывает не только конкретный документ, в котором встречается слово, но и другие документы коллекции.
Скорость вычисления. Для формирования оценки достаточно просканировать все документы в пределах одной коллекции.
Недостатки:
Оценка является статической. Может измениться только при изменении одного из документов коллекции.
Частота встречаемости слова далеко не самый надёжный показатель релевантности, особенно для русского языка. Можно составить документ, в котором релевантное слово не будет повторяться (с использованием синонимов), или же, наоборот, текст будет перегружен омонимами нерелевантного слова.
Совершенно бесполезный текст, буквально перегруженный ключевыми словами, позволит обхитрить данную оценку.
Не учитывается уровень вложенности документа.
PageRank
Достоинства:
Учитывается своего рода «мнение» других страниц.
Оценка является динамической. PageRank в результате каких-либо событий может и упасть, и возрасти.
Недостатки:
Порождает множество путей искусственного увеличения PageRank и, как результат, попадание в поисковую выдачу нерелевантных страниц.
Относительно медленная скорость получения актуального значения оценки, так как перед вычислением PageRank конкретной страницы требуется вычислить PageRank страниц, ссылающихся на данную.
Обзор методов борьбы с нерелевантным содержимым
Использование синонимов. Если список найденных страниц слишком мал или не содержит полезных страниц, попробуйте изменить слово.
Понимание запросов. Важно понимать, что ищут пользователи (больше, чем просто слова в их запросе). Должна существовать система распознавания текстового содержимого, систему синонимов и очень мощную систему анализирования. Системе известно, что кто-то, вводящий в строке поиска [kofee annan], на самом деле ищет мистера Кофи Аннана, и подсказывает ему об этом: Did you mean: kofi annan; тогда как если кто-то ищет [kofee beans], то ему на самом деле нужны coffee beans (кофейные бобы).
Системы распознания. Поисковые машины научились понимать, что ищут пользователи. Существуют системы распознавания текстового содержимого, системы синонимов и очень мощные системы анализирования. Например: на запрос «посик боваров» Google выдаст результаты по «поиск товаров»
Персонализация. Пользователи, которые "залогинились" во время поиска и имеют включенный журнал посещений, получают результаты, которые более релевантны для них, чем общие результаты Google. Например, пользователь, который имеет множество запросов, относящихся к футболу, получит более «футбольные» результаты на запрос [giants], тогда как другие пользователи могут получить результаты, относящиеся к бейсбольной команде.
Использование результатов на другом языке. Это позволяет пользователям сначала получить информацию не на их родном языке, а затем, используя технологию перевода Google, мы делаем информацию доступной. Например пользователь, который ищет биографию Тони Блэра в России, набирающий [Тони Блэр биография] получает предложение посмотреть результаты, переведенные с английского.
