Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
LEKCIJA_8.doc
Скачиваний:
35
Добавлен:
17.12.2018
Размер:
138.24 Кб
Скачать

1.2. Модели поисковых систем

Релевантность - это не бинарная классификация, а непрерывная функция. Принцип, по которому строится эта функция, определяет модель поисковой системы. Выделяют три основные модели, различные расширения которых осуществлены в сегодняшних поисковых системах.

Булева (логическая). В булевой модели документы и запрос рассматриваются как логические множества, и если документ пересекается с запросом, то он ему релевантен. Таким образом, в классическом представлении булевой модели релевантность - это как раз бинарная классификация, что влечет за собой много неудобств. Например, неправильное употребление терма (слова) в запросе может классифицировать релевантный документ как нерелевантный. Поэтому дальнейшие расширения/модификации модели были направлены на преодоление данной проблемы. Например, учет весов (значимости) слов в тексте документов и запроса сделал возможным ранжирование результатов булева поиска. Реализация булевой модели - самая простая и эффективная, что сделало популярным ее применение в Web.

Векторная (алгебраическая). В рамках векторной модели поиска документы и запрос преобразуются в вектора, где компоненты вектора - это веса слов. Наиболее популярной схемой взвешивания слов является отношение к , где - это мера того, насколько часто данное слово встречается во всей коллекции документов, а - мера того, насколько часто данное слово встречается в данном документе. Возможно использование бинарной схемы взвешивания: “1” - слово присутствует в документе, “0” - отсутствует. Близость вектора запроса и документа (например, их корреляция) и определяет ранг документа в списке результатов поиска. Векторная модель также получила большое распространение как среди классических поисковых систем, так и среди поисковых систем в Web.

Вероятностная. В вероятностной модели поиска вероятность того, что данный документ релевантен данному запросу основывается на предположении, что термы запроса по-разному распределены среди релевантных и нерелевантных документов. Используемая формула вероятности, как правило, исходит из теоремы Байеса.

1.3. Обзор функциональности

Классическая поисковая система состоит из следующих функциональных модулей, совокупноссть которых и обеспечивает выполнение ее основной задачи.

Нормализация документа. Как только новый документ попадает в систему, его нужно распознать и привести к виду, являющимся стандартом для данной поисковой системы. Процесс нормализации может включать в себя транслирование (перевод текстовых документов в определенную кодировку, графических - в определенный формат файла), зонирование (разбиение документа на логические части, используемые в данной системе, например, название документа, аннотация к нему) и дополнительные операции, необходимые для преобразования документа в удобную для поиска структуру - выделение токенов (семантически значимых слов), нормализация самих токенов (отбрасывание окончаний и т.п.).

Индексирование. Также как и в СУБД, для достижения приемлемой эффективности поиск производится не напрямую по документам в коллекции, а по информации о них в избыточной индексной структуре. Существует несколько способов индексирования текстов: инвертированный файл, файл сигнатур, хэширование, различные виды деревьев для многомерного индексирования и т.п.

Поиск. Поисковый модуль отвечает за получение и выполнение запросов пользователей. Ранжирование результатов поиска, как правило, основывается на степени релевантности документа запросу. Однако возможно использование других критериев (таких как новизна документа). Более того, например, в применение к Web, ранжирование по релевантности показало свою неэффективность, что потребовало разработку иных подходов к задаче ранжирования.

Любое расширение/модификация основной задачи поисковой системы ведет к расширению/надстройке описанного выше каркаса. Перечислим лишь некоторые виды дополнительной функциональности, которые может включать в себя поисковая система.

Фактографический поиск. В фактографическом поиске пользователь заинтересован не просто в обнаружении информации на тему, а в обнаружении конкретного ответа на его вопрос, например: “Кто был первым космонавтом?”. Обеспечение такой функциональности поисковой системой подразумевает обработку вопроса на естественном языке, его переформулировку в стандартные запросы для данной системы, нахождение документа, содержащего нужный фрагмент и извлечение ответа.

Персонализация. Использование информации о специфике конкретного пользователя дает возможность лучше обслужить его потребности. Другими словами, при выполнении запросов пользователя можно учитывать информацию о контексте пользователя. В этот контекст могут входить как явно указанные пользователем предпочтения, так и информация, полученная на основе анализа его предыдущего поведения (запросов, просмотренных документов и т.п.).

Уточнение запросов. Пользователь не всегда способен хорошо сформулировать запрос, поэтому его уточнение может значительно повысить качество поиска. Одним из наиболее известных подходов к уточнению запросов является их расширение за счет добавления новых термов. Это расширение может осуществляться как при помощи пользователя, например, на основе механизма обратной связи (кнопка “найти похожие документы”), так и полностью автоматически, например, путем анализа локального контекста.

Поиск по категориям. Поиск по категориям является типичным примером сужения области поиска для повышения его качества. Самым распространенным подходом является предоставление пользователю составленной иерархии проиндексированных системой документов, например, по тематическому признаку. Другие подходы основываются на расширении запроса пользователя и фильтрации результатов поиска согласно желаемой категории.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]