Скачиваний:
36
Добавлен:
28.06.2014
Размер:
63.5 Кб
Скачать

Простейшие модели поиска

Модели, основанные на классификаторах. В модели, основанной на классификаторе, документы представляются идентификаторами классов в иерархической структуре классификатора, к которым относится данный документ. Представление запроса в простейшем случае также представляет собой идентификатор интересующего пользователя класса заданного классификатора. Критерием релевантности документа является условие, что класс документа совпадает с каким-либо классом в представлении запроса или является его подклассом.

В более сложном случае в моделях поиска, основанных на классификаторе, допускается указание в запросе нескольких классов классификатора. При этом релевантными считаются документы, принадлежащие какому-либо из указанных в запросе классов или его подклассу.

Модели контекстного поиска. В моделях контекстного поиска используется представление документа как совокупности всевозможных встречающихся в его тексте слов и словосочетаний, не считая так называемых стоп-слов (служебные слова, такие как предлоги, союзы и т.п., которые встречаются практически в любом документе).

В системах рассматриваемого класса строится индекс по всем встречающимся в документах словам и словосочетаниям, кроме стоп-слов. При этом для построения индекса слова, выделенные из текста документа, приводятся сначала к «каноническому виду» с помощью поддерживаемых в системе словарей и средств грамматического разбора. Пользовательский запрос также подвергается грамматическому разбору, в процессе которого из запроса также выделяются встречающиеся в его тексте слова и словосочетания.

Документ считается релевантным, если какие-либо слова или словосочетания из запроса встречаются с точностью до грамматических форм в тексте документа. Иногда используется более жесткий критерий релевантности — вхождение в текст документа всех названных в запросе слов и словосочетаний и т.д.

Булевские модели поиска. Пользователь может формулировать запрос в виде булевского выражения с использованием операторов И, ИЛИ, НЕТ. Термы булевского выражения могут быть различными в разных вариациях булевских моделей поиска. Это может быть, например, условие вхождения данного слова или словосочетания (с точностью до грамматических форм) в текст документа в булевском расширении контекстной модели поиска. В булевском расширении модели поиска по классификаторам термами выражения могут быть условия принадлежности документа данному классу классификатора.

Критерием релевантности данного документа запросу в булевских моделях поиска является истинность булевского выражения, заданного в запросе.

Векторные модели поиска. В векторных моделях предполагается, что документы и запросы представляются векторами. В простейшем случае координаты вектора соответствуют термам текста — словам или словосочетаниям, принадлежащим словарю системы, который представляет общеязыковую лексику или лексику предметной области. Каждому терму из такого словаря сопоставляется свое измерение в векторном пространстве. Размерность векторов, представляющих документы и пользовательские запросы, в точности равна количеству измерений в этом пространстве.

Координате вектора присваивается единичное значение в том случае, когда соответствующий ей терм встречается в данном документе или, соответственно, в пользовательском запросе. В противном случае координате вектора присваивается нулевое значение. Поскольку размер словаря может быть очень большим, а документы или тексты запросов содержат существенно меньшее количество содержащихся в нем термов, такие векторы оказываются очень разреженными. Поэтому нужно использовать какую-либо технику сжатого их представления.

Для оценки степени релевантности документа запросу (меры их близости) в векторных моделях поиска используются какие-либо векторные функции, аргументами которых выступают представляющие их векторы. Например, можно использовать в качестве такой меры косинус угла между вектором документа и вектором запроса.

Соседние файлы в папке Лабораторная работа 1