Простейшие модели поиска
• Модель, основанная на Дублинском ядре
Дублинское ядро – набор метаданных, зафиксированных в спецификации определяющего стандарта.
Образ документа Dk : |
Dk = {( Nik , Vik )} |
Представление запроса: |
Q = {( Nj , Vj )} |
Критерий релевантности k-го документа: Q Dk
Модели поиска
• Булевские модели
Образ документа - совокупность термов.
T(di) - множество термов документа di (словарь документа )
T = Ui=1,…,n T(di) - словарь коллекции документов
Представление запроса: булевское выражение. Критерий релевантности – истинность булевского
выражения.
Модели поиска
•Векторные модели
Образ документа |
Dk : |
( w1k, w2k, …, wnk ) |
|
|
|
веса термов |
Например: wik |
= nik /Nk ) |
количество повторений |
i-го терма |
число термов документа |
Представление запроса: ( w1, w2, …, wn )
Критерий релевантности вычисляется как результат операций над векторами
Модели поиска
• Вероятностные модели
(PRP - Probabilistic Ranking Principle)
Для документа Dk определяется оценка вероятности релевантности запросу.