Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Голицына Информационные системы 2004.pdf
Скачиваний:
323
Добавлен:
16.08.2013
Размер:
5.01 Mб
Скачать
L0 ={l1 ,...li ,...ln },li L0

Аналогично универсальному словарю вводится понятие универсального потока (массива) L0 (прообразы - поисковый массив ИПС, отраслевой справочно-информационный фонд, массив библиотеки), подмножеством которого являются все документы:

для всех i, причем L0 = n0

где no - мощность множества L0.

Линейное представление теоретико-множественного образа документа:

 

b

 

 

 

1k

 

 

 

Μ

 

1,еслиi - й терминвходитвk - йдокумент

lk

= bik

, где bik

=

 

 

 

0,еслине входит

 

Μ

 

 

 

 

 

 

 

bDk

 

Универсальный массив в линейном представлении есть матрица размерности D×no:

 

 

 

Λ b1n0

 

 

 

b11b12

 

 

 

Λ Λ Λ Λ Λ

 

 

L0

 

 

Λ bin0

 

(4.6)

= bi1bi2

 

 

Λ Λ Λ Λ Λ

 

 

 

 

b

 

Λ b

 

 

 

 

b

 

Dn0

 

 

 

 

D1 D2

 

 

 

Подобные матрицы известны под названием матрицы «терминдокумент». Каждый столбец матрицы соответствует документу и описывает множество терминов, содержащихся в нем. Таким образом, столбец матрицы характеризует поисковый образ документа (ПОД).

Строка матрицы соответствует отдельному термину и является перечнем документов, содержащих данный термин. Сумма элементов строки представляет собой частотную характеристику термина (Fi), присутствующую обычно в частотном словаре информационного массива:

n0

Fi = bik k =1

Формализуем понятие механизма поиска как преобразователя ПОЗа, представленного с помощью матрицы L0, в бинарный вектор результата Q (размерности n0) и рассмотрим математическую интерпретацию основных поисковых механизмов.

4.3.2. Модель механизма поиска по совпадению терминов

При поиске по условию совпадения терминов в паре запросдокумент задается требование полного и/или частичного совпадение

109