Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции по ИС.docx
Скачиваний:
29
Добавлен:
16.11.2019
Размер:
330.27 Кб
Скачать

4.5.2. Поиск при кластерной организации хранения

Пусть пространство текстов разбито на множество кластеров {Cl}, каждый из которых есть своё подпространство размером nl текстов исходного пространства размером n текстов. При этом каждый кластер характеризуется профилем Пl и вектором Vl вида:

Vl = {(tlk, flk)},

где {tlk} = , т.е. множество {tlk} индексационных терминов есть объединение индексационных терминов текстов кластера Сl,

, т.е. частоты терминов есть усредненные частоты терминов по текстам кластера.

Рассчитываются коэффициенты подобия S(q, Cl) запроса и кластера, представленного своим вектором:

где wlk – вес термина tk в профиле кластера Cl;

Тl – число индексационных терминов в профиле кластера Сl.

После определения релевантного кластера (его подобие с запросом отлично от нуля) поиск релевантного текста (текстов) выполняется внутри кластера.

4.5. Методы расширенного поиска

Часто при поиске в ТБД необходимо увеличить число релевантных текстов (в поисковых системах Интернет это называется расширенным поиском). Пространство релевантности увеличивается за счет дополнительных совпадений терминов запроса и индексационных терминов.

Для увеличения числа совпадений используются методы:

  1. применение словаря синонимов (тезауруса), в котором термины сгруппированы в классы синонимии, или эквивалентности. Для построения тезауруса используют методы кластеризации элементов, в которых в качестве элементов выступают индексационные термины;

  2. исключение из рассмотрения префиксной и постфиксной частей терминов и выделение их основ путем проведения морфологического анализа;

  3. использование ассоциативного индексирования для приписывания терминам дополнительных терминов, которые ассоциируются с исходными;

  4. вероятностное индексирование.

4.5.1. Построение словаря синонимов

Смысл этого метода сводится к тому, что с каждым термином tk связывается множество его синонимов Synk. Образуется тезаурус. Тогда вектор запроса пополняется терминами из тезауруса, что расширяет число текстов, релевантных запросу.

Связь термина tk с множеством Synk может быть представлена дополнительной графой справочника, в которой множество синонимов задано либо явно, либо списком номеров синонимичных терминов из того же справочника, например:

Термин tk

Синонимы Synk

Текст

Ф1

Ф2

Ф3

Ф4

К1

К4

wФ1К1

wФ2К1

wФ3К1

wФ4К1

К2

-

wФ1К2

wФ2К2

wФ3К2

wФ4К2

К3

-

wФ1К3

wФ2К3

wФ3К3

wФ4К3

К4

К1

wФ1К4

wФ2К4

wФ3К4

wФ4К4

Тогда, например, если в запросе участвует термин К1, а его синонимом является термин К4, то запросу релевантны тексты, характеризующиеся как термином К1, т.е. Ф1, так и К4, т.е. Ф4.

При формировании тезауруса применяются рассмотренные выше для текстов методы кластеризации. Для этого каждый термин tk представляется вектором Vk вида:

Vk = {(Di, fik)} или Vk = {(Di, wik)}.

Тогда для терминов tk и tr коэффициент подобия S(tk,tr) рассчитывается по формуле:

где pir – параметр (частота или вес), характеризующий термин tr в тексте Di,

n – число текстов в наборе.