4.5.2. Поиск при кластерной организации хранения

Пусть пространство текстов разбито на множество кластеров {C_l}, каждый из которых есть своё подпространство размером n_l текстов исходного пространства размером n текстов. При этом каждый кластер характеризуется профилем П_l и вектором V_l вида:

V_l = {(t_l^k, f_l^k)},

где {t_l^k} = , т.е. множество {t_l^k} индексационных терминов есть объединение индексационных терминов текстов кластера С_l,

, т.е. частоты терминов есть усредненные частоты терминов по текстам кластера.

Рассчитываются коэффициенты подобия S(q, C_l)запроса и кластера, представленного своим вектором:

где w_l^k – вес термина t^k в профиле кластера C_l;

Т_l – число индексационных терминов в профиле кластера С_l.

После определения релевантного кластера (его подобие с запросом отлично от нуля) поиск релевантного текста (текстов) выполняется внутри кластера.

4.5. Методы расширенного поиска

Часто при поиске в ТБД необходимо увеличить число релевантных текстов (в поисковых системах Интернет это называется расширенным поиском). Пространство релевантности увеличивается за счет дополнительных совпадений терминов запроса и индексационных терминов.

Для увеличения числа совпадений используются методы:

применение словаря синонимов (тезауруса), в котором термины сгруппированы в классы синонимии, или эквивалентности. Для построения тезауруса используют методы кластеризации элементов, в которых в качестве элементов выступают индексационные термины;
исключение из рассмотрения префиксной и постфиксной частей терминов и выделение их основ путем проведения морфологического анализа;
использование ассоциативного индексирования для приписывания терминам дополнительных терминов, которые ассоциируются с исходными;
вероятностное индексирование.

4.5.1. Построение словаря синонимов

Смысл этого метода сводится к тому, что с каждым термином t^k связывается множество его синонимов Syn^k. Образуется тезаурус. Тогда вектор запроса пополняется терминами из тезауруса, что расширяет число текстов, релевантных запросу.

Связь термина t^k с множеством Syn^k может быть представлена дополнительной графой справочника, в которой множество синонимов задано либо явно, либо списком номеров синонимичных терминов из того же справочника, например:

Термин t^k	Синонимы Syn^k	Текст
Термин t^k	Синонимы Syn^k	Ф1	Ф2	Ф3	Ф4
К1	К4	w_Ф1^К1	w_Ф2^К1	w_Ф3^К1	w_Ф4^К1
К2	-	w_Ф1^К2	w_Ф2^К2	w_Ф3^К2	w_Ф4^К2
К3	-	w_Ф1^К3	w_Ф2^К3	w_Ф3^К3	w_Ф4^К3
К4	К1	w_Ф1^К4	w_Ф2^К4	w_Ф3^К4	w_Ф4^К4

Тогда, например, если в запросе участвует термин К1, а его синонимом является термин К4, то запросу релевантны тексты, характеризующиеся как термином К1, т.е. Ф1, так и К4, т.е. Ф4.

При формировании тезауруса применяются рассмотренные выше для текстов методы кластеризации. Для этого каждый термин t^k представляется вектором V^k вида:

V^k = {(D_i, f_i^k)} или V^k = {(D_i, w_i^k)}.

Тогда для терминов t^k и t^r коэффициент подобия S(t^k,t^r) рассчитывается по формуле:

где p_i^r – параметр (частота или вес), характеризующий термин t^r в тексте D_i,

n – число текстов в наборе.

<<< < Предыдущая 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 2930 / 3430 31 32 33 34 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
05.08.2019294.4 Кб10лекции КРИМИНАЛИСТИКА экз.doc
#
13.08.201976.8 Кб13Лекции КРИМИНОЛОГИЯ экз.doc
#
16.09.2019155.14 Кб17Лекции Миненка по криминологии.doc
#
01.03.2025381.95 Кб0ЛЕКЦИИ ПО АСУ.doc
#
15.09.2019237.06 Кб8лекции по зп.doc
#
16.11.2019330.27 Кб30Лекции по ИС.docx
#
01.07.202580.3 Кб1Лекции по устойчивому развитию(Кохановская).docx
#
01.04.2025270.85 Кб3Лекции по экологии почв.doc
#
01.07.202513.78 Mб0Лекции СКарх.doc
#
23.11.201951.2 Кб9Лекции тема 10 17 в.-нач 18.doc
#
01.05.2025636.1 Кб0Лекции ФМ.docx