Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Саратовский Государственный Технический Университет им. Ю.А. Гагарина

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Пролог.doc

Скачиваний:

Добавлен:

10.11.2018

Размер:

1.44 Mб

Скачать

☆

<<< < Предыдущая 9 10 11 12 13 14 15 16 17 18 19 2021 / 5421 22 23 24 25 26 27 28 29 30 31 32 33 > Следующая >>>

4.2.2. Линейная модель работы ипс.

Считаем, что в системе имеется t дескрипторов (иначе говоря объем тезауруса равен t). Тогда любой документ (точнее его поисковый образ) можно идентифицировать с помощью битового (двоичного) вектора X=(x₁,…..,x_t), где x_j=1, если j-й дескриптор присутствует в описании документа, в противном случае x_i=0.

Если в системе d документов, то вся информация может быть представлена с помощью матрицы C_dt:

//расписать матрицу (3)

i-я строка матрицы является описанием i-го документа.

Запрос (точнее его поисковое предписание) также можно представить в виде битового вектора Q=(q₁,…,q_t).

(формула r_i) (4) - количество дескрипторов, которые одновременно присутствуют и в запросе и в i-м документе. Эта величина называется критерием релевантности i-го документа относительно запроса Q.

R=(r₁,….,r_d) - вектор релевантностей для запроса Q.

Результатом поиска обычно признаются документы, релевантность которых выше заданного порога r*, который должен зависеть от числа дескрипторов в запросе и в документе, что не очень удобно.

Выражение для R можно записать в матричной форме: R=CQ.

Пример. Пусть в системе имеется 6 дескрипторов и 2 документа имеющих описания (1,1,1,0,0,0) и (1,1,1,1,1,1). Подается запрос Q=(1,1,1,0,0,0). Тогда r₁=r₂=3, хотя очевидно, что 1-й документ лучше соответствует запросу.

Другой критерий: (формула r_i)

Для нашего примера в этом случае r₁=1, r₂=1/2.

Как видим, второй критерий более совершенен, что объясняется учетом не только совпадений дескрипторов в описаниях, но и несовпадений.

К сожалению, в силу человеческого фактора, однотипные документы часто характеризуют разными ключевыми словами, и это необходимо учесть в поисковой модели. Целесообразно учитывать степень похожести дескрипторов и документов.

Вычислим матрицы A, D:

A_tt=С^T_tdC_dt, D_dd= C_dtC^T_td.

Элемент a_jm матрицы A показывает количество одновременных присутствий j-го и m-го дескрипторов в описаниях документов, а элемент d_ik матрицы D– количество общих дескрипторов в i-м и k-м документах. Таким образом, матрица A показывает степень похожести дескрипторов, а матрица D – степень похожести документов. С помощью определения порогов a* и d* эти матрицы приводятся к бинарному виду:

//формулы бинаризации матриц A и D (получаем A' и D') (5)

Пусть:

		1	7	3			5	6	2
A	=	8	4	6	D	=	9	4	3
		2	3	5			7	6	8
	a٭ = 3					d٭ = 3

a_ij ≤ a^*=> a_ij^' = 0

a_ij > a^* => a_ij = 1

d_ij ≤ d^*=> d_ij^' = 0

d_ij > d^* => d_ij = 1

		0	1	0			1	1	0
A	=	1	1	1	D	=	1	1	0
		0	0	1			1	1	1

Имеем смысл использовать критерий: R=D'(C(A' Q)) (6)

R=D'(C (A' Q))

Фактически в этом случае все похожие дескрипторы автоматически добавляются к запросу, по расширенному запросу производится поиск, а затем к множеству полученных документов добавляются похожие.

<<< < Предыдущая 9 10 11 12 13 14 15 16 17 18 19 2021 / 5421 22 23 24 25 26 27 28 29 30 31 32 33 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
25.09.20191.37 Mб93Проектирование лекции.docx
#
09.11.20194.65 Mб115Проектирование мостовых переходов ч1.doc
#
09.11.201912.2 Mб185ПРОЕКТИРОВАНИЕ МОСТОВЫХ ПЕРЕХОДОВ ч2 исп.doc
#
01.07.20252.83 Mб5Производственная логистика глава 1-7.doc
#
01.05.2025164.23 Кб11Происхождение славянской письменности реферат.docx
#
10.11.20181.44 Mб23Пролог.doc
#
12.02.2015489.98 Кб51Промышленность 2012.doc
#
31.08.201934.59 Кб19Просвещение в годы НЭПа.docx
#
22.11.201942.56 Кб23Протекционизм.docx
#
01.07.20252 Mб2Процедуры в ТаможСоюзе ЕврАзЭС.doc
#
29.03.2016946.39 Кб137ПРОЦЕССЫ ПОРОШКОВОЙ МЕТАЛЛУРГИИ.pdf