Матрицы "термин-документ", "термин-термин" и их свойства.

Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Национальный исследовательский ядерный университет (МИФИ)

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Расписанные ответы на вопросы (новые).doc

Скачиваний:

Добавлен:

04.06.2015

Размер:

5.48 Mб

Скачать

☆

<<< < Предыдущая 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 1819 / 2619 20 21 22 23 24 25 26 > Следующая >>>

Матрицы "термин-документ", "термин-термин" и их свойства.

D-словарь, содержащий множество лексических единиц всего потока документов. Тогда

liдля всех i, где li- совокупность лексических единиц некоторого документа, который является элементом некоторого потокаL: L={l₁,…,l_i,…,l_n}, l_iL.

Существует универсальный массив L₀, подмножеством которого являются все документы:

L₀={ l₁,…,l_i,…,l_n}, l_iL₀ для всех i, причем |L₀|=n₀, где n₀- мощность множества L₀.

Линейное представление теоретико-множественного образа документа:

l_k=,где b_ik=1-еслиi-й термин входит в k-й документ;0- если не входит.

Универсальный массив в линейном представлении есть матрица размерности D*n₀:

L₀= Каждый столбец матрицы соответствует документу и описывает множество терминов, содержащихся в нем. Столбец матрицы характеризует ПОД. Строка матрицы соответствует отдельному термину и является перечнем документов, содержащих данный термин. Сумма элементов строки представляет собой частотную характеристику термина Fi, присутствующую обычно в частотном словаре информационного массива: F_i=∑b_ik.

Диаграмма Эйлера-Венна (диаграмма <L>). Критерии оценки АИПС в координатах <L>.

ЗдесьL₁ и L₂- множества документов, L₁₂-их пересечение, L₀-множество документов информационного массива. П₁и П₂- множество терминов (все значимые термины, хотя бы 1 раз встречающиеся во множестве документов);П₁₂- пересечение информационных профилей;D-универсальный словарь.

Данные множества могут трактоваться: L₁ и L₂- множества документов, связанных по общему термину; П₁и П₂- списки терминов каждого из двух документов (термины, хотя бы раз встречающиеся в документах потока или встречающиеся чаще чем некоторый порог ƒ_min или имеющие частоты, лежащие в интервале [ƒ_min, ƒ_max]

Рассмотрим случай когда L₁ и L₂- множества документов, связанных по общему термину. Выберем 2 произвольных термина T и t, входящие в какие-либо документы из L₀.

L₁- множество документов, содержащих термин T. L₂- множество документов, содержащих термин t.

X=|L₁₂|=|L1∩L₂|- количество документов, содержащих оба термина

Y= | L1\L₂|- количество документов, содержащих термин T, но не содержащих термин t.

Z= | L₂\L₁|- количество документов, содержащих термин t

V= |L₀\(L₁UL₂)|- количество документов, не содержащих ни одного из терминов.

X+y+z+v=|L₀|=n₀

Для измерения эффективности системы используются разностные меры множеств истинно релевантных L^И и выданных L^C документов. Проблема оценки эффективности формальна сходна с задачей сопоставления множеств документов и множеств терминов.

Таблица сопряженности. Критерии оценки АИПС в координатах <a,b,c,d>.

Таблица сопряженности <a,b,c,d> отображает количественное соотношение выданных системой множеств релевантных ( с точки зрения потребителя) и нерелевантных документов и невыданных множеств релевантных и нерелевантных документов.

Реле-

вантные

Нереле-

вантные

Выданные

Невыданные

Взаимосвязь представленных координат:

и с

Число выданных релевантных документов: a = x = | L ∩ L | ;

Общее число релевантных документов: a + с = x۪ = |L | ;

Количество выданных документов: a + b = n = |L | ;

Общее число документов L0 : a + b + x + d = n0 = |L0| ;

c и

Число выданных нерелевантных документов: b = n – x = | L \ L |

и c

Число невыданных релевантных документов: b = x0 – x = |L \ L | ;

Число невыданных документов: c + d = n0 – n = |L0 \ L | ;

Число нерелевантных документов: b + d = n0 – x0 = |L0\L | ;

Число невыданных нерелевантных документов: d = n0 – x0 - (n - x) = |L0\ (L U L )|

Диаграмма <n,x>. Критерии оценки АИПС в координатах <n,x>.

Допустимые выдачи (имеющие смысл сочетания числа выданных релевантных – х и всего выданных документов - n) находятся в незаштрихованной области 0Иp0Д, ограниченной прямыми линиями:

0И: x = n; Ир0: х = х0; p0Д: х = n – (n0 – x0); Д0: х = 0