Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Расписанные ответы на вопросы (новые).doc
Скачиваний:
64
Добавлен:
04.06.2015
Размер:
5.48 Mб
Скачать
  1. Матрицы "термин-документ", "термин-термин" и их свойства.

D-словарь, содержащий множество лексических единиц всего потока документов. Тогда

liдля всех i, где li- совокупность лексических единиц некоторого документа, который является элементом некоторого потокаL: L={l1,…,li,…,ln}, liL.

Существует универсальный массив L0, подмножеством которого являются все документы:

L0={ l1,…,li,…,ln}, liL0 для всех i, причем |L0|=n0, где n0- мощность множества L0.

Линейное представление теоретико-множественного образа документа:

lk=,где bik=1-еслиi-й термин входит в k-й документ;0- если не входит.

Универсальный массив в линейном представлении есть матрица размерности D*n0:

L0= Каждый столбец матрицы соответствует документу и описывает множество терминов, содержащихся в нем. Столбец матрицы характеризует ПОД. Строка матрицы соответствует отдельному термину и является перечнем документов, содержащих данный термин. Сумма элементов строки представляет собой частотную характеристику термина Fi, присутствующую обычно в частотном словаре информационного массива: Fi=∑bik.

  1. Диаграмма Эйлера-Венна (диаграмма <L>). Критерии оценки АИПС в координатах <L>.

ЗдесьL1 и L2- множества документов, L12-их пересечение, L0-множество документов информационного массива. П1 и П2- множество терминов (все значимые термины, хотя бы 1 раз встречающиеся во множестве документов);П12- пересечение информационных профилей;D-универсальный словарь.

Данные множества могут трактоваться: L1 и L2- множества документов, связанных по общему термину; П1 и П2- списки терминов каждого из двух документов (термины, хотя бы раз встречающиеся в документах потока или встречающиеся чаще чем некоторый порог ƒmin или имеющие частоты, лежащие в интервале [ƒmin, ƒmax]

Рассмотрим случай когда L1 и L2- множества документов, связанных по общему термину. Выберем 2 произвольных термина T и t, входящие в какие-либо документы из L0.

L1- множество документов, содержащих термин T. L2- множество документов, содержащих термин t.

X=|L12|=|L1∩L2|- количество документов, содержащих оба термина

Y= | L1\L2|- количество документов, содержащих термин T, но не содержащих термин t.

Z= | L2\L1|- количество документов, содержащих термин t

V= |L0\(L1UL2)|- количество документов, не содержащих ни одного из терминов.

X+y+z+v=|L0|=n0

Для измерения эффективности системы используются разностные меры множеств истинно релевантных LИ и выданных LC документов. Проблема оценки эффективности формальна сходна с задачей сопоставления множеств документов и множеств терминов.

  1. Таблица сопряженности. Критерии оценки АИПС в координатах <a,b,c,d>.

Таблица сопряженности <a,b,c,d> отображает количественное соотношение выданных системой множеств релевантных ( с точки зрения потребителя) и нерелевантных документов и невыданных множеств релевантных и нерелевантных документов.

Реле-

вантные

Нереле-

вантные

Выданные

a

b

Невыданные

c

d

Взаимосвязь представленных координат:

и с

Число выданных релевантных документов: a = x = | L ∩ L | ;

и

Общее число релевантных документов: a + с = x۪ = |L | ;

c

Количество выданных документов: a + b = n = |L | ;

Общее число документов L0 : a + b + x + d = n0 = |L0| ;

c и

Число выданных нерелевантных документов: b = n – x = | L \ L |

и c

Число невыданных релевантных документов: b = x0 – x = |L \ L | ;

c

Число невыданных документов: c + d = n0 – n = |L0 \ L | ;

и

Число нерелевантных документов: b + d = n0 – x0 = |L0\L | ;

Число невыданных нерелевантных документов: d = n0 – x0 - (n - x) = |L0\ (L U L )|

  1. Диаграмма <n,x>. Критерии оценки АИПС в координатах <n,x>.

Допустимые выдачи (имеющие смысл сочетания числа выданных релевантных – х и всего выданных документов - n) находятся в незаштрихованной области 0Иp0Д, ограниченной прямыми линиями:

0И: x = n; Ир0: х = х0; p0Д: х = n – (n0 – x0); Д0: х = 0

Взаимосвязь представленных координат:

и с

Число выданных релевантных документов: a = x = | L ∩ L | ;

и

Общее число релевантных документов: a + с = x۪ = |L | ;

c

Количество выданных документов: a + b = n = |L | ;

Общее число документов L0 : a + b + x + d = n0 = |L0| ;

c и

Число выданных нерелевантных документов: b = n – x = | L \ L |

и c

Число невыданных релевантных документов: b = x0 – x = |L \ L | ;

c

Число невыданных документов: c + d = n0 – n = |L0 \ L | ;

и

Число нерелевантных документов: b + d = n0 – x0 = |L0\L | ;

и с

Число невыданных нерелевантных документов: d = n0 – x0 - (n - x) = |L0\ (L U L )|