Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
[7 семестр] Расписанные вопросы к экзамену.docx
Скачиваний:
22
Добавлен:
04.06.2015
Размер:
879.86 Кб
Скачать

37. Понятие рабочей характеристики аипс.

Вывод показателя полезной работы АИПС базируется на предположении о том, что качество поиска АИПС тем выше, чем меньшее число документов просматривает пользователь. Пусть пользователю требуются релевантные документы в количестве х. При непосредственном просмотре (весь массив документов) трудозатраты (количество просмотренных документов) в среднем составляют:

В то время как при просмотре массива, имеющего точность р, затраты

Работа АИПС равна разности данных величин или высвобожденной информационной деятельности потребителя:

С учётом других координат и переменных выражение примет вид (замена: , по определению точности) :

(1)

Пусть прямые параллельны 0р0 и проходят через различные точки прямой 0И. Общее уравнение прямой, проходящей черези имеющей наклон, есть (уравнение прямой):

Подставим в формулу (1), имеем:

(=const)

Тем самым, на прямых вида величинаостаётся постоянной. По мере приближения точки пересечения прямой с 0И к точке И данная константа увеличивается. Она приобретает отрицательное значение, если линия проходит ниже прямой 0р0.

Таким образом, удовлетворяет условиям:

Или в координатах <n,x>:

Установление пределов измерения позволяет нормировать эту величину:

Мера полезной работы ИС изменяется от +1 до -1, причём:

в точке И ή=+1 (идеальная система, выдающая все релевантные и только релевантные сообщения)

в точке Д ή=-1 (система, выдающая все нерелевантные и только нерелевантные сообщения - дизинформирующая)

На линии (т.к. здесь)

В треугольнике ; В треугольнике ;

38. Матрицы "термин-документ", "термин-термин" и их свойства.

Используем понятие универсального словаря D (прообразом которого может быть, например, тезаурус, рубрикатор), содержащего множество лексических единиц всего потока доку­ментов (то есть все слова, числа и прочие обозначения, использованные во всех документах системы). Таким образом, li принадлежит D для всех i, где liсовокупность лексических единиц некоторого документа (сообщения), который является элементом некоторого потока L: L={l1 ,...,li,..., ln}, li L для всех i

Аналогично универсальному словарю введем понятие уни­версального массива L0 (ИМЕТЬ В ВИДУ, НО ЛУЧШЕ НЕ ПИСАТЬ: прообразы — поисковый массив ИПС, отраслевой справочно-информационный фонд, массив библио­теки), подмножеством которого являются все документы:

L0 = {l1 ,...,li,..., l n0}, li L0 для всех i, причем | L0| = n0, где n0, — мощность множества L0. Линейное представление теоретико-множественного образа документа:

lk=, гдеbik= 1-если i-й термин входит в k-й документ;0- если не входит.

Универсальный массив в линейном представлении есть мат­рица размерности D х n0 :

Подобные матрицы известны под названием матрицы «тер­мин—документ». Каждый столбец матрицы соответствует доку­менту и описывает множество терминов, содержащихся в нем.Таким образом, столбец матрицы характеризует ПОД. L0= Строка матрицы соответствует отдельному термину и являет­ся перечнем документов, содержащих данный термин. Сумма элементов строки представляет собой частотную характеристику термина: Fi=∑bik.

Составим матрицу , где.Матрицаимеет размерность. Внедиагональный элементесть количество появленийi-го термина в . Матрицы такого типа называют «матрица термин-термин» и характеризуют взаимосвязь терминов в данном массиве.

39.Диаграмма Эйлера-Венна (диаграмма <L>). Критерии оценки АИПС в координатах <L>.

Диаграмма <L>, или диаграмма Эйлера — Венна (рис. 4.3): представляет соотношение множеств всего информационного потока, множества истинно реле­вантных документов и — множества выданных докумен­тов. Соотношение этих множеств и количественные оценки меры их близости могут характеризовать эффективность поискового ме­ханизма системы.

Критерии оценки АИПС в координатах <L>

  1. частные критерии оценки:

  1. Полнота - доля выданных релевантных документов по сравнению с их общим количеством в информационном массиве: r=|LИ ∩LC|/|LИ|;

  2. Точность – доля релевантных документов во множестве выданных: p=|LИ ∩LC|/|LC|;

  3. Специфичность - доля невыданных документов по сравнению с невыданными и выданными нерелевантными: σ=|L0\ (LИ ULC)| / |L0\LИ|;

  4. Общность - характеризует качество комплектования поискового массива (доля релевантных документов в информационном массиве): p0=|LИ|/|L0|;

  5. Относительный объем выдачи: v=|LC|/|L0|.

  1. интегральные критерии оценки:

1)Показатель полезной работы - базируется на предположении о том, что качество поиска АИПС тем выше, чем в большей степени потребитель освобождается от необходимости полного просмотра массива документов: обозначив , ||=,,перепишемв координатах<L> :

;

2)Коэффициент линейной корреляции - корреляционный момент двух случайных величин: С – «быть выданным документом», И – «быть релевантным документом»:

; обозначив , ||=,,перепишемR в координатах <L> : .

40.Таблица сопряжённости. Критерии оценки АИПС в координатах <a,b,c,d>.

Таблица сопряженности <a,b,c,d>

отображает количественное соотношение выданных системой множеств релевантных (с точки зрения потребителя) и нерелевантных документов и не выданных множеств релевантных и нерелевантных документов.

релевантные

нерелевантные

выданные

a

b

невыданные

c

d

Критерии оценки АИПС в координатах <a,b,c,d>

частные критерии оценки:

Полнота - доля выданных релевантных документов по сравнению с их общим количеством в информационном массиве: r=a/(a+c);

Точность – доля релевантных документов во множестве выданных: p=a/(a+b);

Специфичность - доля невыданных документов по сравнению с невыданными и выданными нерелевантными: σ=d/(b+d);

Общность - характеризует качество комплектования поискового массива (доля релевантных документов в информационном массиве): p0=(a+c)/(a+b+c+d);

Относительный объем выдачи: v=(a+b)/(a+b+c+d).

интегральные критерии оценки:

Показатель полезной работы - базируется на предположении о том, что качество поиска АИПС тем выше, чем в большей степени потребитель освобождается от необходимости полного просмотра массива документов: ;

Коэффициент линейной корреляции - корреляционный момент двух случайных величин: С – «быть выданным документом», И – «быть релевантным документом»:

.

41. Диаграмма <n,x>. Критерии оценки АИПС в координатах < n,x>.

(Выданные релевантные сообщения)

X - выданные релевантные документы

n- все выданные документы

До­пустимые выдачи находятся в незаштрихованной области 0Ир0Д, ограниченной прямыми ли­ниями:

0И:х=n;(т.е когда число выданных равно числу релевантных) Ир0:х = х0;(т.е выданные релевантные равны всем релевантным) р0Д: х = п - (п0 - х0); ( п0 - х0 –нерелевантные документы ) Д0:х=0.

Критерии оценки АИПС в координатах <n,x>:

  1. Полнота - доля выданных релевантных документов по сравнению с их общим количеством в информационном массиве: r= x/x0;

  2. Точность – доля релевантных документов во множестве выданных: p=x/n;

  3. Специфичность - доля невыданных документов по сравнению с невыданными и выданными нерелевантными: σ= 1- (n-x)/(n0 – x0);

  4. Общность - характеризует качество комплектования поискового массива (доля релевантных документов в информационном массиве): p0=x0/n0;

  5. Относительный объем выдачи: v=n/n0.