Критерии оценки документальных систем

Поисковое предписание и поисковый образ документа отражают лишь основное смысловое содержание поступающих сообщений в сокращенном виде. Поэтому метод информационного поиска, основанный на сопоставлении ПП с ПОД, не в состоянии полностью обеспечить отыскания всех документов отвечающих информационному запросу. Это приводит к тому, что часть документов, отвечающих запросу, то есть релевантных ему, остается не выданной потребителю. В то же время во множестве выданных ему документов присутствуют и такие, которые не отвечают запросу, то есть не являются релевантными. Таким образом, практически в любой ДИПС могут быть два типа ошибок:

ошибки 1-го рода (или пропуски цели): невыдача потребителю фактически релевантных его запросу документов;
ошибки 2-го рода (или ложная тревога, иначе шум): выдача потребителю нерелевантных документов, которые не отвечают поставленному запросу.

Наличие ошибок 1-го и 2-го рода в реальной системе обуславливает разбиение всего массива документов системы по отношению к запросу на 4 подмассива:

	Выданные	Не выданные
Релевантные	A	C
Нерелевантные	B	D

A – массив выданных релевантных документов;

B – массив выданных нерелевантных документов;

C – массив не выданных релевантных документов;

D – массив не выданных нерелевантных документов.

Введем следующие обозначения:

a – количество выданных релевантных документов;

b – количество выданных нерелевантных документов;

c – количество не выданных релевантных документов;

d – количество не выданных нерелевантных документов.

Существуют следующие показатели эффективности ДИПС:

Коэффициент полноты p, характеризующий долю выданных релевантных документов во всем массиве релевантных документов: p = a/(a+c).
Коэффициент точности n, характеризующий долю выданных релевантных документов во всем массиве выданных документов: n = a/(a+b).
Коэффициент шума e, характеризующий долю выданных нерелевантных документов во всем массиве выданных документов: e = b/(a+b) = 1-n.
Коэффициент осадка q, характеризующий долю выданных нерелевантных документов во всем массиве нерелевантных документов: q = b/(b+d).
Коэффициент специфичности k, характеризующих долю не выданных нерелевантных документов во всем массиве нерелевантных документов: k = d/(b+d).

Часто для удобства эти показатели измеряют в процентах. На практике часто используют лишь коэффициенты полноты и точности. Очевидно, что обе эти характеристики зависят как от свойств поисковой системы, так и от правильности построения конкретного запроса и от субъективного представления пользователя о том, что такое нужная ему информация. Информационно-поисковая система тем лучше, чем больше полнота и точность, то есть находит все нужные документы и ни одного лишнего. Однако улучшение одного из этих параметров приводит к ухудшению другого.

Наряду с этими показателями, основанными на сопряжении релевантности и выдачи, используют также и другие:

быстродействие ДИПС (интервал времени между моментом формулировки запроса и получением ответа на него);
пропускная способность (оценивается количеством вводимых документов и количеством ответов в единицу времени при заданных значениях коэффициента полноты и точности);
производительность (оценивается количеством пользователей системы и частотой обращения с их стороны);
надежность работы (оценивается вероятность того, что система будет выполнять свои функции при заданных условиях в течение требуемого времени);
тип запросов, обслуживаемых системой.

<<< < Предыдущая 1 2 34 / 64 5 6 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
11.02.2015577.54 Кб13Лекция.doc
#
11.02.2015349.18 Кб63Лекция1.doc
#
05.08.201944.54 Кб32Лекция1.doc
#
01.05.202599.33 Кб0Лекция4.doc
#
01.05.2025162.82 Кб0Лекция5_2.doc
#
01.05.2025117.25 Кб5Лекция5_3.doc
#
11.02.2015344.58 Кб37Лекция_11_С.doc
#
11.02.201547.62 Кб30Лекция_Принципы бухгалтерского учета.doc
#
16.11.201968.1 Кб20ликвидация.doc
#
01.07.2025838.73 Кб0Лиля ЧЕРНОВИК.docx
#
14.07.2019295.94 Кб22Лин алгебра уст сессия.doc