Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Блок ответов1.1(кроме 5 ответов).doc
Скачиваний:
9
Добавлен:
25.09.2019
Размер:
3.45 Mб
Скачать

39 Критерии оценки документальных информационных систем: классы и типы оценок.

Оценка качества документальной ипс.

Для автоматизации процесса информационного поиска используется формализация представления основного, смыслового содержания информационного запроса и документов в виду ПП и ПОД. Однако в ПП и ПОД отражается лишь основное смысловое содержание поступающих документов в сокращенном виде. Метод информационного поиска основанный на сопоставление ПП и ПОД не в состоянии полностью обеспечить отыскание всех документов , отвечающих информационному запросу. Это приводит к тому что часть доказательств отвечающих запросу (релевантные запросы) остается не выданные потребителю.

В то же время во множестве выданных потребителю документов , которые не отвечают запросу являются не релевантными т.е. практически в любой документной системе присущи два типа ошибок.

  1. Первого рода (пропуск цели) невыдача потребителю релевантного его запросу документов.

  2. Ошибки второго рода (ложная тревога , шум) выдача потребителю нерелевантных документов несоответствующих запросу.

Наличие в реальной системе данных выше – обуславливает разбиение всего массива документов , по отношению к запросу на 2 подмассива.

ВЫДАННЫЕ

НЕВЫДАННЫЕ

РЕЛЕВАНТНЫЕ

А

C

НЕРЕЛЕВАНТНЫЕ

B

В

а – количество документов подмассива А.

b – количество документов подмассива B

c – количество документов подмассива C

d –количество документов подмассива D

Показатели эффективности документальных систем:

  1. Коэфициент полноты – характеризует долю выданных релевантных документов во всем массиве выданных релевантных документов.

  1. Коэфициент точности – характеризует долю выданных релевантных документов во всем массиве выданных документов.

  1. Коэффициент шума – характеризует долю выданных нерелевантных документов во всем массиве выданных документов.

  1. Коэффициент осадка – доля выданных нерелевантных документов во всем массиве нерелевантных документов.

  1. Коэффициент специфичности – характеризует не выданных документов не релевантных во всем массиве нерелевантных документов.

При оценке качества реальных систем наиболее часто используются коэффициенты полноты и точности.

Точность поиска и его полнота зависят не только от свойств поисковой системы, и от правильности построения запроса, но так же от субъективного представления пользователя о том, что такое нужная ему информация.

Однако при желании можно вычислить среднее значение полноты и точности конкретной системы, протестировав её на эталонной базе документов.

Очевидно, что хорошая поисковая система должна иметь как можно большие коэффициенты полноты и точности ( , т.е. чтобы находились все нужные документы и не выдавала ничего лишнего. Однако 100% качества поиска невозможно, т.к. на фиксированном уровне мощности поискового средства все попытки улучшить один из параметров приводят к ухудшению другого параметра.

  1. Понятие фактографической информационной системы. Программные средства реализации фактографических информационных систем

Фактографическая информационно-поисковая система - информационно-поисковая система, обеспечивающая выдачу непосредственно фактических сведений, затребованных потребителем в информационном запросе. Поисковый массив фактографической ИПС состоит из описаний фактов, извлеченных из документов и представленных на некотором формальном языке.