Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Самостоятельно СТ 2012.docx
Скачиваний:
40
Добавлен:
12.04.2015
Размер:
2.07 Mб
Скачать

2. Оценка эффективности информационного поиска.

Эффективность информационного поиска документов, обес­печиваемая ИПС, оценивается по информационной полноте и информационному шуму. Названные показатели выражаются ко­эффициентами полноты Кn и шума Кш соответственно. Коэффи­циенты Кn и Кш принимают значения в интервале от 0 до 1. В не­которых источниках эти коэффициенты выражают в процентах.[1]

Пусть ИПС предъявлен i-й запрос. Информационно-поисковая система содержит множество документов реле­вантных этому запросу. В результате поиска получено множество. Возможны следующие варианты.

1. . Идеальный вариант: полнота максимальна (Кn = 1), а шум нулевой (Кш = 0).

2. . Имеет место неполнота (0Кn < 1), а шум отсут­ствует (Кш = 0).

3. . Неполнота исключается (Кn = 1), но есть шум (0 Кш <1).

4. Ø &Ø &Ø. Худший вариант: нулевая полнота (ни один релевантный документ не найден;Кn = 0) и максимальный шум (все, что выделено, не соответствует запросу; Кш = 1).

5. Ø &&&. Имеют место и неполнота (0 Кn < 1 ), и шум (0 Кш < 1).

Определим коэффициенты полноты и шума [1]:

(3.1)

(3.2)

где m — достаточно большое число, чтобы по теореме о больших числах обеспечить требуемую достоверность результата экспе­римента по определению Кn и Кш.

Смысл коэффициентов полноты и шума на теоретико-мно­жественном уровне иллюстрирует рис.9.2.

Анализируя этот рисунок, нетрудно заметить, что успеш­ность поиска формально определяется степенью совпадения множеств и(в идеале, при,- выборка содержит все релевантные документы и ни одного не релевантного). Это дает возможность ввести оценку эффективности информационного поискана основе мощностей множеств,и:

Релевантные результаты

Рис.9.2 Графическая интерпретация коэффициентов полноты и шума

Эффективность информационного поиска выражается че­рез коэффициенты Кn и Кш, что позволяет рассматривать ее в ка­честве интегрального показателя эффективности информаци­онного поиска ИПС.

(3.3)

В литературе в функции n, Кш) вместо Кш принято использовать обратный ему показатель — коэффици­ент точности Кm.

(3.4)

Таким образом, запишем данную функцию в виде:

(3.5)

В теории информационного поиска предложен обобщенный комплексный показатель эффективности (мера Ван Ризбергена), позволяющий учитывать предпочтение, отдаваемое поль­зователем ИПС точности или полноте:

(3.6)

где β — параметр, отражающий предпочтение пользователя ИПС одному из показателей эффективности, входящих в (точности, полноте).

При β = 1 точность и полнота одинаково важны. На интервале β [0; 1] приоритет имеет точность, а на интервале β]1;[ — полнота.

3. Сравнительный анализ информационно-поисковых систем.

Прове­дем сравнительный анализ документальных, фактографических и гипертекстовых ИПС по ряду показателей. Результаты представим в табл. 9.1.

Таблица 9.1

Сравнительный анализ ИПС

Характеристика ИПС

Виды ИПС

Документальные

Фактографические

Гипертекстовые

Полнота и шум

kn max =0,5

kш max = 1

kn max =1

kш max = 0

kn max =0,9÷1,0

kш max = 0,1÷0,2

Систематизирующая информация

Поисковые образы документов, мета-данные

Значения атрибутов объектов предметной области

Гипертекстовое представление документов, мета-данные

Тип поискового аппарата

Информационно-поисковые языки с развитой грам-матикой

Языки реляционного типа

Гипертекстовый тезаурус

Трудоемкость подготовки инфор-мационного массива

Требуется специ-альная лингвис-тическая подготовка сотрудника

Требуется высокая квалификация сотрудника

Относительно не-сложная подготовка по типам семан-тических связей

Структуры данных

Прямые и инверс-ные списки

Иерархические или реляционные струк-туры

Семантическая сеть: вершины – понятия, ребра – отношения

Математический характер критериев поиска

Логические и алгеб-раические выраже-ния

Логические и алгеб-раические выраже-ния

Семантические признаки

Тип собственного языка системы

Специальные информационные языки (например, Сетка-5)

Специальные языки (SQL, QBE)

ОЕЯ предметной области

Обеспечение высокой точности и полноты поискового про­цесса не являются единственным критерием эффективности ин­формационно-поисковых систем. Не менее важным является и показатель быстродействия, то есть среднее время поиска одной структурной единицы, например, документа в БЗ. Эта проблема особенно актуальна для многомодульных иерархических баз зна­ний, содержащих значительное количество документов.

Таким образом, эффективность информационного поиска не­обходимо рассматривать в контексте обеспечения высоких харак­теристик точности, полноты и быстродействия.