
- •Информация и бизнес. Рынки информационных ресурсов
- •1.1. Роль информации в современном обществе. Параметры информационных ресурсов
- •1.2. Информационные продукты и информационные услуги
- •1.3. Спрос, предложение и ценообразование на рынке информационных ресурсов
- •1.4. Структура рынка информационных ресурсов
- •2. Мировые информационные ресурсы. Классификация и характеристика основных структур
- •2.1. Государственные информационные ресурсы, правовая информация
- •2.2. Биржевая и финансовая информация
- •2.3. Коммерческая информация
- •2.4. Базы данных как мировой информационный ресурс
- •2.5. Классификация информационных ресурсов Интернет
- •3. Информационно-поисковые системы. Организация поиска информации в сети Internet
- •3.1. Классификация информационно-поисковых систем
- •3.2. Оценка эффективности информационного поиска
- •3.3. Сравнительный анализ информационно-поисковых систем
- •3.4. Структурно-функциональная организация типовой поисковой машины Internet
- •3.5. Простой и расширенный поиск информации в Internet
3.2. Оценка эффективности информационного поиска
Эффективность информационного поиска документов, обеспечиваемая ИПС, оценивается по информационной полноте и информационному шуму. Названные показатели выражаются коэффициентами полноты Кn и шума Кш соответственно. Коэффициенты Кn и Кш принимают значения в интервале от 0 до 1. В некоторых источниках эти коэффициенты выражают в процентах.[1]
Пусть
ИПС предъявлен i-й
запрос. Информационно-поисковая система
содержит множество документов
релевантных этому запросу. В результате
поиска получено множество
.
Возможны следующие варианты.
1.
.
Идеальный вариант: полнота максимальна
(Кn
= 1), а шум нулевой (Кш
= 0).
2.
.
Имеет место неполнота (0
Кn
< 1), а шум отсутствует (Кш
= 0).
3.
.
Неполнота исключается (Кn
= 1), но есть шум (0
Кш
<1).
4.
Ø
&
Ø &
Ø . Худший вариант: нулевая полнота (ни
один релевантный документ не найден;
Кn
= 0) и максимальный шум (все, что выделено,
не соответствует запросу; Кш
= 1).
5.
Ø &
&
&
.
Имеют место и неполнота (0
Кn
< 1 ), и шум (0
Кш
< 1).
Определим коэффициенты полноты и шума [1]:
(3.1)
(3.2)
где m — достаточно большое число, чтобы по теореме о больших числах обеспечить требуемую достоверность результата эксперимента по определению Кn и Кш.
Смысл коэффициентов полноты и шума на теоретико-множественном уровне иллюстрирует рис.3.2.
Анализируя
этот рисунок, нетрудно заметить, что
успешность поиска формально
определяется степенью совпадения
множеств
и
(в идеале, при
,-
выборка содержит все релевантные
документы и ни одного не релевантного).
Это дает возможность ввести оценку
эффективности информационного поиска
на основе мощностей множеств
,
и
:
Релевантные
результаты
Рис.3.2 Графическая интерпретация коэффициентов полноты и шума
(3.3)
(3.4)
Эффективность
информационного поиска
выражается через коэффициенты Кn
и Кш,
что позволяет рассматривать ее в
качестве интегрального показателя
эффективности информационного поиска
ИПС. В литературе в функции
(Кn,
Кш)
вместо Кш
принято использовать обратный ему
показатель — коэффициент точности
Кm.
Таким образом, запишем данную функцию в виде:
(3.5)
В
теории информационного поиска предложен
обобщенный комплексный показатель
эффективности
(мера Ван Ризбергена), позволяющий
учитывать предпочтение, отдаваемое
пользователем ИПС точности или
полноте:
(3.6)
где
β — параметр, отражающий предпочтение
пользователя ИПС одному из показателей
эффективности, входящих в
(точности, полноте), над другим.
При
β = 1 точность и полнота одинаково важны.
На интервале β
[0; 1] приоритет имеет точность, а на
интервале β
]1;
[
— полнота.