Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Proektirovanie_informatsionnykh_i_expertnykh_si...doc
Скачиваний:
0
Добавлен:
01.04.2025
Размер:
308.22 Кб
Скачать

Модификация представления запроса

Существует 3 способа повышения эффективности поиска:

  • Корректировка весов терминов. Для этого складывают вектор запроса и векторы документов с положительной обратной связью и вычитают векторы с отрицательной обратной связью. Переформулированный запрос должен возвращать данные релевантные документы. Этот процесс повторяется до удовлетворения запроса пользователей. При этом положительная обратная связь более содержательная, чем отрицательная.

  • Расширение запроса добавлением новых терминов, которые выбираются из документов с положительной обратной связью. После этого сортируются термины на основе весов, и к запросу добавляется заданное число терминов из начала списка.

  • В случае, когда документы с положительной обратной связью связаны неоднозначно, тогда первые два метода работают плохо. Документы разбивают на кластеры.

Модификация представлений документов

Она предусматривает настройку векторов документов на основе обратной связи. Вектора документов, попавших в выборку, корректируют так, чтобы приблизить их к вектору запроса. Веса нерелевантных документов отдаляют их от запроса. Опасность такого подхода заключается в том, что оценка релевантности пользователем субъективна, т.е. под каждого пользователя — своя корректировка. В этом случае прямая корректировка не производится, а накапливается статистика результатов обратной связи.

Оценка качества дипс

В любой ДИПС присутствуют два типа ошибок:

  1. Пропуск цели, т.е. невыдача релевантных документов;

  2. Шум — выдача нерелевантных документов.

Весь массив документов можно разбить на 4 группы:

Документы

Выданные

Не выданные

Релевантные

A(a)

C(c)

Нерелевантные

B(b)

D(d)

Существуют следующие показатели эффективности ДИПС:

  1. Коэффициент полноты — доля выданных релевантных документов среди всех релевантных документов:

  1. Коэффициент точности — доля выданных релевантных документов ко всем выданным:

  1. Коэффициент шума — доля выданных нерелевантных документов ко всем выданным:

  1. Коэффициент осадки — доля выданных нерелевантных документов ко всем нерелевантным:

  1. Коэффициент специфичности — доля не выданных нерелевантных ко всем нерелевантным:

Обычно коэффициенты измеряются в процентах. При этом замечена следующая закономерность — попытка улучшения одного из коэффициентов, например p, приводит к уменьшению n, т.е. справедлива следующая зависимость:

Другие показатели ДИПС:

  • быстродействие;

  • пропускная способность — количество введенных запросов к ответам за промежуток времени;

  • производительность — количество пользователей в единицу времени;

  • надежность;

  • разнообразие запросов.

Лабораторная работа №2

n — количество документов в базе, ni — количество документов, в которых встречается i-й термин.

wij = ωj (i) ωi

Коллективная разработка информационных систем

Программный продукт от программы отличается свойствами:

  1. такую программу может использовать любой пользователь без вмешательства автора;

  2. она может быть реализована на различных ОС;

  3. она работает с различными наборами данных.

Для того чтобы программа стала программным продуктом, она должна быть:

  1. Написана в обобщенном стиле;

  2. Написана по некоторым общим правилам;

  3. Тщательно протестирована с указанием диапазонов допустимых значений входных данных, а также с предоставлением примеров работы;

  4. Подробно документирована, что позволяет исправлять программы, а также их расширять и дополнять.

Программный продукт, как правило, стоит в три раза дороже, чем программа с той же функциональностью.

Программный комплекс — набор взаимодействующих программ, согласованных между собой и представляющих собой средство для решения больших задач. Основные требования:

  • стандартизированный интерфейс;

  • точно оговорены бюджеты ресурсов;

  • должна быть протестирована в сочетаниях с компонентами, с которыми взаимодействует.

Программный комплекс, как правило, стоит в три раза дороже, чем программа с той же функциональностью.

Системный программный продукт — сочетание программного продукта и комплекса.

Системный программный продукт, стоит в 10 раза дороже, чем программа с той же функциональностью.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]