
- •Введение в проектирование баз данных, информационных и экспертных систем
- •Проектирование информационных систем, ориентированных на анализ данных
- •Модели данных, которые используются для хранения данных (Эдгар Кодд)
- •Правила Кодда
- •Методы аналитической обработки данных
- •Основные элементы data mining:
- •Классы систем data mining:
- •Документальные системы
- •Структура дипс
- •Формальное представление семантики документов
- •Обработка входящей информации в дипс
- •Рубрицирование на знаниях
- •Методы статистической обработки текстов
- •Поиск текстовой информации
- •Модели представления документов и запросов Булева модель
- •Пространственно-векторная модель
- •Векторные модели
- •Обратная связь с пользователем дипс
- •Модификация представления запроса
- •Модификация представлений документов
- •Оценка качества дипс
- •Лабораторная работа №2
- •Коллективная разработка информационных систем
- •Достоинства профессионального программирования:
- •Недостатки (сложности) профессии:
- •Почему проваливаются программные продукты:
- •Календарное планирование работ сетевыми методами
- •Сетевая модель программы
- •Пример:
- •Расчет сетевой модели
- •Пример:
- •Распределение ресурсов при календарном планировании
- •Учет стоимости при оптимизации плана
- •Проблемы разработки программного обеспечения Основные проблемы:
- •Основные причины провала разработки:
- •Рекомендации по разработке:
- •Методологии системного моделирования
- •Структура системы
- •Методология структурного системного анализа (sadt)
- •Объектно-ориентированный анализ и проектирование, uml
- •Основные принципы моделирования сложных систем
- •Общая структура uml
- •Описание метамодели uml
- •Основные виды диаграмм
- •Основные рекомендации для составления диаграмм
Модификация представления запроса
Существует 3 способа повышения эффективности поиска:
Корректировка весов терминов. Для этого складывают вектор запроса и векторы документов с положительной обратной связью и вычитают векторы с отрицательной обратной связью. Переформулированный запрос должен возвращать данные релевантные документы. Этот процесс повторяется до удовлетворения запроса пользователей. При этом положительная обратная связь более содержательная, чем отрицательная.
Расширение запроса добавлением новых терминов, которые выбираются из документов с положительной обратной связью. После этого сортируются термины на основе весов, и к запросу добавляется заданное число терминов из начала списка.
В случае, когда документы с положительной обратной связью связаны неоднозначно, тогда первые два метода работают плохо. Документы разбивают на кластеры.
Модификация представлений документов
Она предусматривает настройку векторов документов на основе обратной связи. Вектора документов, попавших в выборку, корректируют так, чтобы приблизить их к вектору запроса. Веса нерелевантных документов отдаляют их от запроса. Опасность такого подхода заключается в том, что оценка релевантности пользователем субъективна, т.е. под каждого пользователя — своя корректировка. В этом случае прямая корректировка не производится, а накапливается статистика результатов обратной связи.
Оценка качества дипс
В любой ДИПС присутствуют два типа ошибок:
Пропуск цели, т.е. невыдача релевантных документов;
Шум — выдача нерелевантных документов.
Весь массив документов можно разбить на 4 группы:
Документы |
Выданные |
Не выданные |
Релевантные |
A(a) |
C(c) |
Нерелевантные |
B(b) |
D(d) |
Существуют следующие показатели эффективности ДИПС:
Коэффициент полноты — доля выданных релевантных документов среди всех релевантных документов:
Коэффициент точности — доля выданных релевантных документов ко всем выданным:
Коэффициент шума — доля выданных нерелевантных документов ко всем выданным:
Коэффициент осадки — доля выданных нерелевантных документов ко всем нерелевантным:
Коэффициент специфичности — доля не выданных нерелевантных ко всем нерелевантным:
Обычно коэффициенты измеряются в процентах. При этом замечена следующая закономерность — попытка улучшения одного из коэффициентов, например p, приводит к уменьшению n, т.е. справедлива следующая зависимость:
Другие показатели ДИПС:
быстродействие;
пропускная способность — количество введенных запросов к ответам за промежуток времени;
производительность — количество пользователей в единицу времени;
надежность;
разнообразие запросов.
Лабораторная работа №2
n — количество документов в базе, ni — количество документов, в которых встречается i-й термин.
wij = ωj (i) ωi
Коллективная разработка информационных систем
Программный продукт от программы отличается свойствами:
такую программу может использовать любой пользователь без вмешательства автора;
она может быть реализована на различных ОС;
она работает с различными наборами данных.
Для того чтобы программа стала программным продуктом, она должна быть:
Написана в обобщенном стиле;
Написана по некоторым общим правилам;
Тщательно протестирована с указанием диапазонов допустимых значений входных данных, а также с предоставлением примеров работы;
Подробно документирована, что позволяет исправлять программы, а также их расширять и дополнять.
Программный продукт, как правило, стоит в три раза дороже, чем программа с той же функциональностью.
Программный комплекс — набор взаимодействующих программ, согласованных между собой и представляющих собой средство для решения больших задач. Основные требования:
стандартизированный интерфейс;
точно оговорены бюджеты ресурсов;
должна быть протестирована в сочетаниях с компонентами, с которыми взаимодействует.
Программный комплекс, как правило, стоит в три раза дороже, чем программа с той же функциональностью.
Системный программный продукт — сочетание программного продукта и комплекса.
Системный программный продукт, стоит в 10 раза дороже, чем программа с той же функциональностью.