
- •Введение в проектирование баз данных, информационных и экспертных систем
- •Проектирование информационных систем, ориентированных на анализ данных
- •Модели данных, которые используются для хранения данных (Эдгар Кодд)
- •Правила Кодда
- •Методы аналитической обработки данных
- •Основные элементы data mining:
- •Классы систем data mining:
- •Документальные системы
- •Структура дипс
- •Формальное представление семантики документов
- •Обработка входящей информации в дипс
- •Рубрицирование на знаниях
- •Методы статистической обработки текстов
- •Поиск текстовой информации
- •Модели представления документов и запросов Булева модель
- •Пространственно-векторная модель
- •Векторные модели
- •Обратная связь с пользователем дипс
- •Модификация представления запроса
- •Модификация представлений документов
- •Оценка качества дипс
- •Лабораторная работа №2
- •Коллективная разработка информационных систем
- •Достоинства профессионального программирования:
- •Недостатки (сложности) профессии:
- •Почему проваливаются программные продукты:
- •Календарное планирование работ сетевыми методами
- •Сетевая модель программы
- •Пример:
- •Расчет сетевой модели
- •Пример:
- •Распределение ресурсов при календарном планировании
- •Учет стоимости при оптимизации плана
- •Проблемы разработки программного обеспечения Основные проблемы:
- •Основные причины провала разработки:
- •Рекомендации по разработке:
- •Методологии системного моделирования
- •Структура системы
- •Методология структурного системного анализа (sadt)
- •Объектно-ориентированный анализ и проектирование, uml
- •Основные принципы моделирования сложных систем
- •Общая структура uml
- •Описание метамодели uml
- •Основные виды диаграмм
- •Основные рекомендации для составления диаграмм
Методы аналитической обработки данных
Методы аналитической обработки данных делятся на две группы:
Статистические — регрессионный, дисперсионный анализ;
Интеллектуальный (data mining).
Основные элементы data mining:
Причина возникновения — колоссальный поток данных, что приводит к необходимости автономного анализа. Специфической особенностью data mining является:
Неограниченный объем данных;
Разнородные данные;
Результаты анализа наперед неизвестны. Они должны быть обозримы и просты в использовании.
При этом статистическая обработка, как правило, недостаточна, поскольку она позволяет проверить только заранее сформулированные гипотезы.
В основу data mining заложены готовые фрагменты, отражающие фрагменты данных (паттерны дынных). Он позволяет определить заранее неизвестные типы закономерности из известных:
Из ассоциаций (связь событий друг с другом);
Последовательность (выявление цепочки связанных событий);
Классификация (выявление признаков, характеризующих группу);
Кластеризация (группировка без заранее известных признаков);
Прогнозирование (на основе исторической информации).
Классы систем data mining:
Предметно-ориентированные автоматизированные системы (ориентированны, как правило, на технический анализ и исследование финансовых рынков). Отличаются друг от друга, настроены на поиск определенных закономерностей. (Стоимость $300-1000).
Статистические пакеты. Недостаток — необходимость аппроксимировать кривые и т.д. Statistica, SPSS, Stat Graphics, Stadia, SAS. ($1000-1500).
Нейронные сети. Brain Maker, Neuroshell. ($1500-8000).
Системы рассуждений на аналогах. Основа кластеризации — мера близости между объектами, закономерности определяются последовательностью близких объектов, т.е. в дальнейшем используют для прогнозирования. Закономерности не сохраняются, а вводятся заново. KATEtools, PatternRecognitionWorkbench.
Деревья решений. Строятся на правилах «если-то». Данные представлены в одной таблице. Закономерности представлены начиная от некоторого корня. See 5/C50, SIPINI, Clementine. ($1000-10000).
Построенные на эволюционном программировании. Прогноз строится на развитии системы. МГУА (Метод группового учета аргументов), PolyAnalyst ($5000).
Генетические алгоритмы (моделируется естественный отбор).
Алгоритмы ограниченного перебора. Осуществляют поиск логических закономерностей. Построены на шаблонах. WizWhy ($4000).
Документальные системы
На практике информация чаше всего представляется в виде текстовых документов, а не в виде структурированных данных. Документальные базы данных выделяются в один тип, который называется информационно-поисковая система (ИПС или ДИПС).
Документы ориентированы на приближенное представление данных. Главное назначение ДИПС — обработка запросов. Главная процедура — поиск (отыскание документа, содержащего ответ на запрос). При этом, в результате получается несколько документов. Запросы, как правило, формулируются на естественном языке (информационные запросы). Неправильно сформулированный запрос может не отражать информационные потребности пользователя.
Понятие пертинентность отражает смысловое соответствие документа информационным потребностям пользователя.
Релевантность — соответствие содержания документа информационному запросу в том виде, как он сформулирован.
Для автоматического поиска запросы представляются в виде информационного предписания — поискового предписания (ПП), а документы в виде поискового образа документа (ПОД).
Для записи ПП и ПОД применяется информационный поисковый язык. При поиске определяется соответствие ПП и ПОД, на основе которого принимается решение о выдаче документа, т.е. признания его релевантным. При этом набор правил, по которому принимается решение, называется критерием смыслового соответствия (КСС).
Критерий может задаваться явно или неявно. КСС строится на основе формальной релевантности. Фактическую релевантность и пертинентность документов определяет пользователь.