
- •Федеральное агентство по образованию
- •1.2. Базы данных - основа сппр
- •1.3. Неэффективность использования oltp-систем для анализа данных
- •Лекция 2. Архитектура современной информационно- аналитической системы
- •2.1. Концепция хранилища данных
- •2.2. Организация хд
- •2.3. Очистка данных
- •2.4. Концепция хранилища данных и анализ
- •3.1. Многомерная модель данных
- •3.4.2. Rolap
- •Многомерное проектирование
- •Выбор архитектуры olap-приложения
- •Заключение
- •Общая структура мер и измерений
- •Лекция 5. Интеллектуальный анализ данных
- •1. Добыча данных – Data Mining
- •2. Задачи Data Mining
- •2.1. Классификация задач Data Mining
- •2.2. Задача классификации и регрессии
- •2.3. Задача поиска ассоциативных правил
- •2.4. Задача кластеризации
- •1.1. Предсказательные (predictive) модели
- •1.2. Описательные (descriptive) модели
- •2. Методы Data Mining
- •2.1. Базовые методы
- •2.2. Нечеткая логика
- •2.3. Генетические алгоритмы
- •2.4. Нейронные сети
- •3. Процесс обнаружения знаний
- •3.1. Основные этапы анализа
- •3.2. Подготовка исходных данных
Федеральное агентство по образованию
Московский государственный университет
экономики, статистики и информатики (МЭСИ)
Красноярский филиал
ИНФОРМАЦИОННЫЕ АНАЛИТИЧЕСКИЕ СИСТЕМЫ
Конспект лекций
Для студентов специальности 080801.65 — Прикладная информатика в экономике
Красноярск – 2008
Кафедра: ЭИС и ИТ
Составитель: к.т.н., доцент кафедры ЭИС и ИТ Жуков В.Г.
Лекция 1. Системы поддержки принятия решений
1.1. Задачи систем поддержки принятия решений
С появлением первых ЭВМ наступил этап информатизации разных сторончеловеческой деятельности. Если раньше человек основное внимание уделял веществу,затем энергии (рис. 1), то сегодня можно без преувеличения сказать, что наступил этапосознания процессов, связанных с информацией. Вычислительная техника создавалась,прежде всего, для обработки данных. В настоящее время современные вычислительныесистемы и компьютерные сети позволяют накапливать большие массивы данныхдля решения задач обработки и анализа. К сожалению, сама по себе машинная формапредставления данных содержит информацию, необходимую человеку, в скрытом виде, идля ее извлечения нужно использовать специальные методы анализа данных.
Большой объем информации, с одной стороны, позволяет получить более точные
расчеты ианализ, сдругой -превращаетпоиск решений всложнуюзадачу. Неудивительно, что первичный анализ данных был переложен на компьютер. В результате появился целый класс программныхсистем, призванныхоблегчить работу людей, выполняющих анализ (аналитиков). Такие системы принято называть системамиподдержки принятия решений - СППР (DSS,Decision Support System).
Для выполнения анализа СППР должна накапливать информацию, обладаясредствами ее ввода и хранения. Можновыделить три основные задачи, решаемые вСППР:
вводданных;
хранение данных;
анализ данных.
Уровень использования
Вещество
Энергия
Информация
Настоящее время
Время
Рисунок 1. Уровень использования человеком различных объектов материального мира
Таким образом, СППР - это системы, обладающие средствами ввода, хранения ианализа данных, относящихся к определенной предметной области, с целью поиска решений.
Ввод данных в СППР осуществляется либо автоматически от датчиков, ха-
рактеризующих состояние среды или процесса, либочеловеком-оператором. В первомслучае данные накапливаются путем циклического опроса или по сигналу готовности,возникающемуприпоявленииинформации.ВовторомслучаеСППРдолжныпредоставлятьпользователямудобныесредствавводаданных,контролирующиекорректность вводимых данных и выполняющие сопутствующие вычисления. Если ввод
осуществляется одновременно несколькими операторами, то система должна решатьпроблемыпараллельного доступа и модификации одних и тех же данных.
Постоянное накопление данныхприводит к непрерывному росту ихобъема. В
связи с этим на СППР ложится задача обеспечить надежное хранение больших объемовданных. НаСППРтакжемогутбытьвозложенызадачипредотвращениянесанкционированного доступа, резервного хранения данных, архивирования и т. п.
Основная задача СППР - предоставить аналитикам инструмент для выполнения
анализа данных. Необходимо отметить, что для эффективного использования СППР еепользователь-аналитик должен обладать соответствующей квалификацией. Система негенерируетправильные решения, атолькопредоставляетаналитикуданные всоответствующем виде (отчеты, таблицы, графики и т. п.) для изучения и анализа, именнопоэтому такиесистемы обеспечиваютвыполнениефункцииподдержкипринятия решений. Очевидно, что, с одной стороны, качество принятых решений зависит отквалификации аналитика. С другой стороны, рост объемов анализируемых данных,высокая скорость обработки и анализа, а также сложность использования машиннойформыпредставления данных стимулируют исследования и разработку интеллектуальныхСППР. Длятаких СППР характерноналичиефункций, реализующих отдельныеумственные возможности человека.
По степени "интеллектуальности" обработки данных при анализе выделяют три
класса задач анализа:
информационно-поисковый - СППР осуществляет поиск необходимых данных.
Характерной чертой такого анализа является выполнение заранее определенныхзапросов;
оперативно-аналитический - СППР производит группирование и обобщениеданных в любом виде, необходимом аналитику. В отличие от информационно-
поискового анализа в данном случае невозможно заранее предсказать необходимыеаналитику запросы;
интеллектуальный - СППР осуществляет поиск функциональных и логическихзакономерностей в накопленных данных, построение моделей и правил, которые
объясняют найденные закономерности и/или прогнозируют развитие некоторыхпроцессов(с определенной вероятностью).
Такимобразом,обобщеннаяархитектураСППРможетбытьпредставленаследующим образом (рис. 2).
Подсистема анализа
Оператор
Подсистема ввода
(СУБД-OLTP)
Подсистема хранения информации (СУБД и/или хранилище данных)
Подсистемы
информационно- поискового анализа
(СУБД, SQL)
Подсистемы оперативного анализа (OLAP)
Подсистемы интеллектуального анализа
(Data Mining)
Аналитик
Рисунок 2. Обобщенная архитектура системы поддержки принятия решений
Рассмотрим отдельные подсистемыболее подробно.
Подсистемавводаданных. Втакихподсистемах,называемых OLTP(On linetransaction processing),выполняется операционная(транзакционная)обработкаданных. Для реализацииэтихподсистемиспользуютобычныесистемы управления базами данных (СУБД).
Подсистемахранения. Для реализацииданнойподсистемыиспользуютсовременные СУБД и концепцию хранилищданных.
Подсистема анализа. Данная подсистема может быть построена на основе:
• подсистемы информационно-поискового анализа на базе реляционных СУБД истатических запросов с использованием языка структурных запросов SQL(Structured Query Language);
• подсистемыоперативногоанализа. Для реализациитакихподсистем
применяется технология оперативной аналитической обработки данных OLAP(On-lineanalytical processing),использующаяконцепциюмногомерногопредставления данных;
• подсистемыинтеллектуальногоанализа. Даннаяподсистема реализует
методы и алгоритмы Data Mining ("добыча данных").