
- •Федеральное агентство по образованию
- •1.2. Базы данных - основа сппр
- •1.3. Неэффективность использования oltp-систем для анализа данных
- •Лекция 2. Архитектура современной информационно- аналитической системы
- •2.1. Концепция хранилища данных
- •2.2. Организация хд
- •2.3. Очистка данных
- •2.4. Концепция хранилища данных и анализ
- •3.1. Многомерная модель данных
- •3.4.2. Rolap
- •Многомерное проектирование
- •Выбор архитектуры olap-приложения
- •Заключение
- •Общая структура мер и измерений
- •Лекция 5. Интеллектуальный анализ данных
- •1. Добыча данных – Data Mining
- •2. Задачи Data Mining
- •2.1. Классификация задач Data Mining
- •2.2. Задача классификации и регрессии
- •2.3. Задача поиска ассоциативных правил
- •2.4. Задача кластеризации
- •1.1. Предсказательные (predictive) модели
- •1.2. Описательные (descriptive) модели
- •2. Методы Data Mining
- •2.1. Базовые методы
- •2.2. Нечеткая логика
- •2.3. Генетические алгоритмы
- •2.4. Нейронные сети
- •3. Процесс обнаружения знаний
- •3.1. Основные этапы анализа
- •3.2. Подготовка исходных данных
1.1. Предсказательные (predictive) модели
Предсказательные модели строятся на основании набора данных с известными
результатами. Они используются для предсказания результатов на основании другихнаборов данных. При этом, естественно, требуется, чтобы модель работала максимальноточно, была статистически значима и оправданна и т. д.
К ним относятся следующие модели:
Модели классификации – описываютправилаилинаборправил, всоответствии с которыми можно отнести описание любого нового объекта к одному изклассов. Такие правила строятся на основании информации о существующих объектахпутем разбиения их на классы;
Модели последовательностей – описываютфункции,позволяющиепрогнозироватьизменениенепрерывныхчисловыхпараметров. Онистроятсянаосновании данных об изменении некоторого параметра за прошедший периодвремени.
1.2. Описательные (descriptive) модели
Описательные модели уделяют внимание сути зависимостей в наборе данных,
взаимномувлиянию различныхфакторов, т. е. на построении эмпирическихмоделей различных систем. Ключевой момент в таких моделях – легкость и прозрачность длявосприятия человеком. Возможно, обнаруженные закономерности будут специфическойчертой именно конкретных исследуемых данных и больше нигде не встретятся, но это все равно может быть полезно и потому должно быть известно.
К ним относятся следующие видымоделей:
Регрессионные модели – описывают функциональные зависимости междузависимыми и независимыми показателями и переменными в понятной человеку форме. Необходимо заметить, что такие модели описывают функциональную зависимость не
только
между
непрерывными
числовыми
параметрами,но
и между
категориальными;
Модели кластеров – описывают группы (кластеры), на которые можно разде- литьобъекты,данные окоторыхподвергаютсяанализу. Группируютсяобъекты (наблюдения, события) на основе данных(свойств), описывающихсущностьобъектов. Объекты внутри кластера должны быть «похожими» друг на друга и отличатьсяот объектов, вошедших в другие кластеры. Чем больше похожи объекты внутри кластера и чем больше отличий между кластерами, тем точнее кластеризация;
Модели исключений – описывают исключительные ситуации в записях(например, отдельных пациентов), которые резко отличаются чем-либо от основногомножества записей (группы больных). Знание исключений может быть использованодвояким образом. Возможно, что эти записи представляют собой случайный сбой,напримерошибки операторов, вводившихданные в компьютер. Характерный случай:если оператор, ошибаясь, ставит десятичную точку не в том месте, то такая ошибка сразудает резкий «всплеск»на порядок. Подобную «шумовую», случайную составляющуюимеет смысл отбросить, исключить из дальнейших исследований, поскольку большинствометодов, которые будут рассмотрены в данной главе, очень чувствительно к наличию
«выбросов» – резко отличающихся точек, редких, нетипичных случаев. С другой стороны,
отдельные, исключительные записи могут представлять самостоятельный интерес для ис-следования, т. к. они могут указывать на некоторые редкие, но важные аномальныезаболевания. Даже сама идентификация этих записей, не говоряоб ихпоследующеманализе и детальном рассмотрении, может оказаться очень полезной для пониманиясущности изучаемых объектовили явлений;
Итоговые модели – выявление ограничений на данные анализируемого
массива. Например, при изучении выборки данных по пациентам не старше 30 лет,перенесшим инфаркт миокарда, обнаруживается, чтовсе пациенты, описанные в этойвыборке, либо курят более 5 пачек сигарет в день, либо имеют вес не ниже 95 кг. Подобные ограничения важны для понимания данных массива; по сути дела – это новоезнание, извлеченное в результате анализа. Таким образом, Data Summarization – этонахождение каких-либо фактов, которые верны для всех или почти всех записей в изу-чаемойвыборкеданных,нокоторыедостаточно редковстречалисьбывовсеммыслимоммногообразиизаписейтакогожеформатаи,например,характеризовалисьбытемиже распределениямизначенийполей.Есливзятьдлясравненияинформациюповсемпациентам,топроцент либосильнокурящих, либочрезмернотучных людейбудетвесьманевелик.Можносказать,что решаетсякакбынеявнаязадачаклассификации,хотяфактически задан только один класс, представленный имеющимися данными;
Ассоциативные модели – выявление закономерностей между связанными
событиями. Примером такой закономерности служит правило, указывающее, что изсобытия X следует событие Y. Такие правила называются ассоциативными.
Для построения рассмотренных моделей используются различные методы иалгоритмы Data Mining. Ввиду того, что технология Data Mining развивалась и развивается на стыке таких дисциплин, как статистика, теория информации, машинноеобучение, теория баз данных, вполне закономерно, что большинство алгоритмов иметодов Data Mining были разработаны на основе различных технологий и концепций.Рассмотрим технологии,наиболее часто реализуемые методами Data Mining.