- •Раздел 1. Накопление и обработка данных .…………………………… 5
- •Раздел 2. Оперативный анализ данных ….…………………………… 43
- •Раздел 3. Интеллектуальный анализ данных ………………………… 82
- •Раздел 4 Загрузка данных и программирование запросов ...………… 110
- •Раздел 5. Подготовка отчетов по результатам анализа …….……… 136
- •Раздел 1. Накопление и обработка данных Лекция 1. Информационно-аналитические системы
- •Операционная обработка данных
- •Оперативный анализ данных
- •Интеллектуальный анализ данных
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 2. Концепции хранения данных
- •Реляционные базы данных
- •Организация хранилищ данных
- •Концепция многомерной модели данных
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 3. Интеграция и трансформации данных
- •Платформа sql Server 2008
- •Система Management Studio
- •Служба sql Server Integration Services
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Раздел 3. Интеллектуальный анализ данных Лекция 8. Кластерный анализ данных
- •Формальная постановка задачи кластеризации
- •Меры близости в кластерном анализе
- •Иерархические алгоритмы кластеризации
- •Неиерархические алгоритмы кластеризации
- •Представление результатов кластеризации
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 9. Классификация и регрессия
- •Математические функции
- •Правила классификации
- •Деревья решений
- •Методы построения деревьев решений
- •Алгоритмы построения деревьев решений
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 10. Поиск ассоциативных правил
- •Цель лекции – изучение формализованной постановки и алгоритма решения задачи поиска ассоциативных правил.
- •Формальная постановка задачи
- •Обнаружение закономерностей в последовательностях данных
- •Алгоритм поиска ассоциативных правил Apriori
- •Представление результатов
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 8. Службы sql Server Analysis Services
- •Конструктор интеллектуального анализа данных
- •Мастер интеллектуального анализа данных
- •Создание структуры интеллектуального анализа
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Создание и представление источника данных
- •Загрузка с применением Integration Services
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 12. Основы языка Multidimensional Expressions
- •Оператор select
- •Алгебра множеств и операции с множествами
- •Функции языка mdx
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 13. Язык операций Data Mining
- •Ключевые концепции и объекты dmx
- •Синтаксис запросов dmx
- •Создание моделей интеллектуального анализа
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Раздел 5. Подготовка отчёта по итогам анализа Лекция 14. Служба отчетов Reporting Services
- •Архитектура службы отчётов
- •Средства проектирования запросов
- •Развёртывание Reporting Services
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 15. Источники данных для отчётов
- •Общие источники данных
- •Источники поддерживаемые Reporting Services
- •Создание, изменение и удаление источников
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 16. Конструирование и создание отчётов
- •Основы конструирования отчётов
- •Создание нерегламентированных отчётов
- •Создание отчётов с применением конструктора
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Глоссарий
Создание моделей интеллектуального анализа
В отличие от структуры модель ИАД содержит столбцы, которые помечены как входы или выходы, и указание на алгоритм со всеми характерными параметрами [1]. Модель может содержать любое подмножество столбцов из структуры. Для этого в модель включается ключ структуры ИАД и ключи всех вложенных таблиц. Самый простой способ включения модели в структуру реализуется по умолчанию. Реализовать простой способ можно указанием названия и алгоритма в конструкции, приведённой в листинге 14.3
ALTER MINING STRUCTURE [TEACHER1]
ADD MINING MODEL [TeacherClasters]
USING Microsoft Clustering
В большинстве случае в конструкции DMX требуется указать список столбцов. Для указания принадлежности столбца к входу или выходу используются флаги PREDICT И PREDICT_ONLY. Столбцы без флагов автоматически относятся к входу. В листинге 14.4 приведено определение модели дерева решений, которая прогнозирует учёное звание (AcademStatus) на основе возраста преподавателя и наличия учёной степени (AcademDegree).
ALTER MINING STRUCTURE [Teacher2]
ADD MINING MODEL [PredictAcademStatus-Tree]
{
[TeacherID],
[AcademStatus] PREDICT
[Age],
[AcademDegree]
} USING Microsoft Decision Trees
Не все алгоритмы ИАД могут работать с непрерывными типами данных. Для решения этой проблемы в модель можно включить дополнительный столбец с типом содержимого DISCRETZED. Это позволяет представить один столбец с различными типами содержимого внутри структуры. Например, в листинге 14.5 применяется дополнительный столбец AgeDisc, имеющий связь со столбцом Age. За счёт этой связи поддерживается согласованность столбцов с остальными моделями структуры.
ALTER MINING STRUCTURE [Teacher2]
ADD MINING MODEL [PredictAcademStatus-Tree]
{
[TeacherID],
[AcademStatus] PREDICT
[Age],
[AgeDisc] AS [Age]
[AcademDegree]
} USING Microsoft Naive Bayes
После определения структур и модели ИАД выполняется процедура заполнения их данными. Доступ к данным осуществляется через именованный источник данных. При выполнении запроса служба SQL Server Analysis Services считывает данные в кэш. После этого исходные типы данных источника преобразуются к типам данных, указанным в структуре интеллектуального анализа данных.
Краткие итоги
Для задания структур и моделей для интеллектуального анализа данных компанией Microsoft разработан язык многомерных выражений Data Mining Extensions (DMX).
Разделение данных на обучающие и проверочные наборы выполняется автоматически, если в структуре интеллектуального анализа данных задать процента данных для проверки.
Не все алгоритмы интеллектуального анализа работают с непрерывными типами данных. Для решения этой проблемы в модель можно включить дополнительный столбец с типом содержимого DISCRETZED.
Модель ИАД содержит столбцы из структуры, которые помечены как входы или выходы, и указание на используемый алгоритм. Для этого в модель включается ключ структуры ИАД и ключи вложенных таблиц. Простейший способ включения модели в структуру реализуется по умолчанию.
