- •Раздел 1. Накопление и обработка данных .…………………………… 5
- •Раздел 2. Оперативный анализ данных ….…………………………… 43
- •Раздел 3. Интеллектуальный анализ данных ………………………… 82
- •Раздел 4 Загрузка данных и программирование запросов ...………… 110
- •Раздел 5. Подготовка отчетов по результатам анализа …….……… 136
- •Раздел 1. Накопление и обработка данных Лекция 1. Информационно-аналитические системы
- •Операционная обработка данных
- •Оперативный анализ данных
- •Интеллектуальный анализ данных
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 2. Концепции хранения данных
- •Реляционные базы данных
- •Организация хранилищ данных
- •Концепция многомерной модели данных
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 3. Интеграция и трансформации данных
- •Платформа sql Server 2008
- •Система Management Studio
- •Служба sql Server Integration Services
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Раздел 3. Интеллектуальный анализ данных Лекция 8. Кластерный анализ данных
- •Формальная постановка задачи кластеризации
- •Меры близости в кластерном анализе
- •Иерархические алгоритмы кластеризации
- •Неиерархические алгоритмы кластеризации
- •Представление результатов кластеризации
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 9. Классификация и регрессия
- •Математические функции
- •Правила классификации
- •Деревья решений
- •Методы построения деревьев решений
- •Алгоритмы построения деревьев решений
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 10. Поиск ассоциативных правил
- •Цель лекции – изучение формализованной постановки и алгоритма решения задачи поиска ассоциативных правил.
- •Формальная постановка задачи
- •Обнаружение закономерностей в последовательностях данных
- •Алгоритм поиска ассоциативных правил Apriori
- •Представление результатов
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 8. Службы sql Server Analysis Services
- •Конструктор интеллектуального анализа данных
- •Мастер интеллектуального анализа данных
- •Создание структуры интеллектуального анализа
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Создание и представление источника данных
- •Загрузка с применением Integration Services
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 12. Основы языка Multidimensional Expressions
- •Оператор select
- •Алгебра множеств и операции с множествами
- •Функции языка mdx
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 13. Язык операций Data Mining
- •Ключевые концепции и объекты dmx
- •Синтаксис запросов dmx
- •Создание моделей интеллектуального анализа
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Раздел 5. Подготовка отчёта по итогам анализа Лекция 14. Служба отчетов Reporting Services
- •Архитектура службы отчётов
- •Средства проектирования запросов
- •Развёртывание Reporting Services
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 15. Источники данных для отчётов
- •Общие источники данных
- •Источники поддерживаемые Reporting Services
- •Создание, изменение и удаление источников
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 16. Конструирование и создание отчётов
- •Основы конструирования отчётов
- •Создание нерегламентированных отчётов
- •Создание отчётов с применением конструктора
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Глоссарий
Синтаксис запросов dmx
Процедура построения модели ИАД в целом похожа на процедуру создания таблиц данных в реляционной БД. Синтаксис языка более прост по сравнению с синтаксисом языка SQL. Рассмотрим листинг 13.1 создания структуры ИАД со столбцами TeacherID, FamilyName, Name, Age, AcademStatus, AcademDegree.
CREATE MINING STRUCTURE [Teacher1]
{
[TeacherID] LONG KEY,
[FamilyName] TEXT DISCRETE,
[Name] TEXT DISCRETE,
[Age] LONG CONTINUOUS,
[AcademStatus] TEXT DISCRETE,
[AcademDegree] TEXT DISCRETE
}
Столбец TeacherID является ключом структуры. Столбцы TeacherID, Age являются длинными целыми, а столбцы FamilyName, Name, AcademStatus, AcademDegree – строками с текстом. ИАД предполагает обязательное задание типа столбца. Тип содержимого столбца служит указанием движку ИАД об особенностях обработки данных столбца, который является либо категориальным, либо непрерывным. Существенными элементами рассматриваемой инструкции DMX являются имя структуры и список столбцов. Поддерживаемые типы данных и содержимого приведены в таблице 14.1
Таблица 14.1 Типы данных и содержимого
Типы данных |
Типы содержимого |
LONG |
KEY |
DOUBLE |
DISCRETE |
TEXT |
CONTINUOUS |
DATE |
DISCRETIZED |
BOOLEAN |
KEY TIME |
TABLE |
KEY SEQUENCE |
Тип содержимого KEY TIME используется в моделях временных рядов, KEY SEQUENCE – моделях кластеризации последовательностей во вложенных таблицах. Тип содержимого столбца DISCRETIZED является параметризированным. По умолчанию из данных с этим типом содержимого столбца создаётся пять сегментов. Если данных в столбце на пять сегментов не хватает, то осуществляется попытка создать сегментов меньше. Процессом формирования сегментов можно управлять с использованием методов:
EQUAL_AREAS – создаёт сегменты с равным количеством значений;
CLUSTERS – выявляет области сгруппированных точек посредством одномерной кластеризации;
AUTOMATIC – вначале задача решается методом EQUAL_AREAS, в случае отсутствия результата – методом CLUSTERS.
Разделение данных на обучающие и проверочные наборы может выполняться автоматически при задании в структуре ИАД процента данных для проверки. Данные, не используемые для проверки, применяют в процедуре обучения модели. В листинге 14.2 содержится определение структуры с резервированием для проверки 25 процентов данных, но не более 500.
CREATE MINING STRUCTURE [Teacher2]
{
[TeacherID] LONG KEY,
[FamilyName] TEXT DISCRETE,
[Name] TEXT DISCRETE,
[Age] LONG CONTINUOUS,
[AgeDisc] DISCRETIZED 9EQUAL AREAS, 3)
[AcademStatus] TEXT DISCRETE,
[AcademDegree] TEXT DISCRETE
} WITH HOLDOUT ( 25 PERCENT OR 500 CASES)
Случайный порядок отбора вариантов обеспечивается включением в конструкцию слова HOLDOUT.
Вложенные таблицы с типом данных TABLE позволяют реализовать более сложные сценарии ИАД. Вложенная таблица определяется также как и структура с использованием названия и списка столбцов. В отличие от структуры ИАД, вложенные таблицы содержат только один ключ (Листинг 14.3).
CREATE MINING STRUCTURE [Teacher3]
{
[TeacherID] LONG KEY,
[FamilyName] TEXT DISCRETE,
[Name] TEXT DISCRETE,
[Age] LONG CONTINUOUS,
[AgeDisc] DISCRETIZED (EQUAL AREAS, 3)
[AcademStatus] TEXT DISCRETE,
[AcademDegree] TEXT DISCRETE
[TeachingLoad] TABLE
{
[Discipline] TEXT KEY,
[Quantity] LONG CONTINUOUS
}
}
Вложенная таблица TeachingLoad (Учебная нагрузка) содержит вложенный ключ Discipline (Дисциплина), который указывает объект вложенной строки. Столбец Quantity (Количество часов), относится к объекту, упомянутому в этом столбце.
