- •Раздел 1. Накопление и обработка данных .…………………………… 5
- •Раздел 2. Оперативный анализ данных ….…………………………… 43
- •Раздел 3. Интеллектуальный анализ данных ………………………… 82
- •Раздел 4 Загрузка данных и программирование запросов ...………… 110
- •Раздел 5. Подготовка отчетов по результатам анализа …….……… 136
- •Раздел 1. Накопление и обработка данных Лекция 1. Информационно-аналитические системы
- •Операционная обработка данных
- •Оперативный анализ данных
- •Интеллектуальный анализ данных
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 2. Концепции хранения данных
- •Реляционные базы данных
- •Организация хранилищ данных
- •Концепция многомерной модели данных
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 3. Интеграция и трансформации данных
- •Платформа sql Server 2008
- •Система Management Studio
- •Служба sql Server Integration Services
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Раздел 3. Интеллектуальный анализ данных Лекция 8. Кластерный анализ данных
- •Формальная постановка задачи кластеризации
- •Меры близости в кластерном анализе
- •Иерархические алгоритмы кластеризации
- •Неиерархические алгоритмы кластеризации
- •Представление результатов кластеризации
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 9. Классификация и регрессия
- •Математические функции
- •Правила классификации
- •Деревья решений
- •Методы построения деревьев решений
- •Алгоритмы построения деревьев решений
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 10. Поиск ассоциативных правил
- •Цель лекции – изучение формализованной постановки и алгоритма решения задачи поиска ассоциативных правил.
- •Формальная постановка задачи
- •Обнаружение закономерностей в последовательностях данных
- •Алгоритм поиска ассоциативных правил Apriori
- •Представление результатов
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 8. Службы sql Server Analysis Services
- •Конструктор интеллектуального анализа данных
- •Мастер интеллектуального анализа данных
- •Создание структуры интеллектуального анализа
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Создание и представление источника данных
- •Загрузка с применением Integration Services
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 12. Основы языка Multidimensional Expressions
- •Оператор select
- •Алгебра множеств и операции с множествами
- •Функции языка mdx
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 13. Язык операций Data Mining
- •Ключевые концепции и объекты dmx
- •Синтаксис запросов dmx
- •Создание моделей интеллектуального анализа
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Раздел 5. Подготовка отчёта по итогам анализа Лекция 14. Служба отчетов Reporting Services
- •Архитектура службы отчётов
- •Средства проектирования запросов
- •Развёртывание Reporting Services
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 15. Источники данных для отчётов
- •Общие источники данных
- •Источники поддерживаемые Reporting Services
- •Создание, изменение и удаление источников
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 16. Конструирование и создание отчётов
- •Основы конструирования отчётов
- •Создание нерегламентированных отчётов
- •Создание отчётов с применением конструктора
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Глоссарий
Лекция 13. Язык операций Data Mining
В лекции приведён обзор основных конструкций языка многомерных выражений Data Mining Extensions (DMX), предназначенного для выполнения операций интеллектуального анализа данных.
Цель лекции – изучение стандартных концепций и стандартных выражений языка DMX для интеллектуального анализа данных.
К настоящему времени создано множество программных продуктов, поддерживающих методы и алгоритмы интеллектуального анализа данных (ИАД). Как правило, эти продукты имеют свои алгоритмы, особенности проведения и создания приложения ИАД. В результате эффективность применения средств ИАД в составе информационной системы предприятия или организации снижается. С целью устранения отмеченного недостатка компанией Microsoft разработан язык DMX, определяющий стандартные концепции в области ИАД и стандартные выражения в запросах к данным [1].
Ключевые концепции и объекты dmx
Базовыми понятиями языка DMX являются атрибут, состояние, вариант, ключи, входы и выходы [1]. Атрибут представляет собой элемент информации о примере. Например, пол, возраст, образование и семейное положение клиента. Различают два основных типа атрибутов: категориальные атрибуты и непрерывные атрибуты. Категориальные атрибуты имеют фиксированный набор значений. Непрерывные атрибуты принимают значения на множестве чисел. Дополнительные типы атрибутов основаны на базовых категориальных и непрерывных атрибутах. Каждый атрибут категориального типа имеет набор возможных значений или состояний. При проведении ИАД следует ограничивать количество значений только теми, которые имеют отношение к проблеме. В ИАД средствами SQL Server Data Mining все атрибуты имеют неявное состояние Missing, характеризующее отсутствие атрибута в строке данных.
Под вариантом в DMX понимается отдельный пример, который представляется алгоритму ИАД. В самом простом случае в качестве варианта может рассматриваться строка записи в отдельной таблице. Если анализируется учебный процесс вуза, то в качестве варианта может рассматриваться преподаватель, кафедра и факультет. В DMX для задания ключей используют столбцы с двумя типами данных. Первый тип данных используется для задания ключа варианта, который идентифицирует объект, рассматриваемый в качестве варианта. В большинстве случаев ключом варианта служит первичный ключ исходной таблицы. Второй тип данных используется для задания вложенного ключа, который указывает именованный объект вложенной строки. Вложенный ключ является ключом только в контексте вложенной таблицы для одного объекта [1]. Атрибут в DMX может быть входом, выходом, входом и выходом. Алгоритмы ИАД используют входные атрибуты для установления свойств выходных атрибутов. При обучении алгоритму представляются входные и выходные атрибуты. Как правило, в процессе ИАД алгоритму представляются входные атрибуты, который формирует выходные атрибуты. При использовании алгоритмом входных и выходных данных действует соглашение о недопустимости изменений значений выходных атрибутов. Определение входных и выходных данных является важным этапом решения задачи ИАД.
Язык DMX служит для преобразования данных из таблиц во входные данные алгоритмов ИАД. Эти преобразования выполняются в моделях и структурах ИАД. Структура ИАД описывает структурные свойства проблемы и включает столбцы данных, информацию об этих столбцах. В дополнение к этому описанию может содержать кэш исходных данных. Столбцы в структуре не представляют собой атрибуты и рассматриваются как столбцы данных для выполнения ИАД. Структура ИАД может конструироваться таким образом, что исходные данные автоматически будут разделяться на обучающий и проверочный набор данных. При этом только обучающий набор будет доступен в процессе обучения алгоритма.
В отличие от структуры ИАД, являющейся контейнером и дескриптором, модель является объектом, преобразующим строки данных в варианты и осуществляющим машинное обучение выбранного алгоритма ИАД. Модель ИАД описывает подмножество столбцов структуры, распределение столбцов на подмножества входных и выходных столбцов. Таким образом, модель разрабатывается с выделением из структуры необходимого подмножества данных для анализа. В процессе обучения в модели ИАД сохраняются обнаруженные в данных шаблоны. После этого модель может использоваться для прогноза значений выходных столбцов. Модель обеспечивает просмотр выявленных шаблонов и шаблонов, использованных для решения конкретной задачи. В совокупности шаблоны определяются как содержимое модели.
