- •Раздел 1. Накопление и обработка данных .…………………………… 5
- •Раздел 2. Оперативный анализ данных ….…………………………… 43
- •Раздел 3. Интеллектуальный анализ данных ………………………… 82
- •Раздел 4 Загрузка данных и программирование запросов ...………… 110
- •Раздел 5. Подготовка отчетов по результатам анализа …….……… 136
- •Раздел 1. Накопление и обработка данных Лекция 1. Информационно-аналитические системы
- •Операционная обработка данных
- •Оперативный анализ данных
- •Интеллектуальный анализ данных
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 2. Концепции хранения данных
- •Реляционные базы данных
- •Организация хранилищ данных
- •Концепция многомерной модели данных
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 3. Интеграция и трансформации данных
- •Платформа sql Server 2008
- •Система Management Studio
- •Служба sql Server Integration Services
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Раздел 3. Интеллектуальный анализ данных Лекция 8. Кластерный анализ данных
- •Формальная постановка задачи кластеризации
- •Меры близости в кластерном анализе
- •Иерархические алгоритмы кластеризации
- •Неиерархические алгоритмы кластеризации
- •Представление результатов кластеризации
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 9. Классификация и регрессия
- •Математические функции
- •Правила классификации
- •Деревья решений
- •Методы построения деревьев решений
- •Алгоритмы построения деревьев решений
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 10. Поиск ассоциативных правил
- •Цель лекции – изучение формализованной постановки и алгоритма решения задачи поиска ассоциативных правил.
- •Формальная постановка задачи
- •Обнаружение закономерностей в последовательностях данных
- •Алгоритм поиска ассоциативных правил Apriori
- •Представление результатов
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 8. Службы sql Server Analysis Services
- •Конструктор интеллектуального анализа данных
- •Мастер интеллектуального анализа данных
- •Создание структуры интеллектуального анализа
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Создание и представление источника данных
- •Загрузка с применением Integration Services
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 12. Основы языка Multidimensional Expressions
- •Оператор select
- •Алгебра множеств и операции с множествами
- •Функции языка mdx
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 13. Язык операций Data Mining
- •Ключевые концепции и объекты dmx
- •Синтаксис запросов dmx
- •Создание моделей интеллектуального анализа
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Раздел 5. Подготовка отчёта по итогам анализа Лекция 14. Служба отчетов Reporting Services
- •Архитектура службы отчётов
- •Средства проектирования запросов
- •Развёртывание Reporting Services
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 15. Источники данных для отчётов
- •Общие источники данных
- •Источники поддерживаемые Reporting Services
- •Создание, изменение и удаление источников
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 16. Конструирование и создание отчётов
- •Основы конструирования отчётов
- •Создание нерегламентированных отчётов
- •Создание отчётов с применением конструктора
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Глоссарий
Мастер интеллектуального анализа данных
Мастер ИАД данных в службах Analysis Services запускается каждый раз при добавлении новой структуры ИАД к проекту интеллектуального анализа данных. Мастер помогает определить новые структуры ИАД и выбирает источники данных, которые будут использованы для ИАД. Мастер также может разбить данные структуры ИАД на обучающие и проверочные наборы и для каждой структуры позволяет добавить исходную модель ИАД.
Содержимое структуры ИАД выводится на основе существующего представления источника данных или куба. Мастер предлагает выбрать столбцы для включения в структуру ИАД. Эти столбцы могут использоваться всеми моделями на основе данной структуры. Можно также позволить пользователям модели ИАД детализировать результаты модели углублением с целью просмотра дополнительных столбцов структуры ИАД, не включенных в саму модель.
Во время создания структур и моделей ИАД с помощью мастера ИАД можно принять следующие решения:
Определить, на основе чего будет построена структура и модель ИАД: на основе реляционной базы данных или на основе существующего куба в базе данных OLAP;
Определить объем данных, который будет использоваться для обучения, и объем, который будет использоваться для проверки. После разбиения данных на обучающий и проверочный набор эти данные могут быть использованы всеми моделями на основе данной структуры;
Определить, какие столбцы или атрибуты будут использоваться для прогноза, а какие будут входными данными для анализа. Кроме того, в каждой структуре должен присутствовать ключ, однозначно идентифицирующий запись варианта;
Определить используемый алгоритм, предусмотренный службами SQL Server Analysis Services и отличающийся своими характеристиками. Можно создать несколько моделей на основе различных алгоритмов или изменить параметры алгоритмов.
После завершения работы мастера ИАД с помощью конструктора ИАД можно изменить структуру и модели ИАД, просмотреть точность модели, просмотреть характеристики структуры и моделей или выполнить прогнозирование с использованием этих моделей.
Для запуска мастера ИАД следует добавить новую структуру ИАД к проекту служб Analysis Services, используя обозреватель решений или меню Проект в среде BI Dev Studio.
Мастер интеллектуального анализа данных имеет две ветви, в зависимости от того, содержатся ли данные в реляционном источнике данных или в кубе. При построении модели ИАД на основе реляционного источника данных в службах Analysis Services сначала в мастере ИАД указывается, что необходимо использовать существующую реляционную БД для определения структуры этой модели. Кроме того, можно создать только структуру ИАД или структуру и одну связанную с ней модель ИАД. Если выбрано создание модели ИАД, то необходимо указать используемый метод анализа.
На последующих шагах осуществляется выбор конкретного представления источника данных, которое необходимо использовать для определения структуры ИАД, а также указание таблицы вариантов. Таблица вариантов будет использоваться для обучения модели ИАД, а при необходимости её можно использовать и для ее проверки.
Выбор таблицы вариантов представляет собой важное решение при анализе. Таблица должна содержать сущности для анализа. Вложенные таблицы содержат, как правило, дополнительные сведения о сущностях таблицы вариантов, например транзакции, осуществляемые заказчиком, или атрибуты, имеющие с сущностью связь «многие к одному». После указания таблицы вариантов и вложенных таблиц определяется тип использования для каждого столбца в таблицах, которые будут включены в структуру ИАД. Если для столбца не указан тип использования, то этот столбец не будет включен в структуру ИАД.
Столбцы ИАД могут быть ключевыми, входными, прогнозируемыми или комбинацией входного и прогнозируемого ключа. Ключевые столбцы содержат уникальный идентификатор для каждой строки в таблице. Некоторые модели ИАД, основанные на алгоритмах кластеризации последовательностей и временных рядов, могут содержать несколько ключевых столбцов. Однако эти несколько ключей не являются составными в реляционном смысле, а должны быть выбраны для обеспечения поддержки анализа временных рядов и кластера последовательностей. Входные столбцы предоставляют данные, на основе которых осуществляется прогнозирование. Прогнозируемые столбцы содержат данные, которые прогнозирует модель ИАД.
Мастер ИАД предоставляет функцию Предложить, которая включается при выборе прогнозируемого столбца. Наборы данных часто содержат больше столбцов, чем нужно использовать при построении модели ИАД. Функция Предложить вычисляет численный показатель, от 0 до 1, описывающий связь между каждым столбцом в наборе данных и прогнозируемым столбцом. На основе этого показателя функция предполагает столбцы для использования в качестве входных для модели интеллектуального анализа данных. При использовании функции Предложить можно использовать предполагаемые столбцы, изменить выбор в соответствии с потребностями или пропустить предположения. После выбора одного или нескольких прогнозируемых и входных столбцов можно указать типы содержимого и данных для каждого из них.
Последним шагом перед завершением работы мастера является секционирование данных на обучающие и проверочные наборы. Возможность удерживать часть данных для проверки реализована в версии SQL Server 2008 впервые и представляет собой простой механизм, обеспечивающий доступность согласованного набора проверочных данных для использования со всеми моделями ИАД, связанными с новой структурой. Можно указать в процентах, какая часть данных должна использоваться для проверки, и остальные данные будут использованы для обучения. Также можно указать количество вариантов, которые будут использоваться для проверки.
На последнем шаге выполнения мастера указываются имена структуры ИАД и связанной с ней модели. При выборе параметра разрешить детализацию в модели включается функция детализации. Это позволяет пользователям, имеющим соответствующие разрешения, просматривать исходные данные, которые были использованы для построения модели.
При построении модели ИАД на основе источника данных OLAP в службах Analysis Services сначала в мастере указывается, что необходимо использовать существующий куб для определения структуры модели. Можно также создать только структуру ИАД или структуру и одну связанную с ней модель. Если выбрано создание модели, то указывается используемый способ ИАД, определяющий алгоритм, наилучшим образом подходящий для решения задачи.
