- •Раздел 1. Накопление и обработка данных .…………………………… 5
- •Раздел 2. Оперативный анализ данных ….…………………………… 43
- •Раздел 3. Интеллектуальный анализ данных ………………………… 82
- •Раздел 4 Загрузка данных и программирование запросов ...………… 110
- •Раздел 5. Подготовка отчетов по результатам анализа …….……… 136
- •Раздел 1. Накопление и обработка данных Лекция 1. Информационно-аналитические системы
- •Операционная обработка данных
- •Оперативный анализ данных
- •Интеллектуальный анализ данных
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 2. Концепции хранения данных
- •Реляционные базы данных
- •Организация хранилищ данных
- •Концепция многомерной модели данных
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 3. Интеграция и трансформации данных
- •Платформа sql Server 2008
- •Система Management Studio
- •Служба sql Server Integration Services
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Раздел 3. Интеллектуальный анализ данных Лекция 8. Кластерный анализ данных
- •Формальная постановка задачи кластеризации
- •Меры близости в кластерном анализе
- •Иерархические алгоритмы кластеризации
- •Неиерархические алгоритмы кластеризации
- •Представление результатов кластеризации
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 9. Классификация и регрессия
- •Математические функции
- •Правила классификации
- •Деревья решений
- •Методы построения деревьев решений
- •Алгоритмы построения деревьев решений
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 10. Поиск ассоциативных правил
- •Цель лекции – изучение формализованной постановки и алгоритма решения задачи поиска ассоциативных правил.
- •Формальная постановка задачи
- •Обнаружение закономерностей в последовательностях данных
- •Алгоритм поиска ассоциативных правил Apriori
- •Представление результатов
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 8. Службы sql Server Analysis Services
- •Конструктор интеллектуального анализа данных
- •Мастер интеллектуального анализа данных
- •Создание структуры интеллектуального анализа
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Создание и представление источника данных
- •Загрузка с применением Integration Services
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 12. Основы языка Multidimensional Expressions
- •Оператор select
- •Алгебра множеств и операции с множествами
- •Функции языка mdx
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 13. Язык операций Data Mining
- •Ключевые концепции и объекты dmx
- •Синтаксис запросов dmx
- •Создание моделей интеллектуального анализа
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Раздел 5. Подготовка отчёта по итогам анализа Лекция 14. Служба отчетов Reporting Services
- •Архитектура службы отчётов
- •Средства проектирования запросов
- •Развёртывание Reporting Services
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 15. Источники данных для отчётов
- •Общие источники данных
- •Источники поддерживаемые Reporting Services
- •Создание, изменение и удаление источников
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 16. Конструирование и создание отчётов
- •Основы конструирования отчётов
- •Создание нерегламентированных отчётов
- •Создание отчётов с применением конструктора
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Глоссарий
Концепция многомерной модели данных
В службах SQL Server Analysis Services используется унифицированная многомерная модель данных (Unified Dimensional Model, UDM). Эта модель позволяет различным клиентским приложениям получить доступ к данным из реляционных и многомерных БД без применения различных моделей (рисунок 2.7). Роль унифицированной многомерной модели заключается в создании моста между пользователем и источниками данных [2, 3]. Модель UDM конструируется на одном или нескольких источниках данных. Пользователь запрашивает модель UDM при помощи различных клиентских средств, например Microsoft Excel.
Рисунок 2.7 – Многомерная модель данных
Конечному пользователю это дает определенные преимущества, даже если модель UDM конструируется только как тонкий слой над источником данных: проще и легче можно понять модель данных; обеспечивается изоляция от гетерогенных серверных источников данных; повышается производительность при обработке запросов обобщенного типа. В некоторых сценариях простая модель UDM может конструироваться автоматически. Дополнительные вложения в создание унифицированной многомерной модели могут обеспечить дополнительные преимущества, вытекающие из богатства метаданных, которые может предоставить эта модель. Преимущества унифицированной многомерной модели данных:
значительно обогащает пользовательскую модель;
обеспечивает высокую производительность запросов, поддерживая интерактивный анализ даже на очень больших объемах данных;
использует в модели бизнес-правила для поддержки более содержательного анализа данных;
поддерживает «закрытие цикла»: пользователям позволяется действовать с данными, которые они видят на экране монитора.
Многомерная модель данных определяет представление данных на трех уровнях: концептуальной модели; физической модели; прикладной модели.
В терминах концептуальной модели пользователь описывает данные организации (предприятия): структуру и организацию данных; правила доступа; методы расчётов и преобразований. Модель используется в качестве моста между моделью предметной области и многомерной моделью данных. Для описания концептуальной модели используется Язык Описания Данных (Data Definition Language, DDL) и язык сценариев (Multidimensional Expressions, MDX).
Физическая модель основывается на концептуальной модели. Как и в случае реляционных БД, физическая модель определяет условия хранения данных на физических носителях:
• место хранения: тип файлов с данными, носитель информации, размещение носителя;
• способ хранения: в сжатом или несжатом виде, вид индексирования;
• правила доступа к данным, организацию кеширования данных, способ занесения и извлечения данных из памяти.
Для хранения всех видов информации в службах Analysis Services используется структура данных, называемая накопителем данных (Data store). Данные в накопителе сервера разделены и структурированы (рисунок 2.8). Основными элементами накопителя является поля, поддерживающие различные числовые типы данных размером от 1 до 8 байтов, а также строковые типы данных. Поля группируются в записи, содержащие набор данных для всех полей. Поле может быть помечено как пустое, т.е. содержащее значение null. В конце каждой записи для каждого потенциально пустого поля (столбца) добавляется один бит для указания пустого поля.
При передаче данных аналитическим приложениям прикладная модель также определяет их формат. Клиентское приложение непосредственно взаимодействует с прикладной моделью данных. Прикладная модель разрабатывается с применением Языка MDX. Посредством MDX выполняется описание модели формирования данных с включением MDX-сценариев (MDX Scripts) и представлений запросов к многомерной БД,
Рисунок 2.8 – структура записей и страниц
В многомерных БД для описания данных используется понятие многомерного пространства. В отличие от геометрического пространства многомерное пространство дискретно и содержит дискретное количество значений на каждом измерении. Пространство данных может иметь любое количество измерений. Для описания многомерного пространства используются следующие термины:
измерение (dimension), описывающее элемент данных для анализа;
элемент (member): соответствует одной точке на измерении.
значение элемента (member value): уникальная характеристика элемента;
атрибут (attribute): полная коллекция элементов одного типа;
размер (size) или кардинальность (cardinality) измерения: количество элементов, которое содержит измерение.
На рисунке 2.9 приведено пространство данных с тремя измерениями
Рисунок 2.9 – Трехмерное пространство данных
Количество точек в пространстве данных образует теоретическое пространство данных. Размерность теоретического пространства математически определяется перемножением размеров всех измерений. Поскольку каждое измерение дискретно, то пространство является ограниченным (конечным). При описании многомерного пространства дополнительно используются следующие понятия:
кортеж (tuple), определяющий координату в многомерном модельном пространстве;
срез (slice), определяющий секцию многомерного модельного пространства, которая определяется кортежем.
Таким образом, каждая
точка пространства данных определяется
набором координат, который называется
кортежем. Например, любая точка
пространства на рисунке 1.11 определяется
кортежем (
),
,
,
.
Если зафиксировать элемент одного
измерения, то получится срез в пространстве
данных. Примером среза может служить
,
,
,
.
