
- •Раздел 1. Накопление и обработка данных .…………………………… 5
- •Раздел 2. Оперативный анализ данных ….…………………………… 43
- •Раздел 3. Интеллектуальный анализ данных ………………………… 82
- •Раздел 4 Загрузка данных и программирование запросов ...………… 110
- •Раздел 5. Подготовка отчетов по результатам анализа …….……… 136
- •Раздел 1. Накопление и обработка данных Лекция 1. Информационно-аналитические системы
- •Операционная обработка данных
- •Оперативный анализ данных
- •Интеллектуальный анализ данных
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 2. Концепции хранения данных
- •Реляционные базы данных
- •Организация хранилищ данных
- •Концепция многомерной модели данных
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 3. Интеграция и трансформации данных
- •Платформа sql Server 2008
- •Система Management Studio
- •Служба sql Server Integration Services
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Раздел 3. Интеллектуальный анализ данных Лекция 8. Кластерный анализ данных
- •Формальная постановка задачи кластеризации
- •Меры близости в кластерном анализе
- •Иерархические алгоритмы кластеризации
- •Неиерархические алгоритмы кластеризации
- •Представление результатов кластеризации
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 9. Классификация и регрессия
- •Математические функции
- •Правила классификации
- •Деревья решений
- •Методы построения деревьев решений
- •Алгоритмы построения деревьев решений
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 10. Поиск ассоциативных правил
- •Цель лекции – изучение формализованной постановки и алгоритма решения задачи поиска ассоциативных правил.
- •Формальная постановка задачи
- •Обнаружение закономерностей в последовательностях данных
- •Алгоритм поиска ассоциативных правил Apriori
- •Представление результатов
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 8. Службы sql Server Analysis Services
- •Конструктор интеллектуального анализа данных
- •Мастер интеллектуального анализа данных
- •Создание структуры интеллектуального анализа
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Создание и представление источника данных
- •Загрузка с применением Integration Services
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 12. Основы языка Multidimensional Expressions
- •Оператор select
- •Алгебра множеств и операции с множествами
- •Функции языка mdx
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 13. Язык операций Data Mining
- •Ключевые концепции и объекты dmx
- •Синтаксис запросов dmx
- •Создание моделей интеллектуального анализа
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Раздел 5. Подготовка отчёта по итогам анализа Лекция 14. Служба отчетов Reporting Services
- •Архитектура службы отчётов
- •Средства проектирования запросов
- •Развёртывание Reporting Services
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 15. Источники данных для отчётов
- •Общие источники данных
- •Источники поддерживаемые Reporting Services
- •Создание, изменение и удаление источников
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 16. Конструирование и создание отчётов
- •Основы конструирования отчётов
- •Создание нерегламентированных отчётов
- •Создание отчётов с применением конструктора
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Глоссарий
Контрольные вопросы
1. Конструктор отчетов службы Reporting Services можно использовать для импорта отчетов:
а) из внешних генераторов отчётов Crystal Reports;
б) из баз данных совместимых с OLE DB и ODBC;
в) из баз данных (.fdb) InterBase/Firebird;
г) из баз данных (.mdb) и проектов (.adp) Access 2003.
2. Наиболее простые отчёты создаются с применением:
а) импорта из базы данных Access 2003 (Access 2007);
б) построителя (мастера) отчётов;
в) конструктора отчётов службы Reporting Services;
г) редактора отчётов в составе Reporting Services.
3. Отчеты, созданные с применением Reporting Services, публикуются на сервере отчетов в виде:
а) файлов формата .html;
б) файлов формата .rdl;
в) файлов формата .pdf;
г) фалов формата .doc.
4. Какие наборы источников данных, включают все источники, которые можно использовать для создания отчётов:
а) БД, совместимые с OLE DB и ODBC, и БД SQL Server;
б) источники данных, совместимые с OLE DB и ODBC;
в) БД SQL Server, создаваемые специально для отчёта;
г) кубов Analysis Services, БД SQL Server и БД, совместимых с OLE DB и ODBC.
5. С помощью построителя отчетов можно создавать отчёты только:
а) табличной, матричной и свободной формы;
б) табличной, матричной формы и в форме диаграмм;
в) табличной форме, в форме диаграмм и детализации;
г) табличной, матричной форме и в форме детализации.
Литература
1. Microsoft SQL Server 2008: Data mining – интеллектуальный анализ данных. Пер. с англ. / Дж. Макленнен, Чж. Танг, Б. Криват. – БХВ-Петербург. 2009. – 720 с.
2. Бергер А.Б. Microsoft SQL Server 2005 Analysis Services. OLAP и многомерный анализ данных / Бергер А.Б, Горбач И.В., Меломед Э.Л, Щербинин В.А., Степаненко В.П. / Под общ. Ред. А.Б. Бергера, И.В. Горбач. – СПб.: БХВ-Петербург, 2007. – 928 с.
Глоссарий
Настоящий глоссарий поясняет содержательный смысл основных понятий оперативного и интеллектуального анализа данных. Все термины в глоссарии расположены в алфавитном порядке, в скобках приводятся эквиваленты каждого из терминов на английском языке.
Ассоциативные правила (Association Rules) – определяются в процессе анализа часто встречающихся наборов объектов в большом множестве подобных наборов. Задача поиска ассоциативных правил является частным случаем задачи классификации.
Атрибут гранулярности – Атрибут измерения, определяющий гранулярность в отдельном измерении. В соответствие с этим атрибутом производится загрузка данных в группу мер. По умолчанию атрибутом гранулярности является ключевой атрибут измерения.
Витрина данных (Data Mart) – Упрощённый вариант хранилища данных, содержащий объединённые данные определённой тематики.
Гранулярность факта (Granularity Fact) – Определяется списком атрибутов, определяющих гранулярность в каждом измерении группы мер. При изменении атрибута гранулярности изменяется объём данных, загружаемых в группу мер.
Дерево решений (Decision tree) – Способ представления правил классификации в иерархической, последовательной структуре. Классификационные правила состоят из условий и заключений: если (условие), то (заключение).
Добыча данных (Data mining) – Процесс интеллектуального анализа данных с целью выявления скрытых закономерностей и систематических взаимосвязей между переменными.
Измерение базы данных (Database Dimension) – Основной вид измерения в оперативном и интеллектуальном анализе данных, на котором основаны измерения куба и группы мер.
Измерение группы мер – Список измерений куба, которые принадлежат группе мер (факту). Если списки измерений куба и измерений группы мер совпадает, то куб и группа мер имеют одну и ту же размерность.
Измерения куба (Dimension cub) – Описывают элементы данных, используемые в многомерном пространстве анализируемых данных. Самым простым способом задания измерений куба является перечисление измерений базы данных, включаемых в создаваемый куб.
Интерфейс прикладного программирования (XML for Analysis) – Интерфейс, основанный на протоколе SOAP и предназначенный для обеспечения взаимодействия через Интернет клиентов и поставщиков данных.
Источник данных (Data Sourse) – Объект, определяющий способ подключения службы анализа данных (SQL Server Analyses Services) к реляционной базе данных и другим средствам хранения данных.
Иерархия атрибутов – Иерархия атрибута определяется уровнем Все (All) и уровнем атрибута-источника. Применяется иерархия атрибутов при необходимости сослаться на атрибут вне иерархии или отсутствии пользовательской иерархии измерений.
Иерархии измерений – Определяет маршруты навигации (navigation path) и метод доступа к данным в многомерной модели. Иерархия состоит из атрибутов измерения и элементов атрибутов, расположенных в убывающей (возрастающей) последовательности.
Классификация (Classification) – Определение значения одного из параметров анализируемого объекта на основании значений других параметров. При этом определяемый параметр называют зависимой переменной, а параметры, влияющие на его значение, – независимыми переменными.
Кластеризация (Clustering) – Процедура разделения исследуемого множества объектов, удовлетворяющих условию близости, на группы объектов, которые называют кластерами (cluster).
Концептуальная модель данных – Модель данных в терминах конкретной предметной области, описывающая данные, структуру данных, организацию, правила доступа, методы расчётов и преобразования.
Куб измерения – Куб, содержащий одно измерение и не содержащий меры. Куб измерения используется для доступа к информации, содержащейся в измерении базы данных.
Мера близости (Distance) – Расстояние между объектами заданного множества объектов, характеризуемых набором параметров. На основе оценки меры близости производят включение объектов в один кластер.
Многомерная модель данных – Многомерная структура с определенными соотношениями, правилами расчета элементов на основе имеющихся данных. Многомерная структура с определенными соотношениями, правилами расчета элементов на основе имеющихся данных.
Многомерный OLAP (Multidemensional OLAP) – Определяет многомерность некой структуры данных, подразумевает наличие трех или более независимых измерений.
Гибридный OLAP (Hybrid OLAP) – Агрегатные структуры хранит в многомерном хранилище, сами данные в реляционной базе данных.
Оперативная обработка транзакций (On-Line Transaction Processing) – Обработка включает ввод, структурированное хранение и обработку оперативной информации (операций, документов) в режиме реального времени.
OLAP-сервер – серверное приложение, обеспечивающее управление и доступ к OLAP-кубам. Существует два основных способа хранения продуктами OLAP данных для многомерного анализа. Первый способ – многомерный сервер баз данных, второй способ – обслуживание данных происходит в реляционных БД.
Представление источника данных (Data source view, DSV) – абстрактное представление данных на клиентской стороне при проведении интеллектуального анализа данных.
Прикладная модель данных – Модель, созданная с помощью Языка Многомерных Выражений и описывающая формат данных, в котором данные передаются аналитически приложениям.
Реляционная модель данных – Модель данных, построенная на основе набора конечных отношений различной арности между определённым множеством элементарных данных. Над конечными отношениями возможно осуществление алгебраических операций.
Реляционный OLAP (Relational OLAP) – Программный продукт предназначенный для многомерного анализа данных, метаданных и вычисленных агрегатов. Для физической реализации многомерной модели данных используется реляционный сервер баз данных.
Система поддержки принятия решений (Decision Support System) – Система анализа данных, построения прогноза и выполнения вычислений любой сложности, необходимых для принятия решения.
Структурированный язык запросов (Structured Query Language) – Международный стандартный язык запросов для определения доступа к реляционным базам данных.
Унифицированная модель данных (Unified Dimensional Model) – Единая модель данных, обеспечивающая доступ клиентских приложений к различным реляционным и многомерным базам данных.
Физическая модель данных – Модель описывает способ хранения данных на физических носителях данных. Основным пользователем физической модели данных является администратор базы данных.
Хранилище данных (Data Warehouse) – предметно-ориентированный, интегрированный , неизменчивый, поддерживающий хронологию набора данных и организованный для поддержки принятия управленческих решений.
XML for Analysis – Расширение языка XML для обращения к многомерным БД.
Язык интеллектуального анализа данных (Data Mining Extensions to SQL, DMX) – Язык запросов для выполнения операций интеллектуального анализа данных.
Язык многомерных выражений (Multidimensional Expressions, MDX) – SQL-подобный язык, предназначенный для работы с многомерными базами данных.
Язык разметки (eXtensible Markup Language, XML) –Язык для осуществления разметки текстовой информации и динамического обмена данными между приложениями в Internet.