
- •Раздел 1. Накопление и обработка данных .…………………………… 5
- •Раздел 2. Оперативный анализ данных ….…………………………… 43
- •Раздел 3. Интеллектуальный анализ данных ………………………… 82
- •Раздел 4 Загрузка данных и программирование запросов ...………… 110
- •Раздел 5. Подготовка отчетов по результатам анализа …….……… 136
- •Раздел 1. Накопление и обработка данных Лекция 1. Информационно-аналитические системы
- •Операционная обработка данных
- •Оперативный анализ данных
- •Интеллектуальный анализ данных
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 2. Концепции хранения данных
- •Реляционные базы данных
- •Организация хранилищ данных
- •Концепция многомерной модели данных
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 3. Интеграция и трансформации данных
- •Платформа sql Server 2008
- •Система Management Studio
- •Служба sql Server Integration Services
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Раздел 3. Интеллектуальный анализ данных Лекция 8. Кластерный анализ данных
- •Формальная постановка задачи кластеризации
- •Меры близости в кластерном анализе
- •Иерархические алгоритмы кластеризации
- •Неиерархические алгоритмы кластеризации
- •Представление результатов кластеризации
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 9. Классификация и регрессия
- •Математические функции
- •Правила классификации
- •Деревья решений
- •Методы построения деревьев решений
- •Алгоритмы построения деревьев решений
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 10. Поиск ассоциативных правил
- •Цель лекции – изучение формализованной постановки и алгоритма решения задачи поиска ассоциативных правил.
- •Формальная постановка задачи
- •Обнаружение закономерностей в последовательностях данных
- •Алгоритм поиска ассоциативных правил Apriori
- •Представление результатов
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 8. Службы sql Server Analysis Services
- •Конструктор интеллектуального анализа данных
- •Мастер интеллектуального анализа данных
- •Создание структуры интеллектуального анализа
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Создание и представление источника данных
- •Загрузка с применением Integration Services
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 12. Основы языка Multidimensional Expressions
- •Оператор select
- •Алгебра множеств и операции с множествами
- •Функции языка mdx
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 13. Язык операций Data Mining
- •Ключевые концепции и объекты dmx
- •Синтаксис запросов dmx
- •Создание моделей интеллектуального анализа
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Раздел 5. Подготовка отчёта по итогам анализа Лекция 14. Служба отчетов Reporting Services
- •Архитектура службы отчётов
- •Средства проектирования запросов
- •Развёртывание Reporting Services
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 15. Источники данных для отчётов
- •Общие источники данных
- •Источники поддерживаемые Reporting Services
- •Создание, изменение и удаление источников
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 16. Конструирование и создание отчётов
- •Основы конструирования отчётов
- •Создание нерегламентированных отчётов
- •Создание отчётов с применением конструктора
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Глоссарий
Краткие итоги
SQL Server 2008 является высокопроизводительной, масштабируемой, многофункциональной платформой с расширенным набором средств оперативного и интеллектуального анализа данных.
Платформа SQL Server 2008 содержит службу хранения, обработки и защиты данных SSDE, сервисы интеграции SSIS, аналитические сервисы SSAS, сервисы отчётов SSRS, службу администрирования и управления SSMS, службу разработки систем бизнес-анализа BI Dev Studio.
Служба SSMS предназначена для администрирования ядра SQL Server (SSDE), служб SSIS, SSAS, SSRS и создания проектов сценариев для служб SSAS и SSDE.
Системы ETL извлекают информацию из исходной БД, преобразуют её в формат, поддерживаемый БД назначения, а затем загружает в неё преобразованную информацию.
Служба SSIS представляет собой многофункциональную платформу (ETL-систему) для интеграции данных, обеспечивающую извлечение (extraction), преобразование (transformation) и загрузку данных (loading).
Контрольные вопросы
1. Потоком данных в службах SSIS называют:
а) множество данных, характеризующих объект анализа;
б) перемещение данных от источника к приёмнику;
в) файл с множеством данных, подготовленный для анализа;
г) множество данных, перемещаемых в многомерную модель данных.
2. Архитектура служб SSIS ориентирована на операции:
а) с множествами кортежей, характеризующих объекты анализа;
б) с объектами интеллектуального анализа данных;
в) оперативного и интеллектуального анализа данных;
г) извлечения, преобразования и загрузку данных.
3. Одно из основных назначений языка XML в системах анализа данных:
а) описание методов и алгоритмов анализа данных;
б) описание процесса обмена данными между приложениями;
в) разработка пользовательских приложений в системе анализа;
г) описание
4. Службы SQL Server Management Studio предназначены для:
а) администрирования и управления многомерными объектами;
б) осуществления оперативного анализа данных;
в) осуществления интеллектуального анализа данных;
г) извлечения, преобразования и загрузки данных.
5.Процессом перегрузки данных в ETL-системах называют:
а) реализацию потока данных от единственного набора данных источника до одного или нескольких наборов данных хранилища;
б) создание копии таблицы с данными в базе данных;
в) создание резервной копии базы данных на сервере;
г) реализацию потока данных из хранилища до одного набора данных в транзакционной БД.
Литература
1. Бергер А.Б. Microsoft SQL Server 2005 Analysis Services. OLAP и многомерный анализ данных / Бергер А.Б, Горбач И.В., Меломед Э.Л, Щербинин В.А., Степаненко В.П. / Под общ. Ред. А.Б. Бергера, И.В. Горбач. – СПб.: БХВ-Петербург, 2007. – 928 с.
2. Microsoft SQL Server 2008: Data mining – интеллектуальный анализ данных. Пер. с англ. / Дж. Макленнен, Чж. Танг, Б. Криват. – БХВ-Петербург. 2009. – 720 с.
3. Малыхина М.П. Базы данных: основы, проектирование, использование. – Спб.: БХВ-Петербург, 2004. – 512 с.
Раздел 3. Интеллектуальный анализ данных Лекция 8. Кластерный анализ данных
В лекции рассматривается постановка и решение задач кластерного анализа: исследования схем группирования объектов; представление гипотез на основе собранных данных; проверка гипотез о наличии кластеров в данных, выделенных пользователем.
Цель лекции – изучение формальной постановки задачи кластеризации, мер близости объектов, иерархических и неиерархических алгоритмов.
Кластерный анализ данных не требует выделения зависимой переменной и предполагает разделение множества объектов не кластеры (cluster) или классы, таксоны, сгущения, группы. Для задач кластеризации характерно отсутствие различий объектов по атрибутам (переменным). Термин кластерный анализ, впервые введён Трионом (Tryon) в 1939 году. При проведении кластерного анализа не строят априорных предположений о заданном наборе данных, не вводят ограничений на представление объектов анализа и типы данных. Кластерный анализ также можно использовать для сокращения размерности и визуализации данных. В настоящее время кластерный анализ развивается в направлениях, связанных с коммерческой деятельностью, техническими науками, биологией и психологией [1, 2].