- •Раздел 1. Накопление и обработка данных .…………………………… 5
- •Раздел 2. Оперативный анализ данных ….…………………………… 43
- •Раздел 3. Интеллектуальный анализ данных ………………………… 82
- •Раздел 4 Загрузка данных и программирование запросов ...………… 110
- •Раздел 5. Подготовка отчетов по результатам анализа …….……… 136
- •Раздел 1. Накопление и обработка данных Лекция 1. Информационно-аналитические системы
- •Операционная обработка данных
- •Оперативный анализ данных
- •Интеллектуальный анализ данных
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 2. Концепции хранения данных
- •Реляционные базы данных
- •Организация хранилищ данных
- •Концепция многомерной модели данных
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 3. Интеграция и трансформации данных
- •Платформа sql Server 2008
- •Система Management Studio
- •Служба sql Server Integration Services
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Раздел 3. Интеллектуальный анализ данных Лекция 8. Кластерный анализ данных
- •Формальная постановка задачи кластеризации
- •Меры близости в кластерном анализе
- •Иерархические алгоритмы кластеризации
- •Неиерархические алгоритмы кластеризации
- •Представление результатов кластеризации
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 9. Классификация и регрессия
- •Математические функции
- •Правила классификации
- •Деревья решений
- •Методы построения деревьев решений
- •Алгоритмы построения деревьев решений
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 10. Поиск ассоциативных правил
- •Цель лекции – изучение формализованной постановки и алгоритма решения задачи поиска ассоциативных правил.
- •Формальная постановка задачи
- •Обнаружение закономерностей в последовательностях данных
- •Алгоритм поиска ассоциативных правил Apriori
- •Представление результатов
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 8. Службы sql Server Analysis Services
- •Конструктор интеллектуального анализа данных
- •Мастер интеллектуального анализа данных
- •Создание структуры интеллектуального анализа
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Создание и представление источника данных
- •Загрузка с применением Integration Services
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 12. Основы языка Multidimensional Expressions
- •Оператор select
- •Алгебра множеств и операции с множествами
- •Функции языка mdx
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 13. Язык операций Data Mining
- •Ключевые концепции и объекты dmx
- •Синтаксис запросов dmx
- •Создание моделей интеллектуального анализа
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Раздел 5. Подготовка отчёта по итогам анализа Лекция 14. Служба отчетов Reporting Services
- •Архитектура службы отчётов
- •Средства проектирования запросов
- •Развёртывание Reporting Services
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 15. Источники данных для отчётов
- •Общие источники данных
- •Источники поддерживаемые Reporting Services
- •Создание, изменение и удаление источников
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 16. Конструирование и создание отчётов
- •Основы конструирования отчётов
- •Создание нерегламентированных отчётов
- •Создание отчётов с применением конструктора
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Глоссарий
Раздел 1. Накопление и обработка данных Лекция 1. Информационно-аналитические системы
Лекция посвящена теме операционной обработки, оперативного и интеллектуального анализа данных в информационных системах различного назначения. Обсуждаются технологии и средства обработки, анализа данных масштаба предприятия.
Цель лекции – изучение учащимися технологий и средств операционной обработки, оперативного и интеллектуального анализа данных масштаба предприятия.
Агентство Gartner Group, занимающееся анализом рынков информационных технологий, в 1980-х годах ввело термин "Business Intelligence" (BI), деловой интеллект или бизнес-интеллект. Этот термин, предложен для описания различных концепций и методов, которые улучшают бизнес решения путем использования систем поддержки принятия решений (СППР). В 1996 году агентство уточнило определение данного термина. Business Intelligence - программные средства, функционирующие в рамках предприятия и обеспечивающие функции доступа и анализа информации, которая находится в хранилище данных, а также обеспечивающие принятие правильных и обоснованных управленческих решений [1].
Понятие BI объединяет в себе различные средства и технологии анализа и обработки данных масштаба предприятия. На основе этих средств создаются BI-системы, цель которых - повысить качество информации для принятия управленческих решений. BI-системы также известны под названием Decision Support System (DSS). Эти системы превращают данные в информацию, на основе которой принимаются решения. Агенство Gartner Group определяет состав рынка систем Business Intelligence как набор программных продуктов следующих классов:
• средства построения хранилищ данных (Data warehousing);
• системы оперативной аналитической обработки (OLAP);
• информационно-аналитические системы (Enterprise Information Systems, EIS);
• средства интеллектуального анализа данных (Data mining);
• инструменты для выполнения запросов и построения отчетов (Query and reporting tools).
Как показано на рисунке 1.1, эти вопросы можно соотнести с тремя основными компонентами: сервер хранилища данных (Data Warehouse, DW), инструментарий оперативной аналитической обработки и добычи данных и инструменты для пополнения хранилищ данных (ХД).
Рисунок 1.1 – Архитектура систем поддержки принятия решений
ХД содержат информацию, собранную из нескольких операционных баз данных (БД). Объем данных в ХД, как правило, на порядок больше объёма операционных БД и может достигать сотен гигабайт или нескольких терабайт. Как правило, хранилище данных поддерживается независимо от оперативных баз данных организации, поскольку требования к функциональности и производительности аналитических приложений отличаются от требований к транзакционным системам. ХД создаются специально для приложений поддержки принятия решений и предоставляют накопленные за определенное время, сводные и консолидированные данные, которые более приемлемы для анализа, чем детальные индивидуальные записи. Рабочая нагрузка ХД состоит из нестандартных, сложных запросов к миллионам записей. При выполнении запросов осуществляется огромное количество операций сканирования, соединения и агрегирования. Поэтому время ответа на запрос в ХД значительно важнее, чем пропускная способность.
Поскольку конструирование ХД представляет собой сложный процесс, который может занять несколько лет, некоторые организации вместо этого строят витрины данных (Data mart), содержащие информацию для конкретных подразделений. Инструментарий оперативной аналитической обработки и добычи данных позволяет проводить развернутый анализ информации. Базовые инструменты, включая средства извлечения, преобразования и загрузки, служат для пополнения хранилища из внешних источников данных [2].
