
- •Раздел 1. Накопление и обработка данных .…………………………… 5
- •Раздел 2. Оперативный анализ данных ….…………………………… 43
- •Раздел 3. Интеллектуальный анализ данных ………………………… 82
- •Раздел 4 Загрузка данных и программирование запросов ...………… 110
- •Раздел 5. Подготовка отчетов по результатам анализа …….……… 136
- •Раздел 1. Накопление и обработка данных Лекция 1. Информационно-аналитические системы
- •Операционная обработка данных
- •Оперативный анализ данных
- •Интеллектуальный анализ данных
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 2. Концепции хранения данных
- •Реляционные базы данных
- •Организация хранилищ данных
- •Концепция многомерной модели данных
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 3. Интеграция и трансформации данных
- •Платформа sql Server 2008
- •Система Management Studio
- •Служба sql Server Integration Services
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Раздел 3. Интеллектуальный анализ данных Лекция 8. Кластерный анализ данных
- •Формальная постановка задачи кластеризации
- •Меры близости в кластерном анализе
- •Иерархические алгоритмы кластеризации
- •Неиерархические алгоритмы кластеризации
- •Представление результатов кластеризации
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 9. Классификация и регрессия
- •Математические функции
- •Правила классификации
- •Деревья решений
- •Методы построения деревьев решений
- •Алгоритмы построения деревьев решений
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 10. Поиск ассоциативных правил
- •Цель лекции – изучение формализованной постановки и алгоритма решения задачи поиска ассоциативных правил.
- •Формальная постановка задачи
- •Обнаружение закономерностей в последовательностях данных
- •Алгоритм поиска ассоциативных правил Apriori
- •Представление результатов
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 8. Службы sql Server Analysis Services
- •Конструктор интеллектуального анализа данных
- •Мастер интеллектуального анализа данных
- •Создание структуры интеллектуального анализа
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Создание и представление источника данных
- •Загрузка с применением Integration Services
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 12. Основы языка Multidimensional Expressions
- •Оператор select
- •Алгебра множеств и операции с множествами
- •Функции языка mdx
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 13. Язык операций Data Mining
- •Ключевые концепции и объекты dmx
- •Синтаксис запросов dmx
- •Создание моделей интеллектуального анализа
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Раздел 5. Подготовка отчёта по итогам анализа Лекция 14. Служба отчетов Reporting Services
- •Архитектура службы отчётов
- •Средства проектирования запросов
- •Развёртывание Reporting Services
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 15. Источники данных для отчётов
- •Общие источники данных
- •Источники поддерживаемые Reporting Services
- •Создание, изменение и удаление источников
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 16. Конструирование и создание отчётов
- •Основы конструирования отчётов
- •Создание нерегламентированных отчётов
- •Создание отчётов с применением конструктора
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Глоссарий
Операционная обработка данных
Информационные системы, ориентированные на операционную (транзакционную) обработку данных, называют термином «ON-Line Transaction Processing, OLTP», что в переводе означает «оперативная транзакционная обработка данных».
В соответствии с современными требованиями к OLTP, в SQL Server 2008 уделяется основное внимание следующим аспектам [1]:
Производительность и масштабируемость, позволяющие предприятиям создавать БД, обеспечивающие эффективность применения информационных систем;
высокая доступность данных, обеспечивающая непрерывность функционирования приложений, работающих с БД и минимум административных издержек;
безопасность хранения данных, обеспечиваемая шифрованием важных данных, аудитом модификации данных и метаданных, применением внешних криптографических ключей;
управляемость данных, позволяющая снизить затраты времени и средств на управление инфраструктурой обработки и хранения данных за счет применения инновационных технологий администрирования.
Оперативный анализ данных
Накопленные в организации данные содержат историю развития организации и составляют уникальный ресурс. При анализе этих данных можно получить ценную информацию для принятия управленческих решений. Эффект от анализа возрастает, если использовать данные всего предприятия, накопленные в течение длительного времени. Анализ данных посредством готовых отчётных форм, свойственных OLTP-системам, в этом случае будет не эффективен. Для решения данной проблемы и была разработана концепция ХД. В соответствие с данной концепцией хранилище содержит данные, поступающие от разных источников, и интегрированные данные, получаемые в результате обработки первичных данных. Кроме того, для поддержки концепции ХД требуются специальные средства управления процессами хранения и обработки данных.
Концепция OLAP
(On-line
analytical
processing)
разработана
автором
реляционных БД E.F.Codd
в 1993 году. В 1995 году на основе требований,
изложенных Коддом, сформулирован тест
FASMI
(Fast
Analysis
of
Shared
Multidimensional
Information),
который переводится как «быстрый анализ
разделяемой многомерной информации.
Тест FASMI
включает следующие требования к
приложениям для многомерного анализа
[2]:
• предоставление пользователю результатов анализа за приемлемое время (не более 5 с) при допустимом уровне детализации анализа;
• возможность осуществления любого логического и статистического анализа, поддерживаемого используемым приложением, и сохранением результатов в доступном для пользователя виде;
• многопользовательский доступ к данным с поддержкой соответствующих механизмов блокировки и средств автоматизированного доступа;
• многомерное концептуальное представление данных, включая полную поддержку для иерархий и множественных иерархий измерений (ключевое требование OLAP);
• возможность обращаться к любой нужной информации независимо от её объёма и места хранения.
В основе концепции OLAP лежит принцип многомерного представления данных. Данные представляются в виде многомерного куба [2, 3].