- •Раздел 1. Накопление и обработка данных .…………………………… 5
- •Раздел 2. Оперативный анализ данных ….…………………………… 43
- •Раздел 3. Интеллектуальный анализ данных ………………………… 82
- •Раздел 4 Загрузка данных и программирование запросов ...………… 110
- •Раздел 5. Подготовка отчетов по результатам анализа …….……… 136
- •Раздел 1. Накопление и обработка данных Лекция 1. Информационно-аналитические системы
- •Операционная обработка данных
- •Оперативный анализ данных
- •Интеллектуальный анализ данных
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 2. Концепции хранения данных
- •Реляционные базы данных
- •Организация хранилищ данных
- •Концепция многомерной модели данных
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 3. Интеграция и трансформации данных
- •Платформа sql Server 2008
- •Система Management Studio
- •Служба sql Server Integration Services
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Раздел 3. Интеллектуальный анализ данных Лекция 8. Кластерный анализ данных
- •Формальная постановка задачи кластеризации
- •Меры близости в кластерном анализе
- •Иерархические алгоритмы кластеризации
- •Неиерархические алгоритмы кластеризации
- •Представление результатов кластеризации
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 9. Классификация и регрессия
- •Математические функции
- •Правила классификации
- •Деревья решений
- •Методы построения деревьев решений
- •Алгоритмы построения деревьев решений
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 10. Поиск ассоциативных правил
- •Цель лекции – изучение формализованной постановки и алгоритма решения задачи поиска ассоциативных правил.
- •Формальная постановка задачи
- •Обнаружение закономерностей в последовательностях данных
- •Алгоритм поиска ассоциативных правил Apriori
- •Представление результатов
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 8. Службы sql Server Analysis Services
- •Конструктор интеллектуального анализа данных
- •Мастер интеллектуального анализа данных
- •Создание структуры интеллектуального анализа
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Создание и представление источника данных
- •Загрузка с применением Integration Services
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 12. Основы языка Multidimensional Expressions
- •Оператор select
- •Алгебра множеств и операции с множествами
- •Функции языка mdx
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 13. Язык операций Data Mining
- •Ключевые концепции и объекты dmx
- •Синтаксис запросов dmx
- •Создание моделей интеллектуального анализа
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Раздел 5. Подготовка отчёта по итогам анализа Лекция 14. Служба отчетов Reporting Services
- •Архитектура службы отчётов
- •Средства проектирования запросов
- •Развёртывание Reporting Services
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 15. Источники данных для отчётов
- •Общие источники данных
- •Источники поддерживаемые Reporting Services
- •Создание, изменение и удаление источников
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 16. Конструирование и создание отчётов
- •Основы конструирования отчётов
- •Создание нерегламентированных отчётов
- •Создание отчётов с применением конструктора
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Глоссарий
Обнаружение закономерностей в последовательностях данных
На множестве объектов может быть задано отношение порядка [ ]. Отношение может быть задано разными способами. Если анализируется последовательность событий во времени, то отношение порядка определяется моментами времени. В этом случае упорядоченное множество объектов представляет последовательность:
,
.
Обнаружение закономерностей в последовательности данных позволяет предсказать с определенной вероятностью появление событий. Пример последовательности:
.
Последовательности
могут содержать циклы, отражающие
наличие одного итого же объекта на
разных позициях. Например,
.
Транзакция
содержит последовательность
,
если
и
сохраняется отношение порядка. Допускается
размещение других объектов между
объектами из последовательности
.
Поддержкой последовательности
называется
отношение количества транзакций, в
которые входит последовательность
,
к общему количеству транзакций.
Последовательность считается частой,
если её поддержка превышает минимальную
поддержку, заданную аналитиком:
.
Задачей обнаружения закономерностей является поиск всех частых последовательностей:
.
При анализе временных последовательностей актуальным является оценка временных интервалов между событиями. Оценка временных интервалов позволяет предсказать появление ожидаемого события.
Алгоритм поиска ассоциативных правил Apriori
Алгоритм Apriori разработан на основе свойства поддержки наборов: поддержка любого набора объектов не может превышать минимальной поддержки любого из его подмножеств:
.
Это
свойство проявляется потому, что набор
из трех объектов
содержит и наборы из двух объектов
,
,
.
На первом шаге
алгоритма производится формирование
наборов с одним объектом (k
= 1) и вычисляется их поддержка. Наборы
с поддержкой больше минимально заданной
отбираются. Для наборов из объектов
множества
имеем:
,
.
Таким образом, заданной минимальной
поддержке удовлетворяют только объекты
и, следовательно, первое подмножество
частых наборов имеет вид:
.
На втором шаге
значение
увеличивается на единицу (
)
и формируются наборы из двух объектов:
,
,
,
,
,
.
Заданной минимальной поддержке
удовлетворяют наборы
,
,
,
и второе подмножество частых наборов:
.
На следующем шаге
увеличивается снова на единицу и
формируются наборы из трёх объектов:
,
.
Поддержка набора
равна 0,25, набора
– 0,5. Следовательно, третье подмножество
частых наборов имеет вид:
.
Наборы из четырёх объектов при заданных транзакциях создать невозможно. Таким образом, в результате выполнения алгоритма будет сформировано множество частых наборов
.
Для расчёта поддержки необходимо на каждом шаге сравнивать наборы с заданными транзакциями.
Реализуемый в SQL Server Data Mining алгоритм относится к семейству алгоритмов Apriori. Алгоритм выполняется в два этапа. На первом этапе выполняется поиск частых наборов. На втором этапе осуществляется генерация правил взаимосвязей по частым наборам объектов [2].
Представление результатов
Результаты поиска
ассоциативных правил принято представлять
в виде правил: если
(условие), то (результат).
При этом условие представляется набором
объектов из множества
,
а результат – объектами, ассоциированными
с объектами из условия. Например: если
,
то
.
Ассоциативные правила строятся на
основе частых наборов. Поэтому количество
правил может быть большим, что затруднит
их восприятие. Для оценки полезности
правил используется оценка, вычисляемая
как отношение транзакций, поддерживающих
правило, к общему числу транзакций:
.
Не все правила могут быть полезными.
