
- •Раздел 1. Накопление и обработка данных .…………………………… 5
- •Раздел 2. Оперативный анализ данных ….…………………………… 43
- •Раздел 3. Интеллектуальный анализ данных ………………………… 82
- •Раздел 4 Загрузка данных и программирование запросов ...………… 110
- •Раздел 5. Подготовка отчетов по результатам анализа …….……… 136
- •Раздел 1. Накопление и обработка данных Лекция 1. Информационно-аналитические системы
- •Операционная обработка данных
- •Оперативный анализ данных
- •Интеллектуальный анализ данных
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 2. Концепции хранения данных
- •Реляционные базы данных
- •Организация хранилищ данных
- •Концепция многомерной модели данных
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 3. Интеграция и трансформации данных
- •Платформа sql Server 2008
- •Система Management Studio
- •Служба sql Server Integration Services
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Раздел 3. Интеллектуальный анализ данных Лекция 8. Кластерный анализ данных
- •Формальная постановка задачи кластеризации
- •Меры близости в кластерном анализе
- •Иерархические алгоритмы кластеризации
- •Неиерархические алгоритмы кластеризации
- •Представление результатов кластеризации
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 9. Классификация и регрессия
- •Математические функции
- •Правила классификации
- •Деревья решений
- •Методы построения деревьев решений
- •Алгоритмы построения деревьев решений
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 10. Поиск ассоциативных правил
- •Цель лекции – изучение формализованной постановки и алгоритма решения задачи поиска ассоциативных правил.
- •Формальная постановка задачи
- •Обнаружение закономерностей в последовательностях данных
- •Алгоритм поиска ассоциативных правил Apriori
- •Представление результатов
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 8. Службы sql Server Analysis Services
- •Конструктор интеллектуального анализа данных
- •Мастер интеллектуального анализа данных
- •Создание структуры интеллектуального анализа
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Создание и представление источника данных
- •Загрузка с применением Integration Services
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 12. Основы языка Multidimensional Expressions
- •Оператор select
- •Алгебра множеств и операции с множествами
- •Функции языка mdx
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 13. Язык операций Data Mining
- •Ключевые концепции и объекты dmx
- •Синтаксис запросов dmx
- •Создание моделей интеллектуального анализа
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Раздел 5. Подготовка отчёта по итогам анализа Лекция 14. Служба отчетов Reporting Services
- •Архитектура службы отчётов
- •Средства проектирования запросов
- •Развёртывание Reporting Services
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 15. Источники данных для отчётов
- •Общие источники данных
- •Источники поддерживаемые Reporting Services
- •Создание, изменение и удаление источников
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 16. Конструирование и создание отчётов
- •Основы конструирования отчётов
- •Создание нерегламентированных отчётов
- •Создание отчётов с применением конструктора
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Глоссарий
Лекция 10. Поиск ассоциативных правил
Тема лекции посвящена вопросам постановки и решения задачи поиска ассоциативных правил, представления обнаруженных закономерностей в последовательностях данных.
Цель лекции – изучение формализованной постановки и алгоритма решения задачи поиска ассоциативных правил.
Впервые задача поиска ассоциативных правил (association rule mining) предложена для нахождения типичных шаблонов покупок, совершаемых посетителями супермаркетов. Поэтому данную задачу иногда называют анализом рыночной корзины (market basket analysis). При этом под рыночной корзиной понимают набор товаров, приобретенных покупателем в рамках одной отдельно взятой транзакции, описывающей результаты посещения супермаркета. Таким образом, транзакция представляет собой множество событий, произошедших одновременно. Регистрируя результаты посещений в течение длительного времени, торговые компании накапливают огромные собрания транзакций. В результате анализа формируются шаблоны, включающие перечень товаров и число транзакций, содержащих данные наборы. Кроме того, устанавливается закономерность вида: "Если в транзакции встретился набор товаров (элементов) A, то в этой же транзакции должен присутствовать набор товаров (элементов) B)". Установление таких закономерностей позволяет находить очень простые и понятные правила, называемые ассоциативными [1, 2].
Формальная постановка задачи
Множество объектов представляется в виде:
,
где
– общее количество объектов.
Наборы из объектов, составляющих , называются транзакциями. Пример транзакции приведён ниже:
-
Идентификатор транзакции
Приобретённые продукты
100
Хлеб, молоко, печенье
200
Молоко, сметана
300
Молоко, хлеб, сметана, печенье
400
Колбаса, сметана
Каждую транзакцию представляют как подмножество множества :
.
Такие транзакции в
магазине соответствуют наборам товаров,
приобретаемых покупателями и сохраняемых
в базе данных. Примем
и сформируем множество транзакций
:
;
;
;
.
Множество транзакций, в которые входит объект представим в виде:
В
приведённом примере множество транзакций,
содержащих объект
,
имеет следующий вид:
.
Произвольный набор объектов, задаваемый
аналитиком, обозначим в виде:
.
Например, набор из двух объектов
.
Множество транзакций, содержащих набор
объектов
,
зададим в виде:
.
В нашем случае
.
Отношение количества транзакций, содержащих набор , к общему количеству транзакций называется поддержкой (support):
.
Для
заданного набора
поддержка
равна 0,5. При анализе данных задаётся
минимальное значение поддержки для
заданного набора. Если значение поддержки
набора
больше заданного минимального значения
,
то набор называют частым (large
itemset).
В результате решения задачи поиска
ассоциативных правил находится множество
всех частых наборов:
.
Для множества
и
множество частых наборов имеет вид:
L = {
,
,
,
,
,
,
,
,
}.