- •Раздел 1. Накопление и обработка данных .…………………………… 5
- •Раздел 2. Оперативный анализ данных ….…………………………… 43
- •Раздел 3. Интеллектуальный анализ данных ………………………… 82
- •Раздел 4 Загрузка данных и программирование запросов ...………… 110
- •Раздел 5. Подготовка отчетов по результатам анализа …….……… 136
- •Раздел 1. Накопление и обработка данных Лекция 1. Информационно-аналитические системы
- •Операционная обработка данных
- •Оперативный анализ данных
- •Интеллектуальный анализ данных
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 2. Концепции хранения данных
- •Реляционные базы данных
- •Организация хранилищ данных
- •Концепция многомерной модели данных
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 3. Интеграция и трансформации данных
- •Платформа sql Server 2008
- •Система Management Studio
- •Служба sql Server Integration Services
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Раздел 3. Интеллектуальный анализ данных Лекция 8. Кластерный анализ данных
- •Формальная постановка задачи кластеризации
- •Меры близости в кластерном анализе
- •Иерархические алгоритмы кластеризации
- •Неиерархические алгоритмы кластеризации
- •Представление результатов кластеризации
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 9. Классификация и регрессия
- •Математические функции
- •Правила классификации
- •Деревья решений
- •Методы построения деревьев решений
- •Алгоритмы построения деревьев решений
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 10. Поиск ассоциативных правил
- •Цель лекции – изучение формализованной постановки и алгоритма решения задачи поиска ассоциативных правил.
- •Формальная постановка задачи
- •Обнаружение закономерностей в последовательностях данных
- •Алгоритм поиска ассоциативных правил Apriori
- •Представление результатов
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 8. Службы sql Server Analysis Services
- •Конструктор интеллектуального анализа данных
- •Мастер интеллектуального анализа данных
- •Создание структуры интеллектуального анализа
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Создание и представление источника данных
- •Загрузка с применением Integration Services
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 12. Основы языка Multidimensional Expressions
- •Оператор select
- •Алгебра множеств и операции с множествами
- •Функции языка mdx
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 13. Язык операций Data Mining
- •Ключевые концепции и объекты dmx
- •Синтаксис запросов dmx
- •Создание моделей интеллектуального анализа
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Раздел 5. Подготовка отчёта по итогам анализа Лекция 14. Служба отчетов Reporting Services
- •Архитектура службы отчётов
- •Средства проектирования запросов
- •Развёртывание Reporting Services
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 15. Источники данных для отчётов
- •Общие источники данных
- •Источники поддерживаемые Reporting Services
- •Создание, изменение и удаление источников
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Лекция 16. Конструирование и создание отчётов
- •Основы конструирования отчётов
- •Создание нерегламентированных отчётов
- •Создание отчётов с применением конструктора
- •Краткие итоги
- •Контрольные вопросы
- •Литература
- •Глоссарий
Краткие итоги
Поиск ассоциативных правил предполагает установление закономерностей вида: «Если в транзакции встретился набор объектов А, то в этой же транзакции должен присутствовать набор товаров В».
На множестве объектов может быть задано отношение порядка (последовательность объектов). Обнаружение закономерностей в последовательности позволяет предсказать появление объекта, из анализируемого множества, в заданной позиции.
Алгоритм Microsoft Association Rules относится к семейству ассоциаций Apriori и используется для нахождения частых наборов объектов (элементов). Этот алгоритм устанавливает наличие частых наборов и генерирует правила взаимосвязей по частым наборам объектов.
Частым набором называют такой набор, который достаточно популярен в наборе данных. Порог популярности набора определяется при помощи критерия поддержки.
Поддержка используется для оценки популярности набора элементов. Например, поддержка набора элементов (А, В) есть отношение количества транзакций, содержащих набор (А, В), к общему числу наборов.
Контрольные вопросы
1. При решении задач поиска ассоциативных правил в качестве транзакции рассматривают:
а) свойства объектов входящих в набор;
б) множество обнаруженных зависимостей;
в) набор объектов, элементов или товаров;
г) количество объектов в наборе.
2. Значение поддержки набора при ассоциативном поиске определяют:
а) отношением количества транзакций, содержащих набор, к общему количеству транзакций;
б) отношением количества объектов в наборе к количеству объектов, встречающихся во всех транзакциях;
в) отношением количества объектов в наборе к количеству объектов, встречающихся во всех наборах;
г) отношением общего количества транзакций к количеству транзакций, содержащих набор.
3. Заданный набор объектов называют частым, если:
а) поддержка имеет значение близкое к единице;
б) поддержка не меньше среднего значения всех поддержек;
в) поддержка больше поддержки одноэлементных наборов;
г) поддержка больше заданного минимального значения.
4. Ассоциативные правила имеют следующий вид:
а) поддержка набора А больше поддержки набора В;
б) частота набора А меньше больше частоты набора В;
в) если (условие), то (результат);
г) набор объектов А содержит объекты набора В.
5. Полезность определенного ассоциативного правила оценивается:
а) отношением количества объектов, входящих в наборы правила, к общему количеству объектов;
б) отношением транзакций, поддерживающих правило, к общему количеству транзакций;
в) отношением общего количества объектов к количеству объектов, входящих в наборы правил.
г) отношением общего количества транзакций к количеству транзакций, поддерживающих правило.
Литература
1. Барсегян А.А. Методы и модели анализа данных: OLAP и Data Mining / Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. – СПб.: БХВ-Петербург, 2004. – 336 с.
2. Microsoft SQL Server 2008: Data mining – интеллектуальный анализ данных. Пер. с англ. / Дж. Макленнен, Чж. Танг, Б. Криват. – БХВ-Петербург. 2009. – 720 с.
3. Ларсон Б. Разработка бизнес-аналитики в SQL Server 2005. – СПб.: Питер, 2008. – 684 с.
