
- •Создание структуры.
- •Создание модели интеллектуального анализа данных
- •Введение.
- •Методы решения задач Data Mining в Microsoft sql Server.
- •Метод дерева принятия решений.
- •Упрощенный Метод Байеса
- •Метод временных рядов.
- •Метод кластеризации
- •Метод линейной регрессии.
- •Метод поиска взаимосвязей
- •Метод кластеризации последовательностей
- •Метод нейронной сети
- •Области использования рассмотренных алгоритмов.
- •Доступ к средствам sql Server Data Mining из Microsoft Office.
- •Средства анализа таблиц Excel. Инструмент Table Analysis (Анализировать).
- •Инструмент «Анализ ключевых факторов влияния».
- •Инструмент «Поиск категорий».
- •Инструмент Заполнение по примеру (Fill From Example).
- •Инструмент прогнозирования Прогноз
- •Инструмент Выделение исключений
- •Инструмент Анализ сценария.
- •Поиск решения.
- •Анализ гипотетических вариантов
- •Клиент интеллектуального анализа данных для Excel
- •Подготовка данных
- •Просмотр данных.
- •Инструмент Очистить данные
- •Секционирование данных.
- •Панель инструментов Моделирование данных. Классификация.
- •Инструмент «Оценка»
- •Инструмент «Кластеризация»
- •Инструмент Связать.
- •Инструмент Прогноз.
- •Инструмент Дополнительно.
- •Панель Точность и правильность
- •Диаграмма точности.
- •Матрица классификации
- •Литература и источники.
- •Оглавление
- •101990 Москва, Малый Златоустинский пер. 7
- •Введение.
- •Хранилище данных Концепция хранилища данных.
- •Архитектура хранилища данных.
- •Проблемы создания хранилищ данных.
- •Требования к субд и используемые данные.
- •Data Mining или добыча знаний
- •Типы выявляемых закономерностей и этапы решения
- •Обзор используемых методов и алгоритмов
- •Классификация.
- •Кластеризации.
- •Задача ассоциации
- •Визуализация
- •Системы, реализующие Data Mining
- •Система PolyAnalyst
- •Работа с системой PolyAnalyst
- •Задание для самостоятельного выполнения.
- •Нейронные сети. Область применения нейронных сетей.
- •Теоретические аспекты нейронных сетей.
- •Последовательность этапов решения практических задач с использованием нейронных сетей и рекомендации по их проведению.
- •Программные системы для нейросетевого моделирования.
- •Программный пакет BrainMaker Professional.
- •Последовательность работы с пакетом BrainMaker Professional
- •Задания для самостоятельного выполнения:
- •Литература и источники.
- •Кондрашов Юрий Николаевич, Современные технологии интеллектуальной обработки информации.
- •101990 Москва, Малый Златоустинский пер. 7 Язык dmx Концепции языка dmx
- •Создание структуры.
- •Создание модели интеллектуального анализа данных
- •Детализация структуры
- •Детализация модели
- •Запрос значений столбца
- •Запрос содержимого модели
- •1. Витрины данных, как обособленная (специализированная) часть хд
- •2. Витрины данных (вид хд) , как промежуточная часть хд.
- •2. Кубы данных – оперативная аналиическая обработка (olap)
Инструмент Связать.
Инструмент Связать позволяет создать модель ассоциативных правил.
После вызова инструмента нужно задать таблицу исходных данных (рис. )
Рисунок 124
Исходные данные содержат информацию о заказах категорий товаров и товаров или Набор элементов. Каждый элемент набора — значение атрибута. В случае анализа покупательской корзины в рассматриваемом примере набор элементов содержит набор категорий товаров и товаров продуктов, т.е. анализ проводится или для категорий товаров или для товаров. Столбец Order Number является идентификатором транзакций. Этот столбец определяет каждую группу элементов транзакции (заказа), рис. 125.
-
Order Number
Category
Product
SO61269
Helmets
Sport-100
SO61269
Jerseys
Long-Sleeve Logo Jersey
SO61270
Fenders
Fender Set - Mountain
SO61271
Tires and Tubes
LL Road Tire
SO61271
Tires and Tubes
Patch kit
SO61272
Tires and Tubes
Mountain Tire Tube
SO61272
Tires and Tubes
Patch kit
SO61273
Bottles and Cages
Water Bottle
SO61274
Caps
Cycling Cap
SO61274
Shorts
Women's Mountain Shorts
SO61275
Helmets
Sport-100
SO61276
Jerseys
Short-Sleeve Classic Jersey
SO61276
Caps
Cycling Cap
SO61277
Mountain Bikes
Mountain-500
SO61277
Jerseys
Short-Sleeve Classic Jersey
SO61277
Caps
Cycling Cap
SO61278
Road Bikes
Road-350-W
SO61278
Bottles and Cages
Road Bottle Cage
SO61278
Bottles and Cages
Water Bottle
Рисунок 125
Набор элементов — это набор отдельных элементов, таких как Helmets, Jersey, Tires and Tubes.
Каждый набор элементов имеет размер (это количество элементов в наборе). Размер набора { Helmets, Jersey, Tires and Tubes } равен 3.
Ранее были рассмотрены параметры модели ассоциативных правил. Это такие параметры, как Частый набор, Поддержка, Минимальная поддержка, Вероятность (достоверность), Минимальная достоверность, Важность (показатель интереса).
Эти параметры используются в меню запуска алгоритма и окнах отчета.
На следующем шаге (рис. 126) задается столбец идентификатора транзакций Order Number и столбец, для которого ищутся взаимосвязи (можно выбрать категории или товары). На этом же шаге задается минимальное количество транзакций, содержащих одинаковый набор (Минимальное несущее множество) и уровень поддержки (Минимальная вероятность правила). Минимальное несущее множество можно задавать в виде абсолютного значения имеющихся транзакций в наборе данных (элементы) или в процентах к общему количеству (рисунок 126 ).
Рисунок 126
В случае задания недопустимого значения минимального несущего множества и уровня поддержки выдается сообщение (рисунок 127).
Рисунок 127
Аналогично другим инструментам на следующем шаге отображаются задаваемые по умолчанию параметры модели (их можно редактировать).
Окно результата содержит три вкладки: Наборы элементов, Правила и Сеть зависимостей.
Рисунок 128
Вкладка Наборы элементов (рисунок 128) отображает частые наборы элементов, обнаруженные алгоритмом Microsoft Association Rules. Основная часть экрана - таблица, которая показывает список частых наборов элементов, а также их поддержку и размер.
Если значение Минимальная поддержка установлено в слишком низкое значение, то этот список может быть очень длинным. Вкладка Наборы элементов содержит выпадающие списки, которые позволяют фильтровать набор элементов по поддержке (Минимальная поддержка) и размеру (Минимальный размер набора элементов). На рисунке 129 показано изменение значения Минимальный размер набора элементов на 3.
Рисунок 129
Для фильтрации наборов элементов можно также использовать выпадающий элемент Фильтровать набор элементов.
Щелчок мыши по названиям колонок изменяет упорядочение соответствующего списка. На рисунке 130 приводится измененный по Поддержке список.
Рисунок 130
Вкладка Правила (рис. 131) показывает классифицированные правила взаимосвязей. Главная часть вкладки — таблица правил. В ней отображаются все классифицированные правила, их вероятности и показатели их важности. Показатель важности предназначен для измерения полезности правила. Чем выше показатель важности, тем лучше качество правила.
Рисунок 131
Щелчок мыши по названиям колонок изменяет упорядочение соответствующего списка. На рисунке 132 приводится измененный по Важность список.
Рисунок 132
Вкладка Правила также содержит несколько выпадающих списков и текстовых записей для правил фильтрации (рисунок 133).
Рисунок 133
Третья вкладка — представление Сеть зависимостей (рис. 134). По умолчанию отображается до 60 узлов. Каждый узел в этом представлении отображает элемент (например, Gloves = Существует). Каждое ребро представляет правило взаимосвязи.
Рисунок 134
Ползунок слева связан с показателем важности. Можно фильтровать слабые ребра при помощи ползунка. На рисунке 135 показаны самые сильные связи.
Рисунок 135
Если изменить значение Минимальная вероятность правила и повторно обработать модель, то представление Сеть зависимостей изменится.
Если щелкнуть по одному из элементов, изменяется цветовое представление сети зависимостей. Код цвета отображается в нижней части экрана. На рисунке 136 показана сеть после щелчка по элементу Bike Stands = Существует. Цветовое отображение показывает, что Bike Stands = Существует (зеленый) является выбранным элементом, а Tires and Tubes = Существует (синий), что выбранный узел его прогнозирует, т.е. покупка Tires and Tubes зависит от Bike Stands.
Рисунок 136