
- •Оглавление
- •Введение
- •Импорт данных и способы визуализации
- •Обработка данных
- •Очистка данных
- •Восстановление пропущенных данных
- •Удаление аномалий
- •Спектральная обработка
- •Удаление шумов
- •Факторный анализ
- •Трансформация данных
- •Квантование
- •Группировка данных
- •Преобразование данных к скользящему окну
- •Примеры анализа данных
- •Прогнозирование умножения с помощью нейронных сетей
- •Классификация с помощью деревьев решений
- •Прогнозирование с помощью линейной регрессии
- •Кластеризация с помощью самоорганизующейся карты Кохонена
- •Поиск ассоциативных правил
- •Выявление дубликатов и противоречий
- •Автокорреляция
- •Прогнозирование временного ряда
- •Экспорт данных
Поиск ассоциативных правил
С помощью ассоциативных правил можно находить определенные закономерности между связанными событиями. Посетитель в магазине, купивший «Хлеб», приобретает и «Молоко» с вероятностью 75%. Задачи такого рода впервые были использованы при определении типичных шаблонов покупок, совершаемых в супермаркетах, поэтому иногда ее еще называют анализом рыночной корзины (market basket analysis).
Транзакция – это набор товаров, купленных покупателем за один визит. Транзакцию, состоящую из набора товаров, называют потребительской корзиной. Имея определенную базу, состоящую из покупательских транзакций и выявив зависимости типа - в транзакциях, где после появления набора элементов Х, с большой долей вероятностью встречается набор элементов Y - можно говорить о зависимостях дающих нам возможность определять простые и интуитивно понятные правила.
Основными характеристиками таких правил являются поддержка и достоверность. Достоверность правила показывает, какова вероятность, что из Х следует Y. Правило «из Х следует Y» справедливо с достоверностью r, если r% транзакций из всего множества, содержащих набор элементов Х, также содержит набор элементов Y. Правило «из Х следует Y» имеет поддержку s, если s% транзакций из всего набора, содержат наборы элементов Х и Y. Разберем данные характеристики на конкретном примере: пусть 75% транзакций, содержащих хлеб, также содержат молоко, а 3% от общего числа транзакций содержат оба товара. Достоверность правила составляет 75%, а поддержка – 3%.
Механизм поиска ассоциативных правил с помощью Deductor рассмотрим на примере данных о продажах товаров в супермаркете.
Импортировав файл «Supermarket.txt», просмотрим его в визуализаторе «Таблица». Данный файл содержит всего два поля «Номер чека» и «Товар», необходимо решить задачу анализа потребительской корзины с целью стимулирования продаж.
При импорте данных столбец «Номер чека» воспринимается как вещественное число, что делает процесс дальнейшей обработки с помощью «Ассоциативные правила» невозможным, поэтому данный столбец импортируем как строковую переменную.
В мастере обработки запустим инструмент «Ассоциативные правила». На втором шаге определим «Номер чека» - «Транзакция», а «Товар» - «Элемент».
На следующем шаге предусмотрено настроить параметры ассоциативных правил: минимальную и максимальную поддержку, минимальную и максимальную достоверность, а также максимальную мощность множества. Настроим границы поддержки – 13% и 80%, и достоверности 60% и 90%.
Следующий этап позволяет запустить процесс обработки для поиска ассоциативных правил. В диалоговом окне мастера обработки отображается информация о количестве множеств, количестве найденных правил и гистограмма распределения часто встречающихся множеств по мощности.
После завершения работы мастера обработки результаты просмотрим с помощью визуализаторов «Популярные наборы», «Правила», «Дерево правил» и «Что-если».
Популярные наборы – множества, состоящие из одного и более элементов, которые наиболее часто встречаются в транзакциях одновременно. Исходя из столбца «Поддержка», можно судить о том, насколько часто встречается то или иное множество в исходном наборе транзакций.
Исходя из соответствующих множеств, можно сделать вывод о наиболее часто приобретаемых товарах и, следовательно, принять решение о поставках и размещении.
С помощью визуализатора «Правило» отображаются соответствующие правила в виде списка из столбцов: «№», «Условие», «Следствие», «Поддержка (%, Количество)», «Достоверность».
Данный визуализатор предоставляет список правил, на основе которых можно сделать вывод о поведении покупателей. Если покупатель купил вафли, то с вероятностью 71% он приобретет и сухарики.
«Дерево правил» представляет собой двухуровневое дерево, которое строится либо по условию, либо по следствию. При построении дерева по условию на первом (верхнем) уровне находятся узлы с условием, а на втором уровне – его следствие. В этом случае правило отвечает на вопрос, что будет при том или ином условии. Для каждого правила отображаются данные о поддержке и достоверности. Если «Дерево правил» построено по следствию, когда на первом уровне располагаются узлы следствия, а условия выводятся в качестве его списка. В данном случае правило отвечает на вопрос, что необходимо, чтобы наступило заданное следствие. Данный визуализатор отвечает на те же вопросы, что и предыдущий, но в более удобной форме.
На рисунке правила отображены по условию. В данном случае результат покупки вафли имеет два следствия:
Он купит и сухари с вероятностью 71%;
Он купит с вероятностью 69% сухари и чай.
Аналогично интерпретируются и остальные правила.
С помощью визуализатора «Что-если» в ассоциативных правилах можно ответить на вопрос, что получим в качестве следствия, если выберем определенные условия.
Окно разделено на три части (окна). В левой части расположено окно, в котором отображается список всех элементов транзакции и их поддержка (сколько раз данный элемент встречается в транзакциях). В правом окне, которое в свою очередь разделено на два окна, в верхней его части отображается список элементов, входящих в условие. Это список товаров, которые приобрел покупатель, и для них необходимо указать следствие, если оно существует. Собственно в нижней части это следствие и отображается с поддержкой и достоверностью.
Допустим, нужно ответить на вопрос, что забыл купить покупатель, который уже приобрел вафли и мед. Для этого необходимо из списка элементов эти товары добавить в список условий и нажать на кнопку «Вычислить правила». В результате в списке следствий появятся «Сухари», «Чай» и «Сухари и Чай». Итак, покупатель, возможно, забыл купить сухари или чай, или и то и другое.