
- •1.1.Часто встречающиеся приложения с применением ассоциативных правил:
- •1.2.Введение в ассоциативные правила
- •1.3.Часто встречающиеся шаблоны или образцы
- •1.4.Поддержка
- •1.5.Характеристики ассоциативных правил
- •1.6.Границы поддержки и достоверности ассоциативного правила
- •1.7.Методы поиска ассоциативных правил
- •1.8.Разновидности алгоритма Apriori
- •1.9.Пример решения задачи поиска ассоциативных правил
- •1.9.1.Визуализатор "Правила"
1.9.Пример решения задачи поиска ассоциативных правил
Дана транзакционная база данных, необходимо найти наиболее часто встречающиеся наборы товаров и набор ассоциативных правил с определенными границами значений поддержки и доверия.
Рассмотрим процесс построения ассоциативных правил в аналитическом пакете Deductor.
Транзакционная база данных, которая содержит в каждой записи номер чека и товар, приобретенный по этому чеку, имеет формат MS Excel. Для начала импортируем данные из файла MS Excel в среду Deductor, этот процесс аналогичен тому, что был рассмотрен в лекции о нейронных сетях. Единственное отличие - в назначении столбцов. Для номера транзакции (обычно в базе данных - это поле "номер чека") указываем тип "идентификатор транзакции (ID)", а для наименований товара - тип "элемент". Результат импорта базы данных из файла MS Excel в среду Deductor видим на рис. 15.2. На рисунке приведен фрагмент базы данных, которая содержит более 140 записей.
Рис.
15.2. Транзакционная база данных,
импортированная в Deductor из файла MS Excel
Далее вызываем мастер обработки и выбираем метод "Ассоциативные правила". На втором шаге мастера проверяем назначения исходных столбцов данных, они должны иметь тип "ID" и "элемент".
На третьем шаге, проиллюстрированном на рис. 15.3, необходимо настроить параметры поиска правил, т.е. установить минимальные и максимальные характеристики поддержки и достоверности. Это наиболее "ответственный" момент формирования набора правил, о важности выбора границ значений поддержки и достоверности уже говорилось в начале лекции. Выбор можно сделать на основе каких-либо соображений, имеющегося опыта анализа подобных данных, интуиции или же определить в ходе экспериментов.
Рис.
15.3. Настройка параметров построения
ассоциативных правил
Мы установим такие границы для параметров поиска: минимальный и максимальный уровень поддержки равны 20% и 60% соответственно, минимальный и максимальный уровень значения достоверности равны 40% и 90% соответственно. Эти значения были выявлены в ходе проведения нескольких экспериментов, и оказалось, что именно при таких значениях формируется требуемый набор правил. При указании некоторых значений, например, уровня поддержки от 30% до 50%, набор правил не формируется, поскольку ни одно правило по параметрам поддержки не входит в этот интервал.
На следующем шаге мастера запускается процесс поиска ассоциативных правил. В результате видим информацию о количестве множеств и найденных правил в виде гистограммы распределения часто встречающихся множеств по их мощности. Данный процесс проиллюстрирован на рис. 15.4.
Рис.
15.4. Процесс построения ассоциативных
правил
Здесь мы видим, что количество сформированных множеств равно тринадцати - это популярные наборы, количество сформированных правил - пятнадцать.
На следующем шаге для просмотра полученных результатов предлагается выбрать визуализаторы из списка; мы выберем такие: "Популярные наборы", "Правила", "Дерево правил", "Что-если". Рассмотрим, что они из себя представляют.
Визуализатор "Популярные наборы". Популярные наборы или часто встречающиеся наборы - это наборы, состоящие из одного или нескольких товаров, которые в транзакциях наиболее часто встречаются одновременно. Характеристикой, насколько часто набор встречается в анализируемом наборе данных, является поддержка.
Популярные наборы нашего набора данных, найденные при заданных параметрах, приведены в таблице 15.3. Есть возможность отсортировать данную таблицу по разным ее характеристикам. Для определения наиболее популярных товаров и их наборов удобно отсортировать ее по уровню поддержки. Таким образом, мы видим, что наибольшей популярностью пользуются такие товары: хлеб и булки, масло, соки.
Таблица 15.3. Визуализатор "Популярные наборы" |
|||
N |
Множество |
|
|
% |
Кол-во |
||
6 |
ХЛЕБ И БУЛКИ |
54,55 |
24 |
3 |
МАСЛО |
52,27 |
23 |
5 |
СОКИ |
50,00 |
22 |
10 |
МАСЛО И ХЛЕБ И БУЛКИ |
45,45 |
20 |
4 |
МОЛОКО |
43,18 |
19 |
2 |
КЕФИР |
31,82 |
14 |
1 |
ЙОГУРТЫ |
31,82 |
14 |
12 |
СОКИ И ХЛЕБ И БУЛКИ |
22,73 |
10 |
11 |
МОЛОКО И ХЛЕБ И БУЛКИ |
22,73 |
10 |
8 |
МАСЛО И МОЛОКО |
22,73 |
10 |
7 |
ЙОГУРТЫ И КЕФИР |
22,73 |
10 |
13 |
МАСЛО И МОЛОКО И ХЛЕБ И БУЛКИ |
20,45 |
9 |
9 |
МАСЛО И СОКИ |
20,45 |
9 |