1.11. Поиск ассоциативных правил

Целью поиска ассоциативных правил [2, 12] является нахождение закономерностей между связанными событиями в базах данных. Ассоциативное правило имеет вид: «Из события A следует событие B».

В результате такого вида анализа мы устанавливаем закономерность следующего вида: «Если в транзакции встретился набор элементов A, то можно сделать вывод, что в этой же транзакции должен появиться набор элементов B)» Построение таких закономерностей дает нам возможность находить очень простые и понятные правила, называемые ассоциативными. Этот метод удовлетворяет выбранному критерию вида представляемой зависимости.

В заключение отметим, что для получения скрытых закономерностей вида «если-то» наиболее подходящими являются методы «Деревьев решений» и «Поиска ассоциативных правил». Рассмотрим их подробнее.

2. Алгоритмы нахождения деревьев решений

2.1. Описание дерева решений

Деревья решений – это способ представления правил в иерархической, последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение. Под правилом понимается логическая конструкция, представленная в виде «если [условие], то [следствие]», или проще «если, то».

Рис. 2. 1. Пример дерева решений.

Подход к построению дерева решений

Пусть нам задано некоторое обучающее множество T, содержащее объекты (примеры), каждый из которых характеризуется m атрибутами, причем один из них указывает на принадлежность объекта к определенному классу.

Идею построения деревьев решений из множества T, впервые высказанную Хантом, приведем по Р. Куинлену [19, 33]. Пусть через {C1, C2, … Ck} обозначены классы (значения метки класса), тогда могут существовать три ситуации:

множество T содержит один или более примеров, относящихся к одному классу Ck. Тогда дерево решений для Т – это лист, определяющий класс Ck;
множество T не содержит ни одного примера, т.е. пустое множество. Тогда это снова лист, и класс, ассоциированный с листом, выбирается из другого множества отличного от T, скажем, из множества, ассоциированного с родителем;
множество T содержит примеры, относящиеся к разным классам. В этом случае следует разбить множество T на некоторые подмножества. Для этого выбирается один из признаков, имеющий два и более отличных друг от друга значений O1, O2, … On. T разбивается на подмножества T1, T2, … Tn, где каждое подмножество Ti содержит все примеры, имеющие значение Oi для выбранного признака. Это процедура будет рекурсивно продолжаться до тех пор, пока конечное множество не будет состоять из примеров, относящихся к одному и тому же классу.

Вышеописанная процедура лежит в основе многих современных алгоритмов построения деревьев решений, этот метод известен еще под названием разделения и захвата. Очевидно, что при использовании данной методики, построение дерева решений будет происходить сверху вниз. Поскольку все объекты были заранее отнесены к известным нам классам, такой процесс построения дерева решений называется обучением с учителем. Процесс обучения также называют индуктивным обучением или индукцией деревьев.

На сегодняшний день существует множество алгоритмов, реализующих деревья решений - CART, C4.5, NewId, ITrule, CHAID, CN2 и т.д. Но наибольшее распространение и популярность получили первые два.

<<< < Предыдущая 1 2 3 45 / 75 6 7 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
04.06.20151.24 Mб94Лекция 7.doc
#
01.05.20251.04 Mб26Лекция 7.В Принтеры.doc
#
01.07.202598.82 Кб6Лекция 8.doc
#
04.06.2015666.62 Кб76Лекция 8.doc
#
16.09.201989.6 Кб48Лекция 9 ввод-вывод.doc
#
01.03.2025228.35 Кб24Лекция Data Mining.doc
#
04.06.2015366.29 Кб195ЛЕКЦИЯ КУАЭС-3-4.docx
#
04.06.2015120.83 Кб85Лекция по логике сцен.речи.doc
#
01.05.2025440.32 Кб1Лекция по РО и ИМ СУЗ.doc
#
10.11.201961.77 Кб22Лекция по теме Социология Огюста Корта.docx
#
04.06.2015346.11 Кб60Лекция по теории стиха.doc