Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекция Data Mining.doc
Скачиваний:
24
Добавлен:
01.03.2025
Размер:
228.35 Кб
Скачать

2.2. Анализ возможностей и ограничений метода деревьев решений

При помощи метода деревьев решений аналитик может быстро получить правила вида "Из A следует B" [16].

Однако существующие алгоритмы этого метода сталкиваются с невозможностью решения некоторых задач. Например, задача

IF (X1 > 4) & (X2 < 5) THEN Класс 1; IF (X1 < 5) & (X2 > 4) THEN Класс 1;

IF (X1 < 5) & (X2 < 5) THEN Класс 2; IF (X1 > 4) & (X2 > 4) THEN Класс 2

не решается методом деревьев, т.к. ни один из выбранных признаков (X1, X2) отдельно не дает возможности разделить классы. Эта проблема называется проблемой сегментация признаков. Более подробно проблемы построения деревьев решений изложены в работе [16].

Области эффективного применения метода деревьев решений

При помощи алгоритма выявления деревьев решений можно решать достаточно большой спектр практических задач:

  • задачи описания данных: деревья решений позволяют хранить информацию о данных в компактной форме, вместо них мы можем хранить дерево решений, которое содержит точное описание объектов [29, 33];

  • задачи классификации: деревья решений отлично справляются с задачами классификации, т.е. отнесения объектов к одному из заранее известных классов. Целевая переменная должна иметь дискретные значения [20, 22, 33];

  • задачи регрессии: если целевая переменная имеет непрерывные значения, деревья решений позволяют установить зависимость целевой переменной от независимых (входных) переменных. Например, к этому классу относятся задачи численного прогнозирования (предсказания значений целевой переменной) [33].

3. Алгоритмы нахождения ассоциативных правил

3.1. Понятие ассоциативного правила.

Определение. Пусть I = {i1, i2, i3, … in} – множество (набор) элементов. Пусть D – множество транзакций, где каждая транзакция T – это набор элементов из I, T I. Каждая транзакция представляет собой бинарный вектор, где t[k]=1, если ik элемент присутствует в транзакции, иначе t[k]=0. Мы говорим, что транзакция T содержит X - некоторый набор элементов из I, если X T. Ассоциативным правилом называется импликация X Y, где X I, Y I и X Y = . Правило X Y имеет поддержку s (support), если s% транзакций из D содержат X Y, supp(X Y) = supp (X Y). Достоверность правила показывает какова вероятность того, что из X следует Y. Правило X Y справедливо с достоверностью c (confidence), если c% транзакций из D, содержащих X, также содержат Y, conf(X Y) = supp(X Y)/supp(X).

Проанализируем это на конкретном примере: "75% транзакций, содержащих хромосому типа 1, также содержат хромосому типа 2. 3% от общего числа всех транзакций в базе содержат оба типа хромосом". 75% – это достоверность (confidence) правила, 3% это поддержка (support), иными словами "Хромосома типа 1" "Хромосома типа 2" с вероятностью 75%.

Другими словами, целью анализа является установление следующих зависимостей: если в транзакции встретился некоторый набор элементов X, то на основании этого можно сделать вывод о том, что другой набор элементов Y также же должен появиться в этой транзакции. Установление таких зависимостей дает нам возможность находить очень простые и интуитивно понятные правила.

Алгоритмы поиска ассоциативных правил предназначены для нахождения всех правил X Y, причем поддержка и достоверность этих правил должны быть выше некоторых наперед определенных порогов [21, 31], называемых соответственно минимальной поддержкой (minsupport) и минимальной достоверностью (minconfidence).

Задача нахождения ассоциативных правил разбивается на две подзадачи:

  1. Нахождение всех наборов элементов, которые удовлетворяют порогу minsupport. Такие наборы элементов называются часто встречающимися.

  2. Генерация правил из полученных в п. 1 наборов элементов с достоверностью, удовлетворяющей порогу minconfidence.

Значения параметров «минимальная поддержка» и «минимальная достоверность» выбираются таким образом, чтобы ограничить количество найденных правил. Если поддержка имеет большое значение, то алгоритмы будут находить правила, хорошо известные аналитикам или настолько очевидные, что нет никакого смысла проводить такой анализ. С другой стороны, низкое значение поддержки ведет к генерации огромного количества правил, что, конечно, требует существенных вычислительных ресурсов. Тем не менее, большинство интересных правил находится именно при низком значении порога поддержки. Хотя слишком низкое значение поддержки ведет к генерации статистически необоснованных правил.

Поиск ассоциативных правил совсем не тривиальная задача, как может показаться на первый взгляд. Одна из проблем – алгоритмическая сложность при нахождении часто встречающих наборов элементов, т.к. с ростом числа элементов в I (| I |) экспоненциально растет число потенциальных наборов элементов.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]