Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
маркетинг / МИ_Книга2006.doc
Скачиваний:
45
Добавлен:
23.05.2015
Размер:
4.47 Mб
Скачать

Проблемы применения метода

Главная проблема – обеспечения правильности положения разделительной линии. Ее обычно строят не по всем имеющимся точкам, оставляя небольшую часть точек для проверки.

Вторая проблема заключается в том, что независимые переменные предполагаются измеренными в интервальной или относительной шкалах. Эта проблема рассматривалась в разделе «Регрессионный анализ». Для применения дискриминантного анализа остается только принять допущение об интервальном характере переменных, измеренных в порядковой шкале. Для номинальной шкалы метод вообще неприменим.

Деревья классификации

Как видно из рисунков, иллюстрирующих дискриминантный анализ, линия, разделяющая области, всегда прямая. Однако существуют случаи, когда такое разделение не приносит полезного результата.

Это можно проиллюстрировать на условном примере выделения сегмента потребителей пельменей.

В ходе исследования была заполнена следующая таблица (табл. 5.22).

Таблица 5.22

Данные исследования потребителей пельменей

Номер респондента

Возраст, лет

Доход, руб./мес

Потребление пельменей

(1 – нет, 2 – да)

X1

X2

X3

X1иX2– независимые переменные,X3– зависимая. Данные этой таблицы можно представить графически (рис.Рис. 32). Значения зависимой переменной: кружок –нет, квадрат –да.

Рис. 32. Данные исследования потребителей пельменей

Видно, что потребители пельменей – люди со средним достатком (следует повторить, что пример условный). Видно также, что отделить область потребителей пельменей от остальных опрошенных одной линией не получается. Нужны две линии, параллельные оси X1. Очевидно, требуется усложнить метод дискриминантного анализа. Это и было сделано в методе построения деревьев классификации.

Описание метода

Метод построения деревьев классификации используется для предсказания величины, измеренной в номинальной шкале, по значениям одной или нескольких независимых переменных. Независимые переменные могут измеряться в любой шкале. Дерево решений представляет собой графическое отображение правил классификации.

Одно из принципиальных свойств дерева классификации – его иерархичность[13]. Для рассмотренного примера правило отнесения потребителей к сегменту выгдядит как

Если доход не высокий, то еслидоход не низкий, тоэто потребитель пельменей.

Немного другая формулировка:

Если доход высокий, тоэто не потребитель пельменей, иначе еслидоход низкий, тоэто не потребитель пельменей, иначеэто потребитель пельменей.

В привычной нотации формул рабочего листа Excel [15] правило выглядит так (принимается, что граница между высоким и средним доходом составляет 8000руб., между средним и низким –4000руб.):

=ЕСЛИ(доход>8000; «Не потребитель»; (ЕСЛИ(доход<4000; «Не потребитель»; «Потребитель»))

Здесь наиболее ясно видна иерархическая сущность правил классификации: сначала элементы исследования разделятся на имеющих высокий доход и имеющих невысокий доход. Затем имеющие невысокий доход, в свою очередь, подразделяются на имеющих низкий доход и имеющих средний доход.

Правила подобного рода и ищет система Data Mining. Однако они обычно представляются в графическом виде (рис.Рис. 33). Дерево, изображенное на этом рисунке, было построено с помощью пакета программ Statistica на основании данных от тридцати респондентов, собранных в табл. 5.22. При расчетах были введены следующие обозначения: USE– переменная, соответствующая потреблению пельменей (соответствует переменнойХ3в таблице 5.22);INCOME– доход (X2в таблице 5.22).

Рис. 33. Дерево классификации для определения сегмента потребителей пельменей184

Слева вверху находятся условные обозначения для не потребляющих и потребляющих пельмени (ответы соотвественно 1и2). Верхний узел (его номер, равный1, отображен в верхнем левом углу этого узла) содержит гистрограмму всей выборки. Видно, что число не потребляющих пельмени больше, поэтому в правом верхнем углу узла поставлена цифра1.

Далее произведено деление по признаку дохода. Условие деления: INCOME ≤4000. Выполнению этого условия соответствует левая ветвь. Видно, что имеется10элементов исследования, удовлетворяющих этому условию (число, расположенное около левой ветви).

Левая ветвь приводит в терминальный узел 2, для которого классификация закончена: все респонденты относятся к одной группе, не любящей пельменей.

Правая ветвь (20 оставшихся человек) приводит к узлу 3, в котором потребителей и непотребителей содержится поровну. Теперь становится ясно, как производилось деление: для ветвления программа искала такое значение дохода, при котором гистограммы в узлах получаются максимально различными. При этом в качестве кандидата для ветвления была проверена и другая независимая переменная – возраст, но там различия оказались гораздо слабее (по построению примера).

Среди элементов, входящих в узел 3, программе удалось обнаружить еще один признак, по которому они могут быть поделены на группы. Это снова оказался доход, но его значение теперь равно8000. Терминальный узел4составляют10респондентов со средним доходом, причем все они потребляют пельмени. В узел5входят10респондентов с высоким доходом, никто из них не потребляет пельменей. Классификация завершена.

В итоге рисунок наглядно показывает, кто относится к искомому сегменту.

Теперь для сравнения можно привести правило разделения на сегменты, полученное с помощью дискриминантного анализа:

Если a1Х12Х2<с, то это потребитель пельменей, иначе нет,

где а1, а2 – коэффициенты дискриминантной функции,с– константа.

Итак, важное различие между деревьями классификациии и дискриминантным анализом заключается в том, что первый метод дает правила с последовательным, иерархическим анализом признаков, а второй выполняет проверку за один шаг.

Вторая важная черта деревьев классификации заключается в их высокой гибкости. Переменные могут быть измерены в различных шкалах, и не требуется допущение об их интервальном характере. При построении деревьев следует лишь классифицировать независимые переменные на порядковые и номинальные. Разница будет состоять в том, что для первых условие ветвления может содержать условие типа не меньше, как на рис.Рис. 33, а для вторых – только условия равенства, так как понятие больше для номинальной шкалы не имеет смысла.

Можно делать решения и по линейным комбинациям интервальных переменных. Это следует пояснить примером. Границы областей на рис.Рис. 32 параллельны оси X1, так как потребление пельменей зависит только от дохода (X2) и не зависит от возраста (Х1). Поэтому в правиле оказалось достаточным указать только доход. Однако если бы границы оказались не параллельны какой-либо оси, то при их построении пришлось бы учитывать обе переменные, то есть для каждой границы получилась бы своя линейная комбинация значений независимых переменных.

Наиболее распространенные алгоритмы построения деревьев классификации [13]:

  • CART185, который ищет все возможные развилки по значениям одной переменной. Правила, полученные этим методом, дают разделительные линии, параллельные осям координат – независимых переменных;

  • QUEST186, реализующий рекурсивный вариант квадратичного дискриминантного анализа. На практике это означает, что линии разделения областей могут быть и не параллельными осям координат;

  • CHAID187, формирующий не двоичные, а более сложные, многозначные ветвления. Например, если в анкете присутствовал вопрос о числе членов семьи с возможными ответами