Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
маркетинг / МИ_Книга2006.doc
Скачиваний:
45
Добавлен:
23.05.2015
Размер:
4.47 Mб
Скачать

1 , 2 , 3 , 4 , 5 , Более , нет ответа ,

то разделение по этой переменной может произойти на три ветви:

  • 1или2человека;

  • 3человека;

  • более трех человек или неответ.

Объединение нескольких ответов в одну ветвь происходит автоматически, если не обнаружено статистически значимого различия в значениях зависимой переменной для различных значений независимой переменной.

Последний метод несколько удобнее, но принципиальных преимуществ не дает, так как любое ветвление можно представить как набор двоичных ветвлений.

Работа с деревьями классификации

Построение деревьев классификации выполняется в следующей последовательности.

  1. Определяется критерий качества дерева.

  • Довольно часто минимизируется процент неправильно определенных элементов.

  • Если размеры классификационных групп сильно различаются188, то для снижения общей ошибки классификации лучше уделить больше внимания большей группе, постаравшись снизить вероятность ошибки для нее. Чтобы учесть размеры групп, программы построения деревьев классификации допускают ввод априорных вероятностей попасть в ту или иную группу. Их можно

  • взять равными;

  • определить по имеющемуся набору случаев;

  • взять из данных прошлых исследований.

  • Минимизируется не вероятность ошибок, а их стоимость. Например, при сегментировании рынка продажи товаров по почте189в ответ на письмо от фирмы корреспондент может

  • не ответить; при этом фирма потерпит небольшие убытки на отправку письма;

  • потребовать прислать каталог, но ничего потом не купить. В этой ситуации убытки составляют не только стоимость пересылки, но и стоимость каталога;

  • заказать товары, что принесет заметную прибыль.

В этой ситуации различные ошибки классификации имеют различную денежную оценку190. Лучше разослать несколько писем впустую, чем пропустить одного покупателя. Поэтому многие программы допускают ввод оценки для каждого ожидаемого результата.

  1. Выбирается алгоритм построения дерева. Различные конфигурации групп наилучшим образом отображаются различными алгоритмами. Можно либо оценить применимость того или иного метода по визуализированным исходным данным, либо испробовать различные методы, задавая различные режимы работы программы. Вот некоторые рекомнедации:

  • если видно, что каждое разделение на группы происходит по значению одного признака, аналогично рис.Рис. 32, то это говорит в пользу алгоритма CART;

  • если линии, разделяющие группы, не параллельны осям, что начать следует с алгоритма QUEST;

  • если же имеются переменные, измеренные в номинальных шкалах, причем число различных значений велико, то результат, скорее всего, будет проще при использовании алгоритма CHAID. Примером здесь служат такие вопросы, как профессия, любимые марки того или иного товара, читаемые газеты или любимые телеканалы.

  1. Определяется правило окончания ветвлений, которое влияет на размер дерева.

В измерениях может присутствовать случайный шум, или области для различных групп могут пересекаться, поэтому дерево, точно классифицирующее имеющиеся случаи, окажется неадекватным и будет давать большие ошибки при классификации новых случаев. Эта ситуация показана на рис.Рис. 34). Ее отличие от рис.Рис. 32 заключается в том, что появился случайный шум, от чего границы разделения областей несколько размылись. Именно такой вид имеют данные исследований в подавляющем большинстве случаев. Пусть классификация имеющихся случаев произведена без ошибок. На основе правила, задаваемого полученным деревом, можно построить ломаные линии, разделяющие области (показаны на рисунке). Но дерево в этом случае получается слишком сложным, ведь каждый отрезок должен отдельно оговариваться в полученном правиле! Более того, при классификации новых случаев ошибка будет довольно большой. Ошибка классификации новых случаев была бы меньше, если бы линии разделения областей по-прежнему представляли бы собой прямые, как на рис.Рис. 32.

Рис. 34. Результат построения дерева классификации при наличии частичного перекрытия областей

Зависимость ошибки классификации от размера дерева (числа его узлов) показана на рис.Рис. 35. Видно, что для ошибки классификации новых случаев (а именно для этого и строится дерево) имеется минимум. Он достигается тогда, когда правило, отраженное в дереве классификации, учитывает лишь закономерности ситуации, пренебрегая случайным шумом.191

Рис. 35. Зависимость ошибки классификации от размера дерева

Поэтому размер дерева следует ограничить. Можно задать:

  • минимально допустимое количество элементов в узле;

  • минимальный процент элементов в узле от общего числа элементов исследования;

  • максимальное число узлов дерева;

  • максимальную «глубину» ветвлений (например, задается, что от вершины до каждого узла не должно быть более трех ветвлений);

Некоторые программы используют ряд дополнительных алгоритмов, позволяющих получить более точное решение.

  • Автоматический поиск минимума ошибки для новых случаев. Для этого все имеющиеся случаи разбиваются на две (обычно неравные) части случайным образом. Одна часть (обычно бóльшая) используется для обучения, а другая – для проверки.

  • Построение нескольких деревьев, максимально отличающихся друг от друга, с последующим выбором наилучшего.

  • Использование нечеткого порога. Каждая ветвь получаемого дерева оценивается качеством прогноза. При этом оценка может быть низкой («плохой»), высокой («хорошеей») или промежуточной («сомнительной»). При классификации отбрасываются только те ветви, для которых оценка качества прогноза ниже заданного порога для «плохих» решений. «Сомнительные» ветви остаются для дальнейшего анализа вместе с «хорошими».

  • Ручное «выращивание» каждой ветви шаг за шагом.

  1. Вид представления полученных правил. Их можно представить в различной форме:

  • для работы маркетологов удобно получить словесное описание сегментов;

  • для формирования списка из базы данных можно создать запроса к базе данных на языке SQL.

***

Таким образом, деревья решений – мощное средство получения классифицирующих правил.