Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
shporki.doc
Скачиваний:
9
Добавлен:
17.12.2018
Размер:
261.12 Кб
Скачать

32. Пример дерева решений в избранной предметной области.

Деревья решений (decision trees) предназначены для решения задач классификации. Иногда используют другие названия метода - деревья классификации, деревья решающих правил. Они создают иерархическую структуру классифицирующих правил типа «ЕСЛИ…ТО…» (if-then), имеющую вид дерева. Чтобы принять решение, к какому классу следует отнести некоторый объект или ситуацию, требуется ответить на вопросы, стоящие в узлах этого дерева, начиная с его корня. Вопросы имеют вид «Значение параметра А больше В?». Если ответ положительный, осуществляется переход к правому узлу следующего уровня; затем снова следует вопрос, связанный с соответствующим узлом и т. д. Приведенный пример иллюстрирует работу так называемых бинарных де-

ревьев решений, в каждом узле которых, ветвление производится по двум направлениям (т. е. на вопрос, заданный в узле, имеется только два варианта ответов, например «Да» или «Нет»). Однако, в общем случае, ответов а, следовательно, ветвей, выходящих из узла, может быть больше.

Дерево решений состоит из узлов, где производится проверка условия, и листьев – конечных узлов дерева, указывающих на класс (узлов решения).

Рис. 2.6. Пример дерева решений

Качество построенного дерева после обучения можно оценить по нескольким параметрам. Во-первых, это число распознанных примеров в обучающем и тестовом наборах данных. Чем оно выше, тем качественнее построенное дерево. Во-вторых, это количество узлов в дереве. При очень большом их числе дерево становится трудным для восприятия. Это также означает очень слабую зависимость выходного поля от входных полей. Каждое правило характеризуется поддержкой и достоверностью. Поддержка – общее количество примеров классифицированных данным узлом дерева. Достоверность – количество правильно классифицированных данным узлом примеров. Дерево решений строится по определенному алгоритму. Наибольшее аспространение получили алгоритмы CART и C4.5(C5.0).ми.

33. Методы классификации и кластерного анализа

Главное назначение кластерного анализа – разбиение множества исследуемых объектов и признаков на однородные в соответствующем понимании группы или кластеры. Это означает, что решается задача кластеризации данных и выявления соответствующей структуры в них. Методы кластерного анализа можно применять в самых различных случаях, даже в тех случаях, когда речь идет о простой группировке, в которой все сводится к образованию групп по количественному сходству.

Большое достоинство кластерного анализа в том, что он позволяет производить разбиение объектов не по одному параметру, а по целому набору признаков. Кроме того, кластерный анализ в отличие от большинства математико-статистических методов не накладывает никаких ограничений на вид рассматриваемых объектов, и позволяет рассматривать множество исходных данных практически произвольной природы. Это имеет большое значение, например, для прогнозирования конъюнктуры, сегментации, когда показатели имеют разнообразный вид, затрудняющий применение традиционных эконометрических подходов. Кластерный анализ позволяет рассматривать достаточно большой объем информации и резко сокращать, сжимать большие массивы экономической информации, делать их компактными и наглядными. В больших массивах данных получил распространение алгоритм k-средних (k-means). Его суть в том, что весь исходный набор примеров разбивается на k классов Т.о., что минимизируется евклидово расстояние между объектами внутри классов и максимизируется евклидово расстояние между классами.

Процедура кластеризации в общем виде может быть представлена последовательностью следующих пяти шагов:

- формирование множества элементов (объектов), подлежащих разбиению на классы;

- определение множества признаков (параметров), по которым должны оцениваться элементы множества;

- определение меры сходства между элементами множества;

- разбиение элементов множества на классы;

- проверка соответствия полученного решения поставленным целям.

Отличительной особенностью процедуры кластерного анализа является то, что в ней не используется какая-либо обучающая выборка. Построение классов осуществляется путем попарного сравнения всех элементов (см. рис. 3.2) на основе предварительно выбранной меры сходства, в качестве которой можно принять, например:

Иерархическая схема построения кластер-процедуры позволяет объединить в класс вначале самые близкие, а затем и все более отдаленные друг от друга элементы, в результате чего формируется древовидная структура представления классифицируемых элементов (так называемая дендрограмма) в зависимости от степени взаимосвязей между ними.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]