Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Лекции по СППР / Лекции по СППР! / Карта_Кохонена

.doc
Скачиваний:
75
Добавлен:
23.03.2016
Размер:
89.6 Кб
Скачать

5.6. Карта Кохонена

Иногда возникает задача анализа данных, которые с трудом можно предста­вить в математической числовой форме. Это случай, когда нужно извлечь данные, принципы отбора которых заданы нечетко: выделить надежных партнеров, определить перспективный товар и т. п. Рассмотрим типичную для задач подобного рода ситуацию— предсказание банкротств. Предполо-жим, что имеется информация о деятельности нескольких десятков банков (их открытая финансовая отчетность) за некоторый период времени. По окончании этого периода известно, какие из этих банков обанкротились, у каких отозвали лицензию, а какие продолжают стабильно работать (на мо-мент окончания периода). И теперь необходимо решить вопрос о том, в каком из банков стоит размещать средства. Естественно, маловероятно желание разместить средства в банке, который может скоро обанкротиться. Значит, надо каким-либо образом решить задачу анализа рисков вложений в различ-ные коммерческие структуры.

На первый взгляд, решить эту проблему несложно— ведь имеются данные о работе банков и результат их деятельности. Однако данная задача не так проста, поскольку имеющиеся сведения описывают прошедший период, а интерес представляет то, что будет в дальнейшем. Таким образом, на основании имеющихся у нас априорных данных необходимо получить прогноз на дальнейший период. Для решения этой задачи можно использовать различные методы.

Так, например, наиболее очевидным является применение методов математи-ческой статистики. Но при этом возникает проблема с количеством данных, ибо статистические методы хорошо работают при большом объеме априор-ных данных, а их в конкретном случае может оказаться недостаточно. При этом статистические методы не могут гарантировать успешный результат

Другой путь решения этой задачи — применение нейронных сетей, которые можно обучить на имеющемся наборе данных. В этом случае в качестве исходной информации используются данные финансовых отчетов различных банков, а в качестве целевого поля — итог их деятельности.

Однако при использовании описанных выше методов результат навязывается без попытки найти закономерности в исходных данных. В принципе все обанкротившиеся банки похожи друг на друга хотя бы тем, что они обанкро-тились. Значит, в их деятельности должно быть нечто общее, что привело к этому итогу. Следовательно, можно попытаться выявить эти закономерно-сти с тем, чтобы использовать их в дальнейшем. Сразу же возникает вопрос о путях нахождения данных закономерностей. Если использовать методы статистики, надо определить, какие критерии "похожести" использовать, что может потребовать каких-либо дополнительных знаний о характере задачи.

Однако существует метод, позволяющий автоматизировать все действия по поиску закономерностей — метод анализа с использованием самооргани­зующихся карт Кохонена. Рассмотрим, как решаются такие задачи и как кар­ты Кохонена находят закономерности в исходных данных. Для общности рассмотрения будем использовать термин объект (например, объектом может быть банк, как в рассмотренном ранее примере, но описываемая методика без изменений подходит для решения и других задач, например: анализа креди­тоспособности клиента, поиска оптимальной стратегии поведения на рынке и т. д.).

Каждый объект характеризуется набором различных параметров, которые описывают его состояние. В частности, для данного примера параметрами будут сведения из финансовых отчетов. Эти параметры часто имеют число­вую форму или могут быть приведены к ней.

Таким образом, необходимо на основании анализа параметров объектов выявить схожие объекты и представить результат в форме, удобной для восприятия.

Все эти задачи решаются самоорганизующимися картами Кохонена. Рас-смотрим подробнее, как они работают. Для простоты будем считать, что объ-екты имеют 3 признака (на самом деле их может быть любое количество).


Рис. 5.8. Расположение объектов в пространстве


Теперь представим, что данные третьего параметра являются координатами обьектов в трехмерном пространстве (в том самом пространстве, которое ок­ружает нас в повседневной жизни). Тогда каждый объект можно представить в виде точки в этом пространстве (во избежание проблем с различным мас­штабом по осям пронормируем все эти признаки в интервал [0, 1] любым подходящим способом), в результате чего все точки попадут в куб единично­го размера. Отобразим эти точки (рис. 5.8).

Из рисунка видно, как расположены объекты в пространстве, причем легко заметить участки, где объекты группируются, т. е. у них схожи параметры, а значит, и сами эти объекты, скорее всего, принадлежат одной группе. Но так легко можно поступить только в случае, когда признаков немного (попробуй­те, например, изобразить четырехмерное пространство). Значит, необходимо найти способ, которым можно преобразовать данную систему в простую для восприятия, желательно двумерную систему (трехмерную картинку невоз­можно корректно отобразить на плоскости бумажного листа) так, чтобы со­седние в искомом пространстве объекты оказались рядом и на полученной картинке. Для этого используем самоорганизующуюся карту Кохонена. В первом приближении ее можно представить в виде сети, изготовленной из резины (рис. 5.9).

Рис. 5.9. Карта Кохонена

Эту сеть, предварительно "скомканную", бросаем в пространство признаков, где уже имеются объекты, и далее поступаем следующим образом: берем один объект (точку в этом пространстве) и находим ближайший к нему узел сети. Далее этот узел подтягивается к объекту (т. к. сетка "резиновая", то вместе с этим узлом так же, но с меньшей силой подтягиваются и соседние узлы). Затем выбирается другой объект (точка), и процедура повторяется, В результате получим карту, расположение узлов которой совпадает с распо­ложением основных скоплений объектов в исходном пространстве. Кроме того, полученная карта обладает следующим замечательным свойством -узлы ее расположились таким образом, что объектам, похожим между собой, соответствуют соседние узлы карты (рис. 5.10). Теперь определяем, в какие узлы карты попали объекты. Это также определяется ближайшим узлом — объект попадает в тот узел, который находится ближе к нему, В результате описанных операций объекты со схожими параметрами попадут в один узел или в соседние узлы. Таким образом, можно считать, что решена задача по­иска похожих объектов и их группировки.

Рис. 5.10. Вид пространства после наложения карты

Но на этом возможности карт Кохонена не заканчиваются. Они позволяют также представить полученную информацию в простой и наглядной форме путем нанесения раскраски. Для этого раскрашиваем полученную карту (точ-нee, ее узлы) цветами, соответствующими интересующим нас признакам объ­ектов. Возвращаясь к примеру с классификацией банков, можно раскрасить одним цветом те узлы, куда попал хоть один из банков, у которых была отозвана лицензия. Тогда после нанесения раскраски получим зону, которую можно назвать зоной риска, и попадание интересующего нас банка в эту зону творит о его ненадежности.

Но и это еще не все. Можно также получить информацию о зависимостях между параметрами. Нанеся на карту раскраску, соответствующую различ­ным статьям отчетов, можно получить так называемый атлас, хранящий в себе информацию о состоянии рынка. При анализе, сравнивая расположение цветов на раскрасках, порожденных различными параметрами, можно полу­чить полную информацию о финансовом портрете банков-неудачников, про­цветающих банков и т. д.

При всем этом описанная технология является универсальным методом ана­лиза. С ее помощью можно анализировать различные стратегии деятельно­сти, производить анализ результатов маркетинговых исследований, проверять кредитоспособность клиентов и т. д.

Таким образом, имея перед собой карту и владея информацией о части иссле­дуемых объектов, можно достаточно достоверно судить о малознакомых объ­ектах. Нужно узнать, что на самом деле представляет собой новый партнер? Отобразим его на карте и посмотрим на соседей. В результате можно извле­чь информацию из базы данных, основываясь на нечетких характеристиках.

Выводы

Из материала, изложенного в данной главе, можно сделать следующие вы­воды.

□ В задаче классификации и регрессии требуется определить значение зави- симой переменной объекта на основании значений других переменных, характеризующих его.

□ Наиболее распространенные модели, отражающие результаты классифи­кации, — это классификационные правила, деревья решений, математиче­ские (линейные и нелинейные) функции.

□ Классификационные правила состоят из двух частей: условия и заключе­ ния. Они могут быть построены, например, такими методами, как 1R и Naive Bayes.

□ Деревья решений — это способ представления правил в иерархической, последовательной структуре. Они строятся такими алгоритмами, как ID3, С4.5 и алгоритмом покрытия.

□ Математическая функция выражает отношение зависимой переменной от независимых. Строится статистическими методами, а также методом SVM.

□ Идея алгоритма 1R заключается в формировании для каждого возможного значения каждой независимой переменной правила, которое классифици­рует объекты из обучающей выборки.

□ Идея метода Naive Bayes заключается в расчете условной вероятности принадлежности объекта к классу при равенстве его независимых пере­менных определенным значениям.

□ Алгоритмы ID3 и С4.5 основаны на методе "разделяй и властвуй", суть которого заключается в рекурсивном разбиении множества объектов кз обучающей выборки на подмножества, содержащие объекты, относящиеся к одинаковым классам.

□ Идея алгоритма покрытия заключается в построении деревьев решений для каждого класса по отдельности.

□ Идея метода SVM основывается на предположении, что наилучшим спо­собом разделения точек в m-мерном пространстве, является т-1 плоскость (заданная функцией f(x)), равноудаленная от точек, принадлежащих ным классам.

Соседние файлы в папке Лекции по СППР!