
Лекции по СППР / Лекции по СППР! / Карта_Кохонена
.doc5.6. Карта Кохонена
Иногда возникает задача анализа данных, которые с трудом можно представить в математической числовой форме. Это случай, когда нужно извлечь данные, принципы отбора которых заданы нечетко: выделить надежных партнеров, определить перспективный товар и т. п. Рассмотрим типичную для задач подобного рода ситуацию— предсказание банкротств. Предполо-жим, что имеется информация о деятельности нескольких десятков банков (их открытая финансовая отчетность) за некоторый период времени. По окончании этого периода известно, какие из этих банков обанкротились, у каких отозвали лицензию, а какие продолжают стабильно работать (на мо-мент окончания периода). И теперь необходимо решить вопрос о том, в каком из банков стоит размещать средства. Естественно, маловероятно желание разместить средства в банке, который может скоро обанкротиться. Значит, надо каким-либо образом решить задачу анализа рисков вложений в различ-ные коммерческие структуры.
На первый взгляд, решить эту проблему несложно— ведь имеются данные о работе банков и результат их деятельности. Однако данная задача не так проста, поскольку имеющиеся сведения описывают прошедший период, а интерес представляет то, что будет в дальнейшем. Таким образом, на основании имеющихся у нас априорных данных необходимо получить прогноз на дальнейший период. Для решения этой задачи можно использовать различные методы.
Так, например, наиболее очевидным является применение методов математи-ческой статистики. Но при этом возникает проблема с количеством данных, ибо статистические методы хорошо работают при большом объеме априор-ных данных, а их в конкретном случае может оказаться недостаточно. При этом статистические методы не могут гарантировать успешный результат
Другой путь решения этой задачи — применение нейронных сетей, которые можно обучить на имеющемся наборе данных. В этом случае в качестве исходной информации используются данные финансовых отчетов различных банков, а в качестве целевого поля — итог их деятельности.
Однако при использовании описанных выше методов результат навязывается без попытки найти закономерности в исходных данных. В принципе все обанкротившиеся банки похожи друг на друга хотя бы тем, что они обанкро-тились. Значит, в их деятельности должно быть нечто общее, что привело к этому итогу. Следовательно, можно попытаться выявить эти закономерно-сти с тем, чтобы использовать их в дальнейшем. Сразу же возникает вопрос о путях нахождения данных закономерностей. Если использовать методы статистики, надо определить, какие критерии "похожести" использовать, что может потребовать каких-либо дополнительных знаний о характере задачи.
Однако существует метод, позволяющий автоматизировать все действия по поиску закономерностей — метод анализа с использованием самоорганизующихся карт Кохонена. Рассмотрим, как решаются такие задачи и как карты Кохонена находят закономерности в исходных данных. Для общности рассмотрения будем использовать термин объект (например, объектом может быть банк, как в рассмотренном ранее примере, но описываемая методика без изменений подходит для решения и других задач, например: анализа кредитоспособности клиента, поиска оптимальной стратегии поведения на рынке и т. д.).
Каждый объект характеризуется набором различных параметров, которые описывают его состояние. В частности, для данного примера параметрами будут сведения из финансовых отчетов. Эти параметры часто имеют числовую форму или могут быть приведены к ней.
Таким образом, необходимо на основании анализа параметров объектов выявить схожие объекты и представить результат в форме, удобной для восприятия.
Все эти задачи решаются самоорганизующимися картами Кохонена. Рас-смотрим подробнее, как они работают. Для простоты будем считать, что объ-екты имеют 3 признака (на самом деле их может быть любое количество).
Рис. 5.8. Расположение объектов в пространстве
Теперь представим, что данные третьего параметра являются координатами обьектов в трехмерном пространстве (в том самом пространстве, которое окружает нас в повседневной жизни). Тогда каждый объект можно представить в виде точки в этом пространстве (во избежание проблем с различным масштабом по осям пронормируем все эти признаки в интервал [0, 1] любым подходящим способом), в результате чего все точки попадут в куб единичного размера. Отобразим эти точки (рис. 5.8).
Из рисунка видно, как расположены объекты в пространстве, причем легко заметить участки, где объекты группируются, т. е. у них схожи параметры, а значит, и сами эти объекты, скорее всего, принадлежат одной группе. Но так легко можно поступить только в случае, когда признаков немного (попробуйте, например, изобразить четырехмерное пространство). Значит, необходимо найти способ, которым можно преобразовать данную систему в простую для восприятия, желательно двумерную систему (трехмерную картинку невозможно корректно отобразить на плоскости бумажного листа) так, чтобы соседние в искомом пространстве объекты оказались рядом и на полученной картинке. Для этого используем самоорганизующуюся карту Кохонена. В первом приближении ее можно представить в виде сети, изготовленной из резины (рис. 5.9).
Рис. 5.9. Карта Кохонена
Эту сеть, предварительно "скомканную", бросаем в пространство признаков, где уже имеются объекты, и далее поступаем следующим образом: берем один объект (точку в этом пространстве) и находим ближайший к нему узел сети. Далее этот узел подтягивается к объекту (т. к. сетка "резиновая", то вместе с этим узлом так же, но с меньшей силой подтягиваются и соседние узлы). Затем выбирается другой объект (точка), и процедура повторяется, В результате получим карту, расположение узлов которой совпадает с расположением основных скоплений объектов в исходном пространстве. Кроме того, полученная карта обладает следующим замечательным свойством -узлы ее расположились таким образом, что объектам, похожим между собой, соответствуют соседние узлы карты (рис. 5.10). Теперь определяем, в какие узлы карты попали объекты. Это также определяется ближайшим узлом — объект попадает в тот узел, который находится ближе к нему, В результате описанных операций объекты со схожими параметрами попадут в один узел или в соседние узлы. Таким образом, можно считать, что решена задача поиска похожих объектов и их группировки.
Рис. 5.10. Вид пространства после наложения карты
Но на этом возможности карт Кохонена не заканчиваются. Они позволяют также представить полученную информацию в простой и наглядной форме путем нанесения раскраски. Для этого раскрашиваем полученную карту (точ-нee, ее узлы) цветами, соответствующими интересующим нас признакам объектов. Возвращаясь к примеру с классификацией банков, можно раскрасить одним цветом те узлы, куда попал хоть один из банков, у которых была отозвана лицензия. Тогда после нанесения раскраски получим зону, которую можно назвать зоной риска, и попадание интересующего нас банка в эту зону творит о его ненадежности.
Но и это еще не все. Можно также получить информацию о зависимостях между параметрами. Нанеся на карту раскраску, соответствующую различным статьям отчетов, можно получить так называемый атлас, хранящий в себе информацию о состоянии рынка. При анализе, сравнивая расположение цветов на раскрасках, порожденных различными параметрами, можно получить полную информацию о финансовом портрете банков-неудачников, процветающих банков и т. д.
При всем этом описанная технология является универсальным методом анализа. С ее помощью можно анализировать различные стратегии деятельности, производить анализ результатов маркетинговых исследований, проверять кредитоспособность клиентов и т. д.
Таким образом, имея перед собой карту и владея информацией о части исследуемых объектов, можно достаточно достоверно судить о малознакомых объектах. Нужно узнать, что на самом деле представляет собой новый партнер? Отобразим его на карте и посмотрим на соседей. В результате можно извлечь информацию из базы данных, основываясь на нечетких характеристиках.
Выводы
Из материала, изложенного в данной главе, можно сделать следующие выводы.
□ В задаче классификации и регрессии требуется определить значение зави- симой переменной объекта на основании значений других переменных, характеризующих его.
□ Наиболее распространенные модели, отражающие результаты классификации, — это классификационные правила, деревья решений, математические (линейные и нелинейные) функции.
□ Классификационные правила состоят из двух частей: условия и заключе ния. Они могут быть построены, например, такими методами, как 1R и Naive Bayes.
□ Деревья решений — это способ представления правил в иерархической, последовательной структуре. Они строятся такими алгоритмами, как ID3, С4.5 и алгоритмом покрытия.
□ Математическая функция выражает отношение зависимой переменной от независимых. Строится статистическими методами, а также методом SVM.
□ Идея алгоритма 1R заключается в формировании для каждого возможного значения каждой независимой переменной правила, которое классифицирует объекты из обучающей выборки.
□ Идея метода Naive Bayes заключается в расчете условной вероятности принадлежности объекта к классу при равенстве его независимых переменных определенным значениям.
□ Алгоритмы ID3 и С4.5 основаны на методе "разделяй и властвуй", суть которого заключается в рекурсивном разбиении множества объектов кз обучающей выборки на подмножества, содержащие объекты, относящиеся к одинаковым классам.
□ Идея алгоритма покрытия заключается в построении деревьев решений для каждого класса по отдельности.
□ Идея метода SVM основывается на предположении, что наилучшим способом разделения точек в m-мерном пространстве, является т-1 плоскость (заданная функцией f(x)), равноудаленная от точек, принадлежащих ным классам.