- •1 Цель анализа
- •2 Исходные данные
- •3 Анализ методом главных компонент
- •4 Кластерный анализ
- •5 Кластерный анализ с применением карт Кохонена
- •6 Построение деревьев решений
- •7 Структурирование проблемной области
- •Заключение
- •Приложение а – исходная выборка
- •Приложение б – Принадлежность наблюдений к классам
5 Кластерный анализ с применением карт Кохонена
Для решения задачи кластеризации используется метод самоорганизующихся карт Кохонена с реализацией на основе нейросетевого пакета SOMap analyzer1.0.
Самоорганизующиеся карты Кохонена представляют собой прямонаправленные нейронные сети, которые используют алгоритм обучения без учителя, и с помощью процесса самоорганизации формируют выходные ячейки в топологическую карту, имеющую двухмерную структуру.
Структура сети Кохонена представлена на рисунке 5.1. Сеть однослойная (слой Кохонена); количество нейронов входного слоя определяется размерностью вектора признаков, по которому ведется кластеризация и равно 11; количество нейронов выходного слоя - 3 , который выдает номер кластера. Каждый нейрон слоя Кохонена с помощью весовых коэффициентов запоминает координаты ядра кластера и отвечает за отнесение объектов к этому кластеру. Интерпретатор выбирает максимальное значение среди всех выходов и выдает номер этого выхода, который является номером кластера.
Рисунок 5.1 – Структура сети Кохонена
В качестве исходных данных взяты признаки: доходы: налоговые, неналоговые, безвоздмездные перечисления; расходы: дорожное хозяйство, ЖКХ, здравоохранение, образование, промышленность, сельское хозяйство, социальная политика, транспорт.
Процесс обучения сети состоит из 5 этапов: выбор источника данных; настройка полей; установка параметров обучения; установка параметров визуализации; обучение (построение) карты.
В качестве источника данных используем созданную обучающую выборку. Параметры обучения, параметры визуализации представлены на рисунке 5.2.
Рисунок 5.2 – Информация о карте
Для построения карт открываем окно с картами по обучающей выборке и выбираем нужные карты. Результаты построения карт представлены на рисунке 5.3.
Рисунок 5.3 – Карты по обучающей выборке
На основе анализа построенных карт были выявлены следующие характеристики построенных кластеров. В таблице 5.1 приведены значения признаков, наиболее характерных для каждого из кластеров; жирным шрифтом отмечены признаки, определяющие принадлежность объекта кластеру.
Таблица 5.1
Характеристика кластеров по признакам
|
Кластер 1 |
Кластер 2 |
Кластер 3 |
Налоговые доходы |
малый |
высокий |
средний |
Неналоговые доходы |
малый |
высокий |
средний |
Безвозмездные перечисления |
средний |
малый |
высокий |
Расходы на дорожное хозяйство |
средний |
малый |
высокий |
Расходы на ЖКХ |
малый |
высокий |
средний |
Расходы на здравоохранение |
малый |
высокий |
средний |
Расходы на образование |
средний |
высокий |
малый |
Расходы на промышленность |
малый |
средний |
высокий |
Расходы на сельское хозяйство |
средний |
малый |
высокий |
Расходы на социальную политику |
средний |
высокий |
средний |
Расходы на транспорт |
малый |
высокий |
средний |
Статистика по каждому кластеру в отдельности представлена на рисунках 5.4– 5.6.
Рисунок 5.4 – Статистика по первому кластеру
Рисунок 5.5 – Статистика по второму кластеру
Рисунок 5.6 – Статистика по третьему кластеру
В окне «статистика» отображаются: минимальное значение; максимальное значение; среднее значение; стандартное отклонение (дисперсия); количество элементов в кластере.
На основе проведенного кластерного анализа можно извлечь следующие правила.
1. Если налоговые = высокий И неналоговые = высокий, то Кластер 2.
2. Если налоговые = средний И неналоговые = средний, то Кластер 3.
3. Если налоговые = малый И неналоговые = малый, то Кластер 1.