- •1 Цель анализа
- •2 Исходные данные
- •3 Анализ методом главных компонент
- •4 Кластерный анализ
- •5 Кластерный анализ с применением карт Кохонена
- •6 Построение деревьев решений
- •7 Структурирование проблемной области
- •Заключение
- •Приложение а – исходная выборка
- •Приложение б – Принадлежность наблюдений к классам
4 Кластерный анализ
Кластерный анализ предназначен для разбиения множества объектов на заданное или неизвестное число классов на основании некоторого математического критерия качества классификации
Введем исходные данные в электронную таблицу STATGRAPHICS (20x8). Для более детального анализа проделаем ряд операций. Получим дендрограмму методом Варда для трех кластеров (классов) (рисунок 4.1).
Рисунок 4.1 – Дендрограмма для трех классов
Сводка кластерного анализа представлена в таблицах 4.1 и 4.2.
Таблица 4.1
Сводка кластерного анализа
Cluster |
Members |
Percent |
1 |
44 |
89,58 |
2 |
2 |
4,17 |
3 |
3 |
6,25 |
Таблица 4.2
Centroids | |||||
Cluster |
налоговые |
неналоговые |
безвозмездные перечисления |
Дорожное хозяйство | |
1 |
9071,69 |
796,186 |
2793,46 |
423,245 | |
2 |
71205 |
13009,1 |
2279,6 |
284,95 | |
3 |
28442,1 |
3655,87 |
14837,9 |
1736,27 | |
Centroids | |||||
Cluster |
ЖКХ |
здравоохранение |
Образование |
промышленность | |
1 |
1661,98 |
2496,45 |
3844,76 |
1077,23 | |
2 |
11458,5 |
13891 |
20601,1 |
8416,05 | |
3 |
4156,15 |
8608,47 |
4249,53 |
11707,2 | |
Centroids | |||||
Cluster |
Сельское хозяйство |
Социальная политика |
Транспорт |
| |
1 |
367,861 |
1768,98 |
157,832 |
| |
2 |
323,75 |
12107,5 |
1734,85 |
| |
3 |
1918,07 |
4565,13 |
658,667 |
|
Как видно из таблиц 4.1 и 4.2, в сводке кластерного анализа представлено число кластеров, количество объектов в каждом кластере и соответствующий процент. Кроме того, в нижней части сводки приводится дополнительная информация по координатам центроидов. По этим координатам можно судить о том, какие переменные играют наиболее важную роль в каждом кластере.
В таблице 4.3.представлена информация о принадлежности объектов к кластерам.
Таблица 4.3
Принадлежность объектов к кластерам
-
Номер
НАИМЕНОВАНИЕ
КЛАСТЕР
1
Белгородская
1
2
Брянская
1
3
Владимирская
1
4
Воронежская
1
5
Ивановская
1
6
Калужская
1
7
Костромская
1
8
Курская
1
9
Липецкая
1
10
Московская
2
11
Орловская
1
12
Рязанская
1
13
Смоленская
1
14
Тамбовская
1
15
Тверская
1
16
Тульская
1
17
Ярославская
1
18
Республика Карелия
1
19
Республика Коми
1
20
Архангельская
1
21
Вологодская
1
22
Калининградская
1
23
Ленинская
1
24
Мурманская
1
25
Новгородская
1
26
Псковская
1
27
Республика Адыгея
1
28
г.Санкт-Петербург
2
29
Республика Дагестан
1
30
Республика Ингушетия
1
31
Кабардино-Балкарская
1
32
Калмыкия
1
33
Карачаево-Черкесская
1
34
Республика Северная Осетия
1
35
Чеченская
1
36
Краснодарский край
3
37
Ставропольский край
1
38
Астраханская
1
39
Волгоградская
1
40
Ростовская
1
41
Республика Башкортостан
3
42
Республика Марий Эл
1
43
Республика Мордовия
1
44
Республика Татарстан
3
45
Удмуртская область
1
46
Чувашская
1
47
Кировская
1
48
Нижегородская
1
49
Оренбургская
1
Диаграмма рассеивания представлена на рисунке 4.2.
Рисунок 4.2 − Двухмерная диаграмма рассеивания
Диаграмма показывает, как группируются исследуемые наблюдения на плоскости двух переменных налоговые и неналоговые доходы. Каждый кластер обозначен на диаграмме собственным символом. Из рисунка видно, что первый кластер включает объекты 1,2,3,4,5,6,7,8,9,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,28,29,30,31,32,33,34,36,37,38,39,41,42,44,45,46,47,48.
Во втором кластере находятся объекты с номерами 10 и 27. В третий кластер попадают объекты 35,40,43.
Рассмотрим трехмерную диаграмму рассеивания. Она представлена на рисунке 4.3.
Рисунок 4.3 − Трехмерная диаграмма рассеивания
Таким образом, на основании информации о координатах центроидов выделенных кластеров и диаграммы рассевания можно сформулировать следующие правила классификации:
Правило 1 для кластера 1:
1)Если налоговые доходы = низкие И неналоговые = низкие И расходы на ЖКХ = низкие И расходы на здравоохранение = низкие И транспорт = низкие И расходы промышленность = низкие, ТО группа = Первая;
Правило 2 для кластера 2:
2) Если налоговые доходы = высокие И неналоговые = высокие И расходы на ЖКХ = высокие И расходы на здравоохранение = высокие И транспорт = высокие И расходы промышленность = высокие, ТО группа = Вторая;
Правило 3 для кластера 3:
3)Если налоговые доходы = средние И неналоговые = средние И расходы на ЖКХ = средние И расходы на здравоохранение = средние И транспорт = средние И расходы промышленность = средние, ТО группа = Третья;