Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Курсовой проект - Интеллектуальный анализ расходов и доходов субъектов РФ.doc
Скачиваний:
48
Добавлен:
02.05.2014
Размер:
910.85 Кб
Скачать

4 Кластерный анализ

Кластерный анализ предназначен для разбиения множества объектов на заданное или неизвестное число классов на основании некоторого математического критерия качества классификации

Введем исходные данные в электронную таблицу STATGRAPHICS (20x8). Для более детального анализа проделаем ряд операций. Получим дендрограмму методом Варда для трех кластеров (классов) (рисунок 4.1).

Рисунок 4.1 – Дендрограмма для трех классов

Сводка кластерного анализа представлена в таблицах 4.1 и 4.2.

Таблица 4.1

Сводка кластерного анализа

Cluster

Members

Percent

1

44

89,58

2

2

4,17

3

3

6,25

Таблица 4.2

Centroids

Cluster

налоговые

неналоговые

безвозмездные перечисления

Дорожное хозяйство

1

9071,69

796,186

2793,46

423,245

2

71205

13009,1

2279,6

284,95

3

28442,1

3655,87

14837,9

1736,27

Centroids

Cluster

ЖКХ

здравоохранение

Образование

промышленность

1

1661,98

2496,45

3844,76

1077,23

2

11458,5

13891

20601,1

8416,05

3

4156,15

8608,47

4249,53

11707,2

Centroids

Cluster

Сельское хозяйство

Социальная политика

Транспорт

1

367,861

1768,98

157,832

2

323,75

12107,5

1734,85

3

1918,07

4565,13

658,667

Как видно из таблиц 4.1 и 4.2, в сводке кластерного анализа представлено число кластеров, количество объектов в каждом кластере и соответствующий процент. Кроме того, в нижней части сводки приводится дополнительная информация по координатам центроидов. По этим координатам можно судить о том, какие переменные играют наиболее важную роль в каждом кластере.

В таблице 4.3.представлена информация о принадлежности объектов к кластерам.

Таблица 4.3

Принадлежность объектов к кластерам

Номер

НАИМЕНОВАНИЕ

КЛАСТЕР

1

Белгородская

1

2

Брянская

1

3

Владимирская

1

4

Воронежская

1

5

Ивановская

1

6

Калужская

1

7

Костромская

1

8

Курская

1

9

Липецкая

1

10

Московская

2

11

Орловская

1

12

Рязанская

1

13

Смоленская

1

14

Тамбовская

1

15

Тверская

1

16

Тульская

1

17

Ярославская

1

18

Республика Карелия

1

19

Республика Коми

1

20

Архангельская

1

21

Вологодская

1

22

Калининградская

1

23

Ленинская

1

24

Мурманская

1

25

Новгородская

1

26

Псковская

1

27

Республика Адыгея

1

28

г.Санкт-Петербург

2

29

Республика Дагестан

1

30

Республика Ингушетия

1

31

Кабардино-Балкарская

1

32

Калмыкия

1

33

Карачаево-Черкесская

1

34

Республика Северная Осетия

1

35

Чеченская

1

36

Краснодарский край

3

37

Ставропольский край

1

38

Астраханская

1

39

Волгоградская

1

40

Ростовская

1

41

Республика Башкортостан

3

42

Республика Марий Эл

1

43

Республика Мордовия

1

44

Республика Татарстан

3

45

Удмуртская область

1

46

Чувашская

1

47

Кировская

1

48

Нижегородская

1

49

Оренбургская

1

Диаграмма рассеивания представлена на рисунке 4.2.

Рисунок 4.2 − Двухмерная диаграмма рассеивания

Диаграмма показывает, как группируются исследуемые наблюдения на плоскости двух переменных налоговые и неналоговые доходы. Каждый кластер обозначен на диаграмме собственным символом. Из рисунка видно, что первый кластер включает объекты 1,2,3,4,5,6,7,8,9,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,28,29,30,31,32,33,34,36,37,38,39,41,42,44,45,46,47,48.

Во втором кластере находятся объекты с номерами 10 и 27. В третий кластер попадают объекты 35,40,43.

Рассмотрим трехмерную диаграмму рассеивания. Она представлена на рисунке 4.3.

Рисунок 4.3 − Трехмерная диаграмма рассеивания

Таким образом, на основании информации о координатах центроидов выделенных кластеров и диаграммы рассевания можно сформулировать следующие правила классификации:

Правило 1 для кластера 1:

1)Если налоговые доходы = низкие И неналоговые = низкие И расходы на ЖКХ = низкие И расходы на здравоохранение = низкие И транспорт = низкие И расходы промышленность = низкие, ТО группа = Первая;

Правило 2 для кластера 2:

2) Если налоговые доходы = высокие И неналоговые = высокие И расходы на ЖКХ = высокие И расходы на здравоохранение = высокие И транспорт = высокие И расходы промышленность = высокие, ТО группа = Вторая;

Правило 3 для кластера 3:

3)Если налоговые доходы = средние И неналоговые = средние И расходы на ЖКХ = средние И расходы на здравоохранение = средние И транспорт = средние И расходы промышленность = средние, ТО группа = Третья;