
- •Оглавление
- •Постановка задачи
- •Глава 1. «Компонентный анализ»
- •§1. «Проверка гипотезы: сколько факторов следует выделять?»
- •§2. «Интерпретация факторов (главных компонент)»
- •§3. «Построение диаграммы рассеивания»
- •§4. «Построение уравнения регрессии на главных компонентах»
- •Глава 2. «Кластерный анализ»
- •§1. «Построение и анализ дендрограмм»
- •§2. «Использование метода k-средних для классификации объектов»
- •§3. «Создание таблицы «состав кластеров»
- •§4. «Описание кластеров с помощью графических средств»
- •Глава3. «Дискриминантный анализ»
- •§1. «Уточнение результатов классификации»
- •§2. «Построение дискриминантной функции с помощью включения всех переменных»
- •2.1. Исследование качества классификации
- •2.2. Построение дискриминантной функции
- •2.3. Графический анализ результатов классификации
- •§3. «Построение дискриминантной функции с помощью пошагового алгоритма»
- •Заключение
- •Список литературы
- •Приложения
Глава 2. «Кластерный анализ»
§1. «Построение и анализ дендрограмм»
Вначале проведем стандартизацию переменных, линейным преобразованием добившись разброса значений от 0 до 1.
Для определения расстояния между парой кластеров могут использоваться разные подходы:
1) Среднее расстояние между кластерами (Межгрупповые связи)
По результатам работы иерархического кластерного анализа составили протокол объединения объектов (Таблица 5) и дендрограмму, демонстрирующую ход этого объединения (Рисунок 4).
Таблица 5 «Протокол объединения объектов в иерархическом кластерном анализе»
Шаги агломерации |
||||||
Этап |
Кластер объединен с |
Коэффициенты |
Этап первого появления кластера |
Следующий этап |
||
Кластер 1 |
Кластер 2 |
Кластер 1 |
Кластер 2 |
|||
1 |
29 |
42 |
,003 |
0 |
0 |
11 |
2 |
17 |
32 |
,008 |
0 |
0 |
4 |
3 |
5 |
7 |
,011 |
0 |
0 |
6 |
4 |
17 |
34 |
,014 |
2 |
0 |
13 |
5 |
2 |
10 |
,014 |
0 |
0 |
7 |
6 |
1 |
5 |
,022 |
0 |
3 |
9 |
7 |
2 |
15 |
,022 |
5 |
0 |
22 |
8 |
6 |
14 |
,023 |
0 |
0 |
9 |
9 |
1 |
6 |
,030 |
6 |
8 |
15 |
10 |
12 |
44 |
,035 |
0 |
0 |
29 |
11 |
11 |
29 |
,035 |
0 |
1 |
15 |
12 |
22 |
33 |
,036 |
0 |
0 |
30 |
13 |
8 |
17 |
,045 |
0 |
4 |
21 |
14 |
3 |
43 |
,045 |
0 |
0 |
22 |
15 |
1 |
11 |
,046 |
9 |
11 |
16 |
16 |
1 |
9 |
,049 |
15 |
0 |
21 |
17 |
21 |
31 |
,057 |
0 |
0 |
28 |
18 |
16 |
36 |
,059 |
0 |
0 |
20 |
19 |
28 |
40 |
,062 |
0 |
0 |
28 |
20 |
16 |
18 |
,070 |
18 |
0 |
25 |
21 |
1 |
8 |
,077 |
16 |
13 |
25 |
22 |
2 |
3 |
,082 |
7 |
14 |
27 |
23 |
23 |
24 |
,082 |
0 |
0 |
31 |
24 |
25 |
26 |
,118 |
0 |
0 |
32 |
25 |
1 |
16 |
,129 |
21 |
20 |
29 |
26 |
38 |
39 |
,138 |
0 |
0 |
32 |
27 |
2 |
4 |
,144 |
22 |
0 |
33 |
28 |
21 |
28 |
,159 |
17 |
19 |
33 |
29 |
1 |
12 |
,159 |
25 |
10 |
34 |
30 |
19 |
22 |
,187 |
0 |
12 |
37 |
31 |
23 |
37 |
,201 |
23 |
0 |
37 |
32 |
25 |
38 |
,215 |
24 |
26 |
35 |
33 |
2 |
21 |
,232 |
27 |
28 |
34 |
34 |
1 |
2 |
,267 |
29 |
33 |
40 |
35 |
25 |
35 |
,289 |
32 |
0 |
40 |
36 |
13 |
41 |
,299 |
0 |
0 |
41 |
37 |
19 |
23 |
,342 |
30 |
31 |
39 |
38 |
27 |
30 |
,444 |
0 |
0 |
42 |
39 |
19 |
20 |
,450 |
37 |
0 |
42 |
40 |
1 |
25 |
,496 |
34 |
35 |
41 |
41 |
1 |
13 |
,608 |
40 |
36 |
43 |
42 |
19 |
27 |
,730 |
39 |
38 |
43 |
43 |
1 |
19 |
1,024 |
41 |
42 |
0 |
Из Таблицы 5 видно, что на первом шаге произошло объединение 29-го и 42-го объектов (Пензенской области и Республики Саха), поскольку между этими объектами было наименьшее расстояние, равное 0,003 (колонка Коэффициенты). В колонке Следующий этап указывается, что в следующий раз тот кластер, который получен на первом шаге, будет задействован в объединении на одиннадцатом шаге. Таким образом, когда на одиннадцатом шаге указано, что одним из объединяемых объектов является объект номер 29 (расстояние объединения 0,035), надо иметь в виду, что это не сам 29-й объект, а уже то, что получилось в результате объединения 29-го и 42-го объектов на первом шаге.
Дендрограмма (Рисунок 4) наглядно демонстрирует, что, например, объект «Ставропольский край» располагается достаточно далеко от других объектов и был объединен с группой объектов «Ростовская область–Челябинская область–Республика Башкортостан–Республика Татарстан–Краснодарский край–Красноярский край» только на 39-ом шаге алгоритма. Кроме того, пара объектов «Пермский край–Самарская область» объединяется с указанной ранее группой объектов лишь на предпоследнем шаге, что свидетельствует об аномальности этих наблюдений в исследуемой совокупности регионов России.
На основании графического представления результатов кластерного анализа можно сделать вывод, что наиболее предпочтительным является разбиение регионов на два кластера: S(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 21, 25, 26, 28, 29, 31, 32, 34, 35, 36, 38, 39, 40, 41, 42, 43, 44) и S(19, 20, 22, 23, 24, 27, 30, 33, 37 – Краснодарский край, Ставропольский край, Ростовская область, Республика Башкортостан, Республика Татарстан, Пермский край, Самарская область, Челябинская область, Красноярский край), когда пороговое расстояние находится в интервале 0,730<dпор<1,024.
Рисунок 4 «Дендрограмма, демонстрирующая объединение объектов в иерархическом кластерном анализе»
Альтернативная гипотеза о числе кластеров, равном трем (в отдельный кластер выделяется пара объектов «Пермский край–Самарская область»), отвергается – в данном случае интервал изменения расстояния объединения существенно уже 0,608<dпор<0,730.
2) Среднее расстояние между всеми объектами пары кластеров с учетом расстояний внутри кластеров (Внутригрупповые связи).
Протокол объединения объектов (Таблица 1) и дендрограмма, демонстрирующая ход этого объединения (Рисунок 1), представлены в Приложениях к настоящему Отчету.
Наилучшим является разбиение на два кластера: S1(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 20, 21, 25, 26, 27, 28, 29, 31, 32, 34, 35, 36, 38, 39, 40, 41, 42, 43, 44) и S2(19, 22, 23, 24, 30, 33, 37 – Краснодарский край, Ростовская область, Республика Башкортостан, Республика Татарстан, Самарская область, Челябинская область, Красноярский край), после предпоследнего шага классификации, когда интервал изменения расстояния объединения наибольший 0,363<dпор<0,552.
3) Расстояние между ближайшими соседями – ближайшими объектами кластеров.
Протокол объединения объектов (Таблица 2) и дендрограмма, демонстрирующая ход этого объединения (Рисунок 2), представлены в Приложениях к настоящему Отчету.
Наиболее предпочтительным является разбиение на три кластера: S1(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44), S2(13 –Архангельская область), и S3(30 – Самарская область), когда интервал изменения расстояния объединения наибольший 0,200<dпор<0,299.
4) Расстояние между самыми далекими соседями.
Протокол объединения объектов (Таблица 3) и дендрограмма, демонстрирующая ход этого объединения (Рисунок 3), представлены в Приложениях к настоящему Отчету.
Наиболее целесообразным является разбиение на два кластера: S1(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 25, 26, 29, 32, 34, 35, 36, 38, 39, 41, 42, 43, 44) и S2(19, 20, 21, 22, 23, 24, 27, 28, 30, 31, 33, 37, 40 – Краснодарский край, Ставропольский край, Волгоградская область, Ростовская область, Республика Башкортостан, Республика Татарстан, Пермский край, Оренбургская область, Самарская область, Саратовская область Челябинская область, Красноярский край, Омская область), после предпоследнего шага классификации, когда пороговое расстояние находится в интервале 1,623<dпор<2,629.
5) Метод Варда – в качестве расстояния между объектами берется прирост суммы квадратов расстояний объектов до центров кластеров, получаемый в результате их объединения.
Протокол объединения объектов (Таблица 4) и дендрограмма, демонстрирующая ход этого объединения (Рисунок 4), представлены в Приложениях к настоящему Отчету.
Наилучшим является разбиение на два кластера: S1(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 25, 26, 28, 29, 32, 34, 35, 36, 38, 39, 40, 41, 42, 43, 44) и S2(19, 20, 21, 22, 23, 24, 27, 30, 31, 33, 37 – Краснодарский край, Ставропольский край, Волгоградская область, Ростовская область, Республика Башкортостан, Республика Татарстан, Пермский край, Самарская область, Саратовская область Челябинская область, Красноярский край), после предпоследнего шага классификации, когда интервал изменения расстояния объединения наибольший 7,148<dпор<11,876.
Таким образом, сравнивая результаты пяти разбиений 44 регионов на однородные группы можно отметить, что наиболее устойчивым и, следовательно, предпочтительным, является разбиение на два кластера, соответствующее разбиению с использованием метода межгрупповых связей: S1(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 21, 25, 26, 28, 29, 31, 32, 34, 35, 36, 38, 39, 40, 41, 42, 43, 44) и S2(19, 20, 22, 23, 24, 27, 30, 33, 37 – Краснодарский край, Ставропольский край, Ростовская область, Республика Башкортостан, Республика Татарстан, Пермский край, Самарская область, Челябинская область, Красноярский край).