Кластерный анализ
Кластерный анализ представляет собой класс методов, используемых для классификации объектов или событий в относительно однородные группы, которые называются кластерами. Этапы выполнения кластерного анализа.
1. Формулировка проблемы.
2. Выбор меры расстояния.
3. Выбор метода кластеризации.
4. Принятие решения о количестве кластеров.
5. Интерпретация и профилирование кластеров.
6. Оценка достоверности кластеризации.
Данный кластерный анализ проводится на основе факторного, который был рассмотрен ранее. В таблице 9 рассмотрены основные показатели. Сначала проводится иерархический кластерный анализ, основанный на построении иерархической или древовидной структуры. Далее же для выявления принадлежности объектов к кластерам применяется кластерный метод к-средних.
Таблица 9- Сводка обработки наблюдений(a,b)
Наблюдения |
|||||
Валидный |
Пропущенные значения |
Итого |
|||
N |
Процент |
N |
Процент |
N |
Процент |
20 |
100,0 |
0 |
,0 |
20 |
100,0 |
a Квадраты Евклидовых Расстояний использованное
b Средние связи (между группами)
В таблице 10 приведена последовательность объединения объектов в кластеры. Количество кластеров определяется следующим образом: сначала надо найти скачок коэффициентов близости объектов примерно в два раза, а затем из общего количества объектов вычесть тот номер этап, на котором произошел скачок. В нашем случае скачок с 0,752 до 5,336 произошел на этапе 17, следовательно из 20 объектов вычитаем 17 и получаем 3, то есть три кластера.
В ходе кластеризации первым делом вычисляется матрица различий между групповыми объектами- это матрица евклидовых расстояний. Евклидово расстояние вычисляется по формуле:
Таблица 10- Шаги агломерации
Этап |
Кластер объединен с |
Коэффициенты |
Этап первого появления кластера |
Следующий этап |
||
|
Кластер 1 |
Кластер 2 |
|
Кластер 1 |
Кластер 2 |
|
1 |
6 |
17 |
,004 |
0 |
0 |
4 |
2 |
5 |
11 |
,017 |
0 |
0 |
5 |
3 |
2 |
13 |
,021 |
0 |
0 |
8 |
4 |
6 |
15 |
,026 |
1 |
0 |
9 |
5 |
5 |
20 |
,055 |
2 |
0 |
14 |
6 |
1 |
3 |
,070 |
0 |
0 |
13 |
7 |
10 |
16 |
,096 |
0 |
0 |
12 |
8 |
2 |
9 |
,144 |
3 |
0 |
14 |
9 |
6 |
12 |
,147 |
4 |
0 |
11 |
10 |
14 |
19 |
,167 |
0 |
0 |
17 |
11 |
6 |
7 |
,224 |
9 |
0 |
16 |
12 |
10 |
18 |
,254 |
7 |
0 |
15 |
13 |
1 |
8 |
,260 |
6 |
0 |
16 |
14 |
2 |
5 |
,343 |
8 |
5 |
18 |
15 |
4 |
10 |
,457 |
0 |
12 |
17 |
16 |
1 |
6 |
,506 |
13 |
11 |
18 |
17 |
4 |
14 |
,752 |
15 |
10 |
19 |
18 |
1 |
2 |
5,336 |
16 |
14 |
19 |
19 |
1 |
4 |
5,746 |
18 |
17 |
0 |
Также оптимальное количество кластеров можно определить из таблицы «Принадлежность к кластерам» (табл. 11), где приводится распределение объектов по кластерам в зависимости от их количества.
Таблица 11- Принадлежность к кластерам
Наблюдение |
10 клас теров |
9 кластеров |
8 кластеров |
7 кластеров |
6 кластеров |
5 кластеров |
4 кластеров |
3 кластеров |
2 кластеров |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
2 |
2 |
2 |
2 |
2 |
2 |
2 |
2 |
2 |
1 |
3 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
4 |
3 |
3 |
3 |
3 |
3 |
3 |
3 |
3 |
2 |
5 |
4 |
4 |
4 |
4 |
2 |
2 |
2 |
2 |
1 |
6 |
5 |
5 |
5 |
5 |
4 |
4 |
1 |
1 |
1 |
7 |
6 |
5 |
5 |
5 |
4 |
4 |
1 |
1 |
1 |
8 |
7 |
6 |
6 |
1 |
1 |
1 |
1 |
1 |
1 |
9 |
2 |
2 |
2 |
2 |
2 |
2 |
2 |
2 |
1 |
10 |
8 |
7 |
7 |
6 |
5 |
3 |
3 |
3 |
2 |
11 |
4 |
4 |
4 |
4 |
2 |
2 |
2 |
2 |
1 |
12 |
5 |
5 |
5 |
5 |
4 |
4 |
1 |
1 |
1 |
13 |
2 |
2 |
2 |
2 |
2 |
2 |
2 |
2 |
1 |
14 |
9 |
8 |
8 |
7 |
6 |
5 |
4 |
3 |
2 |
15 |
5 |
5 |
5 |
5 |
4 |
4 |
1 |
1 |
1 |
16 |
8 |
7 |
7 |
6 |
5 |
3 |
3 |
3 |
2 |
17 |
5 |
5 |
5 |
5 |
4 |
4 |
1 |
1 |
1 |
18 |
10 |
9 |
7 |
6 |
5 |
3 |
3 |
3 |
2 |
19 |
9 |
8 |
8 |
7 |
6 |
5 |
4 |
3 |
2 |
20 |
4 |
4 |
4 |
4 |
2 |
2 |
2 |
2 |
1 |
Рисунок 1 – Вертикальная сосульчатая диаграмма
Также обединение объектов в кластеры можно проследить по соульчатой диаграмме (рис. 1) и по дендрограмме (рис. 2).
* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *
Dendrogram using Average Linkage (Between Groups)
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
6
17
15
12
7
1
3
8
5
11
20
2
13
9
14
19
10
16
18
4
Мы выделили три кластера и распределение объектов между кластерами можно наблюдать в талицах 12 и 13.
Таблица 12- Принадлежность к кластерам
Наблюдение |
3 кластеров |
1 |
1 |
2 |
2 |
3 |
1 |
4 |
3 |
5 |
2 |
6 |
1 |
7 |
1 |
8 |
1 |
9 |
2 |
10 |
3 |
11 |
2 |
12 |
1 |
13 |
2 |
14 |
3 |
15 |
1 |
16 |
3 |
17 |
1 |
18 |
3 |
19 |
3 |
20 |
2 |
Таблица 13- Принадлежность к кластерам
Номер наблюдения |
Кластер |
Расстояние |
1 |
3 |
,263 |
2 |
2 |
,349 |
3 |
3 |
,526 |
4 |
1 |
,410 |
5 |
2 |
,262 |
6 |
3 |
,171 |
7 |
3 |
,421 |
8 |
3 |
,549 |
9 |
2 |
,187 |
10 |
1 |
,352 |
11 |
2 |
,202 |
12 |
3 |
,530 |
13 |
2 |
,409 |
14 |
1 |
,306 |
15 |
3 |
,214 |
16 |
1 |
,060 |
17 |
3 |
,126 |
18 |
1 |
,677 |
19 |
1 |
,715 |
20 |
2 |
,391 |
В таблице 14 приведено соотнесение выделенных факторов и кластеров, позволяя интерпретировать выделенные кластеры (табл.16), также анализ выводит количество объектов в каждом кластере (табл. 15).
Таблица 14- Конечные центры кластеров
|
Кластер |
||
|
1 |
2 |
3 |
REGR factor score 1 for analysis 1 |
-,18462 |
-1,20281 |
1,04057 |
REGR factor score 2 for analysis 1 |
1,41322 |
-,74040 |
-,50462 |
Таблица 15- Число наблюдений в каждом кластере
Кластер |
1 |
6,000 |
2 |
6,000 |
|
3 |
8,000 |
|
Валидные |
20,000 |
|
Пропущенные значения |
,000 |
Таблица 16- Интерпретация результатов
№ кластера |
Объекты, входящие в кластер |
Название кластера |
1 |
4, 10, 14, 16, 18, 19 |
«Экономные» |
2 |
2, 5, 9, 11, 13, 20 |
«Домоседы» |
3 |
1, 3, 6, 7, 8, 12, 15, 17 |
«Шопоголики» |