
Кластерный анализ
Цель кластерного анализа - исследование структуры выборочной совокупности объектов или/и переменных.
Данные для кластерного анализа представляют собой матрицу расстояний (для объектов) или матрицу корреляций (для переменных).
Расстояние между двумя объектами является мерой их различия: чем больше два объекта отличаются друг от друга (по значениям переменных), тем больше расстяоние между ними.
Свойства расстояния между двумя объектами А и В:
dAB ~ 0;
расстояние dлв =О, если объекты А и В тождественны друг другу (значения переменных для
них совпадают);
3. dАв может быть не ограничено «сверху»;
расстояние между объектами А и В симметрично: dлв = dвл
для любых трех объектов А, В и С выполняется «неравенство треугольника»: d Ан ::;; d .«: + d вс:
Расстояния могут вычисляться для количественных (в том числе сгруппированных в интервалы), дихотомических и некоторых порядковых шкал. Наиболее часто используется многомерное расстояние Евклида:
11
dлв = JL(Xл; -хвJ2
i=I
Для дихотомических переменных вычисляется расстояние "city Ыосk" или "манхеттенское" k
расстояние: dлв = Ilxл; -хшl
i=I
Матрица расстояний имеет размерность п х п, где п - объем выборки; на главной диагонали находятся нули. Она симметрична относительно главной диагонали (su = sfi для \fi,j = 1,п ).
Матрица расстояний:
|
1 |
2 |
3 |
... |
J |
. .. |
n |
1 |
о |
~2 |
~3 |
... |
~j |
. .. |
~п |
2 |
~] |
о |
~ |
". |
~j |
. .. |
~п |
3 |
S31 |
~ |
о |
... |
~ |
. .. |
~ |
... |
. .. |
. .. |
. .. |
. .. |
. .. |
". |
. .. |
1 |
~ |
~2 |
~3 |
... |
~ |
. .. |
~ |
. " |
... |
. .. |
. .. |
". |
. .. |
. .. |
". |
n |
snl |
sn2 |
Sn3 |
... |
~ |
. .. |
о |
Терещенко О. В. Кластерный анализ
1
Количественные методы анализа данных в СИ
Основные группы методов кластерного анализа (КА):
иерархический агломеративный КА;
иерархический дивизимный КА;
иерархический центроидный КА;
КА с обучением.
Иерархические агломеративные методы - пошаговое объединение объектов, начиная с наиюолее близких, до тех пор, пока все объекты не объединятся в один класс:
метод «ближнего соседа» (nearest neighbor);
метод «среднего соседа» (between-groups average; within-groups average );
метод «дальнего соседа» (furthest neighbor);
метод Уорда (Ward's method).
Иерархические дивизимные методы - пошаговое «расслоение» выборки на все более мелкие классы, до тех пор пока каждый объект не будет составлять отдельный класс.
Центроидные методы - поиск «сгущений» объектов в пространстве признаков ( centroid clustering).
Методы КА с обучением - объединение объектов по степени «похожести» на некотороые специально заданные «Эталонные» объекты (k-means cluster).
Результаты иерархической кластеризации представляются в виде специальных графиков - дендрограмм. На дендрограмме показывается последовательность объединения (или
разделения) кластеров.
ИЕРАРХИЧЕСКИЙ КЛАСТЕРНЬIЙ АНАЛИЗ
Analyze \ Classify \ Hierarchical Cluster •.. \ в окно VariaЫes переписать имена используемых переменных \ в окно Label Cases Ьу поместить имя текстовой переменной для обозначения объектов на дендрогорамме \ в разделе Cluster выбрать Cases или VariaЫes \ в разделе Display указать Plots \ в разделе Plots указать Dendrogram (Icicle попе) \ в разделе Methods выбрать метод кластерного анализа (по умолчанию Within-Groups Linkage) и меру расстояния (для объектов Squared Euclidian Distance, для переменных Pearson Correlation) \ для сохранения номеров классов в качестве новой переменной в разделе указать, сколько кластеров
интерпретировать (Single Solution) \ ОК
НЕИЕРАРХИЧЕСКИЙ КЛАСТЕРНЫЙ АНАЛИЗ / КЛАСТЕРНЬIЙ АНАЛИЗ С ОБУЧЕНИЕМ
Analyze \ Classify \ K-Means Cluster ... \ в окно VariaЫes переписать имена используемых переменных \ в окно Label Cases Ьу поместить имя текстовой переменной для обозначения объектов \ в окне Number of Clusters указать желаемое количество кластеров \ выбрать метод Iterate and classify или Classify only \ в разделе Options указать Initial cluster centers и Cluster information for each case \ при необходимости задать центры будущих кластеров в разделе Centers указать Read initial from \ кликнуть по кнопке File и в открывшемся окне задать имя
заранее подготовленного файла \ ОК
Файл, содержащий центры будуп:(их кластеров, состоит из переменных, используемых для
кластеризации. Число случаев в нем должно быть равно числу выделяемых кластеров. Каждый случай (строка) представляет собой вектор координат центра будущего кластера.
2
Терещенко О. В. Кластерный анализ
Количественные методы анализа данных в СИ
Пример 1: ЮIАСТЕРНЫЙ АНАЛИЗ ПЕРЕМЕННЫХ
* * * * * * Н I Е R А R С Н I С А L С L U S Т Е R
А N А L У S I S * * * *
Dendrogram using Average Linkage (B~tween Groups)
Rescaled Distance Cluster Combine
С А S Е |
|
Label |
Num |
CLASSICL |
6 |
OPERA |
9 |
BIGBAND |
1 |
MUSICALS |
5 |
FOLK |
7 |
BLUES |
4 |
JAZZ |
8 |
BLUGRASS |
2 |
COUNTRY |
3 |
RAP |
10 |
HVYMETAL |
11 |
о
5
10
15
20
25
+---------+---------+---------+---------+---------+
Пример 2: КЛАСТЕРНЫЙ АНАЛИЗ СЛУЧАЕВ:
Бюджет времени различных: социальных групп. Каждая группа маркируется тремя показателями, характеризующими ее социально-демографические характеристики. Переменные - усредненные для каждой группы отдельные статьи бюджета времени, в часах за 100 суток (см. на следующей странице)
J |
|
|
|
|
|
1 |
|
|
|
|
|
|
|
|
_J |
|
|
|
1 |
|
|
|
|
|
|
1 |
ЗАДАНИЕ:
Подберите исходные данные для кластерного анализа
Выполните кластерный анализ
Про интерпретируйте полученную кластерную структуру
Терещенко О. В. Кластерный анализ
3