
- •Математические методы в психологии
- •Лекция 1. Измерения и шкалы
- •1.1. Типы измерений
- •Измерительные шкалы
- •1.3. Как определить, в какой шкале измерено явление
- •Лекция 2. Дискретный вариационный ряд и его основные показатели
- •2.1.Вариация признака в совокупности и значение её изучения
- •1. Выборочное среднее ,
- •Процедура проверки статистических гипотез заключается в следующем.
- •3.2. -Критерий Стьюдента
- •3.4. Алгоритм расчета -критерия Стьюдента для зависимых выборок измерений
- •Лекция 4. Критерии для непараметрических распределений
- •4.1. -Критерий Манна-Уитни
- •Алгоритм расчета критерия Манна-Уитни
- •4.2. Критерий знаков
- •Лекция 5. Вычисление и анализ коэффициента ранговой корреляции
- •5.1. Выполнить ранжирование по следующему алгоритму
- •5.2. Алгоритм расчета коэффициента ранговой корреляции Спирмена
- •Лекция 6. Многомерное шкалирование
- •6.1. Назначение
- •6.2. Многомерные методы и модели
- •Результаты мш субъективных оценок расстояний между 10 объектами (по данным табл. 8)
- •6.3. Неметрическая модель
- •Результаты попарного сравнения пяти методов многомерного анализа
- •Лекция 7. Кластерный анализ
- •7.1. Назначение
- •7.2. Методы кластерного анализа
- •Лекция 8. Уравнение линейной регрессии
- •8.1. Анализ статистической взаимосвязи между двумя рядами
- •8.2. Построение модели парной регрессии
- •8.3. Анализ качества модели парной регрессии
- •-Манна-Уитни
- •Критические значения критерия знаков
- •Библиографический список
7.2. Методы кластерного анализа
Непосредственными данными для применения любого метода кластеризации является матрица различий между всеми парами объектов. Определение или задание меры различия является первым и необходимым шагом кластерного анализа.
Из всего множества методов кластеризации наиболее распространены так называемые иерархические агломеративные методы. Название указывает на то, что классификация осуществляется путем последовательного объединения (агломерации) объектов в группы, оказывающиеся в результате иерархически организованными. Эти методы — очень простые комбинаторные процедуры, отличающиеся критерием объединения объектов в кластеры.
Критерий объединения многократно применяется ко всей матрице попарных расстояний между объектами. На первых шагах объединяются наиболее близкие объекты, находящиеся на одном уровне сходства. Затем поочередно присоединяются остальные объекты, пока все они не объединятся в один большой кластер. Результат работы метода представляется графически в виде дендрограммы - ветвистого древовидного графика.
Существуют различные методы иерархического кластерного анализа, в частности, в программе SPSS предлагается 7 методов. Каждый метод дает свои результаты кластеризации, но три из них являются наиболее типичными. Поэтому рассмотрим результаты применения этих методов к одним и тем же данным из примера рис.4.
Dendrogram
using Single Linkage
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num
3
9
2
5
7
8
10
1
4
6
Рис. 6. Дендрограмма для 10 студентов (метод одиночной связи)
Метод одиночной связи (Single Linkage) - наиболее понятный метод, который часто называют методом «ближайшего соседа» (Nearest Neighbor). Алгоритм начинается с поиска двух наиболее близких объектов, пара которых образует первичный кластер. Каждый последующий объект присоединяется к тому кластеру, к одному из объектов которого он ближе.
На рис. 6 приведен результат применения метода. Сопоставляя эту дендрограмму с рис. 4, можно заметить, что объект 4 присоединяется к кластеру (8, 10, 1) и на том же расстоянии - к объекту 6 в связи с тем, что расстояние от объекта 4 до объекта 6 такое же, что и до объекта 1. Из рисунка видно, что метод имеет тенденцию к образованию длинных кластеров «цепочного» вида. Таким образом, метод имеет тенденцию образовывать небольшое число крупных кластеров. К особенностям метода можно отнести и то, что результаты его применения часто не дают возможности определить, как много кластеров находится в данных.
Метод полной связи (Complete Linkage) часто называют методом «дальнего соседа» (Furthest Neighbor). Правило объединения этого метода подразумевает, что новый объект присоединяется к тому кластеру, самый далекий элемент которого находится ближе к новому объекту, чем самые далекие элементы других кластеров. Это правило является противоположным предыдущему и более жестким. Поэтому здесь наблюдается тенденция к выделению большего числа компактных кластеров, состоящих из наиболее похожих элементов.
Dendrogram
using Single Linkage
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num
3
9
2
8
10
1
5
7
4
6
Рис.7. Дендрограмма для 10 студентов (метод полной связи)
Сравним результат применения метода полной связи (рис. 7), метода одиночной связи (рис. 6) и фактическую конфигурацию объектов (рис. 5). Различия в работе методов проявляются прежде всего в отношении объектов 4 и 6. Метод полной связи объединяет их в отдельный кластер и соединяет с кластером (5, 7) раньше, чем с кластером (8, 10, 1) - в отличие от метода одиночной связи. Объект 4 присоединяется сначала к объекту 6, потому что этот последний к нему ближе, чем самый дальний объект кластера (8, 10, 1). На этом же основании кластер (4, 6) присоединяется к кластеру (5,7), потому что самый дальний объект 6 кластера (4, 6) ближе к самому дальнему объекту 7 кластера (5, 7), чем к самому дальнему объекту 8 кластера (8, 10, 1).
Метод средней связи (Average Linkage) или межгрупповой связи (Between Groups Linkage) занимает промежуточное положение относительно крайностей методов одиночной и полной связи. На каждом шаге вычисляется среднее арифметическое расстояние между каждым объектом из одного кластера и каждым объектом из другого кластера. Объект присоединяется к данному кластеру, если это среднее расстояние меньше, чем среднее расстояние до любого другого кластера. По своему принципу этот метод должен давать более точные результаты классификации, чем остальные методы. То, что объединение кластеров в методе средней связи происходит при расстоянии большем, чем в методе одиночной связи, но меньшем, чем в методе полной связи, и объясняет промежуточное положение этого метода. Результат применения метода изображен на рис. 5. Поскольку объектов в нашем примере немного, результаты применения методов полной и средней связи различаются незначительно.
В реальных исследованиях обычно имеются десятки классифицируемых объектов, и применение каждого из указанных методов дает существенно разные результаты для одних и тех же данных. Опыт и литературные данные свидетельствуют, что наиболее близкий к реальной группировке результат позволяет получить метод средней связи. Но это не означает бесполезность применения двух других методов. Метод одиночной связи «сжимает» пространство, образуя минимально возможное число больших кластеров. Метод полной связи «расширяет» пространство, образуя максимально возможное число компактных кластеров. Каждый из трех методов привносит в реальное соотношение объектов свою структуру и представляет собой как бы свою точку зрения на реальность. Исследователь, в зависимости от стоящей перед ним задачи, вправе выбрать тот метод, который ему больше подходит.
Численность классов является отдельной проблемой в кластерном анализе. Сложность заключается в том, что не существует формальных критериев, позволяющих определить оптимальное число классов. В конечном итоге это определяется самим исследователем исходя из содержательных соображений. Однако для предварительного определения числа классов исследователь может обратиться к таблице последовательности агломерации (Agglomeration schedule). Эта таблица позволяет проследить динамику увеличения различий по шагам кластеризации и определить шаг, на котором отмечается резкое возрастание различий. Оптимальному числу классов соответствует разность между числом объектов и порядкового номера шага, на котором обнаружен перепад различий.