- •IV. Многомерные статистические методы
- •Тема 11. Кластерный анализ
- •11.1. Постановка задачи кластерного анализа и общая схема процедуры его применения в психологическом исследовании
- •11.2. Классификация методов кластерного анализа по измерительным шкалам, направлению кластеризации и используемой метрике
- •Примеры мер различия и сходства, используемых в кластерном анализе эмпирических данных
- •11.3. Классификация методов кластерного анализа по глобальным стратегиям кластеризации
- •11.4. Классификация иерархических агломеративных методов кластерного анализа по способам определения межкластерных расстояний
- •11.5. Применение методов кластерного анализа в психологических исследованиях
- •Определить: на какие группы можно разделить претендентов по признаку сходства показанных ими результатов.
- •Определить: Изменятся ли результаты решения задачи 11.5-4, если вместо меры Жаккара использовать обычную евклидову метрику (и, соответственно, не выполнять дихотомизацию исходных признаков)?
- •Вопросы для самопроверки по теме 11
- •Рекомендуемая литература по теме 11
11.5. Применение методов кластерного анализа в психологических исследованиях
Итак, для исследователя-психолога основным делением всевозможных методов кластерного анализа является их деление на агломеративные (объединительные) и дивизивные (разделительные).
На практике выбор глобальной стратегии кластеризации часто определяется степенью исследованности рассматриваемого психологического явления: так, при разведочном (эксплораторном) анализе, когда исследователь только начинает изучение данного явления и испытывает дефицит достоверной информации, чаще выбирают агломеративную стратегию, чтобы по ее результатам попытаться определить, на какое именно количество кластеров целесообразно разделять полученные данные. Таким образом, применение агломеративных стратегий кластеризации иногда позволяет исследователю определить количество кластеров, которое будет использоваться при дальнейшем применении дивизивных стратегий в ходе конфирматорного (уточняющего) анализа. В то же время, иногда это количество кластеров определяется из содержательных особенностей задачи, априорно известных исследователю.
Важно подчеркнуть, что при любой стратегии и при любом методе полученная кластеризация будет относиться лишь к данной конкретной эмпирической выборке. Вопрос о том, насколько эта выборка репрезентативна и, соответственно, насколько полученные результаты кластеризации могут быть распространены на всю генеральную совокупность, выходит за рамки кластерного анализа и должен исследоваться отдельно: с помощью дискриминантного анализа, методов проверки статистических гипотез, общих принципов экспериментальной психологии (получения репрезентативной выборки эмпирических данных, определения ее необходимого объема, обеспечения валидности и надежности эксперимента и др.).
Таким образом, в отличие от методов проверки статистических гипотез, кластерный анализ в определенном смысле является циклической и, в этом плане, незавершенной процедурой анализа данных: его результаты часто имеют эвристический характер и, соответственно, не имеют под собой достаточных статистических оснований, поэтому в любой момент исследования эти результаты могут быть подвергнуты сомнению (под влиянием каких-либо открывшихся новых обстоятельств), что, в свою очередь, может потребовать повторного проведения кластерного анализа с использованием иных методов кластеризации.
Такой призыв к осторожности при использовании результатов кластерного анализа остается, однако, не услышанным и не воспринятым значительным количеством современных исследователей-психологов: результаты кластерного анализа нередко выдаются за окончательные и единственно возможные, при этом никакого обсуждения их устойчивости, сравнительного анализа применения различных стратегий кластеризации и т.п., как правило, не приводится. Такова сложившаяся научная практика в нашей стране, однако, начинающему исследователю важно понимать ее неправомерность, а также связанную с ней возможность радикального изменения выводов экспериментального исследования, вызванную даже небольшим изменением используемых кластеризационных процедур. На это обстоятельство справедливо обращают внимание и другие авторы, подчеркивая, что различные кластерные методы вполне могут приводить к различным результатам кластеризации одних и тех же эмпирических данных (см., например, [5. С.188-191]).
Обобщая результаты проведенного теоретического рассмотрения, можно сформулировать следующий практический алгоритм применения кластерного анализа в психологическом исследовании при использовании статистических пакетов программ:
Шаг 1. Определить типы всех измерительных шкал, примененных для получения выборки эмпирических данных. Ответить на следующие вопросы: Применяются ли интервальные, порядковые, номинальные, дихотомические шкалы? Все ли используемые шкалы однотипны, или имеет место ситуация применения смешанных шкал?
Шаг 2. Опираясь на исследовательский опыт, наметить план процедуры кластеризации, в зависимости от которого выбрать подходящий статистический пакет анализа данных, содержащего намеченный метод кластерного анализа.
Шаг 3. Запустить пакет и ввести эмпирические данные в предлагаемую таблицу исходных данных, задав соответствующие названия и другие параметры переменных и сформировав, тем самым, матрицу «объект-признак».
Шаг 4. В представленном в пакете блоке кластерного анализа последовательно выбрать направление кластеризации, меру сходства или различия для построения метрического пространства данных, глобальную стратегию кластеризации, адекватный конкретный метод кластерного анализа.
Шаг 5. Выполнить запланированную и подготовленную процедуру кластеризации. Провести анализ и психологическую интерпретацию полученных результатов, осуществить дополнительную проверку их принципиальной правильности с использованием других методов кластеризации, другого статистического пакета и т.д.
Сравнение предложенного алгоритма с общей схемой процедуры применения кластерного анализа в психологическом исследовании позволяет лучше понять распределение эргатических функций между исследователем (человеком) и статистическим пакетом (компьютером, машиной), заставляет задуматься над проблемами грамотного эргономического проектирования автоматизированного рабочего места психолога.
Разумеется, на практике действия психолога могут отличаться от приведенной канонической схемы: например, ниже мы специально рассмотрим пример задачи кластеризации, когда (из-за наличия разнотипных шкал и необходимости применения коэффициента Гауэра) вместо матрицы «объект-признак» в качестве входных данных процедуры кластеризации нам придется использовать рассчитанную заранее матрицу попарных расстояний между объектами.
Рассмотрим примеры применения агломеративных и дивизивных методов кластеризации в статистических пакетах Statistica for Windows, SPSS и Stadia.
Задача 11.5-1. Агломеративная кластеризация для эксплораторного анализа эмпирических данных (с использованием пакета Statistica for Windows)
Условие: В целях разработки рекомендаций по повышению психологической готовности к профессиональной деятельности и по оптимальной расстановке кадров проведено исследование менеджеров среднего звена торгово-коммерческой фирмы. Определялись три характеристики: УПМ - уровень профессиональной мотивации (по опроснику профессиональной мотивации со шкалой 20-80), а также уровни УОИ - общего интеллекта и УК - коммуникабельности (по шкале стэнов с использованием соответствующих субшкал опросника 16-PF Р.Кеттелла). Результаты приведены в табл. 11.5-1.
Определить: можно ли классифицировать испытуемых на группы со сходными психологическими характеристиками, и, если можно, – то, сколько таких однородных групп целесообразно выделить?
Таблица 11.5-1
Показатели личностных свойств менеджеров
№ |
УПМ |
УОИ |
УК |
№ |
УПМ |
УОИ |
УК |
1 |
76 |
8 |
4 |
17 |
53 |
5 |
4 |
2 |
46 |
4 |
7 |
18 |
52 |
5 |
7 |
3 |
52 |
4 |
5 |
19 |
45 |
5 |
8 |
4 |
78 |
8 |
4 |
20 |
47 |
5 |
9 |
5 |
44 |
5 |
7 |
21 |
48 |
5 |
8 |
6 |
79 |
7 |
3 |
22 |
71 |
7 |
4 |
7 |
56 |
5 |
4 |
23 |
54 |
5 |
4 |
8 |
49 |
4 |
7 |
24 |
54 |
5 |
5 |
9 |
48 |
5 |
8 |
25 |
55 |
4 |
5 |
10 |
77 |
8 |
4 |
26 |
70 |
7 |
4 |
11 |
45 |
5 |
7 |
27 |
53 |
4 |
5 |
12 |
77 |
7 |
3 |
28 |
48 |
5 |
7 |
13 |
47 |
5 |
7 |
29 |
51 |
5 |
3 |
14 |
54 |
5 |
5 |
30 |
52 |
4 |
5 |
15 |
49 |
5 |
7 |
31 |
47 |
5 |
7 |
16 |
48 |
5 |
7 |
32 |
51 |
5 |
4 |
Решение:
Исследовательская ситуация, отраженная в задаче, относится к эксплораторному анализу, так как у психолога не имеется априорной информации о количестве кластеров, на которые следует разделять выборку данных. В связи с этим на первом этапе решения целесообразно применить иерархическую агломеративную стратегию кластеризации, которая может помочь выявить естественное количество кластеров, характерное для данной выборки.
Для агломеративной кластеризации можно применить любой из статистических пакетов SPSS, Statistica for Windows и Stadia, что мы и сделаем в дальнейшем, чтобы продемонстрировать их возможности и проблемы, с которыми сталкивается исследователь на практике. Начнем с пакета Statistica for Windows, в котором нагляднее реализовано графическое представление получаемой дендрограммы.
1. Запускаем пакет Statistica for Windows и в его переключателе модулей первоначально выбираем не модуль Cluster Analysis (Кластерный анализ), а модуль Data Management (Управление данными). Потребность в этом обусловлена характером данных: они измерены хотя и в интервальных, но в различных по масштабу шкалах; в связи с чем необходимо выполнить их стандартизацию.
2. В пункте меню File (Файл) выбираем команду New data (Новые данные). В открывшемся диалоговом окне Create new file (Создать новый файл) задаем необходимые параметры:
New File Name (Имя нового файла) – например, clust_1 (от слова cluster – кластер). При этом можно задать размещение файла на определенном логическом диске и в нужной папке. Расширение имени «.sta» будет присвоено файлу автоматически.
Number of Variables (Количество переменных) – зададим соответствующее условиям количество - 3.
Number of Cases (Количество случаев) – в соответствии с данными задачи зададим 32.
Case Name Length (Длина имени случая) – оставим здесь предлагаемое по умолчанию значение «0», так как не собираемся использовать «длинные» текстовые имена случаев.
Value Format (Формат значений) – по умолчанию предлагается формат «8.3», что означает общую длину 8 позиций и 3 позиции на знаки после десятичной запятой. Хотя наши данные – целые, положительные и не более двух знаков, и можно бы было задать формат «2.0», но мы собираемся выполнить стандартизацию, после которой данные могут стать дробными и отрицательными. Поэтому зададим формат «5.2», выбор которого обосновывается следующим образом: в стандартизованных данных мы будем использовать два знака после запятой, один – сама запятая, один – целая часть (которая либо 0, либо 1) , еще одна позиция отводится на знак величины, итого общая длина – пять знаков.
Missing Data Code (Код для пропущенных значений) – оставляем без изменения предлагаемое по умолчанию значение –9999.
Variable Name Prefix – (Префикс названий переменных) – здесь определяется повторяющаяся часть имен переменных, расположенная перед их номерами. Оставим предлагаемый префикс VAR.
Variable Name Start Number (Начальный номер имени переменной) – оставим предлагаемое значение «1».
One-Line File Header (Краткое описание файла) – запишем «Данные для задачи 11.5-1», хотя это поле можно и не заполнять.
3. Вводим исходные данные по субшкалам в отдельные столбцы, соответствующие переменным.
4. В пункте меню Analysis (Анализ) выбираем команду Standardize (Стандартизовать) и в диалоговом окне Standardization of Values (Стандартизация значений) задаем следующие значения параметров:
Variables (Переменные) – VAR1-VAR3;
Cases (Случаи) – All (Все);
Weight (Вес) – Off (Не задавать).
После нажатия кнопки ОК выполняется стандартизация, и стандартизованные значения переменных записываются в таблицу вместо старых – «сырых» - баллов. Все стандартизованные переменные имеют среднее значение (Mean), равное нулю, и стандартное (среднеквадратическое) отклонение (SD - Standard deviation), равное единице. В этом легко убедиться, дважды щелкнув левой клавишей «мыши» по заголовку переменной и нажав в открывшемся диалоговом окне кнопку Values/Stats (Статистика переменных).
5. Выполнив команды File (Файл) - Save (Сохранить), сохраним результаты стандартизации в созданном нами файле clust_1.sta.
6. В пункте меню Analysis (Анализ) выбираем команду Other Statistics (Другие статистики), вызывающую переключатель модулей пакета Statistica for Windows, и переключаемся в модуль Cluster Analysis (Кластерный анализ). После этого модуль Data Management (Управление данными) можно закрыть, так как мы использовали его только для стандартизации переменных, и больше он нам не понадобится.
7. В пакете Statistica for Windows реализовано три базовых метода кластерного анализа, содержащихся в стартовом окне модуля Cluster Analysis (Кластерный анализ), которое называется Clustering method (Метод кластеризации):
Joining (Tree Clustering) (Объединение - Дерево кластеризации) – агломеративный метод последовательной иерархической кластеризации;
K-means Clustering (Кластеризация k-средними) – дивизивный метод кластеризации, направленный на разделение исходного множества объектов на заранее заданное количество кластеров k;
Two-way Joining (Двунаправленное объединение) – метод, при котором кластеризация проводится одновременно и по объектам (случаям), и по переменным (признакам) [41].
В данном случае нас интересует агломеративная кластеризация, поэтому выбираем метод Joining (Tree Clustering) (Объединение – «Дерево» кластеризации).
8. При входе в стартовое меню данного метода исследователь последовательно заполняет следующие поля:
Variables (Переменные) – выбираем здесь используемые переменные VAR1, VAR2, VAR3.
Input (Тип входных данных) – выбираем способе представления данных. здесь есть два варианта: а) матрица «объект-признак», или Raw data (Исходные данные), б) Distance matrix (Матрица расстояний). Мы выбираем вариант а) – Raw data (Исходные данные).
Clusters (Кластеры) - здесь в смысле того, что именно подвергать кластеризации: а) объекты, на которых проводятся измерения – Cases (Случаи), другими словами – Rows (Строки) исходной матрицы данных, б) измеряемые признаки – Variables (Переменные), или Columns (Столбцы) исходной матрицы данных. Мы выбираем вариант а) – Cases (Случаи).
Amalgamation (Linkage) Rule (Правило объединения (связывания)) -– это выбор способа определения межкластерного расстояния (см. раздел 11.3). Здесь у исследователя имеется значительное количество возможностей, из которых выберем для начала вариант Single Linkage (Одиночная связь).
Distance Measures (Мера расстояния, метрика) – в этом поле выбирается мера сходства или различия. Выбираем вариант Distance Measures (Меры расстояния). Здесь предлагается ряд возможностей (см. раздел 11.2). Поскольку наши данные – интервальные, выберем вариант Euclidean distance (Евклидово расстояние).
Missing Data Deletion (Способ обработки пропущенных значений) - выберем Casewise deletion of missing data (Удаление отсутствующих данных); второй возможный вариант здесь - Substitution by Means (Замена средними значениями).
9. После нажатия ОК выполняется кластеризация, и открывается диалоговое окно ее результатов Joining Results. Установим здесь флажки в поля Rectangular branches (Прямоугольная дендрограмма) и Scale tree to dlink/dmax*100 (Процентная шкала дендрограммы), которое определяет нормирование шкалы дендрограммы: расстояние, на котором произведено объединение кластеров, делится на максимальное межкластерное расстояние, и результат переводится в проценты.
10. Смотрим полученную дендрограмму, например, в вертикальном виде, нажав для этого соответствующую кнопку Vertical Icicle Plot (Вертикальный график). На дендрограмме отчетливо просматривается образование трех кластеров (рис. 11.5-1).
Рис. 11.5-1. Дендрограмма агломеративной кластеризации методом простой связи
11. Можно просмотреть и другие результаты кластеризации: Amalgamation Schedule (Список Объединения), Graph of Amalgamation Schedule (График объединения), Distance Matrix (Матрица расстояний), Descriptive Statistics (Описательная Статистика).
Рассчитанную матрицу расстояний можно сохранить в файле с помощью команды Save Distance Matrix (Сохранить матрицу расстояний), однако в данной задаче эта возможность нас не интересует.
12. Проверяем полученные результаты, применяя другие способы кластеризации: например, Complete linkage (Полная связь), Unweighted pair-group average (Невзвешенная попарно-групповая средняя), Ward's method (Метод Уорда). Дендрограммы, представленные на рис. 11.5-2 - 11.5-4, подтверждают целесообразность разделения выборки именно на три кластера. Можно также попробовать применять другие метрики и убедиться, что для наших данных при изменении метрики результат принципиально не меняется.
Рис. 11.5-2. Дендрограмма агломеративной кластеризации методом полной связи
Рис. 11.5-3. Дендрограмма агломеративной кластеризации методом невзвешенной попарно-групповой связи
Рис. 11.5-4. Дендрограмма агломеративной кластеризации методом Уорда
Таким образом, вывод об образовании трех кластеров в целом подтверждается, хотя на некоторых дендрограммах заметно образование двух кластеров более высокого порядка. Такая ситуация является характерной для иерархических методов кластеризации: они, как правило, не дают однозначного ответа на вопрос о числе кластеров.
Еще одно важное замечание, которое необходимо сделать, состоит в том, что далеко не всегда результаты кластеризации, полученные разными методами, так качественно похожи, как в данном случае. Нередко встречается ситуация, когда при использовании разных методов исследователь получает разное количество и состав кластеров. В этом случае выбор одного из вариантов опирается на опыт исследователя, его научную интуицию, а также цель исследования и содержательные особенности задачи. Продолжение исследования данной выборки представлено в решении задачи 11.5-2.
Ответ: агломеративная кластеризация позволяет предположить, что данную эмпирическую выборку целесообразно разделять на два, три или четыре кластера.
Задача 11.5-2. Дивизивная кластеризация эмпирической выборки (с использованием пакета Statistica for Windows)
Условие: в продолжение задачи 11.5.-1 выполнить и обосновать разделение эмпирической выборки на кластеры.
Решение:
1. После анализа результатов агломеративной кластеризации (см. задачу 11.5-1) переходим к следующему этапу решения задачи – дивизивной кластеризации данных, т.е. разбиению выборки на заданное число кластеров, для которого мы уже определили возможный диапазон: от двух до четырех. Возвращаемся в стартовое окно Clustering method (Метод кластеризации) модуля Cluster Analysis (Кластерный анализ) и выбираем метод K-Means Clustering (Кластеризация k-средними). Этот метод относится к дивизивным (разделительным) и позволяет разбить исходное множество данных на фиксированное количество кластеров.
2. В диалоговом окне этого метода «Cluster Analysis: K-Means Clustering» заполняем следующие поля:
Variables (Переменные) – определяем здесь набор переменных, участвующих в кластеризации: это VAR1, VAR2, VAR3.
Cluster Cases or Variables (Что подвергать кластеризации – случаи или переменные) – выбираем Cases-Rows (Случаи-Строки).
Number of Clusters (Число кластеров) – для начала в качестве требуемого числа кластеров задаем значение «2».
Maximum number of iterations (Максимальное число итераций) – здесь можно указать максимальное число итераций кластеризационной процедуры (от 5 до 99), иначе в некоторых случаях вычисления могут продолжаться бесконечно. Установим, например, значение «15».
Missing Data Deletion (Способ обработки ошибочных или пропущенных значений) - выберем Casewise deletion of missing data (Удаление пропущенных данных);
Флажок в поле Batch Processing and Printing (Одновременная кластеризация и вывод на печать) задавать не будем, т.е. оставим это поле пустым.
3. Нажав на кнопку ОК, выполняем кластеризацию. Открывается окно просмотра ее результатов K-means Clustering Results, в котором указано, что решение получено после одной итерации. Для просмотра и сохранения результатов предлагается ряд экранных кнопок:
Analysis of Variance (Анализ рассеяния),
Means of each Cluster & Distances (Средние значения переменных для каждого кластера и расстояния),
Graph of Means (График средних значений),
Descriptive Statistics for each Cluster (Описательная статистика для каждого кластера),
Members of each Cluster and Distances (Элементы каждого кластера и их расстояния до центра кластера),
Save Classifications & Distances (Сохранить классификацию и расстояния).
Рассмотрим наиболее важные результаты.
Кнопка Analysis of Variance (Анализ рассеяния) позволяет проанализировать значимость различий между средними значениями каждой переменной по всем кластерам, для выявления которой используется F-критерий Фишера; вычисление его статистики F основано на межгрупповой дисперсии (Between SS), внутригрупповой дисперсии (Within SS) и количестве степеней свободы (df). Полученные результаты (здесь и далее они округлены до второго, а для уровня значимости – до третьего знака после десятичной запятой), представлены следующим образом:
Analysis of Variance (clust_1.sta)
Between Within signif. SS df SS df F p VAR1 28.14 1 2.85923 30 295.26 .000 VAR2 26.70 1 4.30138 30 186.21 .000 VAR3 10.11 1 20.89295 30 14.51 .001
Кнопка Graph of Means (График средних значений) позволяет наглядно представить средние значения переменных по каждому кластеру на одном графике (рис. 11.5-5). Из графика видно, что в первый кластер вошли высоко мотивированные и высокоинтеллектуальные менеджеры, у которых, однако, низкий уровень коммуникабельности. Во второй кластер, напротив, вошли менеджеры, обладающие сравнительно высокой коммуникабельностью, но низкими мотивацией и уровнем общего интеллекта.
Рис. 11.5-5. Графики средних значений переменных для двух кластеров
Кнопка Members of each Cluster and Distances (Элементы каждого кластера и их расстояния до центра кластера) позволяет выяснить, что первый кластер включает всего 7 случаев, а второй – 25. В связи с этим возникает вопрос: нельзя ли уточнить классификацию, детализовав состав второго кластера? Попробуем сделать это, проведя разбиение не на два, а на три кластера.
4. Возвращаемся в окно «Cluster Analysis: K-Means Clustering» и изменяем значение поля Number of Clusters (Число кластеров) на «3». Нажав ОК, выполняем кластеризацию. В окне просмотра ее результатов K-means Clustering Results видим следующие результаты анализа рассеяния и средних значений:
Analysis of Variance (clust_1.sta)
Between Within signif. SS df SS df F p VAR1 29.79 2 1.21 29 358.06 .000 VAR2 26.90 2 4.10 29 95.25 .000 VAR3 27.25 2 3.75 29 105.22 .000
Members of Cluster Number 1 (clust_1.sta) and Distances from Respective Cluster Center (Элементы кластера №1 и расстояния от соответствующего центра кластера)
Cluster contains 7 cases (Кластер содержит 7 случаев)
Case № |
C_1 |
C_4 |
C_6 |
C_10 |
C_12 |
C_22 |
C_26 |
Distance |
.291 |
.318 |
.363 |
.300 |
.323 |
.320 |
.359 |
Members of Cluster Number 2 (clust_1.sta) and Distances from Respective Cluster Center (Элементы кластера №2 и расстояния от соответствующего центра кластера)
Cluster contains 11 cases (Кластер содержит 11 случаев)
Case № |
C_3 |
C_7 |
C_14 |
C_17 |
C_23 |
C_24 |
C_25 |
Distance |
.359 |
.272 |
.254 |
.230 |
.234 |
.254 |
.366 |
Case № |
C_27 |
C_29 |
C_30 |
C_32 |
|
|
|
Distance |
.354 |
.525 |
.359 |
.256 |
|
|
|
Members of Cluster Number 3 (clust_1.sta) and Distances from Respective Cluster Center (Элементы кластера №3 и расстояния от соответствующего центра кластера)
Cluster contains 14 cases (Кластер содержит 14 случаев)
Case № |
C_2 |
C_5 |
C_8 |
C_9 |
C_11 |
C_13 |
C_15 |
Distance |
.432 |
.220 |
.435 |
.226 |
.183 |
.138 |
.161 |
Case № |
C_16 |
C_18 |
C_19 |
C_20 |
C_21 |
C_28 |
C_31 |
Distance |
.141 |
.275 |
.255 |
.550 |
.226 |
.141 |
.138 |
Рис. 11.5-6. Графики средних значений переменных для трех кластеров
Из рис. 11.5-6 видно, что средние значения для первого кластера принципиально не изменились, а вот второй и третий кластеры представляют собой менеджеров с невысокой мотивацией и уровнем интеллекта, но с принципиально разными коммуникативными способностями. Количество испытуемых в кластерах получилось следующее: в первом – 7, во втором – 11, в третьем – 14. Таким образом, нам удалось «расслоить» менеджеров с низкой мотивацией на два кластера, в одном из которых (в третьем) стала очевидной стратегия психологического сопровождения деятельности, направленная на повышение профессиональной мотивации.
Этот результат «оправдывает» увеличение числа кластеров в разбиении с двух до трех. Однако возникает вопрос: нельзя ли и далее детализировать полученные группы с целью дальнейшей дифференциации мер психологического сопровождения деятельности и данных для подбора и расстановки кадров? Чтобы ответить на него, выполним кластеризацию еще раз, но уже – с разбиением на 4 кластера.
5. Для четырех кластеров получим следующие результаты:
Рис. 11.5-7. Графики средних значений переменных для четырех кластеров
Analysis of Variance (clust_1.sta)
Between Within signif. SS df SS df F p VAR1 29.80 3 1.20 28 231.60 .000 VAR2 26.98 3 4.02 28 62.69 .000 VAR3 28.72 3 2.28 28 117.54 .000
Из рис. 11.5-7 видно, что по сравнению с разбиением на три группы первый и второй кластеры принципиально сохранились, а третий «расслоился» на два, отличающиеся друг от друга не принципиально, а лишь конкретным уровнем интеллекта и коммуникабельности. Таким образом, никакой принципиально новой информации разбиение на 4 кластера нам не принесло.
Ответ: данную выборку можно разделить на 2, 3, 4 и т.д. кластеров, достоверно отличающихся друг от друга, но из содержательных соображений целесообразно разделить выборку на три кластера.
Задача 11.5-3. Выявление кластеров эмпирической выборки с использованием пакета SPSS
Условие: Решить задачи 11.5-1 и 11.5.-2, используя пакет SPSS.
Решение:
1. Запускаем пакет SPSS и вводим данные (табл. 11.5-1) по трем переменным в отдельные столбцы.
2. Выполняем стандартизацию данных. Для этого:
в пункте меню Statistics (Статистики) выбираем команду Summarize (Подытожить) и, далее, Descriptives (Описательные статистики);
в открывшемся диалоговом окне задаем Variables (Переменные) – var00001, var00002, var00003;
устанавливаем флажок в поле Save standardized values as Variables (Сохранить стандартизованные величины как переменные) и нажимаем кнопку ОК.
В окне SPSS viewer (Просмотр результатов) можно просмотреть показатели описательной статистики, однако сейчас они нас не интересуют. Главное, что в окне редактора данных SPSS Data editor появились три новые стандартизованные переменные с именами zvar00000, zvar00001, zvar00002.
Теперь исходные данные можно удалить, а стандартизованные переменные – переименовать, присвоив им названия var1, var2, var3.
Сохраним введенные данные в файле с названием clust_2.sav.
3. Выполним агломеративную кластеризацию. Для этого:
В пункте меню Statistics (Статистики) последовательно выберем команды Clussify (Классифицировать) и Hierarchical Cluster (Иерархический кластер).
В открывшемся диалоговом окне Hierarchical Cluster Analysis (Иерархическая кластеризация) задаем Variables (Переменные) – var1, var2, var3, а также устанавливаем флажок опции Cluster (Кластер) в поле Cases (Случаи).
Нажав на кнопку Plots… (Графики…), в открывшемся диалоговом окне устанавливаем флажок в поле Dendrogram (Дендрограмма). После этого нажимаем на кнопку Continue (Продолжить) и возвращаемся в основное окно метода.
Нажав на кнопку Method (Метод), в открывшемся диалоговом окне выбираем метод кластеризации и метрику. Как и в пакете Statistica for Windows, в SPSS для проведения агломеративной кластеризации реализован широкий (хотя и отличающийся) набор мер различия (сходства) и методов (их обсуждение см. в разделах 11.2 - 11.4). Выбираем здесь метод Nearest neighbor (Ближайшего соседа), Measure (Мера) – Interval (Интервальная шкала), Euclidean Distance (Евклидово расстояние). В блоке Transform values (Преобразование величин) можно было бы задать стандартизацию, однако мы ее уже выполнили. Таким образом, пакет SPSS имеет богатые возможности по применению преобразований данных, метрик и методов кластеризации. Нажав кнопку Continue (Продолжить), возвращаемся в предыдущее окно.
Нажимаем кнопку Statistics (статистики). Оставляем заданный по умолчанию флажок в поле Agglomeration schedule (Порядок объединения). Кроме того, в этом окне имеется возможность задать фиксацию принадлежности к кластерам, причем сразу для целого диапазона решений. Для этого используется блок Cluster Membership (Принадлежность к кластерам). Ставим флажок в поле Rang of solutions (Диапазон решений) и задаем этот диапазон, указав значения: From (От) – «2» и Trough (До) – «4».
Нажав Continue (Продолжить), возвращаемся в основное окно метода и нажимаем OK для выполнения собственно кластеризации.
4. В окне SPSS viewer (Просмотр результатов) видны результаты кластеризации и, в частности, Dendrogram (Дендрограмма) (рис. 11.5-8), имеющая принципиально тот же вид, что и при использовании пакета Statistica for Windows (см. рис.11.5-1 – 11.5-4). Кроме того, здесь приведена таблица Agglomeration Schedule (Порядок объединения), а также показанная ниже таблица Cluster Membership (Принадлежность к кластерам) (для выбранного нами диапазона решений).
* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * *
Dendrogram using Single Linkage
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
13 -+-+
31 -+ +-+
16 -+-+ I
28 -+ I +-+
15 ---+ I I
5 ---+-+ +-----+
11 ---+ I I
18 -------+ +-+
9 -+-----+ I I
21 -+ +-----+ +---+
19 -------+ I +---------+
20 ---------------+ I I
2 -------+-----------+ I
8 -------+ I
3 -+-+ +-------------------+
30 -+ +-+ I I
27 ---+ +---------------+ I I
25 -----+ I I I
14 -+-----------+ +-------+ I
24 -+ I I I
17 ---+-+ +-------+ I
23 ---+ I I I
32 -----+-------+ I
7 -----+ I I
29 -------------+ I
4 ---+ I
10 ---+-------------------+ I
1 ---+ +-------------------------+
22 ---+---------------+ I
26 ---+ +---+
6 -----+-------------+
12 -----+
Рис.11.5-8. Дендрограмма агломеративной кластеризации методом простой связи (пакет SPSS)
Cluster Membership
Case |
4 Clusters |
3 Clusters |
2 Clusters |
1 |
1 |
1 |
1 |
2 |
2 |
2 |
2 |
3 |
3 |
3 |
2 |
4 |
1 |
1 |
1 |
Cluster Membership (продолжение)
Case |
4 Clusters |
3 Clusters |
2 Clusters |
5 |
2 |
2 |
2 |
6 |
4 |
1 |
1 |
7 |
3 |
3 |
2 |
8 |
2 |
2 |
2 |
9 |
2 |
2 |
2 |
10 |
1 |
1 |
1 |
11 |
2 |
2 |
2 |
12 |
4 |
1 |
1 |
13 |
2 |
2 |
2 |
14 |
3 |
3 |
2 |
15 |
2 |
2 |
2 |
16 |
2 |
2 |
2 |
17 |
3 |
3 |
2 |
18 |
2 |
2 |
2 |
19 |
2 |
2 |
2 |
20 |
2 |
2 |
2 |
21 |
2 |
2 |
2 |
22 |
4 |
1 |
1 |
23 |
3 |
3 |
2 |
24 |
3 |
3 |
2 |
25 |
3 |
3 |
2 |
26 |
4 |
1 |
1 |
27 |
3 |
3 |
2 |
28 |
2 |
2 |
2 |
29 |
3 |
3 |
2 |
30 |
3 |
3 |
2 |
31 |
2 |
2 |
2 |
32 |
3 |
3 |
2 |
5. Выполним дивизивную кластеризацию методом k-средних. Для этого в пункте главного меню Statistics (Статистики) выбираем команду Clussify (Классифицировать) и, далее, K-Means Cluster Analysis (Кластерный анализ методом k-средних).
6. В открывшемся диалоговом окне метода:
задаем Variables (Переменные) – var1, var2, var3;
устанавливаем флажок опции Method (Метод) в поле Iterate and classify (Итерировать и классифицировать);
задаем Number of Clusters (Количество кластеров), равное двум;
в поле Maximum iterations (Максимальное число итераций) указываем, например, «20» (это число задается в пределах от 1 до 999);
оставляем предлагаемое по умолчанию значение «0» для поля Convergence criterion (Критерий сходимости): этот критерий принимает значение от 0 до 1, понимаемое как процент от минимального расстояния между начальными центрами кластеров, и определяет, что итерации прекращаются, когда очередная из них не перемещает ни один из центров кластеров на расстояние большее, чем указано в значении критерия.
все остальные многочисленные возможные параметры метода не изменяем, так как в этом нет необходимости.
7. Выполнив кластеризацию, в окне SPSS viewer (Просмотр результатов) видим итоги разделения, соответственно, на два, три и четыре кластера, включающие таблицы Final Cluster Centers (Окончательные центры кластеров), Cluster Membership (Принадлежность к кластерам), Number of Cases in each Cluster (Количество случаев в каждом кластере) и ANOVA (Результаты проверки качества разбиения с помощью ANOVA), выборочно представленные ниже.
Для двух кластеров:
ANOVA
|
Cluster |
|
Error |
|
F |
Sig. |
Mean Square |
df |
Mean Square |
df |
|||
Zscore (VAR1) |
28,141 |
1 |
9,5E-02 |
30 |
295,262 |
,000 |
Zscore (VAR2) |
26,699 |
1 |
,143 |
30 |
186,210 |
,000 |
Zscore (VAR3) |
10,107 |
1 |
,696 |
30 |
14,513 |
,001 |
Number of Cases in each Cluster
Cluster |
1 |
7,000 |
2 |
25,000 |
Для трех кластеров:
Cluster Membership
Case Number (Номер случая) |
Cluster (Кластер) |
Distance (Расстояние до центра кластера) |
1 |
1 |
,503 |
2 |
2 |
,749 |
3 |
3 |
,622 |
4 |
1 |
,551 |
5 |
2 |
,381 |
6 |
1 |
,629 |
7 |
3 |
,471 |
8 |
2 |
,753 |
9 |
2 |
,392 |
10 |
1 |
,520 |
11 |
2 |
,316 |
12 |
1 |
,560 |
13 |
2 |
,239 |
14 |
3 |
,441 |
15 |
2 |
,278 |
16 |
2 |
,244 |
17 |
3 |
,399 |
18 |
2 |
,476 |
19 |
2 |
,441 |
20 |
2 |
,952 |
21 |
2 |
,392 |
22 |
1 |
,555 |
23 |
3 |
,405 |
24 |
3 |
,441 |
25 |
3 |
,634 |
26 |
1 |
,621 |
27 |
3 |
,613 |
28 |
2 |
,244 |
29 |
3 |
,909 |
30 |
3 |
,622 |
31 |
2 |
,239 |
32 |
3 |
,443 |
ANOVA
|
Cluster |
|
Error |
|
F |
Sig. |
Mean Square |
df |
Mean Square |
df |
|||
Zscore (VAR1) |
14,897 |
2 |
4,2E-02 |
29 |
358,063 |
,000 |
Zscore (VAR2) |
13,452 |
2 |
,141 |
29 |
95,254 |
,000 |
Zscore (VAR3) |
13,623 |
2 |
,129 |
29 |
105,216 |
,000 |
Number of Cases in each Cluster
Cluster |
1 |
7,000 |
2 |
14,000 |
|
3 |
11,000 |
Для четырех кластеров:
ANOVA
|
Cluster |
|
Error |
|
F |
Sig. |
Mean Square |
df |
Mean Square |
df |
|||
Zscore (VAR1) |
9,932 |
3 |
4,3E-02 |
28 |
230,804 |
,000 |
Zscore (VAR2) |
9,550 |
3 |
8,4E-02 |
28 |
113,762 |
,000 |
Zscore (VAR3) |
9,288 |
3 |
,112 |
28 |
82,895 |
,000 |
Number of Cases in each Cluster (Количество случаев в каждом кластере)
Cluster |
1 |
7,000 |
2 |
14,000 |
|
3 |
4,000 |
|
4 |
7,000 |
Таким образом, результаты кластеризации получились те же, что и при использовании пакета Statistica for Windows.
Ответ: выборку целесообразно разделить на 2, 3 или 4 кластера. Предпочтительный выбор одного из этих вариантов должен определяться либо из содержательных соображений, либо за счет увеличения объема выборки и проведения повторной кластеризации.
Задача 11.5-4. Применение кластерного анализа к данным, измеренным в разнотипных шкалах
Условие: Коммерческая организация объявила о приеме на работу молодых людей в возрасте от 18 до 25 лет, имея ряд разнородных вакансий. Претенденты, обратившиеся в отдел кадров, заполняли бланки нескольких опросников. Сводные результаты приведены в табл. 11.5-2, в которой используются следующие обозначения
ТП – тип профессии - результат определения предпочтительной склонности к типу профессии по ДДО (Дифференциально- диагностическому опроснику) Е.А.Климова:
ЧЗ – «человек – знак»,
ЧП – «человек – природа»,
ЧХО – «человек – художественный образ»,
ЧТ – «человек – техника»,
ЧЧ – «человек – человек»;
УГР – уровень готовности к риску по опроснику готовности к риску Г.Шуберта, представленный в виде градаций:
СР - склонен к риску,
СУ - средний уровень,
СО - слишком осторожен;
УМД – уровень мотивации достижения по опроснику мотивации достижения успеха Т.Элерса, представленный в баллах;
ЛК – локус контроля по пункту 8 («В определении трудностей начала трудовой деятельности Вы рассчитываете…») экспресс-анкеты для психолога-профориентатора В.В.Козлова, А.А.Козловой [32. С.471-472], представленный в ранговых предпочтениях:
К – на понимание и снисходительность коллег,
С – на себя,
Р – на помощь родителей,
СВ – на советы сверстников,
РД – на заинтересованность во мне работодателя как в перспективном сотруднике;
ВР – возраст (полных лет);
П – пол (М – мужской, Ж – женский).
