- •Шкалирование.
- •Виды шкал. Сильные и слабые стороны каждой шкалы.
- •Перевод более «высокой» шкалы в более «низкую».
- •2. Работа с таблицами биномиального критерия
- •3. Расчет биномиального критерия с помощью статистической программы spss Base 12.0
- •Непараметрические критерии
- •Сравнение двух эмпирических распределений.
- •Сравнение эмпирического и теоретического распределений
- •4. Расчет критерия хи-квадрат с помощью статистической программы spss Base 12.0
- •Правила ранжирования.
- •Ранжирование результатов диагностики интеллекта Таблица 1
- •Ранжирование результатов диагностики интеллекта Таблица 2
- •Ранговый коэффициент корреляции Спирмена.
- •Определение силы и направления корреляции между двумя признаками с помощью коэффициента корреляции Спирмена.
- •Алгоритм применения рангового коэффициента корреляции Спирмена.
- •1. Проранжировать исходные данные.
- •3. Использование рангового коэффициента корреляции для шкал более высокого порядка.
- •Затем вы использовали другой тест (меньшей размерности) и ваши испытуемые показали следующие результаты (очередность испытуемых сохранена):
- •III. Ранговый коэффициент корреляции Кендалла.
- •Алгоритм применения и основные понятия рангового коэффициента корреляции Кендалла.
- •Алгоритм применения рангового коэффициента корреляции Кендалла.
- •1. Проранжировать исходные данные.
- •Переструктурированные результаты Таблица 15
- •Подсчет ранговых коэффициентов корреляции с помощью статистического пакета spss Base 12.0
- •Приложение 1
- •Параметры нормального распределения. Перевод в стены.
- •1. Параметры нормального распределения.
- •2. Перевод в стены.
- •Одновыборочный t-критерий.
- •Одновыборочные статистики Таблица 1
- •Критерий парных выборок Таблица 7
- •Кластерный анализ.
- •Применение кластерного анализа. Разновидности кластерного анализа.
- •Иерархический кластерный анализ.
- •Иерархическая кластеризация.
- •Открыть Данные
- •Факторный анализ.
- •1. Применение и этапы факторного анализа.
- •Выделенные факторы Таблица 9
- •2. Определение числа факторов.
- •3. Применение факторного анализа методом главных компонент.
Открыть Данные
После выбора необходимого файла (в нашем случае это «Качества взрослого человека.sav») следует отобрать исследуемые переменные (в рассматриваемом примере это все переменные кроме переменных пол и возраст) и переместить их в правое поле. Затем выберем:
Кластеризовать
Переменные
Тем самым мы от стоящей по умолчанию кластеризации наблюдений (в нашем случае) переходим к кластеризации переменных, то есть качеств, характеризующих взрослого человека. В нижнем меню окна находятся кнопки «Статистики», «Графики», «Метод» и «Сохранить».
Кнопка «Статистики» позволяет задать вывод статистических решений:
Порядок агломерации
Матрицу близостей
Принадлежность к кластерам
Порядок агломерации (вывод задается по умолчанию) позволяет рассмотреть объединения данных (или кластеров) на каждом этапе. Помимо пошагового объединения кластеров таблица агломерации содержит также а столбце «коэффициенты» информацию о расстоянии между объединяемыми кластерами.
Матрица близостей характеризует сходство (или расстояние) между объектами. По умолчанию её вывод не задан, исследователь может запросить ее вывод дополнительно. В отличие от коэффициентов расстояния между двумя объединяемыми кластерами в таблице агломерации матрица близостей содержит информацию о мерах расстояния между всеми кластеризуемыми объектами.
Опция «Принадлежность к кластерам» показывает кластеры, к которым отнесены исходные объекты. Можно задать одно решение (число кластеров) или диапазон решений (минимальное и максимальное число кластеров). Для выполнения необходимо выполнить соответствующие установки, она не задана по умолчанию.
Кнопка «Графики» позволяет задать вывод дендрограммы (по умолчанию вывод дендрограммы не задается), сосульчатой диаграммы (показывающей объединение данных в кластеры) и ее расположения (вертикального или горизонтального). Зададим вывод дендрограммы, кликнув в соответствующем поле, и отменим вывод сосульчатой диаграммы, кликнув в ее поле команду «не надо». Нажатием кнопки «Продолжить» вернемся в исходное окно и с помощью кнопки «Метод» выберем метод кластерного анализа. По умолчанию задан метод межгрупповых связей.
Помимо метода межгрупповых связей можно воспользоваться методом внутригрупповых связей, ближайшего соседа, дальнего соседа, центральной кластеризации, медианной кластеризации.
С помощью поля «Мера» можно выбрать расстояние или меру сходства, используемые при кластеризации данных. Для каждого вида шкалы предлагаются соответствующие меры. По умолчанию задана интервальная шкала и квадрат расстояния Евклида в качестве меры. При использовании иных параметров необходимо задать соответствующие опции.
Поле «Преобразовать значения» позволяет задать стандартизацию данных. По умолчанию стандартизация не задается, поэтому если кластеризуются данные разной размерности (например, количество детей и доход на члена семьи), необходимо задать стандартизацию, приводящую исходные данные к одной размерности. Наиболее часто используется Z-стандартизация. Мы не будем использовать ее в нашем анализе, но в случае необходимости она задается следующим образом. В поле «Стандартизация» вместо стоящей по умолчанию опции «не надо» устанавливается опция «Z-значения». Помимо стандартизации поле «Преобразовать значения» позволяет так же модифицировать вывод коэффициентов расстояния. Выберем преобразование в интервале от 0 до 1, кликнув в соответствующем окне. Все коэффициенты расстояния будут нормированы в этом интервале.
Задав необходимые параметры и нажав кнопку «Продолжить» возвращаемся в исходное окно. Поскольку мы выбрали кластеризацию наблюдений, кнопка «Сохранить» является неактивной. С помощью кнопки ОК запускаем заданный кластерный анализ.
После обработки данных в файле выводов результатов появляются запрошенные таблицы и дендрограммы.
Таблица 8 содержит описание шагов агломерации. В первом столбце содержится количество этапов кластеризации. В данном случае кластеризация включает в себя 37 этапов. Второй столбец показывает попарное объединение кластеров. Например, на первом этапе объединены 35 и 37 переменная. Поскольку в иерархическом кластерном анализе переменные рассматриваются как исходные кластеры, то сначала объединяются в общий кластер имеющие наименьшее расстояние друг от друга, затем к ним присоединяются наиболее близкие из оставшихся и так далее. Способ кластеризации выбирается исследователем из имеющихся в программе. В иерархическом кластерном анализе наиболее часто используется метод межгрупповых связей и в качестве меры расстояния наиболее употребляемым является евклидово расстояние. Эти параметры заданы в программе по умолчанию.
В столбце «Коэффициенты» приведены нормированные (то есть сведённые к интервалу от 0 до 1) расстояния. Коэффициент первой пары, то есть объединенной на первом этапе, равен очень малому числу (0,000) это свидетельствует о достаточно большой близости переменных 35 и 37. Например, переменные 19 и 25, объединенные на втором этапе, имеют нормированный коэффициент расстояния 0,008.
Два последних столбца «этап первого появления кластера» и «следующий этап» характеризуют очередность появления кластера. Так, переменные первого этапа не появлялись в кластеризации раньше, поэтому в колонках «кластер 1» и «кластер 2», столбца «Этап первого появления кластера», стоят нули. Затем объединенный кластер 35 появляется на 19 этапе, о чем свидетельствует число 19 в столбце «Следующий этап».
Рассмотрим переменные второго этапа. Второй этап представляет объединение 19 и 25 переменных, имеющих, как уже указывалось ранее, нормированное расстояние 0,008, не появлявшихся ранее и участвующих в дальнейшей кластеризации на 5 шаге. Полученный кластер получает номер 19 (число, указанное в первом столбце), а кластер 25 больше самостоятельно в кластеризации не участвует.
Если посмотреть на этап 5, то можно увидеть объединение в один кластер переменной 13, которая впервые участвует в кластеризации, и кластера 19, появлявшегося на втором этапе. Расстояние между объединяемыми переменной и кластером 0,025. Полученный итоговый кластер получает номер 13 и участвует в дальнейшей кластеризации на 10 шаге.
Шаги агломерации Таблица 8
Этап |
Кластер объединен с |
Коэффициенты |
Этап первого появления кластера |
Следующий этап |
||
Кластер 1 |
Кластер 2 |
Кластер 1 |
Кластер 2
|
|||
1 |
|
|
|
|
|
|
35 |
37 |
,000 |
0 |
0 |
19 |
|
2 |
19 |
25 |
,008 |
0 |
0 |
5 |
3 |
34 |
36 |
,024 |
0 |
0 |
18 |
4 |
2 |
7 |
,025 |
0 |
0 |
11 |
5 |
13 |
19 |
,025 |
0 |
2 |
10 |
6 |
16 |
17 |
,027 |
0 |
0 |
9 |
7 |
4 |
11 |
,034 |
0 |
0 |
15 |
8 |
21 |
30 |
,036 |
0 |
0 |
12 |
9 |
16 |
18 |
,036 |
6 |
0 |
16 |
10 |
6 |
13 |
,039 |
0 |
5 |
18 |
11 |
2 |
31 |
,041 |
4 |
0 |
17 |
12 |
21 |
29 |
,042 |
8 |
0 |
24 |
13 |
9 |
10 |
,046 |
0 |
0 |
22 |
14 |
1 |
15 |
,049 |
0 |
0 |
27 |
15 |
3 |
4 |
,049 |
0 |
7 |
23 |
16 |
16 |
33 |
,051 |
9 |
0 |
19 |
17 |
2 |
24 |
,052 |
11 |
0 |
26 |
18 |
6 |
34 |
,054 |
10 |
3 |
23 |
19 |
16 |
35 |
,055 |
16 |
1 |
25 |
20 |
23 |
38 |
,056 |
0 |
0 |
28 |
21 |
14 |
27 |
,056 |
0 |
0 |
30 |
22 |
5 |
9 |
,060 |
0 |
13 |
29 |
23 |
3 |
6 |
,064 |
15 |
18 |
24 |
24 |
3 |
21 |
,074 |
23 |
12 |
27 |
25 |
16 |
22 |
,080 |
19 |
0 |
32 |
26 |
2 |
28 |
,084 |
17 |
0 |
30 |
27 |
1 |
3 |
,094 |
14 |
24 |
34 |
28 |
23 |
26 |
,094 |
20 |
0 |
33 |
29 |
5 |
12 |
,096 |
22 |
0 |
32 |
30 |
2 |
14 |
,114 |
26 |
21 |
35 |
31 |
8 |
32 |
,124 |
0 |
0 |
33 |
32 |
5 |
16 |
,125 |
29 |
25 |
36 |
33 |
8 |
23 |
,141 |
31 |
28 |
34 |
34 |
1 |
8 |
,146 |
27 |
33 |
37 |
35 |
2 |
20 |
,171 |
30 |
0 |
36 |
36 |
2 |
5 |
,198 |
35 |
32 |
37 |
37 |
1 |
2 |
,404 |
34 |
36 |
0 |
Помимо порядка объединения в кластеры таблица агломерации содержит информацию о полученном числе кластеров. Поскольку описываемый алгоритм кластеризации представляет собой объединение в кластеры сходных объектов, то при присоединении очередного подобного объекта коэффициент расстояния увеличивается незначительно. При соединении двух различных кластеров расчетное расстояние между ними является значительно большим, и коэффициент расстояния увеличивается скачкообразно. Другими словами, резкое увеличение коэффициента расстояния свидетельствует об объединении разнородных кластеров, а количество сачков, в свою очередь, свидетельствует о количестве полученных кластеров. Оптимальным числом кластеров считается разность количества кластеризуемых объектов и шага, после которого коэффициент увеличивается скачкообразно. В рассматриваемой таблице самый большой скачок наблюдается после этапа 36 – коэффициент с 0,198 увеличивается до 0,404. Поэтому оптимальное количество кластеров для анализируемых данных – 2. Но, кроме 36 шага, можно увидеть увеличение (хотя и не такое значительное) коэффициента после 34 (с 0,146 до 0,17) и 35 (с 0,171 до 0,198) этапов. Если отталкиваться от увеличения после 34 этапа, то оптимальное количество факторов 4, хотя это решение является менее предпочтительным. Наглядно это можно наблюдать на дендрограмме, графически представляющей результаты кластеризации (рис. 3). Два больших кластера включают в себя по два подкластера:
* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *
Dendrogram using Average Linkage (Between Groups)
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
беспомощ 35
неспособ 37
огранич 16
угрюмый 17
слабый 18
одинокий 33
глупый 22
наивный 9
унылый 10
неловкий 5
замкнут 12
неуравн 14
тревожн 27
обидчив 2
грустный 7
злой 31
раздраж 24
наглый 28
опасный 20
жизнерад 1
работосп 15
коммуник 21
сообраз 30
адекватн 29
эмоциона 4
везучий 11
внимател 3
счастлив 34
ответств 36
благопол 19
деятельн 25
радостн 13
продукти 6
сочувств 23
спокойн 38
талантл 26
осторожн 8
чуткий 32
Рис. 3 Представление результатов иерархического кластерного анализа в виде дендрограммы.
Полученная дендрограмма кластерного иерархического анализа показывает, какие кластеры были объединены на каждом шаге анализа, а также расстояния между ними. Для определения расстояния между объединяемыми объектами приведена шкала от 0 до 25. Таким образом, нормирование коэффициентов расстояния в дендрограмме производится в большем по сравнению с таблицей агломерации интервале. В результате кластеризации выделены два больших кластера, объединяющих положительные и отрицательные качества. Интерпретация кластеров заключается в поиске логического обоснования объединения объектов в кластер. Рассмотрим полученные кластеры более подробно. Кластер отрицательных качеств, в свою очередь, разбивается на два подкластера. Первый включает качества беспомощный, неспособный, ограниченный, угрюмый, слабый, одинокий, глупый, наивный, унылый, неловкий, замкнутый: - этот кластер получил название «Слабость». В следующий подкластер, получивший название «Неуравновешенность» вошли следующие качества: неуравновешенный, тревожный, обидчивый, грустный, злой, раздражительный, наглый, опасный.
Кластер положительных качеств содержит также два подкластера. Первый кластер объединил в себе несколько блоков. Первый, в который вошли следующие качества: благополучный, деятельный, радостный, продуктивный, - можно назвать «Благополучие», Второй – «Везучесть»: - эмоциональный, везучий, внимательный, счастливый, ответственный. Вместе они могут быть отнесены к профессиональному успеху. К этому блоку присоединяются качества, характеризующие коммуникативность и жизнерадостность (жизнерадостность, работоспособность, коммуникативность, сообразительность, адекватность). Второй объединил качества: сочувствующий, спокойный, талантливый, осторожный, чуткий, - и получил название «Сочувствие». Обращает на себя внимание наличие в этом кластере качества «талантливый». С точки зрения респондентов, талант ближе к спокойствию и сочувствию, чем к счастью и благополучию.
Таким образом, положительный кластер содержит две линии анализа – профессионализм и эмпатию.
