Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

УМК Б ОГД 1 МатСтат 3 УЧПОС Воронов И.А

.pdf
Скачиваний:
44
Добавлен:
02.04.2015
Размер:
3.01 Mб
Скачать

расположенное рядом поле значение 3 и щелкните на кнопке Continue (продолжить), чтобы вернуться в диалоговое окно Hierarchical Cluster Analysis (иерархический кластерный анализ).

6. Щелкните па кнопке ОК, чтобы открыть окно вывода.

Примечания: 1. В данном примере кластеризация осуществляется по следующим переменным: цена (стоимость), т_сост (экспертная оценка технического состояния по 10-балльной шкале), эксплуат (количество месяцев эксплуатации), усл_км (кол-во условных километров пробега с начала эксплуатации).

2. По умолчанию использует-

 

ся квадрат Евклидова расстояния,

 

согласно которому расстояние ме-

 

жду объектами равно сумме квад-

 

ратов разностей между значениями

 

одноименных переменных объек-

 

тов. Предположим, что тренажер А

 

имеет показатели технического со-

 

стояния и эксплуатации 7 и 7, а

 

тренажер В – 6 и 13. В этом случае

Рис. 3.18

расстояние между тренажерами вы-

 

числяется следующим образом: (7 – 6)2 + (7 – 13)2 = 37. При выполнении КА сумма квадратов разностей вычисляется для всех переменных. Получаемые расстояния используются программой при формировании кластеров. Помимо Евклидова существуют и другие виды расстояний. При необходимости обратитесь к руководству пользователя SPSS. Относительно вычисления расстояния может возникнуть следующий вопрос: будет ли адекватным результат КА в том случае, если переменные имеют различные шкалы измерения? Так, все переменные файла KA.sav имеют самые разные шкалы. Для решения проблемы шкалирования в SPSS используется стандартизация, в частности, ее простой метод – нормализация переменных, приводящая все переменные к стандартной z-шкале (среднее равно 0, стандартное отклонение – 1). Помимо одинаковой шкалы нормализованные переменные также имеют равные веса. В случае, если все исходные данные имеют одну и ту же шкалу измерения либо веса переменных по смыслу должны быть разными, стандартизацию переменных проводить не нужно.

3. Существует два основных метода формирования кластеров: метод слияния и метод дробления. В первом случае исходные кластеры увеличиваются путем объединения до тех пор, пока не будет сформирован единственный кластер, содержащий все данные. Метод дробления основан на обратной операции: сначала все данные объединяются в один кластер, который затем делится на части до тех пор, пока не будет достигнут желаемый результат. По умолчанию программой SPSS используется метод слияния, и мы рассмотрим его в этом разделе. В методе слияния предусмотрено несколько способов объедине-

61

ния объектов. Способ, применяемый по умолчанию, называется межгрупповым связыванием, или связыванием средних внутри групп. SPSS вычисляет наи-

меньшее среднее значение расстояния между всеми парами групп и объединяет две группы, оказавшиеся наиболее близкими. На первом шаге, когда все кластеры представляют собой одиночные объекты, данная операция сводится к обычному попарному сравнению расстояний между объектами. Термин «среднее значение» приобретает смысл лишь на втором этапе, когда сформированы кластеры, содержащие более одного объекта. Так, в нашем примере на начальном этане имеется 16 кластеров (объектов); сначала в кластер объединяются два объекта с наименьшим расстоянием друг от друга. Затем подсчет расстояний повторяется, и в кластер объединяется еще одна пара переменных. На втором этапе вы получите либо 13 свободных объектов и 1 кластер, объединяющий 2 объекта, либо 11 свободных объектов и 2 кластера по 2 объекта в каждом. В конечном счете, все объекты окажутся в одном большом кластере. Существуют и другие методы объединения объектов. При необходимости обратитесь к руководству пользователя SPSS.

4. Как и в случае ФА, желаемое число кластеров и оценка результатов анализа зависят от целей исследователя. Для данного примера наиболее предпочтительно число кластеров, равное 3. Как показывает анализ, все тренажеры можно разделить на 3 группы: 1-я группа (на дендрограмме занимает центральное положение) имеет среднюю стоимость (среднее значение – 11883), небольшой срок эксплуатации (8 мес) и низкий условный километраж (3139 км). 2-я группа (на дендрограмме – вверху) имеет низкую стоимость (8750), небольшой пробег, наибольший возраст, не высокое техническое состояние (6). 3-я группа (на дендрограмме – внизу) содержит дорогие модели с небольшим сроком эксплуатации и изношенности, высоким баллом технического состояния.

62

Задача 3.7 [7]. Для решения требуется программа SPSS и файл данных DA-

FA-KA.sav. В этой задаче проводится КА, в котором вместо объектов участвуют переменные и1 – и11.

Обычно при группировании переменных исследователя интересует их взаимосвязь, а не их различие (сходство), как при группировании объектов. Исключением является случай, когда данные представляют собой оценки объектов экспертами, в этом случае строки соответствуют экспертам, а столбцы – оцениваемым объектам. Поскольку в нашем примере интерес представляют именно взаимосвязи между переменными и мы хотим сравнить результаты с ФА, то в качестве меры близости целесообразно выбрать корреляцию. При этом корреляции надо учитывать по абсолютной величине, так как большие (по модулю) отрицательные их величины так же свидетельствуют о связи, как и большие положительные. Все это необходимо иметь в виду, если речь идет о кластеризации переменных. Большинство остальных параметров команды оставим установленными по умолчанию; даже в стандартизации в данном случае нет необходимости, так как на величину корреляции не влияют единицы измерения переменных. Добавим лишь дендрограмму в выводимые результаты и исключим оттуда диаграмму накопления.

1.Откройте файл данных DA-FA-KA.sav.

2.В меню Analyze (анализ) выберите команду Classify ► Hierarchical Cluster

(классификация ► иерархическая кластеризация). Откроется диалоговое окно Hierarchical Cluster Analysis (иерархический кластерный анализ) (рис.3.19). В группе Cluster (кластеризация) установите переключатель Variables (переменные). Переместите переменные и1 – и11 в список Variable(s) (переменные).

3.Щелкните на кнопке Plots (диаграммы), чтобы открыть диалоговое окно Hierarchical Cluster Analysis: Plots (иерархиче-

ский кластерный анализ: диаграммы) (рис. 3.16). Установите флажок Dendrogram (дендрограмма)

и переключатель None

 

(нет) в

группе Icicle

 

(диаграмма накопле-

 

ния).

Щелкните на

Рис. 3.19

кнопке

Continue

 

(продолжить), чтобы вернуться в

диалоговое окно Hierarchical Cluster

63

Рис. 3.20

Analysis (иерархический кластерный анализ).

4. Щелкните на кнопке Method (метод), чтобы открыть диалоговое ок-

но Hierarchical Cluster Analysis: Method (ие-

рархический кластерный анализ: метод) (рис. 3.20). В списке Interval (интервал) выбе-

рите пункт Pearson correlation (корреляция Пирсона), а в группе

Transform Measures

(преобразование значений) установите флажок Absolute values (абсолютные значения). Щелкните на кнопке Continue (про-

должить), чтобы вернуться в диалоговое окно Hierarchical Cluster Analysis (иерархический кластерный анализ).

5. Щелкните на кнопке ОК, чтобы открыть окно вывода.

64

Rotated Component Matrix

 

 

Component

 

 

1

2

3

аналогии

,792

,199

,040

счет в уме

,765

-,115

,257

числовые ряды

,752

-,029

,069

умозаключения

,632

,247

,215

заучивание слов

-,083

,847

-,010

осведомленность

,045

,773

,108

пропущенные слова

,252

,741

,179

геометрическое

,281

-,036

,771

сложение

 

 

 

скрытые фигуры

,093

,071

,752

понятливость

,017

,434

,587

исключение

,170

,313

,341

изображений

 

 

 

 

 

 

 

Extraction Method: Principal Component Analysis .

Rotation Method: Varimax with Kaiser Normalization.

a. Rotation converged in 5 iterations.

Сравните результаты КА и ФА, изображенные выше (см. файл DA-FA-KA.sav).

3.6. Многомерное шкалирование (МШ)

Основное достоинство МШ – представление больших массивов данных о различии объектов в графическом виде. При МШ матрица различий между объектами (вычисленными, например, по их экспертным оценкам) представляется в виде одно-, двух– или трех– и более мерного графического изображения взаимного расположения этих объектов. Если две точки на изображении удалены друг от друга, то между соответствующими объектами имеется значительное расхождение; напротив, близость точек говорит о сходстве объектов.

МШ имеет много общих черт с ФА. Так же, как и при ФА, создается система координат пространства, в котором определяется расположение точек. Так же, как и при ФА, происходит снижение размерности и упрощение данных. Однако при ФА обычно используются коэффициенты корреляции, а при МШ – меры различия между объектами. Наконец, в ФА наибольший интерес вызывают углы между точками, представляющими данные, а в МШ ключевой величиной является расстояние между этими точками.

Помимо факторного анализа МШ имеет несколько общих черт с КА (см. раздел 3.5). В обоих случаях анализируется расстояние между объектами; однако при КА типичной является количественная процедура объединения объектов в группы (кластеры), а при МШ качественный анализ объектов проводится

визуально с помощью диаграммы.

65

Процедура ММШ SPSS, имеющая историческое название ALSCAL, фактически не является одной программой, а представляет собой набор небольших процедур, каждая из которых соответствует своему типу данных. В этом разделе будут приведены несколько примеров для различных типов данных.

В первом примере будет обработана социограмма для группы учащихся; здесь их количественные оценки отношений друг к другу будут преобразованы в графическое изображение взаимного расположения учащихся.

Во втором примере будут рассмотрены результаты тестирования учащихся по пяти показателям и графически представлены различия между учащимися на плоском изображении.

Наконец, третий пример будет представлять собой небольшое исследование восприятия и понимания студентами пяти многомерных методов статистического анализа.

Задача 3.8 [7]. Для решения требуется программа SPSS и файл данных

MDS-1.sav. Квадратная асимметричная матрица различий. Преподаватель решил создать идеальную психологическую обстановку в группе во время занятия, рассадив учащихся так, чтобы ни один из них не оказался рядом с тем, кто ему не нравится. Для этого каждому из 12 студентов было предложено оценить степень своей симпатии к своим однокурсникам по пятибалльной шкале (от 1 до 5, где 1 – максимум симпатии, а 5 – максимум антипатии). Результатом МШ будет диаграмма, на которой удаленность точек будет соответствовать отношениям между учащимися.

Вначале необходимо создать квадратную (12 × 12) матрицу различий. Позже на основе этой матрицы будет построено двухмерное изображение, иллюстрирующее взаимоотношения студентов. В ходе МШ исходная матрица 12 × 12 преобразуется в гораздо более простую матрицу 12 × 2 (где 2 – число измерений), содержащую координаты точек для изображения. Исходную матрицу называют квадратной асимметричной матрицей различий. Пояснения, что означают составляющие это определение термины, даны в конце настоящего раздела.

1. Откройте файл данных MDS- 1.sav. В меню Analyze (анализ) выберите команду Scale ►

Multidimensional

Scaling (шкалирова-

Рис. 3.21

66

Рис. 3.23
Рис. 3.22

ние ► многомерное шкалирование). Откроется диалоговое окно Multidimensional Scaling (многомерное шкалирование). После выполнения предыдущего шага у Вас должно быть открыто диалоговое окно Multidimensional Scaling (многомерное шкалирование). Переместите переменные с1 – с12 в список Variables (переменные) (рис. 3.21).

2. Щелкните на кнопке Shape (форма), чтобы открыть диалоговое окно Multidimensional Scaling: Shape Of Data (многомерное шкалирование: форма данных). Установите переключатель Square asymmetric (квадратная асимметричная) и щелкните на кнопке Continue (продолжить), чтобы вернуться в

диалоговое окно Multidimensional Scaling (многомерное шкалирование) (рис. 3.22).

3. Щелкните на кнопке Model (модель), чтобы открыть диалоговое окно Multidimensional Scaling: Model (многомерное шкалирование: модель). В группе

Conditionality (ус-

ловие) установите переключатель Row (строка) и щелкните

на кнопке Continue (продолжить), чтобы вернуться в диалоговое окно Multidimensional Scaling (многомерное шкалирование) (рис. 3.23).

4. Щелкните на кнопке Options (параметры), чтобы открыть диалоговое окно Multidimensional Scaling: Options

(многомерное шкалирование: Параметры). Установите флажок Croup plots (групповые диаграммы) и щелкните на кнопке Continue (продолжить), чтобы вернуться в диалоговое окно Multidimensional Scaling (многомерное шкали-

рование) (рис. 3.24).

5. Щелкните на кнопке ОК, чтобы открыть окно вывода.

Рис. 3.24

67

Задача 3.9 [7]. Для решения требуется программа SPSS и файл данных

MDS-2.sav. Квадратная симметричная матрица различий.

Преподавателю необходимо рассадить 12 учащихся в соответствии с результатами их тестирования по пяти показателям. Поскольку результаты тестирования не относятся к данным, характеризующим различия, необходимо сначала вычислить различия по имеющимся данным и таким образом свести задачу к предыдущей.

Исходные данные для этой задачи естественно представить в виде прямоугольной матрицы 12 × 5, в которой для каждого из 12 учащихся указаны результаты 5 тестов (файл MDS-2.sav). Затем по исходным данным строится квадратная (12 × 12) матрица различий между учащимися. Наконец, как и в предыдущем примере, SPSS создает матрицу координат 12 × 2 и визуально представляет ее в виде диаграммы.

Обратите внимание на два ключевых свойства матрицы различий: она является квадратной и симметричной. Несмотря на то, что исходная матрица является прямоугольной, т. е. ее строки (объекты) соответствуют учащимся, а столбцы (переменные) – тестам, в матрице различий как строки, так и столбцы соответствуют учащимся, и, следовательно, матрица является квадратной с размером 12 × 12. Далее, поскольку, к примеру, учащийся 1 отличается от уча-

68

Рис. 3.25
Рис. 3.26

щегося 5 по результатам тестирования так же, как учащийся 5 от учащегося 1, матрица различий является симметричной.

В следующем примере демонстрируется двухмерное шкалирование квадратной симметричной матрицы различий, которую SPSS создает при задании переменных из файла данных. Данные матрицы различий имеют интервальный тип. В этом примере используется файл данных MDS-2.sav.

1. Откройте файл MDS-2.sav. В

меню Analyze (анализ) выберите ко-

манду Scale ► Multidimensional Scaling (шкалирование ► многомерное шкалирование). Откроется диалоговое окно Multidimensional Scaling (мно-

гомерное шкалирование). Переместите переменные тест1 – тест5 в список Variables (переменные) (рис.

3.25).

2. В группе Distances (расстояния) установите переключатель

Create distances from data (вычислить расстояния по данным) и щелкните на кнопке Measure (мера), чтобы открыть диалоговое окно Multidimensional

Scaling: Create Measure from Data (многомерное шкалирование: Создание меры для данных). В

группе Create Distance Matrix (создание матрицы

расстояний) установите переключатель Between cases (между объектами) и щелкните па кнопке Continue (продолжить), чтобы вернуться в диалоговое окно Multidimensional Scaling (многомерное шкалирование) (рис. 3.26).

69

3.Щелкните на кнопке Model (модель), чтобы открыть диалоговое окно Multidimensional Scaling: Model (многомерное шкалирование: модель). В группе Level of Measurement (уровень измерения) установите переключатель Interval (интервальный) и щелкните на кнопке Continue (продолжить), чтобы вернуться в диалоговое окно Multidimensional Scaling (многомерное шкалиро-

вание) (рис. 3.27).

4.Щелкните

на кнопке

Options

 

(параметры), чтобы

 

открыть диалоговое

 

окно

Multidimen-

 

sional

Scaling: Op-

 

tions

(многомерное

 

шкалирование: Па-

 

раметры). Устано-

 

вите флажок Group

 

plots

(групповые

 

диаграммы)

и

 

щелкните на кнопке

Рис. 3.27

Continue

(продол-

 

жить), чтобы вернуться в диалоговое окно Multidimensional Scaling (многомерное шкалирование) (рис. 3.24).

5. Щелкните на кнопке ОК, чтобы открыть окно вывода.

70

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]