Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Статистический пакет SPSS / Ростовцев П. Анализ социологических данных с применением статистического пакета SPSS, учебное пособие.DOC
Скачиваний:
203
Добавлен:
21.01.2014
Размер:
3.94 Mб
Скачать

Качество подгонки модели

Для измерения качества подгонки модели Такейном (Takane, 1977) был предложен показатель S-stress=

где норма матрицы означает сумму квадратов элементов матрицы. Слово stress в английском языке имеет множество значений, одно из этих значений - нагрузка. Этот показатель изменяется от 0 до 1. Равенство его нулю означает точную подгонку модели, единице - полную ее бессмысленность.

Кроме того, оценить качество модели можно с помощью показателя stress index Краскэла, который, согласно документации SPSS [ ], получается с использованием матрицы не квадратов расстояний, а расстояний. Заметим, что алгоритм оптимизирует S-stress, не stress index.

Еще один показатель качества модели, RSQ, представляет собой квадрат коэффициента корреляции между матрицами T и E. Таким образом, также как в регрессионном анализе, RSQ может быть интерпретирован как доля дисперсии преобразованных расстояний T, объясненная матрицей расстояний D.

Вызов процедуры многомерного шкалирования

Вызов процедуры в диалоговом режиме осуществляется командой меню Statistics\Scale\Multidimentional scaling. "Приклеиванием" команды из меню в окно синтаксиса многомерное шкалирование обычно получается целая серия команд, связанных с вычислением расстояний, сохраняемых во временных файлах, работой с несколькими матрицами одновременно, и уничтожением матриц данных. Команда меню устроена достаточно удобно, но, к сожалению, в ней предусмотрена возможность сохранения полученных шкал в виде переменных исходного файла данных. Это можно сделать только в синтаксисе, дополнив сгенерированную командуALSCALEподкомандой /OUTFILEс указанием имени файла (например, /OUTFILE="scale.save"). С помощью командыMergefilesполученные переменные можно подключить к исходному файлу данных.

По умолчанию в процедуре проводится неметрическое шкалирование, кнопкой Modelможно переключиться на метрическое шкалирование.

Исходная матрица расстояний

По умолчанию в процедуре предполагается, что исходная матрица расстояний вводится в файле SPSS. Но подготовленная матрица расстояний у исследователя бывает весьма редко. Поэтому чаще используется возможность вычисления расстояний на основе имеющихся данных, которая реализуется в диалоговом окне команды в разделеDistancesвключения пунктаCreatedistancesfromdata. Здесь предусмотрен такой же широкий набор мер близости и расстояний, как и в иерархическом кластерном анализе. Их можно выбрать, воспользовавшись кнопкойMeasuresв том же разделеDistances, при этом можно определить, что внвлизируется, матрица расстояний между объектами или переменными.

Пример построения шкал

В качестве примера исследуем данные по средней обеспеченности семей дорогостоящими предметами быта, электроникой, средствами транспорта и дачами (всего 9 предметов) в 38 территориальных общностях (данные RLMS, 1996 г.). В результате применения процедуры шкалирования территориальные общности должны расположиться в двумерном геометрическом пространстве, построенном исходя из расстояний по 9 переменным.

Для этого получим файл, в котором объектами будут территориальные общности, а переменными - обеспеченность семей этими предметами. Значения этих переменных - доли семей, обладающих этими предметами. Исходными данными здесь являются ответы на вопрос "Имеете ли Вы холодильник", "Имеете ли Вы холодильник" "Имеете ли Вы стиральную машину" и т.д. (1 - да, 2 - нет, 9 - нет ответа) в файле анкет семьи.

Этот файл агрегируем по территориальным общностям (переменная PSU), сохранив доли семей, имеющих соответствующие предметы в файлеproperty.sav:

AGGREGATE/OUTFILE='N:\USR\RLMS\property.SAV' /BREAK=psu/CC9.1A'холодильник'CC9.3A'стиральная машина'CC9.4A'черно-белый телевизор'CC9.5A'цветной телевизор'CC9.6A'видеомагнитофон или видеоплейер'CC9.6.1A'фен'CC9.7A'легковой автомобиль'CC9.10A'садовый домик'CC9.11A'дача или другой дом' =PLT(2,CC9.1ACC9.3ACC9.4ACC9.5ACC9.6ACC9.6.1ACC9.7ACC9.10ACC9.11A).

Полученный файл используется для запуска процедуры многомерного шкалирования:

get file 'N:\USR\RLMS\property.SAV'.

ERASE FILE='J:\TEMP\spssalsc.tmp'.

PROXIMITIES cc9.1a cc9.3a cc9.4a cc9.5a cc9.6a cc9.6.1a cc9.7a cc9.10a cc9.11a /PRINT NONE /MATRIX OUT('J:\TEMP\spssalsc.tmp')

/MEASURE=EUCLID /STANDARDIZE=NONE /VIEW=CASE .

SPLIT FILE OFF.

ALSCAL /MATRIX= IN('J:\TEMP\spssalsc.tmp') /LEVEL=ORDINAL /CONDITION=MATRIX /MODEL=EUCLID /CRITERIA=CONVERGE(.001) STRESSMIN(.005) ITER(30) CUTOFF(0) DIMENS(2,2) /PLOT=DEFAULT ALL /outfile="scale.save" /PRINT=HEADER .

ERASE FILE='J:\TEMP\spssalsc.tmp'.

Далее, переменные Dim1 иDim2, сохраненные подкомандой /outfile="scale.save" с помощью команды менюMergefilesприсоединяются к файлу нашему файлуproperty.SAV.

Проблема выяснить, как же интерпретируются наши шкалы?

Для интерпретации можно изучить их связь с имеющимися данными, в частности cисходными переменными, по которым строилась матрица расстояний.

В нашем примере, таблица ранговых корреляций с этими переменными свидетельствует о том, что первое измерение (Dim1) характеризует уровень благосостояния жителей территориальных образований в целом, второе измерение связана с приверженностью их садоводству.

Таблица 7.7. Коэффициенты ранговой корреляции Спирмена построенных шкал с обеспеченностью предметами быта.

CC9.1A холодильник

CC9.3A стиральная машина

CC9.4A черно-белый телевизор

CC9.5A цветной телевизор

CC9.6A видеомагнитофон

CC9.6.1A фен

CC9.7A легковой автомобиль

CC9.10A садовый домик

CC9.11A дача или другой дом

DIM1

0.844

0.265

-0.820

0.950

0.773

0.929

0.426

0.426

0.659

Sig.

0.000

0.108

0.000

0.000

0.000

0.000

0.008

0.008

0.000

DIM2

-0.112

-0.156

-0.145

0.113

0.402

0.240

0.262

-0.687

0.232

Sig.

0.502

0.350

0.385

0.501

0.012

0.148

0.112

0.000

0.161

Наглядную картину дает непосредственное размещения объектов (у нас - территориальных общностей) на поле рассеяния в построенном геометрическом пространстве (рисунок 7.7). На этом графике видим, что шкала Dim1 имеет больший разброс, чем шкалаDim2, а значит, объясняет большую часть разброса расстояний объектов. Зримо подтверждается интерпретация первой шкалы: по разным полюсамDim1 стоят Ханты-Мансийский автономный округ - весьма богатый регион и Пензенская область, Кабардино-Балкария - беднейшие части России.

Поскольку по поводу развитости садоводства мы не имеем общедоступной информации, для проверки интерпретации второй шкалы полезно рассмотреть диаграмму рассеяния Dim2 и доли семей, имеющих садовые домики (рисунок 7.8). На этом рисунке ясно видно, что указанная выше интерпретация небезосновательна.