
Качество подгонки модели
Для измерения качества подгонки модели
Такейном (Takane, 1977) был предложен показатель
S-stress=
где норма матрицы означает сумму квадратов элементов матрицы. Слово stress в английском языке имеет множество значений, одно из этих значений - нагрузка. Этот показатель изменяется от 0 до 1. Равенство его нулю означает точную подгонку модели, единице - полную ее бессмысленность.
Кроме того, оценить качество модели можно с помощью показателя stress index Краскэла, который, согласно документации SPSS [ ], получается с использованием матрицы не квадратов расстояний, а расстояний. Заметим, что алгоритм оптимизирует S-stress, не stress index.
Еще один показатель качества модели, RSQ, представляет собой квадрат коэффициента корреляции между матрицами T и E. Таким образом, также как в регрессионном анализе, RSQ может быть интерпретирован как доля дисперсии преобразованных расстояний T, объясненная матрицей расстояний D.
Вызов процедуры многомерного шкалирования
Вызов процедуры в диалоговом режиме осуществляется командой меню Statistics\Scale\Multidimentional scaling. "Приклеиванием" команды из меню в окно синтаксиса многомерное шкалирование обычно получается целая серия команд, связанных с вычислением расстояний, сохраняемых во временных файлах, работой с несколькими матрицами одновременно, и уничтожением матриц данных. Команда меню устроена достаточно удобно, но, к сожалению, в ней предусмотрена возможность сохранения полученных шкал в виде переменных исходного файла данных. Это можно сделать только в синтаксисе, дополнив сгенерированную команду ALSCALE подкомандой /OUTFILE с указанием имени файла (например, /OUTFILE ="scale.save"). С помощью команды Merge files полученные переменные можно подключить к исходному файлу данных.
По умолчанию в процедуре проводится неметрическое шкалирование, кнопкой Model можно переключиться на метрическое шкалирование.
Исходная матрица расстояний
По умолчанию в процедуре предполагается, что исходная матрица расстояний вводится в файле SPSS. Но подготовленная матрица расстояний у исследователя бывает весьма редко. Поэтому чаще используется возможность вычисления расстояний на основе имеющихся данных, которая реализуется в диалоговом окне команды в разделе Distances включения пункта Create distances from data. Здесь предусмотрен такой же широкий набор мер близости и расстояний, как и в иерархическом кластерном анализе. Их можно выбрать, воспользовавшись кнопкой Measures в том же разделе Distances, при этом можно определить, что внвлизируется, матрица расстояний между объектами или переменными.
Пример построения шкал
В качестве примера исследуем данные по средней обеспеченности семей дорогостоящими предметами быта, электроникой, средствами транспорта и дачами (всего 9 предметов) в 38 территориальных общностях (данные RLMS, 1996 г.). В результате применения процедуры шкалирования территориальные общности должны расположиться в двумерном геометрическом пространстве, построенном исходя из расстояний по 9 переменным.
Для этого получим файл, в котором объектами будут территориальные общности, а переменными - обеспеченность семей этими предметами. Значения этих переменных - доли семей, обладающих этими предметами. Исходными данными здесь являются ответы на вопрос "Имеете ли Вы холодильник", "Имеете ли Вы холодильник" "Имеете ли Вы стиральную машину" и т.д. (1 - да, 2 - нет, 9 - нет ответа) в файле анкет семьи.
Этот файл агрегируем по территориальным общностям (переменная PSU), сохранив доли семей, имеющих соответствующие предметы в файле property.sav:
AGGREGATE /OUTFILE='N:\USR\RLMS\property.SAV' /BREAK=psu /CC9.1A 'холодильник' CC9.3A 'стиральная машина' CC9.4A 'черно-белый телевизор' CC9.5A 'цветной телевизор' CC9.6A 'видеомагнитофон или видеоплейер' CC9.6.1A 'фен' CC9.7A 'легковой автомобиль' CC9.10A 'садовый домик' CC9.11A 'дача или другой дом' =PLT (2, CC9.1A CC9.3A CC9.4A CC9.5A CC9.6A CC9.6.1A CC9.7A CC9.10A CC9.11A).
Полученный файл используется для запуска процедуры многомерного шкалирования:
get file 'N:\USR\RLMS\property.SAV'.
ERASE FILE='J:\TEMP\spssalsc.tmp'.
PROXIMITIES cc9.1a cc9.3a cc9.4a cc9.5a cc9.6a cc9.6.1a cc9.7a cc9.10a cc9.11a /PRINT NONE /MATRIX OUT('J:\TEMP\spssalsc.tmp')
/MEASURE=EUCLID /STANDARDIZE=NONE /VIEW=CASE .
SPLIT FILE OFF.
ALSCAL /MATRIX= IN('J:\TEMP\spssalsc.tmp') /LEVEL=ORDINAL /CONDITION=MATRIX /MODEL=EUCLID /CRITERIA=CONVERGE(.001) STRESSMIN(.005) ITER(30) CUTOFF(0) DIMENS(2,2) /PLOT=DEFAULT ALL /outfile="scale.save" /PRINT=HEADER .
ERASE FILE='J:\TEMP\spssalsc.tmp'.
Далее, переменные Dim1 иDim2, сохраненные подкомандой /outfile="scale.save" с помощью команды меню Merge files присоединяются к файлу нашему файлу property.SAV.
Проблема выяснить, как же интерпретируются наши шкалы?
Для интерпретации можно изучить их связь с имеющимися данными, в частности c исходными переменными, по которым строилась матрица расстояний.
В нашем примере, таблица ранговых корреляций с этими переменными свидетельствует о том, что первое измерение (Dim1) характеризует уровень благосостояния жителей территориальных образований в целом, второе измерение связана с приверженностью их садоводству.
Таблица 7.7. Коэффициенты ранговой корреляции Спирмена построенных шкал с обеспеченностью предметами быта.
|
|
CC9.1A холодильник |
CC9.3A стиральная машина |
CC9.4A черно-белый телевизор |
CC9.5A цветной телевизор |
CC9.6A видеомагнитофон |
CC9.6.1A фен |
CC9.7A легковой автомобиль |
CC9.10A садовый домик |
CC9.11A дача или другой дом |
DIM1 |
|
0.844 |
0.265 |
-0.820 |
0.950 |
0.773 |
0.929 |
0.426 |
0.426 |
0.659 |
|
Sig. |
0.000 |
0.108 |
0.000 |
0.000 |
0.000 |
0.000 |
0.008 |
0.008 |
0.000 |
DIM2 |
|
-0.112 |
-0.156 |
-0.145 |
0.113 |
0.402 |
0.240 |
0.262 |
-0.687 |
0.232 |
|
Sig. |
0.502 |
0.350 |
0.385 |
0.501 |
0.012 |
0.148 |
0.112 |
0.000 |
0.161 |
Наглядную картину дает непосредственное размещения объектов (у нас - территориальных общностей) на поле рассеяния в построенном геометрическом пространстве (рисунок 7.7). На этом графике видим, что шкала Dim1 имеет больший разброс, чем шкала Dim2, а значит, объясняет большую часть разброса расстояний объектов. Зримо подтверждается интерпретация первой шкалы: по разным полюсам Dim1 стоят Ханты-Мансийский автономный округ - весьма богатый регион и Пензенская область, Кабардино-Балкария - беднейшие части России.
Поскольку по поводу развитости садоводства мы не имеем общедоступной информации, для проверки интерпретации второй шкалы полезно рассмотреть диаграмму рассеяния Dim2 и доли семей, имеющих садовые домики (рисунок 7.8). На этом рисунке ясно видно, что указанная выше интерпретация небезосновательна.