
- •Предисловие
- •Глава 1. Информация, обрабатываемая статистическим пакетом
- •1.1. Анкетные данные
- •Пример 1.1.
- •1.2. Типы переменных
- •Типы кодирования переменных.
- •Тип шкалы измерения переменных.
- •Неколичественные шкалы
- •Количественные шкалы:
- •Неальтернативные признаки
- •1.3. Имена переменных и метки, коды неопределенных значений
- •Глава 2. Статистический пакет для социологических исследований. Общее описпние и поодготовка данных
- •2.1. Структура пакета
- •2.2. Схема организации данных, окна spss
- •2.3. Управление работой пакета
- •Основные команды меню spss:
- •Статусная строка
- •Ввод данных с экрана
- •2.4. Режим диалога и командный режим
- •Командный режим работы с пакетом Основные правила написания команд на языке пакета
- •Порядок выполнения команд
- •Команды Вызова Get и сохранения данных save.
- •Основные Команды описания данных
- •Основные команды преобразования данных
- •Команды compute и if
- •Основные функции и операторы команд compute и if:
- •Работа с неопределенными значениями
- •Функции для неопределенных значений
- •Работа с пользовательскими неопределенными значениями
- •Работа с функциями Missing и Sysmis.
- •Команда recode
- •Команда count
- •Условное выполнение команд.
- •Команда rank
- •Variable labels rangv14 "ранг по доходам"/
- •V14_5 "квинтильные группы по доходам"/
- •Отбор подмножеств наблюдений
- •Команда split file
- •Взвешивание выборки weight
- •Пример 2.1
- •Variable labels oppos 'Степень противостояния ссср и Японии'
- •Value labels oppos 1 'Взаимное' 2 'Одна из сторон' 3 'Нет противостояния'.
- •2.5. Операции с файлами Агрегирование данных (команда aggregate)
- •Функции агрегирования
- •Объединение файлов (merge files)
- •Глава 4. Сравнение средних, корреляции
- •4.3. Compare Means - простые параметрические методы сравнения средних.
- •Одновыборочный тест (One sample t-test).
- •Variable labels lnv14m "логарифм промедианного дохода".
- •Двухвыборочный t-тест (independent sample t-test)
- •Двухвыборочный t-тест для связанных выборок (Paired sample t-test)
- •Команда means - сравнение характеристик числовой переменной по группам.
- •Одномерный дисперсионный анализ (oneway)
- •Множественные сравнения
- •Var lab w10 "образование".
- •Value lab w10 1 "Высшее" 2 "н/высш" 3 "ср. Спец" 4 "среднее" 5 "ниже среднего".
- •4.4. Корреляции (correlations)
- •Парные корреляции
- •Частные корреляции.
- •Глава 5. Непараметрические тесты. Команда Nonparametric tests.
- •5.1. Одновыборочные тесты
- •5.1.1. Тест Хи-квадрат
- •5.1.2. Тест, основанный на биномиальном распределении
- •5.1.3. Тест Колмогорова-Смирнова
- •5.2. Тесты сравнения нескольких выборок
- •5.2.1. Двухвыборочный тест Колмогорова-Смирнова
- •Var lab w4 "отношение к передаче островов".
- •Val lab 1 "Отдать" 2 "нет".
- •5.2.2. Тест медиан
- •5.3. Тесты для ранговых переменных
- •5.3.1. Двухвыборочный тест Манна-Уитни (Mann-Witney)-
- •5.3.2. Одномерный дисперсионный анализ Краскэла-Уоллиса (Kruskal-Wallis)
- •5.4. Тесты для связанных выборок (related samples)
- •5.4.1. Двухвыборочный критерий знаков (Sign)
- •5.4.2. Двухвыборочный знаково-ранговый критерий Вилкоксона (Wilcoxon)
- •5.4.3. Критерий Фридмана (Friedman)
- •Глава 1. Информация, обрабатываемая статистическим пакетом 120
- •Глава 2. Статистический пакет для социологических исследований. Общее описпние и поодготовка данных 124
- •Глава 4. Сравнение средних, корреляции 144
- •Глава 5. Непараметрические тесты. Команда Nonparametric tests. 154
- •6. Регрессионный анализ
- •6.1. Классическая линейная модель регрессионного анализа
- •Существует ли линейная регрессионная зависимость?
- •Коэффициенты детерминации и множественной корреляции
- •Оценка влияния независимой переменной
- •Стандартизация переменных. Бета коэффициенты
- •Надежность и значимость коэффициента регрессии
- •Значимость включения переменной в регрессию
- •Пошаговая процедура построения модели
- •Переменные, порождаемые регрессионным уравнением
- •Взвешенная регрессия
- •Команда построения линейной модели регрессии
- •Пример построения модели
- •Можно ли в регрессии использовать неколичественные переменные?
- •Взаимодействие переменных
- •6.2. Логистическая регрессия
- •Отношение шансов и логит
- •Решение уравнения с использованием логита.
- •Неколичественные данные
- •Взаимодействие переменных
- •Пример логистической регрессии и статистики
- •Качество подгонки логистической регрессии
- •Вероятность правильного предсказания
- •Коэффициенты регрессии
- •О статистике Вальда
- •Сохранение переменных
- •7. Исследование структуры данных
- •7.1. Факторный анализ
- •Метод главных компанент
- •Интерпретация факторов.
- •Оценка факторов
- •Статистические гипотезы в факторном анализе
- •Задание факторного анализа
- •7.2. Кластерный анализ
- •Иерархический кластерный анализ
- •Быстрый кластерный анализ
- •7.3. Многомерное шкалирование
- •Многомерное шкалирование
- •Качество подгонки модели
- •Вызов процедуры многомерного шкалирования
- •Исходная матрица расстояний
- •Пример построения шкал
- •Литература
- •Приложение 1. Анкета опроса общественного мнения
- •Приложение 2. Переменные файла обследования общественного мнения
Качество подгонки модели
Для измерения качества подгонки модели
Такейном (Takane, 1977) был предложен показатель
S-stress=
где норма матрицы означает сумму квадратов элементов матрицы. Слово stress в английском языке имеет множество значений, одно из этих значений - нагрузка. Этот показатель изменяется от 0 до 1. Равенство его нулю означает точную подгонку модели, единице - полную ее бессмысленность.
Кроме того, оценить качество модели можно с помощью показателя stress index Краскэла, который, согласно документации SPSS [ ], получается с использованием матрицы не квадратов расстояний, а расстояний. Заметим, что алгоритм оптимизирует S-stress, не stress index.
Еще один показатель качества модели, RSQ, представляет собой квадрат коэффициента корреляции между матрицами T и E. Таким образом, также как в регрессионном анализе, RSQ может быть интерпретирован как доля дисперсии преобразованных расстояний T, объясненная матрицей расстояний D.
Вызов процедуры многомерного шкалирования
Вызов процедуры в диалоговом режиме осуществляется командой меню Statistics\Scale\Multidimentional scaling. "Приклеиванием" команды из меню в окно синтаксиса многомерное шкалирование обычно получается целая серия команд, связанных с вычислением расстояний, сохраняемых во временных файлах, работой с несколькими матрицами одновременно, и уничтожением матриц данных. Команда меню устроена достаточно удобно, но, к сожалению, в ней предусмотрена возможность сохранения полученных шкал в виде переменных исходного файла данных. Это можно сделать только в синтаксисе, дополнив сгенерированную командуALSCALEподкомандой /OUTFILEс указанием имени файла (например, /OUTFILE="scale.save"). С помощью командыMergefilesполученные переменные можно подключить к исходному файлу данных.
По умолчанию в процедуре проводится неметрическое шкалирование, кнопкой Modelможно переключиться на метрическое шкалирование.
Исходная матрица расстояний
По умолчанию в процедуре предполагается, что исходная матрица расстояний вводится в файле SPSS. Но подготовленная матрица расстояний у исследователя бывает весьма редко. Поэтому чаще используется возможность вычисления расстояний на основе имеющихся данных, которая реализуется в диалоговом окне команды в разделеDistancesвключения пунктаCreatedistancesfromdata. Здесь предусмотрен такой же широкий набор мер близости и расстояний, как и в иерархическом кластерном анализе. Их можно выбрать, воспользовавшись кнопкойMeasuresв том же разделеDistances, при этом можно определить, что внвлизируется, матрица расстояний между объектами или переменными.
Пример построения шкал
В качестве примера исследуем данные по средней обеспеченности семей дорогостоящими предметами быта, электроникой, средствами транспорта и дачами (всего 9 предметов) в 38 территориальных общностях (данные RLMS, 1996 г.). В результате применения процедуры шкалирования территориальные общности должны расположиться в двумерном геометрическом пространстве, построенном исходя из расстояний по 9 переменным.
Для этого получим файл, в котором объектами будут территориальные общности, а переменными - обеспеченность семей этими предметами. Значения этих переменных - доли семей, обладающих этими предметами. Исходными данными здесь являются ответы на вопрос "Имеете ли Вы холодильник", "Имеете ли Вы холодильник" "Имеете ли Вы стиральную машину" и т.д. (1 - да, 2 - нет, 9 - нет ответа) в файле анкет семьи.
Этот файл агрегируем по территориальным общностям (переменная PSU), сохранив доли семей, имеющих соответствующие предметы в файлеproperty.sav:
AGGREGATE/OUTFILE='N:\USR\RLMS\property.SAV' /BREAK=psu/CC9.1A'холодильник'CC9.3A'стиральная машина'CC9.4A'черно-белый телевизор'CC9.5A'цветной телевизор'CC9.6A'видеомагнитофон или видеоплейер'CC9.6.1A'фен'CC9.7A'легковой автомобиль'CC9.10A'садовый домик'CC9.11A'дача или другой дом' =PLT(2,CC9.1ACC9.3ACC9.4ACC9.5ACC9.6ACC9.6.1ACC9.7ACC9.10ACC9.11A).
Полученный файл используется для запуска процедуры многомерного шкалирования:
get file 'N:\USR\RLMS\property.SAV'.
ERASE FILE='J:\TEMP\spssalsc.tmp'.
PROXIMITIES cc9.1a cc9.3a cc9.4a cc9.5a cc9.6a cc9.6.1a cc9.7a cc9.10a cc9.11a /PRINT NONE /MATRIX OUT('J:\TEMP\spssalsc.tmp')
/MEASURE=EUCLID /STANDARDIZE=NONE /VIEW=CASE .
SPLIT FILE OFF.
ALSCAL /MATRIX= IN('J:\TEMP\spssalsc.tmp') /LEVEL=ORDINAL /CONDITION=MATRIX /MODEL=EUCLID /CRITERIA=CONVERGE(.001) STRESSMIN(.005) ITER(30) CUTOFF(0) DIMENS(2,2) /PLOT=DEFAULT ALL /outfile="scale.save" /PRINT=HEADER .
ERASE FILE='J:\TEMP\spssalsc.tmp'.
Далее, переменные Dim1 иDim2, сохраненные подкомандой /outfile="scale.save" с помощью команды менюMergefilesприсоединяются к файлу нашему файлуproperty.SAV.
Проблема выяснить, как же интерпретируются наши шкалы?
Для интерпретации можно изучить их связь с имеющимися данными, в частности cисходными переменными, по которым строилась матрица расстояний.
В нашем примере, таблица ранговых корреляций с этими переменными свидетельствует о том, что первое измерение (Dim1) характеризует уровень благосостояния жителей территориальных образований в целом, второе измерение связана с приверженностью их садоводству.
Таблица 7.7. Коэффициенты ранговой корреляции Спирмена построенных шкал с обеспеченностью предметами быта.
|
|
CC9.1A холодильник |
CC9.3A стиральная машина |
CC9.4A черно-белый телевизор |
CC9.5A цветной телевизор |
CC9.6A видеомагнитофон |
CC9.6.1A фен |
CC9.7A легковой автомобиль |
CC9.10A садовый домик |
CC9.11A дача или другой дом |
DIM1 |
|
0.844 |
0.265 |
-0.820 |
0.950 |
0.773 |
0.929 |
0.426 |
0.426 |
0.659 |
|
Sig. |
0.000 |
0.108 |
0.000 |
0.000 |
0.000 |
0.000 |
0.008 |
0.008 |
0.000 |
DIM2 |
|
-0.112 |
-0.156 |
-0.145 |
0.113 |
0.402 |
0.240 |
0.262 |
-0.687 |
0.232 |
|
Sig. |
0.502 |
0.350 |
0.385 |
0.501 |
0.012 |
0.148 |
0.112 |
0.000 |
0.161 |
Наглядную картину дает непосредственное размещения объектов (у нас - территориальных общностей) на поле рассеяния в построенном геометрическом пространстве (рисунок 7.7). На этом графике видим, что шкала Dim1 имеет больший разброс, чем шкалаDim2, а значит, объясняет большую часть разброса расстояний объектов. Зримо подтверждается интерпретация первой шкалы: по разным полюсамDim1 стоят Ханты-Мансийский автономный округ - весьма богатый регион и Пензенская область, Кабардино-Балкария - беднейшие части России.
Поскольку по поводу развитости садоводства мы не имеем общедоступной информации, для проверки интерпретации второй шкалы полезно рассмотреть диаграмму рассеяния Dim2 и доли семей, имеющих садовые домики (рисунок 7.8). На этом рисунке ясно видно, что указанная выше интерпретация небезосновательна.