
- •Предисловие
- •Глава 1. Информация, обрабатываемая статистическим пакетом
- •1.1. Анкетные данные
- •Пример 1.1.
- •1.2. Типы переменных
- •Типы кодирования переменных.
- •Тип шкалы измерения переменных.
- •Неколичественные шкалы
- •Количественные шкалы:
- •Неальтернативные признаки
- •1.3. Имена переменных и метки, коды неопределенных значений
- •Глава 2. Статистический пакет для социологических исследований. Общее описпние и поодготовка данных
- •2.1. Структура пакета
- •2.2. Схема организации данных, окна spss
- •2.3. Управление работой пакета
- •Основные команды меню spss:
- •Статусная строка
- •Ввод данных с экрана
- •2.4. Режим диалога и командный режим
- •Командный режим работы с пакетом Основные правила написания команд на языке пакета
- •Порядок выполнения команд
- •Команды Вызова Get и сохранения данных save.
- •Основные Команды описания данных
- •Основные команды преобразования данных
- •Команды compute и if
- •Основные функции и операторы команд compute и if:
- •Работа с неопределенными значениями
- •Функции для неопределенных значений
- •Работа с пользовательскими неопределенными значениями
- •Работа с функциями Missing и Sysmis.
- •Команда recode
- •Команда count
- •Условное выполнение команд.
- •Команда rank
- •Variable labels rangv14 "ранг по доходам"/
- •V14_5 "квинтильные группы по доходам"/
- •Отбор подмножеств наблюдений
- •Команда split file
- •Взвешивание выборки weight
- •Пример 2.1
- •Variable labels oppos 'Степень противостояния ссср и Японии'
- •Value labels oppos 1 'Взаимное' 2 'Одна из сторон' 3 'Нет противостояния'.
- •2.5. Операции с файлами Агрегирование данных (команда aggregate)
- •Функции агрегирования
- •Объединение файлов (merge files)
- •Глава 4. Сравнение средних, корреляции
- •4.3. Compare Means - простые параметрические методы сравнения средних.
- •Одновыборочный тест (One sample t-test).
- •Variable labels lnv14m "логарифм промедианного дохода".
- •Двухвыборочный t-тест (independent sample t-test)
- •Двухвыборочный t-тест для связанных выборок (Paired sample t-test)
- •Команда means - сравнение характеристик числовой переменной по группам.
- •Одномерный дисперсионный анализ (oneway)
- •Множественные сравнения
- •Var lab w10 "образование".
- •Value lab w10 1 "Высшее" 2 "н/высш" 3 "ср. Спец" 4 "среднее" 5 "ниже среднего".
- •4.4. Корреляции (correlations)
- •Парные корреляции
- •Частные корреляции.
- •Глава 5. Непараметрические тесты. Команда Nonparametric tests.
- •5.1. Одновыборочные тесты
- •5.1.1. Тест Хи-квадрат
- •5.1.2. Тест, основанный на биномиальном распределении
- •5.1.3. Тест Колмогорова-Смирнова
- •5.2. Тесты сравнения нескольких выборок
- •5.2.1. Двухвыборочный тест Колмогорова-Смирнова
- •Var lab w4 "отношение к передаче островов".
- •Val lab 1 "Отдать" 2 "нет".
- •5.2.2. Тест медиан
- •5.3. Тесты для ранговых переменных
- •5.3.1. Двухвыборочный тест Манна-Уитни (Mann-Witney)-
- •5.3.2. Одномерный дисперсионный анализ Краскэла-Уоллиса (Kruskal-Wallis)
- •5.4. Тесты для связанных выборок (related samples)
- •5.4.1. Двухвыборочный критерий знаков (Sign)
- •5.4.2. Двухвыборочный знаково-ранговый критерий Вилкоксона (Wilcoxon)
- •5.4.3. Критерий Фридмана (Friedman)
- •Глава 1. Информация, обрабатываемая статистическим пакетом 120
- •Глава 2. Статистический пакет для социологических исследований. Общее описпние и поодготовка данных 124
- •Глава 4. Сравнение средних, корреляции 144
- •Глава 5. Непараметрические тесты. Команда Nonparametric tests. 154
- •6. Регрессионный анализ
- •6.1. Классическая линейная модель регрессионного анализа
- •Существует ли линейная регрессионная зависимость?
- •Коэффициенты детерминации и множественной корреляции
- •Оценка влияния независимой переменной
- •Стандартизация переменных. Бета коэффициенты
- •Надежность и значимость коэффициента регрессии
- •Значимость включения переменной в регрессию
- •Пошаговая процедура построения модели
- •Переменные, порождаемые регрессионным уравнением
- •Взвешенная регрессия
- •Команда построения линейной модели регрессии
- •Пример построения модели
- •Можно ли в регрессии использовать неколичественные переменные?
- •Взаимодействие переменных
- •6.2. Логистическая регрессия
- •Отношение шансов и логит
- •Решение уравнения с использованием логита.
- •Неколичественные данные
- •Взаимодействие переменных
- •Пример логистической регрессии и статистики
- •Качество подгонки логистической регрессии
- •Вероятность правильного предсказания
- •Коэффициенты регрессии
- •О статистике Вальда
- •Сохранение переменных
- •7. Исследование структуры данных
- •7.1. Факторный анализ
- •Метод главных компанент
- •Интерпретация факторов.
- •Оценка факторов
- •Статистические гипотезы в факторном анализе
- •Задание факторного анализа
- •7.2. Кластерный анализ
- •Иерархический кластерный анализ
- •Быстрый кластерный анализ
- •7.3. Многомерное шкалирование
- •Многомерное шкалирование
- •Качество подгонки модели
- •Вызов процедуры многомерного шкалирования
- •Исходная матрица расстояний
- •Пример построения шкал
- •Литература
- •Приложение 1. Анкета опроса общественного мнения
- •Приложение 2. Переменные файла обследования общественного мнения
Взвешенная регрессия
Пусть прогнозируется вес ребенка в зависимости от его возраста. Ясно, что дисперсия веса для четырехлетнего младенца будет значительно меньше, чем дисперсия веса 14-летнего юноши. Таким образом, дисперсия остатка iзависит от значенийX, а значит условия для оценки регрессионной зависимости не выполнены. Проблема неоднородности дисперсии в регрессионном анализе называется проблемой гетероскедастичности.
В SPSS имеется возможность корректно сделать соответствующие оценки за счет приписывания весов слагаемым минимизируемой суммы квадратов. Эта весовая функция должна быть равна 1/σ2(x), гдеσ2(x)- дисперсияyкак функция отx. Естественно, чем меньше дисперсия остатка на объекте, тем больший вес он будет иметь. В качестве такой функции можно использовать ее оценку, полученную при фиксированных значенияхX.
Например, в приведенном примере на достаточно больших данных можно оценить дисперсию для каждой возрастной группы и вычислить необходимую весовую переменную. Увеличение влияния возрастных групп с меньшим возрастом в данном случае вполне оправдано.
В диалоговом окне назначение весовой переменной производится с помощью кнопки WLS (Weighed Least Squares - метод взвешенных наименьших квадратов).
Команда построения линейной модели регрессии
В меню - это команда Linear Regression. В диалоговом окне команды:
Назначаются независимые и зависимая переменные,
Назначается метод отбора переменных. STEPWISE - пошаговое включение/удаление переменных. FORWARD - пошаговое включение переменных. BACKWARD - пошаговое исключение переменных. При пошаговом алгоритме назначаются значимости включения и исключения переменных (OPTIONS). ENTER - принудительное включение.
Имеется возможность отбора данных, на которых будет оценена модель (Selection). Для остальных данных могут быть оценены прогнозные значения функции регрессии, его стандартные отклонения и др.
Назначения вывода статистик (Statistics) - доверительные коэффициенты коэффициентов регресии, их ковариационная матрица, статистики Дарбина-Уотсона и пр.
Задаются графики рассеяния остатков, их гистограммы (Plots)
Назначаются сохранение переменных(Save), порождаемых регрессией.
Если используется пошаговая регрессия, назначаются пороговые значимости для включения (PIN) и исключения (POUT) переменных (Options).
Если обнаружена гетероскедастичность, назначается и весовая переменная.
Пример построения модели
Обычно демонстрацию модели начинают с простейшего примера, и такие примеры Вы можете найти в Руководстве по применению SPSS. Мы пойдем немного дальше и покажем, как получить полиномиальную регрессию.
Курильский опрос касался населения трудоспособного возраста. Как показали расчеты, в среднем меньшие доходы имеют молодые люди и люди старшего возраста. Поэтому, прогнозировать доход лучше квадратичной кривой, а не простой линейной зависимостью. В рамках линейной модели это можно сделать, введя переменную - квадрат возраста. Приведенное ниже задание SPSS предназначено для прогноза логарифма промедианного дохода (ранее сформированного).
Compute v9_2=v9**2.
*квадрат возраста.
REGRESSION /DEPENDENT lnv14m /METHOD=ENTER v9 v9_2
/SAVE PRED MCIN ICIN.
*регрессия с сохранением предсказанных значений и доверительных интервалов средних и индивидуальных прогнозных значений.
Таблица 5.1 показывает, что уравнение объясняет всего 4.5% дисперсии зависимой переменной (коэффициент детерминации R2=.045), скорректированная величина коэффициента равна 0.042, а коэффициент множественной корреляции равен 0.211. Много это или мало, трудно сказать, поскольку у нас нет подобных результатов на других данных, но то, что здесь есть взаимосвязь, можно понять, рассматривая таблицу 6.2.
Таблица 6.1. Общие характеристики уравнения
R |
R Square |
Adjusted R Square |
Std. Error of the Estimate |
.211 |
.045 |
.042 |
.5277 |
a Predictors: (Constant), V9_2, V9 Возраст
b Dependent Variable: LNV14M логарифм промедианного дохода
Результаты дисперсионного анализа уравнения регрессии показывает, что гипотеза равенства всех коэффициентов регрессии нулю должна быть отклонена.
Таблица 6.2. Дисперсионный анализ уравнения
|
Sum of Squares |
df |
Mean Square |
F |
Sig. |
Regression |
8.484 |
2 |
4.242 |
15.232 |
.000 |
Residual |
181.298 |
651 |
.278 |
|
|
Total |
189.782 |
653 |
|
|
|
a Predictors: (Constant), V9_2, V9 Возраст
b Dependent Variable: LNV14M логарифм промедианного дохода
Таблица 6.3. Коэффициенты регрессии.
|
Unstandardized Coefficients |
|
Standardized Coefficients |
T |
Sig. |
|
B |
Std. Error |
Beta | ||
(Constant) |
-1.0569 |
0.1888 |
|
-5.5992 |
0.0000 |
V9 Возраст |
0.0505 |
0.0093 |
1.1406 |
5.4267 |
0.0000 |
V9_2 |
-0.0006 |
0.0001 |
-1.0829 |
-5.1521 |
0.0000 |
Регрессионные коэффициенты представлены в таблице 6.3. В соответствии с ними, уравнение регрессии имеет вид
Лог.промед.дохода = -1.0569+0.0505*возраст-0.0006*возраст2
Стандартная
ошибка коэффициентов регрессии
значительно меньше величин самих
коэффициентов, их отношения -tстатистики, по абсолютной величине
больше 5. Наблюдаемая значимость статистик
(Sig) равна нулю, поэтому гипотеза о
равенстве коэффициентов нулю отвергается
для каждого коэффициента. Стоит обратить
внимание на редкую ситуацию - коэффициенты
бета по абсолютной величине больше
единицы. Это произошло, по-видимому,
из-за того, что корреляция между возрастом
и его квадратом весьма велика.
Рисунок 6.1 показывает линию регрессии и доверительные границы для M(y)- матожиданияyи для индивидуальных значенийy. Он получается с помощью наложения полей рассеяния возраста с зависимой переменной, с переменной - прогнозом, с переменными - доверительными границами:
GRAPH /SCATTERPLOT(OVERLAY)=v9 v9 v9 v9 v9 v9 WITH pre_1 lmci_1 umci_1 lici_1 uici_1 lnv14m(PAIR).
Границы для M(y)значительно уже, чем для y, так как последние должны охватывать больше 95% точек графика.
На графике не прослеживается явной зависимости дисперсии остатка от значений независимой переменной - возраста. Некоторое сужение рассеяния данных для старших возрастов произошло, вероятно, за счет общего уменьшения плотности двумерного распределения.