
- •Предисловие
- •Глава 1. Информация, обрабатываемая статистическим пакетом
- •1.1. Анкетные данные
- •Пример 1.1.
- •1.2. Типы переменных
- •Типы кодирования переменных.
- •Тип шкалы измерения переменных.
- •Неколичественные шкалы
- •Количественные шкалы:
- •Неальтернативные признаки
- •1.3. Имена переменных и метки, коды неопределенных значений
- •Глава 2. Статистический пакет для социологических исследований. Общее описпние и поодготовка данных
- •2.1. Структура пакета
- •2.2. Схема организации данных, окна spss
- •2.3. Управление работой пакета
- •Основные команды меню spss:
- •Статусная строка
- •Ввод данных с экрана
- •2.4. Режим диалога и командный режим
- •Командный режим работы с пакетом Основные правила написания команд на языке пакета
- •Порядок выполнения команд
- •Команды Вызова Get и сохранения данных save.
- •Основные Команды описания данных
- •Основные команды преобразования данных
- •Команды compute и if
- •Основные функции и операторы команд compute и if:
- •Работа с неопределенными значениями
- •Функции для неопределенных значений
- •Работа с пользовательскими неопределенными значениями
- •Работа с функциями Missing и Sysmis.
- •Команда recode
- •Команда count
- •Условное выполнение команд.
- •Команда rank
- •Variable labels rangv14 "ранг по доходам"/
- •V14_5 "квинтильные группы по доходам"/
- •Отбор подмножеств наблюдений
- •Команда split file
- •Взвешивание выборки weight
- •Пример 2.1
- •Variable labels oppos 'Степень противостояния ссср и Японии'
- •Value labels oppos 1 'Взаимное' 2 'Одна из сторон' 3 'Нет противостояния'.
- •2.5. Операции с файлами Агрегирование данных (команда aggregate)
- •Функции агрегирования
- •Объединение файлов (merge files)
- •Глава 4. Сравнение средних, корреляции
- •4.3. Compare Means - простые параметрические методы сравнения средних.
- •Одновыборочный тест (One sample t-test).
- •Variable labels lnv14m "логарифм промедианного дохода".
- •Двухвыборочный t-тест (independent sample t-test)
- •Двухвыборочный t-тест для связанных выборок (Paired sample t-test)
- •Команда means - сравнение характеристик числовой переменной по группам.
- •Одномерный дисперсионный анализ (oneway)
- •Множественные сравнения
- •Var lab w10 "образование".
- •Value lab w10 1 "Высшее" 2 "н/высш" 3 "ср. Спец" 4 "среднее" 5 "ниже среднего".
- •4.4. Корреляции (correlations)
- •Парные корреляции
- •Частные корреляции.
- •Глава 5. Непараметрические тесты. Команда Nonparametric tests.
- •5.1. Одновыборочные тесты
- •5.1.1. Тест Хи-квадрат
- •5.1.2. Тест, основанный на биномиальном распределении
- •5.1.3. Тест Колмогорова-Смирнова
- •5.2. Тесты сравнения нескольких выборок
- •5.2.1. Двухвыборочный тест Колмогорова-Смирнова
- •Var lab w4 "отношение к передаче островов".
- •Val lab 1 "Отдать" 2 "нет".
- •5.2.2. Тест медиан
- •5.3. Тесты для ранговых переменных
- •5.3.1. Двухвыборочный тест Манна-Уитни (Mann-Witney)-
- •5.3.2. Одномерный дисперсионный анализ Краскэла-Уоллиса (Kruskal-Wallis)
- •5.4. Тесты для связанных выборок (related samples)
- •5.4.1. Двухвыборочный критерий знаков (Sign)
- •5.4.2. Двухвыборочный знаково-ранговый критерий Вилкоксона (Wilcoxon)
- •5.4.3. Критерий Фридмана (Friedman)
- •Глава 1. Информация, обрабатываемая статистическим пакетом 120
- •Глава 2. Статистический пакет для социологических исследований. Общее описпние и поодготовка данных 124
- •Глава 4. Сравнение средних, корреляции 144
- •Глава 5. Непараметрические тесты. Команда Nonparametric tests. 154
- •6. Регрессионный анализ
- •6.1. Классическая линейная модель регрессионного анализа
- •Существует ли линейная регрессионная зависимость?
- •Коэффициенты детерминации и множественной корреляции
- •Оценка влияния независимой переменной
- •Стандартизация переменных. Бета коэффициенты
- •Надежность и значимость коэффициента регрессии
- •Значимость включения переменной в регрессию
- •Пошаговая процедура построения модели
- •Переменные, порождаемые регрессионным уравнением
- •Взвешенная регрессия
- •Команда построения линейной модели регрессии
- •Пример построения модели
- •Можно ли в регрессии использовать неколичественные переменные?
- •Взаимодействие переменных
- •6.2. Логистическая регрессия
- •Отношение шансов и логит
- •Решение уравнения с использованием логита.
- •Неколичественные данные
- •Взаимодействие переменных
- •Пример логистической регрессии и статистики
- •Качество подгонки логистической регрессии
- •Вероятность правильного предсказания
- •Коэффициенты регрессии
- •О статистике Вальда
- •Сохранение переменных
- •7. Исследование структуры данных
- •7.1. Факторный анализ
- •Метод главных компанент
- •Интерпретация факторов.
- •Оценка факторов
- •Статистические гипотезы в факторном анализе
- •Задание факторного анализа
- •7.2. Кластерный анализ
- •Иерархический кластерный анализ
- •Быстрый кластерный анализ
- •7.3. Многомерное шкалирование
- •Многомерное шкалирование
- •Качество подгонки модели
- •Вызов процедуры многомерного шкалирования
- •Исходная матрица расстояний
- •Пример построения шкал
- •Литература
- •Приложение 1. Анкета опроса общественного мнения
- •Приложение 2. Переменные файла обследования общественного мнения
Значимость включения переменной в регрессию
При последовательном подборе переменных в SPSS предусмотрена автоматизация, основанная на значимости включения и исключения переменных. Рассмотрим, что представляет собой эта значимость.
Обозначим
коэффициент детерминации, полученный
при исключении из правой части уравнения
переменнойxk(зависимая
переменнаяy). При этом мы получим
уменьшение объясненной дисперсии, на
величину
.
Для оценки значимости включения
переменной xkиспользуется
статистика,
имеющая распределение Фишера при нулевом
теоретическом приросте
.
Вообще, если из уравнения регрессии
исключаютсяqпеременных, статистикой
значимости исключения будет
.
Пошаговая процедура построения модели
Основным критерием отбора аргументов должно быть качественное представление о факторах, влияющих на зависимую переменную, которую мы пытаемся смоделировать. В SPSS очень хорошо реализован процесс построения регрессионной модели: на машину переложена значительная доля трудностей в решении этой задачи. Возможно построение последовательное построение модели добавлением и удалением блоков переменных. Но мы рассмотрим только работу с отдельными переменными.
По умолчанию программа включает все заданные переменные (метод ENTER).
Метод включения и исключения переменных (STEPWISE) состоит в следующем.
Из множества факторов, рассматриваемых исследователем как возможные аргументы регрессионного уравнения, отбирается один xk, который более всего связан корреляционной зависимостью сy. Для этого рассчитываются частные коэффициенты корреляции остальных переменных сyприxk, включенном в регрессию, и выбирается следующая переменная с наибольшим частным коэффициентом корреляции. Это равносильно следующему: вычислить регрессионный остаток переменнойy; вычислить регрессионный остаток независимых переменных по регрессионным уравнениям их как зависимых переменных от выбранной переменной (т.е. устранить из всех переменных влияние выбранной переменной); найти наибольший коэффициент корреляции остатков и включить соответствующую переменнуюxв уравнение регрессии. Далее проводится та же процедура при двух выбранных переменных, при трех и т.д.
Процедура повторяется до тех пор, пока в уравнение не будут включены все аргументы выделенные исследователем, удовлетворяющие критериям значимости включения.
Замечание: во избежание зацикливания процесса включения/исключения значимость включения устанавливается меньше значимости исключения.
Переменные, порождаемые регрессионным уравнением
Сохранение переменных, порождаемых регрессией, производится подкомандой SAVE.
Благодаря полученным оценкам коэффициентов
уравнения регрессии могут быть оценены
прогнозные значения зависимой переменной
,
причем они могут быть вычислены и там,
где значенияyопределены, и там где
они не определены. Прогнозные значения
являются оценками средних, ожидаемых
по модели значенийY, зависящих отX.
Поскольку коэффициенты регрессии -
случайные величины, линия регрессии
также случайна. Поэтому прогнозные
значения случайны и имеют некоторое
стандартное отклонение
,
зависящее отX. Благодаря этому можно
получить и доверительные границы для
прогнозных значений регрессии (средних
значенийy).
Кроме того, с учетом дисперсии остатка могут быть вычислены доверительные границы значений Y(не средних, а индивидуальных!).
Для каждого объекта может быть вычислен
остаток ei=.
Остаток полезен для изучения адеквантности
модели данным. Это означает, что должны
быть выполнены требования о независимости
остатков для отдельных наблюдений,
дисперсия не должна зависеть отX.
Для изучения отклонений от модели удобно использовать стандартизованный остаток - деленный на стандартную ошибку регрессии.
Случайность оценки прогнозных значений
Yвносит дополнительную дисперсию
в регрессионный остаток, из-за этого
дисперсия остатка зависит от значений
независимых переменных ().
Стьюдентеризованный остаток - это
остаток деленный на оценку дисперсии
остатка:
.
Таким образом, мы можем получить: оценку (прогнозную) значений зависимой переменной Unstandardized predicted value), ее стандартное отклонение (S.E. of mean predictions), доверительные интервалы для среднего Y(X)и дляY(X)(Prediction intervals - Mean, Individual).
Это далеко не полный перечень переменных, порождаемых SPSS.