
- •Предисловие
- •Глава 1. Информация, обрабатываемая статистическим пакетом
- •1.1. Анкетные данные
- •Пример 1.1.
- •1.2. Типы переменных
- •Типы кодирования переменных.
- •Тип шкалы измерения переменных.
- •Неколичественные шкалы
- •Количественные шкалы:
- •Неальтернативные признаки
- •1.3. Имена переменных и метки, коды неопределенных значений
- •Глава 2. Статистический пакет для социологических исследований. Общее описпние и поодготовка данных
- •2.1. Структура пакета
- •2.2. Схема организации данных, окна spss
- •2.3. Управление работой пакета
- •Основные команды меню spss:
- •Статусная строка
- •Ввод данных с экрана
- •2.4. Режим диалога и командный режим
- •Командный режим работы с пакетом Основные правила написания команд на языке пакета
- •Порядок выполнения команд
- •Команды Вызова Get и сохранения данных save.
- •Основные Команды описания данных
- •Основные команды преобразования данных
- •Команды compute и if
- •Основные функции и операторы команд compute и if:
- •Работа с неопределенными значениями
- •Функции для неопределенных значений
- •Работа с пользовательскими неопределенными значениями
- •Работа с функциями Missing и Sysmis.
- •Команда recode
- •Команда count
- •Условное выполнение команд.
- •Команда rank
- •Variable labels rangv14 "ранг по доходам"/
- •V14_5 "квинтильные группы по доходам"/
- •Отбор подмножеств наблюдений
- •Команда split file
- •Взвешивание выборки weight
- •Пример 2.1
- •Variable labels oppos 'Степень противостояния ссср и Японии'
- •Value labels oppos 1 'Взаимное' 2 'Одна из сторон' 3 'Нет противостояния'.
- •2.5. Операции с файлами Агрегирование данных (команда aggregate)
- •Функции агрегирования
- •Объединение файлов (merge files)
- •Глава 4. Сравнение средних, корреляции
- •4.3. Compare Means - простые параметрические методы сравнения средних.
- •Одновыборочный тест (One sample t-test).
- •Variable labels lnv14m "логарифм промедианного дохода".
- •Двухвыборочный t-тест (independent sample t-test)
- •Двухвыборочный t-тест для связанных выборок (Paired sample t-test)
- •Команда means - сравнение характеристик числовой переменной по группам.
- •Одномерный дисперсионный анализ (oneway)
- •Множественные сравнения
- •Var lab w10 "образование".
- •Value lab w10 1 "Высшее" 2 "н/высш" 3 "ср. Спец" 4 "среднее" 5 "ниже среднего".
- •4.4. Корреляции (correlations)
- •Парные корреляции
- •Частные корреляции.
- •Глава 5. Непараметрические тесты. Команда Nonparametric tests.
- •5.1. Одновыборочные тесты
- •5.1.1. Тест Хи-квадрат
- •5.1.2. Тест, основанный на биномиальном распределении
- •5.1.3. Тест Колмогорова-Смирнова
- •5.2. Тесты сравнения нескольких выборок
- •5.2.1. Двухвыборочный тест Колмогорова-Смирнова
- •Var lab w4 "отношение к передаче островов".
- •Val lab 1 "Отдать" 2 "нет".
- •5.2.2. Тест медиан
- •5.3. Тесты для ранговых переменных
- •5.3.1. Двухвыборочный тест Манна-Уитни (Mann-Witney)-
- •5.3.2. Одномерный дисперсионный анализ Краскэла-Уоллиса (Kruskal-Wallis)
- •5.4. Тесты для связанных выборок (related samples)
- •5.4.1. Двухвыборочный критерий знаков (Sign)
- •5.4.2. Двухвыборочный знаково-ранговый критерий Вилкоксона (Wilcoxon)
- •5.4.3. Критерий Фридмана (Friedman)
- •Глава 1. Информация, обрабатываемая статистическим пакетом 120
- •Глава 2. Статистический пакет для социологических исследований. Общее описпние и поодготовка данных 124
- •Глава 4. Сравнение средних, корреляции 144
- •Глава 5. Непараметрические тесты. Команда Nonparametric tests. 154
- •6. Регрессионный анализ
- •6.1. Классическая линейная модель регрессионного анализа
- •Существует ли линейная регрессионная зависимость?
- •Коэффициенты детерминации и множественной корреляции
- •Оценка влияния независимой переменной
- •Стандартизация переменных. Бета коэффициенты
- •Надежность и значимость коэффициента регрессии
- •Значимость включения переменной в регрессию
- •Пошаговая процедура построения модели
- •Переменные, порождаемые регрессионным уравнением
- •Взвешенная регрессия
- •Команда построения линейной модели регрессии
- •Пример построения модели
- •Можно ли в регрессии использовать неколичественные переменные?
- •Взаимодействие переменных
- •6.2. Логистическая регрессия
- •Отношение шансов и логит
- •Решение уравнения с использованием логита.
- •Неколичественные данные
- •Взаимодействие переменных
- •Пример логистической регрессии и статистики
- •Качество подгонки логистической регрессии
- •Вероятность правильного предсказания
- •Коэффициенты регрессии
- •О статистике Вальда
- •Сохранение переменных
- •7. Исследование структуры данных
- •7.1. Факторный анализ
- •Метод главных компанент
- •Интерпретация факторов.
- •Оценка факторов
- •Статистические гипотезы в факторном анализе
- •Задание факторного анализа
- •7.2. Кластерный анализ
- •Иерархический кластерный анализ
- •Быстрый кластерный анализ
- •7.3. Многомерное шкалирование
- •Многомерное шкалирование
- •Качество подгонки модели
- •Вызов процедуры многомерного шкалирования
- •Исходная матрица расстояний
- •Пример построения шкал
- •Литература
- •Приложение 1. Анкета опроса общественного мнения
- •Приложение 2. Переменные файла обследования общественного мнения
5.1.2. Тест, основанный на биномиальном распределении
Проверяется гипотеза о параметре биномиального распределения H0: p=p0. Например, проверим по нашей выборке, действительно ли в генеральной совокупности вероятность встретить мужчину p=0.5, , а молодежь не старше 30 лет - с вероятностью p=0.3 (см. предыдущий пример):
NPAR TESTS BINOMIAL(0.5) = V8(1,2).
NPAR TESTS BINOMIAL(0.3) = V9(30).
В скобках за ключевым словом BINOMIAL указывается вероятность "успеха". Далее следует тестируемая переменная. Если за ней в скобках следует два значения, то считается, что выборка ограничена двумя группами, соответствующими этим значениям, а успех соответствует первому значению. Если в скобках задано одно значение, то успех - принятие переменной значения, не большего этого числа. В диалоговом окне есть возможность задать как "точку разрыва", так и два кода.
Программа подсчитывает число объектов m, имеющих заданные значения (в первом случае m - число мужчин (код 1), во втором случае m - число респондентов не старше 30 лет). На основании свойств биномиального распределения подсчитывается двусторонняя наблюдаемая значимость - вероятность случайной величины в условиях биномиального распределения с параметром P отклониться от ожидаемого значения np больше, чем отклонилось выборочное значение m.
Наблюдаемый уровень значимости можно оценить с использованием теоремы Муавра-Лапласа, методом Монте-Карло, а также точно, по биномиальному распределению, используя возможность, представленную в SPSS в EXACT STATISTICS:
NPAR TEST /BINOMIAL (.50)= v8 /METHOD=EXACT TIMER(5).
Таблица 5.4. Значимость критерия хи-квадрат
|
Category |
N |
Observed Prop. |
Test Prop. |
Asymp. Sig. (2-tailed) |
Exact Sig. (2-tailed) |
Group 1 |
1 муж. |
362 |
0.508 |
0.5 |
0.708 |
0.708 |
Group 2 |
2 жен. |
351 |
0.492 |
|
|
|
Total |
|
713 |
1 |
|
|
|
В таблице 5.4 выдается расчетная 0.508 и заданная теоретическая вероятность Test Prop.=0.5. Выборочное распределение почти совпало с заданным. Этот результат окончательно подтверждает величина двусторонней значимости: 0.708 - вероятность случайно получить значение, большее полученного. Так как 70% - это большая вероятность, мы делаем вывод, что распределение совпадает с заданным. Двусторонний тест показал незначимое отличие доли мужчин в выборке от ожидаемой доли (нулевая гипотеза не отвергается).
5.1.3. Тест Колмогорова-Смирнова
Одно-выборочный тест предназначен для проверки гипотезы о распределении в генеральной совокупности. Статистика критерия - абсолютная величина разности эмпирической и теоретической функций распределения:
Команда задания теста Колмогорова-Смирнова имеет вид:
NPAR TESTS K-S(NORMAL,5,2)=X.
В скобках за ключевым словом K-S указывается предполагаемый вид распределения: NORMAL - нормальное; UNIFORM - равномерное; POISSON - распределение Пуассона; EXPONENTIAL - показательное распределение. За видом распределения в скобках можно указать его параметры: для нормального - среднее и среднеквадратичное отклонение; для равномерного - минимум и максимум; для распределения Пуассона - среднее. По умолчанию используются оценки параметров по выборочной совокупности.
Заметим, что оценка параметров по выборке дает смещение этого критерия. Поэтому ему стоит доверять только для больших выборок.
Таблица 5.5. Проверка нормальности распределения доходов с использованием критерия Колмогорова-Смирнова.
|
|
V14 Душевой доход в семье |
N |
|
673 |
Normal Parameters |
Mean |
229.11 |
|
Std. Deviation |
151.34 |
Most Extreme Differences |
Absolute |
0.187 |
|
Positive |
0.187 |
|
Negative |
-0.149 |
Kolmogorov-Smirnov Z |
|
4.85 |
Asymp. Sig. (2-tailed) |
|
0 |
В таблице результатов выдается двусторонняя значимость - вероятность случайно в условиях гипотезы превзойти выборочное значение статистики, фиксирующей отличие распределения от заданного.
Например, проверим нормальности распределения доходов командой:
NPAR TESTS K-S(NORMAL) = V14.
Поскольку двусторонняя значимость в таблице 5.5 (2-tailed P) равна нулю, то можем сделать вывод, что полученная разность фиксирует существенное отличие распределения по доходам от нормального. Во многих исследованиях используется вместо дохода используется его логарифм, распределение которого считается близким к нормальному. Проверим нормальность логарифма доходов:
compute lnv14=ln(v14).
npar test k-s(normal)=w14.
Таблица 5.6. Проверка лог-нормальности распределения доходов
|
|
LNV14 |
N |
|
673 |
Normal Parameters |
Mean |
5.2812 |
|
Std. Deviation |
0.5344 |
Most Extreme Differences |
Absolute |
0.098 |
|
Positive |
0.098 |
|
Negative |
-0.055 |
Kolmogorov-Smirnov Z |
|
2.54 |
Asymp. Sig. (2-tailed) |
|
0 |
Значение критерия несколько уменьшилось, но существенность различия сохранилось (таблица 5.6).
Иногда бывает необходимо проверить законы распределения не предусмотренные в NPAR TESTS. В этом случае вспомните, что распределение непрерывной случайной величины =F(), где F - функция распределения , равномерно на отрезке (0,1). Таким образом, воспользовавшись статистическими функциями преобразования данных SPSS, из тестируемой переменной можно всегда получить переменную, имеющую теоретически равномерное распределение и проверив, действительно ли ее распределение равномерно, принять или отвергнуть гипотезу о виде распределения F(x).