
- •Предисловие
- •Глава 1. Информация, обрабатываемая статистическим пакетом
- •1.1. Анкетные данные
- •Пример 1.1.
- •1.2. Типы переменных
- •Типы кодирования переменных.
- •Тип шкалы измерения переменных.
- •Неколичественные шкалы
- •Количественные шкалы:
- •Неальтернативные признаки
- •1.3. Имена переменных и метки, коды неопределенных значений
- •Глава 2. Статистический пакет для социологических исследований. Общее описпние и поодготовка данных
- •2.1. Структура пакета
- •2.2. Схема организации данных, окна spss
- •2.3. Управление работой пакета
- •Основные команды меню spss:
- •Статусная строка
- •Ввод данных с экрана
- •2.4. Режим диалога и командный режим
- •Командный режим работы с пакетом Основные правила написания команд на языке пакета
- •Порядок выполнения команд
- •Команды Вызова Get и сохранения данных save.
- •Основные Команды описания данных
- •Основные команды преобразования данных
- •Команды compute и if
- •Основные функции и операторы команд compute и if:
- •Работа с неопределенными значениями
- •Функции для неопределенных значений
- •Работа с пользовательскими неопределенными значениями
- •Работа с функциями Missing и Sysmis.
- •Команда recode
- •Команда count
- •Условное выполнение команд.
- •Команда rank
- •Variable labels rangv14 "ранг по доходам"/
- •V14_5 "квинтильные группы по доходам"/
- •Отбор подмножеств наблюдений
- •Команда split file
- •Взвешивание выборки weight
- •Пример 2.1
- •Variable labels oppos 'Степень противостояния ссср и Японии'
- •Value labels oppos 1 'Взаимное' 2 'Одна из сторон' 3 'Нет противостояния'.
- •2.5. Операции с файлами Агрегирование данных (команда aggregate)
- •Функции агрегирования
- •Объединение файлов (merge files)
- •Глава 4. Сравнение средних, корреляции
- •4.3. Compare Means - простые параметрические методы сравнения средних.
- •Одновыборочный тест (One sample t-test).
- •Variable labels lnv14m "логарифм промедианного дохода".
- •Двухвыборочный t-тест (independent sample t-test)
- •Двухвыборочный t-тест для связанных выборок (Paired sample t-test)
- •Команда means - сравнение характеристик числовой переменной по группам.
- •Одномерный дисперсионный анализ (oneway)
- •Множественные сравнения
- •Var lab w10 "образование".
- •Value lab w10 1 "Высшее" 2 "н/высш" 3 "ср. Спец" 4 "среднее" 5 "ниже среднего".
- •4.4. Корреляции (correlations)
- •Парные корреляции
- •Частные корреляции.
- •Глава 5. Непараметрические тесты. Команда Nonparametric tests.
- •5.1. Одновыборочные тесты
- •5.1.1. Тест Хи-квадрат
- •5.1.2. Тест, основанный на биномиальном распределении
- •5.1.3. Тест Колмогорова-Смирнова
- •5.2. Тесты сравнения нескольких выборок
- •5.2.1. Двухвыборочный тест Колмогорова-Смирнова
- •Var lab w4 "отношение к передаче островов".
- •Val lab 1 "Отдать" 2 "нет".
- •5.2.2. Тест медиан
- •5.3. Тесты для ранговых переменных
- •5.3.1. Двухвыборочный тест Манна-Уитни (Mann-Witney)-
- •5.3.2. Одномерный дисперсионный анализ Краскэла-Уоллиса (Kruskal-Wallis)
- •5.4. Тесты для связанных выборок (related samples)
- •5.4.1. Двухвыборочный критерий знаков (Sign)
- •5.4.2. Двухвыборочный знаково-ранговый критерий Вилкоксона (Wilcoxon)
- •5.4.3. Критерий Фридмана (Friedman)
- •Глава 1. Информация, обрабатываемая статистическим пакетом 120
- •Глава 2. Статистический пакет для социологических исследований. Общее описпние и поодготовка данных 124
- •Глава 4. Сравнение средних, корреляции 144
- •Глава 5. Непараметрические тесты. Команда Nonparametric tests. 154
- •6. Регрессионный анализ
- •6.1. Классическая линейная модель регрессионного анализа
- •Существует ли линейная регрессионная зависимость?
- •Коэффициенты детерминации и множественной корреляции
- •Оценка влияния независимой переменной
- •Стандартизация переменных. Бета коэффициенты
- •Надежность и значимость коэффициента регрессии
- •Значимость включения переменной в регрессию
- •Пошаговая процедура построения модели
- •Переменные, порождаемые регрессионным уравнением
- •Взвешенная регрессия
- •Команда построения линейной модели регрессии
- •Пример построения модели
- •Можно ли в регрессии использовать неколичественные переменные?
- •Взаимодействие переменных
- •6.2. Логистическая регрессия
- •Отношение шансов и логит
- •Решение уравнения с использованием логита.
- •Неколичественные данные
- •Взаимодействие переменных
- •Пример логистической регрессии и статистики
- •Качество подгонки логистической регрессии
- •Вероятность правильного предсказания
- •Коэффициенты регрессии
- •О статистике Вальда
- •Сохранение переменных
- •7. Исследование структуры данных
- •7.1. Факторный анализ
- •Метод главных компанент
- •Интерпретация факторов.
- •Оценка факторов
- •Статистические гипотезы в факторном анализе
- •Задание факторного анализа
- •7.2. Кластерный анализ
- •Иерархический кластерный анализ
- •Быстрый кластерный анализ
- •7.3. Многомерное шкалирование
- •Многомерное шкалирование
- •Качество подгонки модели
- •Вызов процедуры многомерного шкалирования
- •Исходная матрица расстояний
- •Пример построения шкал
- •Литература
- •Приложение 1. Анкета опроса общественного мнения
- •Приложение 2. Переменные файла обследования общественного мнения
5.2. Тесты сравнения нескольких выборок
Эти тесты предназначены для проверки гипотезы совпадения распределений в выборках. В отличие от t-теста и известных методов дисперсионного анализа, здесь не предполагается нормальность теоретического распределения.
Многие тесты основаны на поиске определенного типа противоречия с гипотезой совпадения распределений и не может обнаружить всех отличий. Например, тест медиан проверяет совпадение только медиан. Поэтому иногда полезно воспользоваться несколькими тестами.
5.2.1. Двухвыборочный тест Колмогорова-Смирнова
Двухвыборочный тест Колмогорова-Смирнова предназначен для проверки гипотезы о совпадении распределений в паре выборок:
NPAR TESTS K-S=V14 BY V4(1,3).
В команде за ключевым словом K-S следует тестируемая переменная (в нашем примере - V14), за ней после слова BY указываются сравниваемые группы - переменная, определяющая эти группы, и соответствующие этим группам значения: V4(1,3).
Статистика критерия - абсолютная величина разности эмпирических функций распределения в указанных выборках:
,
где N1
и N2
- объемы выборок.
В листинге выдается статистика критерия Z=ks двусторонняя значимость - вероятность случайно в условиях гипотезы превзойти выборочное значение статистики.
Пример: сравнение распределений доходов групп готовых отдать острова или их часть и придерживающихся твердой позиции:
recode v4(1,2=1)(3=2) into W4.
Var lab w4 "отношение к передаче островов".
Val lab 1 "Отдать" 2 "нет".
npar test k-s=v14 by w4(1,2).
Таблица 5.7. Cравнение распределения доходов в двух группах на основе критерия Колмогорова-Смирнова,.
|
|
V14 Душевой доход в семье |
Most Extreme Differences |
Absolute |
0.05 |
|
Positive |
0.05 |
|
Negative |
-0.028 |
Kolmogorov-Smirnov Z |
|
0.455 |
Asymp. Sig. (2-tailed) |
|
0.986 |
В приведенном примере (таблица 5.7) наблюдаемый уровень значимости велик (0.986). Поэтому, приходим к заключению, что на нашей учебной выборке критерием Колмогорова-Смирнова не удалось обнаружить различие распределений по душевому доходу в группах считающих, что нужно отдать острова или их часть, и противников такого решения. Это не означает достоверно, что распределения совпадают, возможны тонкие различия распределений, которые критерий не улавливает из-за малого объема данных.
5.2.2. Тест медиан
Этот тест позволяет сравнивать распределения исследуемой переменной сразу в нескольких группах. Тест весьма груб, но прост.
NPAR TESTS MEDIAN = V14 BY V1(1,3).
Внешне задание теста похоже на задания критерия Колмогорова-Смирнова.
Задание сравниваемых групп. После слова BY за именем переменной в скобках указывается интервал значений. В приведенном примере сравниваются распределения в трех группах. Тестом можно сравнить также и пару групп, если в скобках вначале указать большее значение, затем меньшее (при задании V4(3,1) сравниваются только 1-я и 3-я группы).
Суть проверки гипотезы состоит в следующем. Значения исследуемой переменной (в нашем примере - V14) делятся на две группы: больше медианы и меньше или равно медиане. Такое разделение можно считать заданием новой, дихотомической переменной. Вычисляется таблица сопряженности полученной дихотомической переменной и переменной, задающей группы. Далее применяется известный критерий Хи-квадрат. Если величина наблюдаемой значимости критерия мала, естественно предположить, что распределение исследуемой переменной в группах различается существенно.
Замечание. Для получения дихотомии можно, также, навязать точку "разрыва" переменной, не совпадающую с медианой, указав в скобках за словом MEDIAN соответствующее значение.
Пример. Курильское обследование проходило в 21 городе Западной Сибири. Экспертным путем все города разделены на 4 типа: 1 растущие, 2 стабильные, 3 крупные, 4 гиганты. Типу города в наших данных соответствует переменная TP.
Исследуется связь доходов и типа населенного пункта.:
npar test med=v14 by TP(1,4).
Таблица 5.8. Метод медиан. Разделение на две подвыборки.
|
|
TP тип поселения |
|
|
|
|
|
Растущие |
Стабильные |
крупные |
гигант |
V14 Ср.мес. душевой доход в семье |
> Median |
84 |
104 |
62 |
12 |
|
<= Median |
90 |
126 |
139 |
56 |
Таблица 5.9. Метод медиан. Значимость критерия.
|
V14 Ср.мес. душевой доход в семье |
N |
673 |
Median |
200 |
Chi-Square |
28.698 |
Df |
3 |
Asymp. Sig. |
0 |
Анализируя величину наблюдаемой значимости, видим, что между точкой зрения на иностранную помощь и возрастом имеется существенная связь, т.е. обнаружено значимое различие распределения доходов в группах.