
- •Предисловие
- •Глава 1. Информация, обрабатываемая статистическим пакетом
- •1.1. Анкетные данные
- •Пример 1.1.
- •1.2. Типы переменных
- •Типы кодирования переменных.
- •Тип шкалы измерения переменных.
- •Неколичественные шкалы
- •Количественные шкалы:
- •Неальтернативные признаки
- •1.3. Имена переменных и метки, коды неопределенных значений
- •Глава 2. Статистический пакет для социологических исследований. Общее описпние и поодготовка данных
- •2.1. Структура пакета
- •2.2. Схема организации данных, окна spss
- •2.3. Управление работой пакета
- •Основные команды меню spss:
- •Статусная строка
- •Ввод данных с экрана
- •2.4. Режим диалога и командный режим
- •Командный режим работы с пакетом Основные правила написания команд на языке пакета
- •Порядок выполнения команд
- •Команды Вызова Get и сохранения данных save.
- •Основные Команды описания данных
- •Основные команды преобразования данных
- •Команды compute и if
- •Основные функции и операторы команд compute и if:
- •Работа с неопределенными значениями
- •Функции для неопределенных значений
- •Работа с пользовательскими неопределенными значениями
- •Работа с функциями Missing и Sysmis.
- •Команда recode
- •Команда count
- •Условное выполнение команд.
- •Команда rank
- •Variable labels rangv14 "ранг по доходам"/
- •V14_5 "квинтильные группы по доходам"/
- •Отбор подмножеств наблюдений
- •Команда split file
- •Взвешивание выборки weight
- •Пример 2.1
- •Variable labels oppos 'Степень противостояния ссср и Японии'
- •Value labels oppos 1 'Взаимное' 2 'Одна из сторон' 3 'Нет противостояния'.
- •2.5. Операции с файлами Агрегирование данных (команда aggregate)
- •Функции агрегирования
- •Объединение файлов (merge files)
- •Глава 4. Сравнение средних, корреляции
- •4.3. Compare Means - простые параметрические методы сравнения средних.
- •Одновыборочный тест (One sample t-test).
- •Variable labels lnv14m "логарифм промедианного дохода".
- •Двухвыборочный t-тест (independent sample t-test)
- •Двухвыборочный t-тест для связанных выборок (Paired sample t-test)
- •Команда means - сравнение характеристик числовой переменной по группам.
- •Одномерный дисперсионный анализ (oneway)
- •Множественные сравнения
- •Var lab w10 "образование".
- •Value lab w10 1 "Высшее" 2 "н/высш" 3 "ср. Спец" 4 "среднее" 5 "ниже среднего".
- •4.4. Корреляции (correlations)
- •Парные корреляции
- •Частные корреляции.
- •Глава 5. Непараметрические тесты. Команда Nonparametric tests.
- •5.1. Одновыборочные тесты
- •5.1.1. Тест Хи-квадрат
- •5.1.2. Тест, основанный на биномиальном распределении
- •5.1.3. Тест Колмогорова-Смирнова
- •5.2. Тесты сравнения нескольких выборок
- •5.2.1. Двухвыборочный тест Колмогорова-Смирнова
- •Var lab w4 "отношение к передаче островов".
- •Val lab 1 "Отдать" 2 "нет".
- •5.2.2. Тест медиан
- •5.3. Тесты для ранговых переменных
- •5.3.1. Двухвыборочный тест Манна-Уитни (Mann-Witney)-
- •5.3.2. Одномерный дисперсионный анализ Краскэла-Уоллиса (Kruskal-Wallis)
- •5.4. Тесты для связанных выборок (related samples)
- •5.4.1. Двухвыборочный критерий знаков (Sign)
- •5.4.2. Двухвыборочный знаково-ранговый критерий Вилкоксона (Wilcoxon)
- •5.4.3. Критерий Фридмана (Friedman)
- •Глава 1. Информация, обрабатываемая статистическим пакетом 120
- •Глава 2. Статистический пакет для социологических исследований. Общее описпние и поодготовка данных 124
- •Глава 4. Сравнение средних, корреляции 144
- •Глава 5. Непараметрические тесты. Команда Nonparametric tests. 154
- •6. Регрессионный анализ
- •6.1. Классическая линейная модель регрессионного анализа
- •Существует ли линейная регрессионная зависимость?
- •Коэффициенты детерминации и множественной корреляции
- •Оценка влияния независимой переменной
- •Стандартизация переменных. Бета коэффициенты
- •Надежность и значимость коэффициента регрессии
- •Значимость включения переменной в регрессию
- •Пошаговая процедура построения модели
- •Переменные, порождаемые регрессионным уравнением
- •Взвешенная регрессия
- •Команда построения линейной модели регрессии
- •Пример построения модели
- •Можно ли в регрессии использовать неколичественные переменные?
- •Взаимодействие переменных
- •6.2. Логистическая регрессия
- •Отношение шансов и логит
- •Решение уравнения с использованием логита.
- •Неколичественные данные
- •Взаимодействие переменных
- •Пример логистической регрессии и статистики
- •Качество подгонки логистической регрессии
- •Вероятность правильного предсказания
- •Коэффициенты регрессии
- •О статистике Вальда
- •Сохранение переменных
- •7. Исследование структуры данных
- •7.1. Факторный анализ
- •Метод главных компанент
- •Интерпретация факторов.
- •Оценка факторов
- •Статистические гипотезы в факторном анализе
- •Задание факторного анализа
- •7.2. Кластерный анализ
- •Иерархический кластерный анализ
- •Быстрый кластерный анализ
- •7.3. Многомерное шкалирование
- •Многомерное шкалирование
- •Качество подгонки модели
- •Вызов процедуры многомерного шкалирования
- •Исходная матрица расстояний
- •Пример построения шкал
- •Литература
- •Приложение 1. Анкета опроса общественного мнения
- •Приложение 2. Переменные файла обследования общественного мнения
Оценка факторов
Математический аппарат, используемый в факторном анализе, в действительности позволяет не вычислять непосредственно главные оси. И факторные нагрузки до и после вращения факторов и общности вычисляются за счет операций с корреляционной матрицей. Поэтому оценка значений факторов для объектов является одной из проблем факторного анализа.
Факторы, имеющие свойства полученных
с помощью метода главных компонент,
определяются на основе регрессионного
уравнения. Известно, что для оценки
регрессионных коэффициентов для
стандартизованных переменных достаточно
знать корреляционную матрицу переменных.
Корреляционная матрица по переменным
XiиFkопределяется, исходя из модели и имеющейся
матрицы корреляцийXi.
Исходя из нее, регрессионным методом
находятся факторы в виде линейных
комбинаций исходных переменных:.
Статистические гипотезы в факторном анализе
В SPSS предусмотрена проверка теста Барлетта о сферичности распределения данных. В предположении многомерной нормальности распределения здесь проверяется, не диагональна ли матрица корреляций. Если гипотеза не отвергается (наблюдаемый уровень значимости велик, скажем больше 5%) - нет смысла в факторном анализе, поскольку направления главных осей случайны. Этот тест предусмотрен в диалоговом окне факторного анализа, вместе с возможностью получения описательных статистик переменных и матрицы корреляций. На практике предположение о многомерной нормальности проверить весьма трудно, поэтому факторный анализ чаще применяется без такого анализа.
Задание факторного анализа
Задание факторного анализа может быть весьма простым. Например, достаточно задать команду FACTOR и подкоманду VARIABLES с указанием переменных и запустить команду на счет. Однако если удобнее самому управлять расчетами, то следует задать некоторые параметры.
Рассмотрим работу такой команды на агрегированном по городам файле наших учебных данных (напоминаем, что объектами этого файла являются города, в которых проводился опрос по поводу возможности передачи Японии курильских островов, см. выше).
FACTOR /VARIABLES W3D1 TO W3D6 /PLOT EIGEN
/CRITERIA FACTORS (2) /SAVE REGRESSION (ALL F).
Команда задана для получения факторов по переменным - долям числа респондентов, указавших различные причины неподписания договора (/VARIABLES W3D1 TO W3D6): W3D1 - нет необходимости; W3D2 - традиционное недоверие; W3D3 - незаинтересованность Японии; W3D4 - разные политические симпатии; W3D5 - нежелание Японии признать границы; W3D6 - нежелание СССР рассматривать вопрос об островах.
Подкоманда /PLOT EIGEN - выдает графическую иллюстрацию долей объясненной дисперсии. Подкоманда /CRITERIA FACTORS (2) задает получение 2-х факторов; если этой подкоманды не будет, программа сама определит число факторов. Заданием /SAVE REGRESSION (ALL f) мы получаем регрессионным методом непосредственно в активном файле оценки всех (ALL) факторов. Это будут переменные F1, F2 с заданным нами корневым именем F и добавленными к нему номерами факторов.
Рассмотрим результаты анализа. Таблица 7.1 содержит сведения об информативности полученных главных компонент. Первый фактор объясняет часть общей дисперсии, равную 2.402(40.04%), фактор 2 -1.393(23.21%), третий -.853 (14.22%)и т.д. Первые два фактора объясняют63.25% дисперсии, первые три -77.47%. Поскольку уже третья компонента объясяет менее 1 дисперсии, рассматривается всего 2 фактора - какой смысл рассмативать факторы, объясняющие меньше дисперсии, чем переменная из исходых данных?
Матрица факторных нагрузок факторов - главных компонент представлена в таблице 7.2. Мы не будем анализировать эту матрицу, а ниже подробнее проанализируем факторные нагрузки после вращения (таблица 7.3).
Таблица 7.1. Дисперсия, объясненная факторным анализом
|
Initial Eigenvalues |
|
|
Extraction Sums of Squared Loadings |
|
|
Component |
Total |
% of Variance |
Cumulative% |
Total |
% of Variance |
Cumulative % |
1 |
2.402 |
40.038 |
40.038 |
2.402 |
40.038 |
40.038 |
2 |
1.393 |
23.210 |
63.249 |
1.393 |
23.210 |
63.249 |
3 |
.853 |
14.220 |
77.468 |
|
|
|
4 |
.719 |
11.977 |
89.445 |
|
|
|
5 |
.345 |
5.752 |
95.197 |
|
|
|
6 |
.288 |
4.803 |
100.000 |
|
|
|
Extraction Method: Principal Component Analysis.
Таблица 7.2. Матрица факторных нагрузок
|
Component | |
|
1 |
2 |
W3D4 разные политические симпатии |
.769 |
.327 |
W3D1 нет необходимости, отношения нормальны |
-.723 |
.260 |
W3D3 незаинтересованность Японии |
.674 |
.578 |
W3D2 недоверие к друг другу |
-.569 |
-.315 |
W3D5 нежелание Японии признать границы |
.527 |
-.647 |
W3D6 нежелание СССР рассматривать вопрос |
-.481 |
.605 |
Таблица 7.3. Матрица факторных нагрузок после вращения факторов
|
Component | |
|
1 |
2 |
W3D3 незаинтересованность Японии |
0.887 |
0.049 |
W3D4 разные политические симпатии |
0.810 |
-0.208 |
W3D2 недоверие к друг другу |
-0.643 |
0.095 |
W3D5 нежелание Японии признать границы |
0.025 |
-0.834 |
W3D6 нежелание СССР рассматривать вопрос |
-0.014 |
0.773 |
W3D1 нет необходимости, отношения нормальны |
-0.416 |
0.646 |
Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization.
Факторные нагрузки этой матрицы свидетельствуют, что фактор 2 существенно связан с W3D6 - долей считающих, что договор не подписан, так как СССР не желает рассматривать вопрос об островах, и отрицательно - с долей считающих, что все беды из-за непризнания границ Японией (W3D5); имеется относитеельно небольшая положительная его связь с W3D1 - "нет необходимости, отношения нормальны". Можно условно назвать этот фактор "фактором несоветской ориентации".
Первыйй фактор связан с переменными
W3D3 - "нет заинтересованности Японии",
W3D4 "разные политические симпатии",
и несколько слабее, отрицательно, с W3D2
- "недоверие к друг другу". Условно
его можно назвать фактором "судьбы".
Конечно, в серьезных исследованиях
можно было бы проверить факторы с самых
различных сторон, нам
же пока достаточно пояснить принцип
интерпретации, который состоит в
формулировке содержания фактора,
ухватывающего суть явления.
Сохраненные в виде переменных подкомандой SAVE факторы могут быть использованы для исследования данных, конструирования типологий и т.д. В частности, с помощью команды GRAPH мы получили поле рассеяния наших объектов - городов в просранстве двух переменных-факторов. По этому графику, например, можно заключить, что жители Александровска-Сахалинского проявили в Курильском опросе наибольшую "несоветскую" ориентацию; они менее всего склонны считать, что договора нет потому, что "так сложилось" из-за "недоверия" между странами и из-за разных политических симпатий.