- •Прикладные компьютерные программы в обработке социологических данных
- •В ведение
- •Темы лекционных занятий
- •Тема 1. Интерфейс программы. Описание переменных.
- •Тема 2. Отбор данных
- •Тема 3. Работа с множественными ответами. Модификация данных
- •Тема 4. Таблицы сопряженности
- •Тема 5. Корреляционно-регрессионный анализ
- •Основные команды меню spss
- •Ввод данных с экрана
- •Типы переменных
- •Отбор данных
- •Таблицы сопряженности
- •Корреляционный и регрессионный виды анализа
- •Лабораторная работа №6 Факторный анализ
Корреляционный и регрессионный виды анализа
Корреляционный анализ
Статистика разработала множество методов изучения связей, выбор которых зависит от целей исследования и от поставленных задач. Связи между признаками и явлениями ввиду их большого разнообразия классифицируют по ряду оснований.
Признаки по их значению для изучения взаимосвязи делятся на два класса: результативные и факторные. Результативными называются признаки, изменяющиеся под действием других, связанных с ними признаков. Факторными называются признаки, обуславливающие изменение результативных признаков.
Существуют различные виды и формы связи признаков. По характеру зависимости признаков различают функциональную (полную) связь и корреляционную (неполную) связь. Функциональная - это связь, при которой определенному значению факторного признака соответствует одно и только одно значение результативного признака. Корреляционная - это связь, при которой определенному значению факторного признака соответствует лишь среднее значение результативного признака.
Корреляционный анализ имеет своей задачей количественное определение тесноты связи между признаками. Теснота связи количественно выражается величиной коэффициентов корреляции. Коэффициент корреляции — это величина, которая может варьировать в пределах от +1 до -1. В случае полной положительной корреляции этот коэффициент равен плюс 1, а при полной отрицательной — минус 1. На графике этому соответствует прямая линия, проходящая через точки пересечения значений каждой пары данных. В случае если коэффициент корреляции равен 0, обе переменные полностью независимы друг от друга. В гуманитарных науках корреляция считается сильной, если ее коэффициент выше 0,60; если же он превышает 0,90, то корреляция считается очень сильной. Однако для того, чтобы можно было делать выводы о связях между переменными, большое значение имеет объем выборки: чем выборка больше, тем достовернее величина полученного коэффициента корреляции.
При прямолинейной форме связи показатель тесноты связи двух признаков определяется по формуле (1):
(1)
где x - значение факторного признака;
y – значение результативного признака;
n – число пар данных.
Количественные критерии оценки тесноты связи обозначены в шкале Чеддока (см. табл. 5).
Таблица 5.
Шкала Чеддока
Величина коэффициента корреляции |
0,1-0,3 |
0,3-0,5 |
0,5-0,7 |
0,7-0,9 |
0,9-1,0 |
Характеристика силы связи |
слабая |
умеренная |
заметная |
высокая |
очень высокая |
|
средняя |
Сильная |
При изучении корреляций стараются установить, существует ли какая-то связь между двумя показателями в одной выборке, либо между двумя различными выборками, и если эта связь существует, то сопровождается ли увеличение одного показателя возрастанием (положительная корреляция) или уменьшением (отрицательная корреляция) другого. Иными словами, корреляционный анализ помогает установить, можно ли предсказывать возможные значения одного показателя, зная величину другого.
В SPSS корреляционный анализ реализуется следующим образом Analyze (Анализ)/ Correlate (Корреляция)/ Bivariate(Двумерная).
Рассмотрим пример взаимосвязи ответов на вопросы об оценке положения дел на предприятии и удовлетворенности своим рабочим местом по базе данных изучения социально-психологического климата ФМК (ФМК. sav) (см. рис. 18).
Рис. 18. Вид окна запуска корреляционного анализа
Результат запуска см. табл. 6. По данным таблицы мы можем убедиться, что между показателями оценки положения дел на предприятии и удовлетворенности рабочим местом существует слабая положительная связь (0,246). Уровень значимости достаточно высок, что обозначается двумя звездочками.
Таблица 6
Фрагмент окна вывода данных при запуске корреляционного анализа
Correlations | |||
|
|
Положение_дел |
Удовлетворенность_рабместом |
Положение_дел |
Pearson Correlation |
1 |
,246** |
Sig. (2-tailed) |
|
,000 | |
N |
275 |
275 | |
Удовлетворенность_рабместом |
Pearson Correlation |
,246** |
1 |
Sig. (2-tailed) |
,000 |
| |
N |
275 |
275 | |
**. Correlation is significant at the 0.01 level (2-tailed). |
|
Регрессионный анализ
Если расчёт корреляции характеризует силу связи между двумя переменными, то регрессионный анализ служит для определения вида этой связи и дает возможности для прогнозирования значения одной (зависимой) переменной отталкиваясь от значения другой (независимой) переменной.
Чтобы вызвать регрессионный анализ в SPSS, выберите в меню Analyze... (Анализ) /Regression... (Регрессия) Linear... (Линейная). Появится диалоговое окно Linear Regression (Линейная регрессия). Перенесите необходимую переменную в поле для зависимых переменных и присвойте другой переменной статус независимой переменной (см. рис. 19). Нажмите ОК. Фрагмент вывода основных результатов выглядит следующим образом (см. табл.7).
Рассмотрим сначала нижнюю часть результатов расчётов. Здесь выводятся коэффициент регрессии «b» и смещение по оси ординат «а» под именем "константа". То есть, уравнение регрессии будет выглядеть следующим образом: «Удовлетворенность_рабместом = 0,292* положение_дел + 1,883»
Рис. 19. Вид окна запуска регрессионного анализа
Средняя часть расчётов отражает два источника дисперсии: дисперсию, которая описывается уравнением регрессии (сумма квадратов, обусловленная регрессией) и дисперсию, которая не учитывается при записи уравнения (остаточная сумма квадратов). Частное от суммы квадратов, обусловленных регрессией и остаточной суммы квадратов называется "коэффициентом детерминации". В таблице результатов это частное выводится под именем "R-квадрат" (верхняя часть расчетов). Эта величина характеризует качество регрессионной прямой, то есть степень соответствия между регрессионной моделью и исходными данными. Мера определённости всегда лежит в диапазоне от 0 до 1. Существование ненулевых коэффициентов регрессии проверяется посредством вычисления контрольной величины F, к которой относится соответствующий уровень значимости.
В простом линейном регрессионном анализе квадратный корень из коэффициента детерминации, обозначаемый "R", равен корреляционному коэффициенту Пирсона. При множественном анализе эта величина менее наглядна, нежели сам коэффициент детерминации.
Таблица 7.
Фрагмент вывода результатов запуска регрессионного анализа
Model Summary |
| ||||||||||
Model |
R |
R Square |
Adjusted R Square |
Std. Error of the Estimate |
| ||||||
1 |
,246a |
,060 |
,057 |
1,424 |
| ||||||
a. Predictors: (Constant), Положение_дел |
| ||||||||||
ANOVAb | |||||||||||
Model |
Sum of Squares |
Df |
Mean Square |
F |
Sig. | ||||||
1 |
Regression |
35,539 |
1 |
35,539 |
17,525 |
,000a | |||||
Residual |
553,610 |
273 |
2,028 |
|
| ||||||
Total |
589,149 |
274 |
|
|
| ||||||
a. Predictors: (Constant), Положение_дел |
|
|
| ||||||||
b. Dependent Variable: Удовлетворенность_рабместом |
|
|
a. Dependent Variable (Зависимая переменная)
Coefficientsa | ||||||
Model |
Unstandardized Coefficients |
Standardized Coefficients |
t |
Sig. | ||
B |
Std. Error |
Beta | ||||
1 |
(Constant) |
1,883 |
,222 |
|
8,498 |
,000 |
Положение_дел |
,292 |
,070 |
,246 |
4,186 |
,000 | |
a. Dependent Variable: Удовлетворенность_рабместом |
|
|
Множественная линейная регрессия
В общем случае в регрессионный анализ вовлекаются несколько независимых переменных. В случае множественного регрессионного анализа речь идёт необходимо оценить коэффициенты уравнения (2):
y = b1x1 +b2*x2+... + bn*xn+a , (2)
где n - количество независимых переменных, обозначенных как x, и хn, a - некоторая константа.
Запуск множественной регрессии запускается также, как и простая линейная регрессия: Analyze... (Анализ)/ Regression... (Регрессия) Linear... (Линейная). Только в поле зависимых переменных помещается не одна, а все необходимые зависимые переменные.
Задание
Откройте файл Мотив.sav
Выявить закономерности при оценке респондентов социально-экономической обстановки в городе и политическую обстановку (VAR 1-4 и VAR 5-9). Для этого сначала создайте две переменные: экономическая обстановка и политическая обстановка (придайте в соответствии порядком в шкале значения 1,2,3,4,5 используя оператор условия) и проведите корреляционный анализ. Насколько тесная связь между разными вариантами ответов? Как Вы можете объяснить данную закономерность?
Выявить закономерности при оценке респондентов своего материального положения (самоидентификация) и настроение. Описать.
Существует ли взаимосвязь ответов на вопрос о делах в городе (VAR 10-13) и оценке ситуации в будущем (VAR 14-17)?
Выявить, существует ли взаимосвязь между уровнем дохода (VAR 341-364) и оценкой минимального среднемесячного дохода на 1 человека (VAR 194-217). Для того, чтобы проанализировать взаимосвязь этих двух переменных, необходимо создать числовую переменную «доход» и числовую переменную «минимальный доход». Проанализируйте результаты.