Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Прикладные комп программы Воробьева.doc
Скачиваний:
45
Добавлен:
22.03.2015
Размер:
1.42 Mб
Скачать

Корреляционный и регрессионный виды анализа

Корреляционный анализ

Статистика разработала множество методов изучения связей, выбор которых зависит от целей исследования и от поставленных задач. Связи между признаками и явлениями ввиду их большого разнообразия классифицируют по ряду оснований.

Признаки по их значению для изучения взаимосвязи делятся на два класса: результативные и факторные. Результативными называются признаки, изменяющиеся под действием других, связанных с ними признаков. Факторными называются признаки, обуславливающие изменение результативных признаков.

Существуют различные виды и формы связи признаков. По характеру зависимости признаков различают функциональную (полную) связь и корреляционную (неполную) связь. Функциональная - это связь, при которой определенному значению факторного признака соответствует одно и только одно значение результативного признака. Корреляционная - это связь, при которой определенному значению факторного признака соответствует лишь среднее значение результативного признака.

Корреляционный анализ имеет своей задачей количественное определение тесноты связи между признаками. Теснота связи количественно выражается величиной коэффициентов корреляции. Коэффициент корреляции — это величина, которая может варьировать в пределах от +1 до -1. В случае полной положительной корреляции этот коэффициент равен плюс 1, а при полной отрицательной — минус 1. На графике этому соответствует прямая линия, проходящая через точки пересечения значений каждой пары данных. В случае если коэффициент корреляции равен 0, обе переменные полностью независимы друг от друга. В гуманитарных науках корреляция считается сильной, если ее коэффициент выше 0,60; если же он превышает 0,90, то корреляция считается очень сильной. Однако для того, чтобы можно было делать выводы о связях между переменными, большое значение имеет объем выборки: чем выборка больше, тем достовернее величина полученного коэффициента корреляции.

При прямолинейной форме связи показатель тесноты связи двух признаков определяется по формуле (1):

(1)

где x - значение факторного признака;

y – значение результативного признака;

n – число пар данных.

Количественные критерии оценки тесноты связи обозначены в шкале Чеддока (см. табл. 5).

Таблица 5.

Шкала Чеддока

Величина

коэффициента корреляции

0,1-0,3

0,3-0,5

0,5-0,7

0,7-0,9

0,9-1,0

Характеристика силы связи

слабая

умеренная

заметная

высокая

очень

высокая

средняя

Сильная

При изучении корреляций стараются установить, существует ли какая-то связь между двумя показателями в одной выборке, либо между двумя различными выборками, и если эта связь существует, то сопровождается ли увеличение одного показателя возрастанием (положительная корреляция) или уменьшением (отрицательная корреляция) другого. Иными словами, корреляционный анализ помогает установить, можно ли предсказывать возможные значения одного показателя, зная величину другого.

  В SPSS корреляционный анализ реализуется следующим образом Analyze (Анализ)/   Correlate (Корреляция)/ Bivariate(Двумерная).

Рассмотрим пример взаимосвязи ответов на вопросы об оценке положения дел на предприятии и удовлетворенности своим рабочим местом по базе данных изучения социально-психологического климата ФМК (ФМК. sav) (см. рис. 18).

Рис. 18. Вид окна запуска корреляционного анализа

Результат запуска см. табл. 6. По данным таблицы мы можем убедиться, что между показателями оценки положения дел на предприятии и удовлетворенности рабочим местом существует слабая положительная связь (0,246). Уровень значимости достаточно высок, что обозначается двумя звездочками.

Таблица 6

Фрагмент окна вывода данных при запуске корреляционного анализа

Correlations

Положение_дел

Удовлетворенность_рабместом

Положение_дел

Pearson Correlation

1

,246**

Sig. (2-tailed)

,000

N

275

275

Удовлетворенность_рабместом

Pearson Correlation

,246**

1

Sig. (2-tailed)

,000

N

275

275

**. Correlation is significant at the 0.01 level (2-tailed).

Регрессионный анализ

Если расчёт корреляции характеризует силу связи между двумя переменными, то рег­рессионный анализ служит для определения вида этой связи и дает возможности для прогнозирования значения одной (зависимой) переменной отталкиваясь от зна­чения другой (независимой) переменной.

Чтобы вызвать регрессионный анализ в SPSS, выберите в меню Analyze... (Анализ) /Regression... (Регрессия) Linear... (Линейная). Появится диалоговое окно Linear Regression (Линейная регрессия). Перенесите необходимую переменную в поле для зависимых переменных и присвойте другой пе­ременной статус независимой переменной (см. рис. 19). Нажмите ОК. Фрагмент вывода основных результатов выглядит следующим образом (см. табл.7).

Рассмотрим сначала нижнюю часть результатов расчётов. Здесь выводятся коэффи­циент регрессии «b» и смещение по оси ординат «а» под именем "константа". То есть, уравнение регрессии будет выглядеть следующим образом: «Удовлетворенность_рабместом = 0,292* положение_дел + 1,883»

Рис. 19. Вид окна запуска регрессионного анализа

Средняя часть расчётов отражает два источника дисперсии: дисперсию, которая описывается уравнением регрессии (сумма квадратов, обусловленная регрессией) и дисперсию, которая не учитывается при записи уравнения (остаточная сумма квадра­тов). Частное от суммы квадратов, обусловленных регрессией и остаточной суммы квадратов называется "коэффициентом детерминации". В таблице результатов это час­тное выводится под именем "R-квадрат" (верхняя часть расчетов). Эта величина характеризует качество регрессионной прямой, то есть степень соот­ветствия между регрессионной моделью и исходными данными. Мера определённос­ти всегда лежит в диапазоне от 0 до 1. Существование ненулевых коэффициентов регрессии проверяется посредством вычисления контрольной величины F, к которой относится соответствующий уровень значимости.

В простом линейном регрессионном анализе квадратный корень из коэффициента детерминации, обозначаемый "R", равен корреляционному коэффициенту Пирсона. При множественном анализе эта величина менее наглядна, нежели сам коэффициент де­терминации.

Таблица 7.

Фрагмент вывода результатов запуска регрессионного анализа

Model Summary

Model

R

R Square

Adjusted R Square

Std. Error of the Estimate

1

,246a

,060

,057

1,424

a. Predictors: (Constant), Положение_дел

ANOVAb

Model

Sum of Squares

Df

Mean Square

F

Sig.

1

Regression

35,539

1

35,539

17,525

,000a

Residual

553,610

273

2,028

Total

589,149

274

a. Predictors: (Constant), Положение_дел

b. Dependent Variable: Удовлетворенность_рабместом

a. Dependent Variable (Зависимая переменная)

Coefficientsa

Model

Unstandardized Coefficients

Standardized Coefficients

t

Sig.

B

Std. Error

Beta

1

(Constant)

1,883

,222

8,498

,000

Положение_дел

,292

,070

,246

4,186

,000

a. Dependent Variable: Удовлетворенность_рабместом

Множественная линейная регрессия

В общем случае в регрессионный анализ вовлекаются несколько независимых пе­ременных. В случае множественного регрессионного анализа речь идёт необходимо оценить ко­эффициенты уравнения (2):

y = b1x1 +b2*x2+... + bn*xn+a , (2)

где n - количество независимых переменных, обозначенных как x, и хn, a - некоторая константа.

Запуск множественной регрессии запускается также, как и простая линейная регрессия: Analyze... (Анализ)/ Regression... (Регрессия) Linear... (Линейная). Только в поле зависимых переменных помещается не одна, а все необходимые зависимые переменные.

Задание

Откройте файл Мотив.sav

  1. Выявить закономерности при оценке респондентов социально-экономической обстановки в городе и политическую обстановку (VAR 1-4 и VAR 5-9). Для этого сначала создайте две переменные: экономическая обстановка и политическая обстановка (придайте в соответствии порядком в шкале значения 1,2,3,4,5 используя оператор условия) и проведите корреляционный анализ. Насколько тесная связь между разными вариантами ответов? Как Вы можете объяснить данную закономерность?

  2. Выявить закономерности при оценке респондентов своего материального положения (самоидентификация) и настроение. Описать.

  3. Существует ли взаимосвязь ответов на вопрос о делах в городе (VAR 10-13) и оценке ситуации в будущем (VAR 14-17)?

  4. Выявить, существует ли взаимосвязь между уровнем дохода (VAR 341-364) и оценкой минимального среднемесячного дохода на 1 человека (VAR 194-217). Для того, чтобы проанализировать взаимосвязь этих двух переменных, необходимо создать числовую переменную «доход» и числовую переменную «минимальный доход». Проанализируйте результаты.