![](/user_photo/2706_HbeT2.jpg)
Коэффициент корреляции
Перейдем к оценке тесноты корреляционной зависимости. Рассмотрим наиболее важный для практики и теории случай линейной зависимости.
На первый взгляд подходящим измерителем тесноты связи у от х является коэффициент регрессии bух, так как он показывает, на сколько единиц в среднем изменяется у, когда х увеличивается на одну единицу. Однако byx зависит от единиц измерения переменных.
Очевидно, что для
«исправления» bух
как показателя тесноты связи нужна
такая стандартная система единиц
измерения, в которой данные по различным
характеристикам оказались бы сравнимы
между собой. Статистика знает такую
систему единиц. Эта система использует
в качестве единицы измерения переменной
ее среднее квадратическое отклонение
.
Введем формулу:
.
В ней ryx
показывает, на сколько величин
изменится в среднем y,
когда x
увеличится на одно значение
.
Величина r является показателем тесноты линейной связи и называется выборочным коэффициентом корреляции (или просто коэффициентом корреляции).
На рисунке 1.1 приведены две корреляционные зависимости переменной у от х. Очевидно, что в случае а) зависимость между переменными менее тесная и коэффициент корреляции должен быть меньше, чем в случае б), так как точки корреляционного поля а) дальше отстоят от линии регрессии, чем точки поля б).
Рис. 1.1 Корреляционные зависимости
Нетрудно видеть, что r совпадает по знаку с bух (а значит, и с bху).
Если r > 0 (bух>0, bху>0), то корреляционная связь между переменными называется прямой, если r < 0 (bух<0, bху<0) — обратной. При прямой (обратной) связи увеличение одной из переменных ведет к увеличению (уменьшению) условной (групповой) средней другой.
Формулу для r можно представить в виде:
r
=
,
т.е. формула для r
симметрична относительно двух переменных,
и переменные у
и х
можно менять местами. Тогда аналогично
формуле:
можно записать:
.
Найдя произведение обеих частей равенств
получим: r2=
=
bухbху
или r=
,
т.е. коэффициент
корреляции r
переменных у
и х
есть средняя геометрическая коэффициентов
регрессии, имеющая их знак.
Основные свойства коэффициента корреляции (при достаточно большом объеме выборки n):
1. Коэффициент корреляции принимает значения на отрезке [-1,1], т.е.
-1 ≤ r ≤ 1.
В зависимости от того, насколько |r| приближается к 1, различают связь слабую, умеренную, заметную, достаточно тесную, тесную и весьма тесную, т.е. чем ближе |r| к 1, тем теснее связь.
2. Если все значения переменных увеличить (уменьшить) на одно и то же число или в одно и то же число раз, то величина коэффициента корреляции не изменится.
3. При r
корреляционная связь представляет
линейную функциональную зависимость.
При этом линии регрессии у
пo х
и х
пo у
совпадают и все наблюдаемые значения
располагаются на обшей прямой (рис.
1.2.).
Рис.1.2 График линейной функциональной
зависимости
4. При r = 0 линейная корреляционная связь отсутствует. При этом групповые средние переменных совпадают с их общими средними, а линии регрессии у пo х и х пo у параллельны осям координат.
Если r
= 0, то
коэффициент bух=bху=0,
и линии регрессии имеют вид: ух=
и ху=
(рис. 1.3).
Рис. 1.3 Линии регрессии
Равенство r = 0 говорит лишь об отсутствии линейной корреляционной зависимости (некоррелированности переменных), но не вообще об отсутствии корреляционной, а тем более статистической, зависимости.
Пример. При исследовании корреляционной зависимости между объемом валовой продукции у (млн. руб.) и среднесуточной численностью работающих х (тыс. чел.) для ряда предприятий отрасли получено следующее уравнение регрессии х по у: ху=0,2у – 2,5. Коэффициент корреляции между этими признаками оказался равным 0,8, а средний объем валовой продукции предприятий составил 40 млн. руб.
Найти:
а) среднее значение среднесуточной численности работающих на предприятиях;
б) уравнение регрессии у по х;
в) средний объем валовой продукции на предприятиях со среднесуточной численностью работающих 4 тыс. чел.
Решение: а) Обе
линии регрессии у
по х и
х по у
пересекаются в точке (
),
поэтому
найдем по
заданному уравнению регрессии при у
=
= 40,
т.е.
=
= 5,5 (тыс. чел.).
б) Учитывая, что :
r2=
=bухbху,
вычислим коэффициент регрессии bух:
bух=
.
По формуле
получим уравнение регрессии у
по
х:
или
.
в) ух=4
найдем по
полученному уравнению регрессии у
по
х:
(млн. руб.).
Пример. Найти коэффициент корреляции между производительностью труда у (тыс. руб.) и энерговооруженностью труда х (кВт) (в расчете на одного работающего) для 14 предприятий региона по следующим данным:
х |
2,8 |
2,2 |
3,0 |
3,5 |
3,2 |
3,7 |
4,0 |
4,8 |
6,0 |
5,4 |
5,2 |
5,4 |
6,0 |
9,0 |
у |
6,7 |
6,9 |
7,2 |
7,3 |
8,4 |
8,8 |
9,1 |
9,8 |
10,6 |
10,7 |
11,1 |
11,8 |
12,1 |
12,4 |
Решение. Вычислим необходимые суммы:
Используя еще один вариант формулы для расчета r, получим:
Значение r=0,898 говорит о тесной связи между переменными.