УМК по ТВ и МС
.pdf
Пример 11.1. Найти коэффициент корреляции между производительностью труда Y (тыс. руб.) и энерговооруженностью труда X (кВт) (в расчете на одного рабочего) для 14 предприятий региона по следующей таблице:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
6,0 |
|
|
|
Таблица 11.1 |
||||
|
xi |
|
2,8 |
|
2,2 |
3,0 |
|
3,5 |
3,2 |
3,7 |
4,0 |
|
4,8 |
|
5,4 |
5,2 |
5,4 |
6,0 |
9,0 |
|
||||
|
yi |
|
6,7 |
|
6,9 |
7,2 |
7,3 |
8,4 |
8,8 |
9,1 |
|
9,8 |
|
10,6 |
10,7 |
11,1 |
11,8 |
12,1 |
12,4 |
|
||||
|
Решение. Определим вначале средние значения: |
|
|
|
|
|
||||||||||||||||||
|
|
x = (2,8 +2,2 +...+6,0 +9,0) /14 = 4,586 ; |
|
|
|
|
|
|
|
|
||||||||||||||
|
|
y = (6,7 +6,9 +...+12,1+12,4) /14 = 9,493. |
|
|
|
|
|
|
|
|
||||||||||||||
|
Вычислим далее необходимые суммы: |
|
|
|
|
|
|
|
|
|||||||||||||||
|
∑14 |
(xi |
− x)( yi |
− y) = (2,8 −4,586) (6,7 −9,493) +(2,2 −4,586) (6,9 −9,493) +... |
||||||||||||||||||||
|
|
|
i=1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
...+(9,0 −4,586) (12,4 −9,493) = 41,549; |
|
|
|
|
|
|
|
|
|||||||||||||||
|
∑14 |
(xi |
− x)2 = (2,8 − 4,586)2 + (2,2 − 4,586)2 |
+... + (9,0 − 4,586)2 = 40,857 ; |
||||||||||||||||||||
|
|
|
i=1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
∑14 |
( yi |
− y)2 = (6,7 − 9,493)2 + (6,9 − 9,493)2 |
+... + (12,4 − 9,493)2 = 52,349 . |
||||||||||||||||||||
|
|
|
i=1 |
|
|
|
|
|
|
|
|
|
|
|
|
41,549 |
|
|
|
|
|
|
||
Далее, по формуле (11.2) получим: rxy |
= |
|
|
= 0,898 , что свидетель- |
||||||||||||||||||||
40,857 52,349 |
||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
ствует о тесной связи между переменными.
Пример 11.2. В табл. 11.2 приведены выборочные данные: стоимость квартир zi (усл. ден. ед.), общая площадь ui (м2) и удаленность квартир от областно-
го центра yi (км), (i =1,...,18) .
Таблица 11.2
yi |
74 |
47 |
92 |
48 |
93 |
72 |
42 |
50 |
64 |
78 |
39 |
96 |
74 |
88 |
55 |
80 |
99 |
85 |
ui |
56 |
70 |
29 |
69 |
25 |
60 |
71 |
68 |
65 |
49 |
62 |
16 |
58 |
32 |
64 |
49 |
10 |
36 |
zi |
44 |
69 |
27 |
78 |
30 |
48 |
79 |
65 |
56 |
43 |
80 |
30 |
43 |
29 |
64 |
43 |
19 |
37 |
Необходимо исследовать вид связи между стоимостью квартиры, ее общей площадью и удаленностью от областного центра.
Решение. Построим диаграммы рассеяния для пар признаков (U, Z), (Y, Z):
Рис. 11.8. Диаграммы рассеяния для пар компонентов: а) (U,Z); б) (Y,Z).
Судя по диаграммам рассеяния можно предположить наличие между признаками U и Z сильной положительной связи (возможно нелинейной), а между
141
Y и Z − сильной отрицательной связи. Результаты расчета по формуле (11.2) коэффициентов ruz и ryz подтверждают это: ruz = 0,888, ryz = −0,988.
11.3.3. Проверка наличия корреляции. Интервальная оценка rxy
При оценивании достоверности линейной связи между переменными X и Y величина коэффициента корреляции проверяется на статистически значимое отличие от нуля. Иными словами, на уровне значимости α проверяется нулевая гипотеза H0: ρ = 0 при альтернативе H1: ρ ≠ 0.
Для больших выборок (n > 25) критическая статистика критерия имеет вид
ucr = r n |
и в условиях справедливости гипотезы H0 подчиняется стандарт- |
1 − r 2 |
|
ному нормальному закону распределения N(0, 1). Если для вычисленного по выборке значения r выполняется неравенство ucalc > u1−α/2, то гипотеза H0 отклоняется и коэффициент корреляции можно считать существенным, а связь между случайными величинами X и Y достоверной. В противном случае гипотеза принимается и коэффициент корреляции можно считать незначимо отличным от нуля.
Для малых выборок критическая статистика критерия имеет вид
tcr = r
n − 2 и в условиях гипотезы H0 подчиняется распределению Стьюдента
1 − r2
с n−2 степенями свободы. Критическая область tcalc > tα/2 100%(n−2), т.е. при выполнении данного неравенства гипотеза H0 отклоняется, и коэффициент корре-
ляции можно считать существенно отличным от нуля.
Замечание 11.3. Следует отметить, что для пары признаков (X, Y), имеющих совместное нормальное распределение, условие ρ = 0 (некоррелированность признаков) влечет за собой статистическую независимость X и Y. Поэтому проверка гипотезы о независимости признаков, совместное распределение которых является нормальным, сводится к проверке гипотезы H0: ρ = 0.
Пример 11.3. Для данных примера 11.2 проверить достоверность линейной статистической связи между стоимостью квартиры (Z) и ее удаленностью от областного центра (Y) при уровне значимости α = 0,05.
Решение. Имеем две гипотезы: H0: ρ(Y, Z) = 0, H1: ρ(Y, Z) ≠ 0. Поскольку n < 25, то критическая статистика имеет вид
= ryz n − 2
tcr
1 − ryz2 .
Находим из таблицы критическую границу tα/ 2100% (n − 2) = t2,5% (16) = 2,12 . Расчетное значение критической статистики равно
tcalc = |
ryz |
n − 2 |
= |
0,988 16 |
= 28,07 . |
|
1 |
− r 2 |
1 − 0,9882 |
||||
|
|
|
142
Поскольку tcalc > tα/ 2 100% (n − 2) , то гипотеза H0 отклоняется и коэффициент корреляции можно считать существенно отличным от нуля.
Р. Фишер, используя статистику z = 12 ln11 +− rr (z−преобразование Фишера),
имеющую достаточно близкое к нормальному закону распределение даже при малых n, построил доверительный интервал для истинного значения коэффициента корреляции в виде
|
th zl |
< ρ < th zu , |
|
|
|
|
|
|
ez |
−e−z |
|
|
|
(11.3) |
||||
где |
zl,u = |
1 |
ln |
1+r |
m |
u |
− |
r |
, th z = |
− гиперболический тангенс. |
||||||||
2 |
1−r |
1−α/ 2 |
2(n −3) |
ez |
+e−z |
|||||||||||||
|
|
|
|
|
n −3 |
|
|
|
|
|
|
|
|
|||||
|
Пример 11.4. Для данных примера 11.2 получить интервальную оценку для |
|||||||||||||||||
коэффициента корреляции ρ(Y, Z) при уровне значимости 0,05. |
|
|||||||||||||||||
|
Решение. Из |
(11.3), |
оценки |
ryz = −0,988 и |
того, что n = 18 и |
|||||||||||||
u |
|
= arg |
Φ(0,475) =1,96 , получим: |
z |
l,u |
= 1 ln1 − 0,988 m 1,96 + 0,988 , откуда |
||||||||||||
1−0,05 / 2 |
|
|
|
|
|
|
|
|
|
|
|
2 1 + 0,988 |
15 |
2 15 |
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
zl = −3,028, |
|
zu = −2,016. |
Вычислив |
thzl |
и thzu, |
получим: |
thzl = −0,995, |
|||||||||||
thzu = −0,965. Следовательно, −0,995 < ρ(Y, Z) < −0,965. |
|
|
|
|||||||||||||||
11.3.4. Оценка тесноты нелинейной связи
Введенный выше коэффициент корреляции, как уже отмечено, является полноценным показателем тесноты связи лишь в случае линейной зависимости между переменными. Однако, часто возникает необходимость в достоверном измерении степени тесноты связи для любой формы зависимости и для признаков, не имеющих совместного нормального распределения.
Формально соответствующие показатели определяются с помощью соотношения для общей дисперсии σy2 признака Y относительно его математического ожидания ay : σ2y = σϕ2 + σε2 , где σϕ2 − дисперсия функции регрессии ϕ(x) от-
носительно ay, σε2 − остаточная дисперсия ошибки наблюдения, которая характеризует разницу между значениями yi и расчетными значениями ϕ(xi).
Определение 11.3. Показатель Ryx, определяемый по формуле
Ryx = |
σϕ2 |
= 1 − |
σ2 |
, |
(11.4) |
σ2 |
ε |
||||
|
|
σ2 |
|
|
|
|
y |
|
y |
|
|
называется теоретическим корреляционным отношением или индексом корреляции Y по X.
Вместо Ryx часто используют коэффициент детерминации Ryx2 =1 − σε2 / σ2y .
Его величина показывает, какая доля общей дисперсии признака Y объясняется дисперсией функции регрессии. Этот коэффициент подробно будет рассмотрен в § 12.2. Подобно Ryx вводится индекс корреляции X по Y
143
Rxy = |
σψ2 |
= 1 − |
σ2 |
(11.5) |
σ2 |
υ , |
|||
|
|
σ2 |
|
|
|
x |
|
x |
|
где σ2x − полная дисперсия признака X относительно его математического ожидания ax : σ2x = σψ2 + σ2υ , σψ2 − дисперсия функции регрессии ψ(y) относительно
ax, σ2υ − остаточная дисперсия ошибки наблюдения, которая характеризует разницу между значениями xi и расчетными значениями ψ(yi).
Замечание 11.4. Оценивание тесноты связи между переменными по (11.4), (11.5) затруднено тем, что мы должны заранее знать вид модели (11.1). Иными словами, априорно должна быть известна с точностью до постоянных коэффициентов форма функции регрессии ϕ(x) или, соответственно, ψ(y).
Если форма функции регрессии нам неизвестна, то вместо Ryx определяют
эмпирическое корреляционное отношение ηyx. При этом характер данных (ко-
личество, плотность расположения на диаграмме рассеяния) должен допускать:
-их группирование относительно объясняющей переменной;
-возможность подсчета средних значений объясняемой переменной внутри каждого интервала группирования.
Рассмотрим далее методику вычисления ηyx. Пусть имеет место выборка (xi, yi), (i = 1, … , n). Сгруппируем данные по объясняющей переменной на L интервалов. Определим далее общую sy2, остаточную (среднюю групповых дисперсий) sε2 и межгрупповую δy2 дисперсии переменной y по формулам:
|
1 |
|
L |
|
|
s2y = |
|
∑( y j − y)2 n j , |
|
|
|
|
|
|
|
||
|
n j=1 |
|
|
||
|
1 |
|
L |
1 |
n j |
sε2 = |
|
∑s2jy n j , где s2jy = |
∑( y ji − y j )2 , |
||
|
|
|
|||
|
n j=1 |
n j i=1 |
|||
δ2y = |
1 |
L |
|
|
|
∑( y j − y)2 n j . |
|
(11.6) |
|||
|
n j=1 |
|
|
||
Межгрупповая дисперсия выражает ту часть вариации Y, которая обусловлена изменчивостью X. Остаточная дисперсия характеризует часть вариации Y, возникшую из-за изменчивости неучтенных факторов, не зависящих от X.
Используя правило сложения дисперсий (10.3), имеющее в данном случае вид s2y = sε2 + δ2y , найдем эмпирическое корреляционное отношение
ηyx = |
δ2y |
= |
1 − |
s2 |
(11.7) |
sy2 |
ε . |
||||
|
|
|
sy2 |
|
Эмпирическое корреляционное отношение является показателем разброса точек диаграммы рассеяния относительно эмпирической линии регрессии.
144
Замечание 11.5. Поскольку при нахождении η не делалось никаких допущений о форме корреляционной связи, то η служит мерой тесноты связи лю-
бой, в том числе и линейной формы.
Величину ηyx2 называют эмпирическим коэффициентом детерминации.
Она показывает, какая часть общей вариации Y обусловлена вариацией X.
Свойства теоретического и эмпирического корреляционных отношений:
1)0 ≤ ηyx ≤ 1;
2)Если ηyx = 0, то корреляционная связь между Y и X отсутствует;
3)Если ηyx = 1, то переменные являются функционально зависимыми;
4)ηyx ≠ ηxy, т.е. в отличие от коэффициента корреляции r (для которого ryx = rxy) при вычислении корреляционного отношения существенно, какую переменную считать объясняющей (независимой), а какую – объясняемой (зависимой).
Корреляционные отношения η и R связаны с коэффициентом корреляции r следующим образом: 0 ≤ r ≤ R ≤ η ≤1.
Предложение 11.2. В случае парной линейной модели регрессии ϕ(x) индекс корреляции Ryx = r . #
Пример 11.5. Для данных примера 11.2 получить оценку корреляционного отношения для пары компонентов (U, Z), между которыми из диаграммы рассеяния можно предположить наличие нелинейной статистической связи.
Решение. Получим оценки эмпирических корреляционных отношений ηzu и ηuz. Рассмотрим два случая:
1)U – объясняющая переменная, Z – объясняемая переменная;
2)Z – объясняющая переменная, U – объясняемая переменная. Определим вначале количество групп: L = 5.
Случай 1. Сгруппируем данные относительно объясняющей переменной U.
Оценки z = 49,111, sz2 = 356,432. Вычислим δ2z по (11.6):
δ2z =[(24,5 − 49,111)2 2 +... + (67,375 − 49,111)2 8]
18 = 300,997 .
Таблица 11.3
|
Номер группы |
Интервалы групп |
|
Значения zj, попавшие в j-ю |
z j |
|
|
j |
по U |
|
|
группу |
|
|
|
|
|
|
|
|
|
1 |
10 − 22,2 |
|
|
30, 19 |
24,5 |
|
2 |
22,2 − 34,4 |
|
|
27, 30, 29 |
28,667 |
|
3 |
34,4 − 46,6 |
|
|
37 |
37 |
|
4 |
46,6 − 58,8 |
|
|
44, 43, 43, 43 |
43,25 |
|
5 |
58,8 − 71 |
|
69, 78, 48, 79, 65, 56, 80, 64 |
67,375 |
|
Следовательно, согласно (11.7) |
ηzu = |
300,997 = 0,919 . |
|
|||
|
|
|
|
|
356,432 |
|
Случай 2. Сгруппируем данные относительно объясняющей переменной Z:
145
Таблица 11.4
Номер группы |
Интервалы групп |
Значения uj, попавшие в j-ю |
u |
j |
j |
по Z |
группу |
|
|
|
|
|
|
|
1 |
19 − 31,2 |
29, 25, 16, 32, 10 |
22,4 |
|
2 |
31,2 − 43,4 |
49, 58, 49, 36 |
48 |
|
3 |
43,4 − 55,6 |
56, 60 |
58 |
|
4 |
55,6 − 67,8 |
65, 68, 64 |
65,667 |
|
5 |
67,8 − 80 |
70, 69, 71, 62 |
68 |
|
Оценки u = 49,389 , su2 =368,238. Вычислим δu2 по (11.6):
δu2 =[(22,4 − 49,389)2 5 +... + (68 − 49,389)2 4]
18 = 332,136.
Следовательно, согласно (11.6) ηuz = |
332,136 |
= 0,950 . |
|
368,238 |
|
Полученные результаты свидетельствуют о следующем:
1)ηzu ≠ ηuz, причем разница составляет по модулю 0,95−0,919 = 0,031 или 3,4%;
2)Оба эмпирических корреляционных отношения оказались существенно больше (в среднем более чем на 5%) коэффициента корреляции, равного 0,888. Это говорит о нелинейности статистической связи между переменными U и Z.
Проверка значимости эмпирического корреляционного отношения η основана на том, что распределение статистики
F = |
|
η2 (n − L) |
(11.8) |
|
− η2 )(L −1) |
||
(1 |
|
||
в условиях выполнения гипотезы H0: η = 0 F−распределению Фишера с k1 = L − 1 и k2 = n − L η значимо отличается от нуля, если Fcalc > Fα100% (L
с ростом n стремится к степеням свободы. Поэтому
−1,n − L) .
Индекс корреляции R двух переменных значим, если значение статистики
F = |
R2 |
(n − 2) |
больше табличного F |
(1,n −2) . |
|
1 − R2 |
α100% |
|
|
|
|
|
||
Пример 11.6. Для оценки ηuz = 0,950 , полученной в примере 11.5, проверить значимость нелинейной статистической связи между переменными U и Z для уровня значимости α = 0,01.
Решение. Определим по формуле (11.8) расчетное значение критической
статистики: |
F = |
0,952 |
(18 − 5) |
= |
0,9025 13 |
= 30,083. |
|
|
|
|
|
||||
|
calc |
(1 |
− 0,952 ) (5 −1) |
|
(1 − 0,9025) 4 |
|
|
|
|
|
|
||||
Критическое значение равно Fcr.u = F1% (L −1,n − L) = F1% (4,13) =5,205. Поскольку Fcalc > Fcr.u, то нелинейная корреляционная связь между переменными U и Z является значимой.
Расхождение между η2 и R2 (или r2 для парной линейной модели) может быть использовано для проверки линейности корреляционной зависимости.
Рассмотрим частный случай парной линейной модели.
146
-определение тесноты связи между переменными при фиксировании или исключении остальных переменных.
11.4.1.Множественный коэффициент корреляции
Множественный (или совокупный) коэффициент корреляции ρi.12…m явля-
ется мерой тесноты линейной связи между одной случайной переменной Xi и совокупностью других m−1 переменных. Выборочный множественный коэффициент корреляции Ri.12…m, являющийся оценкой ρi.12…m равен
R = 1 − Rm , (11.10)
i.12Km |
Rii |
|
где Rm − определитель матрицы Rm, Rii − алгебраическое дополнение элемента rii матрицы Rm. В частности, для трех переменных формула (11.10) примет вид
R |
r 2 |
+ r 2 |
− 2r |
r |
r |
jk . |
(11.11) |
= ij |
ik |
ij |
ik |
|
|||
i. jk |
|
|
1 − rjk2 |
|
|
|
|
|
|
|
|
|
|
|
Свойства множественного коэффициента корреляции:
1)0 ≤ Ri.12…m ≤ 1, т.е. позволяет оценить тесноту связи, но не ее направление;
2)Он не меньше, чем абсолютная величина любого парного или частного коэффициента корреляции с таким же первичным индексом;
3. Величина Ri2.12Km показывает, какую долю вариации исследуемой переменной
объясняет вариация остальных переменных.
Можно показать, что множественный коэффициент корреляции значимо (на уровне значимости α) отличается от нуля, если значение статистики
F = |
R2 |
(n − m) |
> F |
(m −1,n − m) . |
(11.12) |
|
|
||||
|
(1 − R2 )(m −1) |
α100% |
|
|
|
|
|
|
|
||
Пример 11.8. Для данных примера 11.2 получить оценку множественного коэффициент корреляции Rz.yu между переменной Z и совокупностью переменных Y и U. Проверить значимость множественной статистической связи между переменными для уровня значимости α = 0,05.
Решение. Имеем три переменные (m=3). Определим все парные коэффици-
енты корреляции ruz = 0,888, ryz = −0,988, ryu = −0,908 и подставим их в (11.11):
Rz.yu = |
(−0,988)2 |
+ 0,8882 − 2 0,888 0,988 0,908 |
= 0,988 . |
|
1 − (−0,908)2 |
||
|
|
|
Из (11.11) находим расчетное и критическое значения статистики:
F |
= |
R2 |
(n − m) |
= |
0,9882 (18 − 3) |
= 312,18 , |
|
|
|
||||
calc |
|
(1 − R2 )(m −1) |
|
(1 − 0,9882 ) (3 −1) |
|
|
|
|
|
|
|||
Fcr.u |
= Fα100% (m −1,n − m) = F5% (2,15) = 3,68. |
|||||
Условие (11.12) выполняется, т.е. значимость множественная статистическая связь между переменными значима при α = 0,05.
148
