Lektsia_05_new_MS_end
.pdf
10
Таблица 5.1 – Корреляционная таблица
Значения |
|
|
Значение η |
|
||
|
|
|
|
|
|
|
ξ |
y1 |
… |
|
yj |
… |
yl |
|
|
|||||
|
|
|
|
|
|
|
x1 |
n11 |
… |
|
n1j |
… |
n1l |
… |
… |
… |
|
… |
… |
… |
|
|
|
|
|
|
|
xi |
ni1 |
… |
|
nij |
… |
nil |
… |
… |
… |
|
… |
… |
… |
|
|
|
|
|
|
|
xm |
nm1 |
… |
|
nmj |
… |
nml |
5.03. Анализ коэффициента корреляции
Точечная оценка показателя ρ . Пусть экспериментальные данные представлены в форме (5.9). Тогда ρˆ – значение точечной оценки коэффициента корреляции ρ – вычисляют по формуле:
|
n |
|
|
|
|
|
|
|
||
|
∑(xi − |
|
)(yi − |
|
) |
|
|
|
||
ρˆ = |
x |
y |
||||||||
i=1 |
. |
|||||||||
|
|
|
|
|
|
|
|
|||
|
n |
|
n |
|||||||
|
∑(xi − |
|
)2 |
|
∑(yi − |
|
)2 |
|
||
|
x |
|
y |
|||||||
|
i=1 |
|
i=1 |
|||||||
Интервальная оценка и проверка значимости. При построении дове-
рительного интервала для коэффициента корреляции и проверки его значимости будем предполагать, что генеральная совокупность имеет двумерный нормальный закон распределения. В этом случае оценка коэффициента
корреляции ρˆ(Xn ,Yn ) имеет асимптотически нормальный закон распределе-
ния с математическим ожиданием Mρˆ(Xn ,Yn ) ≈ ρ − 21n ρ(1 −ρ2 ) и дисперсией
Dρˆ(Xn ,Yn ) ≈ n1 (1 −ρ2 )2 .
Заметим, что если распределение генеральной совокупности не является нормальным, то приближенное выражение для Dρˆ(Xn ,Yn ) содержит вто-
рые и четвертые моменты генеральной совокупности.
Используя общий метод построения доверительного интервала при
11
ρ2 1 , основанный на нормальном законе распределения соответствующей оценки при доверительной вероятности γ = 1 −α можно получить сле-
дующее представление для значений нижней и верхней границ интервальной оценки:
ρ ≈ ρˆ + |
ρˆ(1 −ρˆ2 ) −u |
|
α |
1 −ρˆ2 |
, |
(5.13) |
|
2n |
1− |
n |
|
|
|
|
2 |
|
|
|||
ρ ≈ ρˆ + |
ρˆ(1 −ρˆ2 ) +u |
α |
1 −ρˆ2 . |
(5.14) |
||
|
2n |
1− |
n |
|
|
|
|
2 |
|
|
|||
Однако пользоваться оценками (5.13) и (5.14) можно только при больших объемах выборки (не менее 500).
При малых объемах выборки можно рекомендовать построение доверительного интервала для ρ , которое основано на преобразовании Р. Фишера
z = |
1 ln |
1 |
+ ρˆ |
, или z = arcth ρˆ . |
|
2 |
1 |
−ρˆ |
|
Оказывается, что случайная величина
|
|
|
Z = |
1 |
|
1 + ρˆ(Xn ,Yn ) |
|
|
|
|
|
|
||||||||||||
|
|
|
2 ln |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
1 −ρˆ(Xn ,Yn ) |
|
|
|
|
|
|
|||||||||||||||
уже для небольших значений n |
приблизительно распределена по нормаль- |
|||||||||||||||||||||||
ному закону с параметрами |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
MZ ≈ 1 ln 1 + ρ + |
|
ρ |
|
|
, DZ = |
|
|
1 |
. |
|||||||||||||||
2(n − |
1) |
|
n −3 |
|||||||||||||||||||||
|
|
2 1 + ρ |
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
Это приводит к представлению |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
ρ = th z , ρ = th |
|
, |
|
|
|
|
|
(5.16) |
|||||||||||||
|
|
|
z |
|
|
|
|
|
||||||||||||||||
где |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
1 |
1 + ρˆ |
|
|
ρˆ |
|
|
|
|
|
|
|
|
u |
α |
|
|
|
||||
|
z = |
+ |
|
|
|
− |
|
|
1− |
2 |
, |
(5.17) |
||||||||||||
|
2 ln |
|
|
|
|
|
|
|||||||||||||||||
1 −ρˆ |
2(n −1) |
|
n −3 |
|||||||||||||||||||||
|
|
|
1 |
1 + ρˆ |
|
|
ρˆ |
|
|
|
|
|
|
|
|
|
|
u |
α |
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1− |
2 |
|
. |
(5.18) |
|||||
z = |
+ |
|
|
|
|
|
+ |
|
|
|
|
|||||||||||||
2 ln |
|
|
|
|
|
|
||||||||||||||||||
1 −ρˆ |
2(n −1) |
|
|
n −3 |
||||||||||||||||||||
Заметим, что равенствами (5.17), (5.18) можно пользоваться и в тех случаях, когда закон распределения генеральной совокупности отличен от нормального. Но в этих случаях ухудшается качество оценивания, т.е. увеличи-
12
вается длина интервала (z, z ) , а значит, ухудшается точность оценивания.
При проверке статистической гипотезы H0 : ρ = 0 (т.е. гипотезы о том,
что нормально распределенные случайные величины независимы) используют статистику
t = |
ρˆ(Xn ,Yn ) |
n −2 |
, |
(5.19) |
|
|
1 −ρˆ2(Xn ,Yn )
которая имеет распределение Стьюдента с n −2 степенями свободы. Если окажется, что
| ρˆ | n −2 <t |
α |
, |
||
1 −ρˆ2 |
1− |
, n−2 |
||
2 |
||||
то гипотезу H0 принимают при уровне значимости α.
5.04. Анализ корреляционного отношения
Точечная оценка показателя rηξ . Пусть экспериментальные данные представлены в форме (5.10), т.е. сгруппированы по значениям xi – случайной величиныξ .
Тогда за значение точечной оценки величины σf2 принимают
|
1 |
m |
|
|
|
|
|
|
|||
σˆf2 = |
∑ni ( |
yi − |
|
|
)2 . |
||||||
y |
|||||||||||
|
n |
||||||||||
|
|
i=1 |
|
|
|
|
|
|
|||
Значение точечной оценки дисперсии σ2 |
находим по формуле |
||||||||||
|
|
|
|
|
|
η |
|
|
|
|
|
|
1 |
|
m |
ni |
|
|
|
|
|||
σˆη2 = |
∑∑(yij − |
|
)2 . |
||||||||
y |
|||||||||||
|
|||||||||||
|
n |
i=1 |
j =1 |
|
|
|
|
||||
Отсюда на основании (5.5) получаем значение точечной оценки показателя rηξ
σˆ2
rˆηξ = f . (5.20)
σˆη2
Напомним, что точечная оценка rˆηξ(Xn ,Yn ) определяет степень зависи-
13
мости случайной величины η от случайной величины ξ . Аналогично можно ввести точечную оценку rˆξη для корреляционного отношения rξη
Пусть экспериментальные данные получены в форме (5.9) и не допускают удовлетворительной группировки по оси значений ξ (т.к. недостаточно
велико n или точки (xi , yi ) слишком “разрежены” на плоскости)
В этом случае нужно выдвинуть некоторое предположение (статистическую гипотезу) о виде функции регрессии M(η | ξ = x) = f (x) . Проверка таких
гипотез будет рассмотрена в рамках регрессионного анализа.
Допустим, что параметрический вид этой функции задан, т.е. принято предположение о том, что
f (x) = f (x; θ1, …, θk )
и методами регрессионного анализа найдены значения θˆi оценок парамет-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ров θ , i = 1, k . Тогда значение точечной оценки σˆ2 |
для дисперсии |
σ2 |
нахо- |
|||||||||||
i |
|
|
|
|
|
|
|
|
|
η |
|
η |
|
|
дим по формуле |
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
1 |
n |
|
|
|
||
|
|
|
|
|
|
σˆη2 = |
∑(yi − |
|
)2 , |
|
|
|
||
|
|
|
|
|
|
y |
|
|
|
|||||
|
|
|
|
|
|
n |
|
|
|
|||||
|
|
|
|
|
|
|
|
i=1 |
|
|
|
|||
а значение σˆ2 |
оценки |
σ |
2 |
можно записать в виде |
|
|
|
|||||||
|
η |
|
η |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
n |
|
|
|
|
|
|
|
|
|
σˆη2 |
= |
∑(yi − f (x; θˆ1, …, θˆk ))2 . |
|
(5.21) |
||||||||
|
|
n −k |
|
|||||||||||
|
|
|
|
|
|
i=1 |
|
|
|
|
|
|
||
Следовательно, согласно (5.5), точечную оценку показателя rηξ можно определить равенством
|
|
1 |
ˆ2 |
|
|||
rˆ |
= |
−σ |
η |
. |
(5.22) |
||
|
|
σˆ2 |
|
||||
ηξ |
|
|
|
|
|
|
|
|
|
|
|
η |
|
|
|
Интервальная оценка и проверка значимости rηξ . Построение дове-
рительного интервала для показателя rηξ основано на том, что статистика
W = |
(n −m)rˆηξ2 |
(Xm ,Yn ) |
|
|
|
m − |
1 |
|
|
|||||
(m −1)(1 |
−rˆ2 |
(X |
m |
,Y )) |
m −1 |
+nrˆ2 |
(X |
m |
,Y ) |
|||||
|
|
|||||||||||||
|
|
|
ηξ |
|
n |
|
|
ηξ |
|
n |
||||
приближенно имеет распределение Фишера с числом степеней свободы r1*
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
14 |
и r2 = n −m , где |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
(m −1 +nrˆ2 |
(X |
|
,Y ))2 |
|
|
|
|||||||||||||||||||
|
|
|
|
|
|
|
r* |
= |
|
|
|
|
|
|
ηξ |
|
|
|
|
|
m |
|
|
|
n |
|
|
|
|
|
(5.23) |
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
1 |
|
|
|
|
|
|
m |
−1 +2nrˆ2 |
|
(X |
|
|
,Y ) |
|
|
|
|
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
m |
|
|
|
|
|
|
|||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ηξ |
|
|
|
|
|
|
|
|
n |
|
|
|
|
|
|
|||
в предположении, что при условии ξ = x |
|
случайная величина η имеет нор- |
|||||||||||||||||||||||||||||||||||
мальный закон распределения с постоянной дисперсией для любого x . |
|||||||||||||||||||||||||||||||||||||
Используя |
квантили |
|
|
fα |
|
* |
|
и |
f α |
|
* |
|
|
|
|
|
|
|
|
распределения |
Фишера для |
||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
, r |
|
, r |
|
|
1− |
, r |
, r |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
2 |
|
1 |
|
2 |
|
|
2 |
|
1 |
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
α = 1 −γ , где |
γ – заданная доверительная вероятность, можно записать |
||||||||||||||||||||||||||||||||||||
границы доверительного интервала в следующем виде: |
|
|
|||||||||||||||||||||||||||||||||||
|
|
r |
|
|
= |
|
|
|
|
(n −m)rˆηξ2 (Xm ,Yn ) |
|
|
|
− |
m −1 |
, |
(5.24) |
||||||||||||||||||||
|
|
ηξ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n |
|
|||||||
|
|
|
|
|
|
|
n(1 −rˆηξ2 (Xm ,Yn ))fα, r* , r |
|
|
|
|
|
|||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
1 |
|
2 |
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
= |
|
|
|
|
(n −m)rˆηξ2 (Xm ,Yn ) |
|
|
|
− |
|
m −1 |
. |
(5.25) |
|||||||||||||||||||
|
r |
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
|
ηξ |
|
|
|
n(1 −rˆ2 |
(X |
|
,Y ))f |
|
|
|
|
|
|
|
|
|
|
|
|
|
n |
|
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ηξ |
|
m |
n |
|
1−α, r* |
, r |
|
|
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
1 |
|
2 |
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
Проверка значимости показателя rηξ |
|
(т.е. проверка статистической гипо- |
|||||||||||||||||||||||||||||||||||
тезы H0 : rηξ = 0 ) основана на том, что статистика |
|
|
|
|
|
|
|||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
(n −m)rˆ2 |
(X |
m |
,Y ) |
|
|
|
|
|
|
|||||||||||||
|
|
|
|
|
|
W0 |
= |
|
|
|
|
|
|
ηξ |
|
|
|
|
|
|
|
n |
|
|
|
|
|
(5.26) |
|||||||||
|
|
|
|
|
|
|
|
(m |
−1)(1 −rˆ2 |
|
(X |
m |
,Y )) |
|
|
||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ηξ |
|
|
|
|
|
|
n |
|
|
|
|
|
|
||||
имеет распределение Фишера с числом степеней r1 |
= m −1 |
и r2 = n −m , |
|||||||||||||||||||||||||||||||||||
если гипотеза H0 : rηξ |
= 0 |
верна. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||
Границу критического множества для гипотезы |
H0 : rηξ = 0 на уровне |
||||||||||||||||||||||||||||||||||||
значимости α определяет квантиль f1−α, r , r |
|
. Величину показателя rηξ следу- |
|||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
ет считать значимо отличающейся от нуля, если значение статистики W0 принадлежит критическому множеству, т.е. ее значение больше или равно f1−α, r1, r2 . В противном случае делаем вывод об отсутствии стохастической связи между ξ и η .
15
5.05. Анализ множественных связей
Перейдем к рассмотрению стохастических связей между совокупностью p +1 случайных величин X0, X1, ..., Xp , где переменные X1, ..., Xp являются
входными, а переменное X0 – выходным. Такое выделение переменного
X0 не является обязательным, т.е. все переменные могут быть входными,
или выходных переменных может быть несколько, но выделенный случай является, по-видимому, наиболее типичным.
Предположим, что случайный вектор (X0, X1, ..., Xp ) имеет нормальный закон распределения, определяемый вектором математических ожиданий μ =(μ0, μ1, …, μp ) и ковариационной матрицей ∑=(σij ) . Таким образом, из-
вестна корреляционная матрица
|
1 |
ρ |
|
ρ |
|
… |
ρ |
|
|
|
|
|
|
|
|
|
01 |
|
02 |
|
|
|
|
|
|
|
|
|
|
|
|
|
0p |
|
|
|||
|
ρ |
1 |
ρ |
… |
ρ |
|
|
|
||||
|
|
|
|
|||||||||
|
|
10 |
|
|
|
12 |
|
|
1p |
, |
(5.27) |
|
|
|
|
|
|
|
|
|
|
|
|
||
|
… |
… |
|
|
|
|
|
|
|
|
||
|
… … … |
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ρ |
|
ρ |
|
… |
1 |
|
|
|
|
ρ |
p0 |
p1 |
p2 |
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|||
где ρij является коэффициентом корреляции между случайными величина-
ми Xi и Xj , i, j = 0, p .
Частные коэффициенты корреляции. При рассмотрении трех и более случайных величин X0, X1, ..., Xp коэффициенты корреляции любой пары из
этих случайных величин могут не дать правильного представления о степени связи между всеми случайными величинами. Это объясняется тем, что на закон распределения вероятностей исследуемой пары случайных величин могут оказывать влияние и другие рассматриваемые случайные величины. Это обстоятельство делает необходимым введение показателей стохасти-
ческой связи между парой случайных величин Xi и Xj ( i = 0, p , j = 0, p , i ≠ j ) при условии, что значения других случайных величин зафиксированы. В этом случае говорят о статистическом анализе частных связей.
Частный коэффициент корреляции – мера линейной стохастической зависимости между двумя случайными величинами из некоторой совокупно-
сти случайных величин X0, X1, ..., Xp , когда исключено влияние остальных,
|
|
|
|
|
|
|
|
|
|
|
16 |
т.е. (для пары Xi |
и Xj ) |
|
|
|
|
|
|
|
|
|
|
|
|
|
M[(Zi |
−MZi )(Zj −MZj |
)] |
|
|
||||
|
ρij(J (i, j )) = |
|
|
|
|
|
|
, |
|
(5.28) |
|
|
|
|
|
DZiDZj |
|
|
|||||
|
|
|
|
|
|
|
|
|
|
||
где |
|
|
|
|
|
|
|
|
|
|
|
|
Zi = α0i + ∑ αki Xk , Zi = β0j + ∑ βkj Xk |
|
|||||||||
|
k J (i, j ) |
|
|
|
k J (i, j ) |
|
|
||||
и |
|
|
|
|
|
|
|
|
|
|
|
|
J(i, j) = {0, 1, ..., p} \ {i, j} . |
|
|
|
|
||||||
При этом i , |
j называют первичными индексами, |
а остальные – вто- |
|||||||||
ричными. Коэффициенты αi , |
βj , |
αi |
, |
βj , |
k J(i, j) , находят из условия ми- |
||||||
|
0 |
|
0 |
k |
|
k |
|
|
|
|
|
нимизации следующих функций: |
|
|
|
|
|
|
|
|
|||
|
|
|
|
2 |
|
|
|
|
|
|
2 |
|
i |
|
i |
|
|
|
j |
|
|
j |
|
|
|
|
|
|
|
|
|
∑ |
|
|
|
|
|
αk Xk |
, |
|
|
βk |
Xk . |
||||
M Xi −α0 − ∑ |
M Xj −β0 − |
||||||||||
|
k J (i, j ) |
|
|
|
|
|
k |
J (i, |
j ) |
|
|
|
|
|
|
|
|
|
|||||
Если случайный вектор (X0, ..., Xp ) распределен по нормальному зако-
ну, то частный коэффициент корреляции между случайными величинами Xi
и Xj вычисляют по формуле:
ρ |
|
|
= − |
|
Σij |
, |
|
|
(5.29) |
||
(J (i, j )) |
|
|
|
|
|||||||
ij |
|
|
|
ΣiiΣjj |
|
|
|
||||
|
|
|
|
|
|
|
|
|
|||
где Σij – алгебраическое дополнение для элемента ρij |
корреляционной |
||||||||||
матрицы (5.27). |
|
|
|
|
|
|
|
|
|
|
|
Например, при i = 0 , j =1 по формуле (5.29) имеем |
|
||||||||||
ρ01(2) |
= |
|
|
ρ01 −ρ02 |
ρ12 |
|
. |
|
|||
|
|
−ρ2 |
)(1 |
−ρ2 |
) |
|
|||||
|
(1 |
|
|
||||||||
|
|
|
|
02 |
|
12 |
|
|
|
||
Из формулы (5.29) следует, что для вычисления частных коэффициентов корреляции нужны лишь все коэффициенты корреляции случайных ве-
личин Xi , Xj , i ≠ j .
Численные расчеты могут быть упрощены, если использовать рекуррентные соотношения:
|
|
|
|
|
|
17 |
ρ01(2, 3, ..., k +1) |
= |
ρ01(2, ..., k ) −ρ0(k +1)(2, ..., k )ρ1(k +1)(2, ..., k ) |
|
. |
(5.30) |
|
|
) |
|||||
|
|
(1 −ρ2 |
)(1 −ρ2 |
|
|
|
|
|
0(k +1)(2, ..., k ) |
1(k +1)(2, ..., k ) |
|
|
|
Согласно (5.30), любой частный коэффициент корреляции может быть выражен через частные коэффициенты с меньшим на единицу числом вторичных индексов.
Отметим, что практика многомерного статистического анализа показала, что частные коэффициенты корреляции, определенные соотношениями (5.28) – (5.30), – вполне приемлемые характеристики линейной связи и в том
случае, когда распределение анализируемых переменных X0, X1, ..., Xp от-
личается от нормального.
Статистический анализ частных коэффициентов корреляции. Вы-
числение значений ρˆij(J (i, j )) точечной оценки частного коэффициента корре-
ляции ρij(J (i, j )) проводят по тем же формулам (5.29), (5.30) путем подстановки вместо коэффициентов корреляции ρij их выборочных значений ρˆij .
Исследуя статистические свойства выборочного частного коэффициента корреляции ρˆij(J (i, j ))(X0n , ..., Xpn ) , можно воспользоваться тем, что он рас-
пределен точно так же, как и выборочный коэффициент корреляции тех же случайных величин Xi , Xj , но с единственной поправкой: объем выборки n
надо заменить на n −k , где k – порядок частного коэффициента корреляции (см. (5.30)). Поэтому все формулы для доверительных интервалов и критерии значимости, приведенные в предыдущем пункте, сохраняются и для частных коэффициентов корреляции с учетом замены n на n −k .
Множественный коэффициент корреляции. Для того чтобы результа-
ты, изложенные в 5.4, были частным случаем рассматриваемой общей ситуации, сохраним обозначение η для “выходной” переменной X0 и обозначение ξ для “входной” переменной, но теперь ξ будет вектором размерно-
сти p , т.е. ξ =(ξ1, ξ2, ...., ξp ) . Возможные значения переменной η будем обо-
значать y , а возможные значения ξ – x =(x1, ..., xp ) .
При решении практических задач, связанных с анализом стохастических связей между многими случайными переменными, чаще других рассматри-
18
вают ситуацию, в которой поведение какой-то одной (выходной) переменной η стараются объяснить поведением совокупности других (входных) пере-
менных ξ = (ξ1, ξ2, ..., ξp ) .
Прежде всего убедимся, что наилучшим прогнозом (аппроксимацией) для неизвестного значения η (в смысле средней квадратичной ошибки) яв-
ляется условное математическое ожидание η при условии ξ = x , т.е. величина M(η | ξ = x ) = f (x ) , где x =(x1, ..., xp ) .
Действительно, пусть f (x ) – любая функция. Тогда
M(η − f (ξ))2 = M[(η − f (ξ)) +(f (ξ) − f (ξ))]2 =
= M(η − f (ξ))2 +M(f (ξ) − f (ξ)))2 +2M[(f (ξ) − f (ξ))(η − f (ξ))].
Поскольку последнее слагаемое равно нулю (доказательство этого аналогично тому, которое приведено в 5.2), то
min M(η − f (ξ))2 = M(η − f (ξ))2 ,
если f (ξ) = f (ξ) . Следовательно, при каждом данном значении ξ = x любой
функции f (x ) ≠ f (x ) имеет место неравенство
M(η − f (x ))2 > M(η − f (x ))2 .
Таким образом, мы снова (как и в 5.1) пришли к функции регрессии f (x ) = M(η | ξ = x ) , но уже функции от p переменных x1, ..., xp , которая наи-
более точно (в смысле средней квадратичной ошибки) воспроизводит значения исследуемого результирующего переменного η по заданным величи-
нам x =(x1, ..., xp ) входных переменных ξ = (ξ1, ξ2, ..., ξp ) .
Теперь вернемся к соотношению (5.4), которое связывает дисперсию ση2
случайной величины η с величинами σf2 = Df (ξ) и ση2 = MD(η | ξ) . Соотно-
шение (5.4) остается справедливым и в случае вектора входных переменных
ξ = (ξ1, ξ2, ..., ξp ) .
Следовательно, так же как и в случае парной зависимости, случайный разброс (вариация) выходного переменного η складывается из контроли-
руемой нами (посредством x =(x1, ..., xp ) ) вариации функции регрессии f (x)
19
и из неподдающегося нашему контролю случайного разброса значений η
(при фиксированном x ) относительно функции регрессии. Именно этот неконтролируемый разброс определяет меру зависимости переменной η от
переменной ξ , торая характеризуется величиной ση2 . Чем меньше значение
ση2 , тем точнее прогноз. При ση2 = 0 случайные величины η и ξ связаны
функциональной зависимостью.
Эти соображения подводят нас к определению множественного коэффициента корреляции Rη , под которым понимают величину
|
|
|
σ |
2 |
|
|
|
R = |
1 |
− |
η |
. |
(5.31) |
||
σ2 |
|||||||
η |
|
|
|
|
|||
|
|
|
η |
|
|
||
Заметим, что квадрат показателя |
Rη |
принято называть коэффициен- |
|||||
том детерминации.
Покажем, что Rη есть коэффициент корреляции между η и f (ξ) (тем самым оправдаем его название). Имеем
cov(η, f (ξ)) = M[(η −Mη)(f (ξ) −Mη)] =
=M[(f (ξ) −Mη)2 +(η − f (ξ))(f (ξ) −Mη)] =
=M(f (ξ) −Mη)2 +M[(η − f (ξ))(f (ξ) −Mη)] = σf2 ,
поскольку
M[(η − f (ξ))(f (ξ) −Mη)] = 0 .
Далее,
R = |
1 − |
σ |
η2 |
= |
ση2 − |
σ |
η2 |
= |
σf2 |
= |
σf2 |
|
= |
cov(η, f (ξ)) |
. |
|
|
|
|
|
|
|
|
|
|
|
|||||||
η |
|
ση2 |
|
ση2 |
|
ση2 |
|
σ2σ2 |
σησf |
|
||||||
|
|
|
|
|
|
|
|
|
|
|
η |
f |
|
|
|
|
Отметим свойства показателя Rη , которые непосредственно вытекают из соотношения (5.31), справедливого и в многомерном случае.
1) 0 ≤Rη ≤1 .
2) Rη = 0 соответствует σf2 = Df (ξ) = 0 . В частности, функция регрессии f не зависит от значений ее аргументов x : f (x ) = const .
