Tom_2
.pdfY |
X = -1 |
= Y |
-1 |
: |
-2 |
0 |
2 |
, Y |
X = 1 |
= Y |
1 |
: |
-2 |
0 |
2 |
, |
|
0,8 |
0,2 |
0 |
0 |
0,2 |
0,8 |
||||||||||||
|
|
|
|
|
|
|
математические ожидания: M (Y -1) = -1,6 , M (Y 1 ) = 1,6 и дисперсии:
D(Y |
) = 0,64 , D(Y |
1 |
) = 0,64 . |
|
|
|
|
|
|
|
||
|
-1 |
|
|
|
|
|
|
|
|
|
|
|
|
Получаем |
|
|
|
|
|
|
|
|
|
|
|
|
D(Y,ост.) = D(Y |
)× P(X = -1) + D(Y |
1 |
)× P(X =1) = 0,64 . |
||||||||
|
|
|
|
-1 |
|
|
|
|
|
|
|
|
|
Значит, коэффициент детерминации |
|
|
|
|
|
||||||
|
|
η2 |
|
=1- |
D(Y ,ост.) |
=1- |
0,64 |
= |
4 |
, |
||
|
|
|
D(Y ) |
|
5 |
|||||||
|
|
Y X |
|
|
|
3,2 |
|
|
а корреляционное отношение ηY X = 54 @ 0,9 .
Поскольку ηY X близко к единице, то зависимость Y от X близка
к функциональной. Действительно, из таблицы 1 видно, что при данном значении X с большой вероятностью соблюдается равенство Y = 2X . □
30. Линейная однофакторная регрессия. Рассмотрим систему двух зависимых случайных величин (X ,Y ) . Предположим, что вид
зависимости Y от X неизвестен. Построим линейную аппроксимацию зависимости случайной величины Y от X. Подберем параметры
% |
% |
|
|
|
линейной |
|
функции |
|
|
|
% |
% |
|
|
× x = f (x) |
|
так, |
чтобы |
|||||||||||||
b, |
ρY |
X |
|
|
|
|
|
y = b + ρY |
X |
|
|||||||||||||||||||||
|
|
|
|
|
|
|
|
× X ) |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
% |
% |
|
|
|
|
% |
% |
2 |
было минимальным. |
|
|
|
|
|
|
|
|
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||
F (b, ρY X )= M (Y - b |
- ρY X |
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||
|
|
Функцию y = f (x) |
называют |
|
линейной среднеквадратичной |
||||||||||||||||||||||||||
регрессией Y на X. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
Имеем |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
% |
|
|
|
) = M (Y |
2 |
|
% |
|
|
|
|
|
%2 |
|
|
% |
ρY |
|
× X |
|
|
2 |
|
× X |
2 |
)= |
|
|||
F (b, ρY |
|
|
- 2bY - 2ρY |
|
× XY + b |
+ 2b |
|
+ ρY |
|
|
|
|
|||||||||||||||||||
|
|
% |
|
X |
|
|
|
|
% |
|
X |
|
|
|
|
|
|
% |
X |
|
|
|
% |
|
X |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
= M (Y |
2 |
) |
% |
|
|
|
|
|
|
%2 |
|
% |
ρY |
|
|
|
|
|
|
2 |
× M (X |
2 |
). |
|
|||||||
|
- 2bMY - 2 |
ρY X × M (XY ) + b |
+ 2b |
X × MX + ρY X |
|
|
|||||||||||||||||||||||||
|
|
|
|
|
|
|
|
% |
|
|
|
|
|
|
% |
|
|
|
|
|
% |
|
|
|
|
|
|
|
|
|
|
|
|
Приравнивая частные производные |
|
|
|
% |
% |
|
) |
|
по |
|
% |
|
|
% |
|
|
, |
||||||||||||
|
|
|
F (b, ρY |
X |
|
b |
и ρY |
X |
|||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
согласно необходимому условию экстремума, к нулю, получаем систему уравнений
474
|
|
|
ì % |
% |
|
|
|
|
|
|
|
|
|
|
|
|
ïb |
+ ρY X × MX = MY, |
|
|
|
|
|
|
(1) |
||
|
|
|
í % |
× MX + ρ × M (X |
2 |
) |
= M (XY ). |
|
|
||||
|
|
|
ïb |
|
|
|
|
|
|||||
|
|
|
î |
% |
|
|
|
|
|
|
|
|
|
|
|
|
Y X |
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
% |
и ρY X |
, имеем ρY |
|
|
KXY |
||
|
Решая систему (1) относительно b |
X |
= |
|
, |
||||||||
|
DX |
||||||||||||
|
|
|
|
|
|
|
% |
% |
|
|
|
|
|
% |
|
MX × KXY |
. Значит, с учетом, что ковариация KXY = rXY ×σ X ×σY , |
||||||||||
b |
= MY - |
|
|||||||||||
DX |
|||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
где rXY – коэффициент корреляции, σ X = DX , σY = DY , получаем искомую линейную зависимость
y = f (x) = a + (x - aX )rXYσY |
, |
(2) |
|
Y |
σ X |
|
|
|
|
|
где aX = MX , aY = MY .
Прямую, задаваемую уравнением (2), называют прямой среднеквадратичной регрессии Y на X.
Можно показать, что при этих |
% |
и ρY |
X |
величина |
b |
||||
|
|
% |
|
|
называемая ошибкой
M [Y - f (X )]2 =σY2 ×(1- rXY2 ),
MéëM (Y X )- f (X )ùû2 = σY2 æçηY2
èX
Отсюда вытекает:
приближения f (x) ,
а ошибка
- rXY2 ö÷ .
ø
% |
% |
|
), |
F (b, ρY |
X |
||
|
|
|
|
|
равна |
регрессии
1) если rXY приближается к единице, то уменьшается ошибка
приближения, т.е. возрастает концентрация значений двумерной случайной величины (X ,Y ) около прямой линии, задаваемой
уравнением (2). Верно и обратное утверждение. Это означает, что rXY
показывает степень линейной функциональной зависимости между случайными величинами X и Y;
2) если rXY приближается к ηY X , то уменьшается ошибка
регрессии, т.е. неизвестная функция регрессии приближается к линейной функции (2). Верно и обратное. В частности, в случае линейной корреляции (двумерное нормальное распределение)
ηY2 X = rXY2 , т.е. ошибка регрессии равна 0.
475
Последнее обстоятельство дает возможность использовать разность (ηY2 X - rXY2 ) в качестве меры отклонения функции регрессии от линейной.
На практике совместное распределение случайной величины (X ,Y )
зачастую неизвестно, а известны только результаты наблюдений, т.е. выборка пар (x, y) значений случайной величины (X ,Y ) . Тогда
все рассмотренные величины заменяем их выборочными аналогами.
Для оценок b, |
ρY X , коэффициентов |
% |
|
|
|
% |
|
|
|
|
|
имеем следующую систему |
||||||||||||||||||||||||||
b, ρY X |
|
|
||||||||||||||||||||||||||||||||||||
уравнений: |
|
|
|
|
|
|
|
|
ìb + ρ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
× x = y, |
|
|
|
|
|
|
|||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
ï |
|
|
|
|
|
Y |
|
X |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
(3) |
|||
|
|
|
|
|
|
|
|
|
|
í |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
ïbx + ρ × x2 |
|
= |
|
|
xy |
, |
|
|
|
|||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
î |
|
|
|
|
|
|
Y X |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
где x, |
y – значения выборочных средних, |
|
|
|
|
|
|
|||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
1 |
|
|
n |
|
|
|
|
|
|
|
|
|
|
|
|
1 |
|
|
n |
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
x2 = |
åxi2 , |
xy |
= |
|
|
|
åxi yi . |
|
|||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
n i=1 |
|
|
|
|
|
|
|
|
|
|
|
n i=1 |
|
||||||||||||||
Решая систему (3), получаем |
|
|
|
|
|
|
|
|
|
|
€ |
|
|
|
|
|
|
|||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
xy |
- x |
|
|
|
y |
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
ρ |
|
|
|
|
= |
|
|
|
|
= |
KXY |
, |
|
(4) |
|||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||
|
|
|
|
|
|
|
|
Y X |
|
|
|
x2 - (x )2 |
|
|
|
|
|
σ€X2 |
|
|||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
€ |
|
||
|
|
|
|
|
|
|
|
|
y |
x |
2 |
- x |
|
xy |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||
|
|
|
|
|
|
|
b = |
|
|
|
|
= y - x |
KXY |
, |
(5) |
|||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
x2 - (x )2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
σ€X2 |
|
||||||||||||
|
€ |
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
(x ) |
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
= |
|
|
- |
|
|
= |
|
|
2 |
- |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||
где |
KXY |
|
xy |
|
x y, σ X |
|
|
|
x |
|
|
|
|
|
|
|
|
|
|
|
– |
|
|
|
выборочные |
аналоги |
||||||||||||
корреляционного момента |
|
KXY |
|
случайных величин X и Y, |
а также |
|||||||||||||||||||||||||||||||||
дисперсии σ X2 |
соответственно. Таким образом, выборочное уравнение |
|||||||||||||||||||||||||||||||||||||
прямой среднеквадратичной регрессии Y на X имеет вид |
|
|||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
€ |
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
y = y + (x - x) |
|
KXY |
. |
(6) |
||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
2 |
|||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
σ€ |
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
X |
|
|
|
|
|
|
Смысл уравнения (6) в том, что оно наилучшим образом в классе линейных моделей описывает опытную зависимость Y от Х и может использоваться для прогноза значений Y как функции значений случайной величины X.
Пример 2. В таблице 2 приведены результаты 17 испытаний нормально распределенной системы случайных величин (X ,Y ) .
Таблица 2
476
i |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
13 |
14 |
15 |
16 |
17 |
X |
0,25 |
0,37 |
0,44 |
0,55 |
0,60 |
0,62 |
0,68 |
0,70 |
0,73 |
0,75 |
0,82 |
0,84 |
0,87 |
0,88 |
0,90 |
0,95 |
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Y |
2,57 |
2,31 |
2,12 |
1,92 |
1,75 |
1,71 |
1,6 |
1,51 |
1,50 |
1,41 |
1,33 |
1,31 |
1,25 |
1,20 |
1,19 |
1,15 |
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Определить выборочное уравнение прямой среднеквадратичной регрессии Y на X.
Решение. Составляем расчетную таблицу 3.
|
|
|
|
|
Таблица 3 |
|
|
|
|
|
|
|
xi |
yi |
xi2 |
yi2 |
xi yi |
|
|
|
|
|
|
|
0,2 |
2,5 |
0,0 |
6,6 |
0,6 |
|
5 |
7 |
625 |
049 |
425 |
|
0,3 |
2,3 |
0,1 |
5,3 |
0,8 |
|
7 |
1 |
369 |
361 |
547 |
|
0,4 |
2,1 |
0,1 |
4,4 |
0,9 |
|
4 |
2 |
936 |
944 |
328 |
|
0,5 |
1,9 |
0,3 |
3,6 |
1,0 |
|
5 |
2 |
025 |
864 |
560 |
|
0,6 |
1,7 |
0,3 |
3,0 |
1,0 |
|
0 |
5 |
600 |
625 |
500 |
|
0,6 |
1,7 |
0,3 |
2,9 |
1,0 |
|
2 |
1 |
844 |
241 |
602 |
|
0,6 |
1,6 |
0,4 |
2,5 |
1,0 |
|
8 |
0 |
624 |
600 |
880 |
|
0,7 |
1,5 |
0,4 |
2,2 |
1,0 |
|
0 |
1 |
900 |
801 |
570 |
|
0,7 |
1,5 |
0,5 |
2,2 |
1,0 |
|
3 |
0 |
329 |
500 |
950 |
|
0,7 |
1,4 |
0,5 |
1,9 |
1,0 |
0 |
5 |
1 |
625 |
881 |
557 |
|
0,8 |
1,3 |
0,6 |
1,7 |
1,0 |
1 |
2 |
3 |
724 |
689 |
906 |
|
0,8 |
1,3 |
0,7 |
1,7 |
1,1 |
2 |
4 |
1 |
056 |
161 |
004 |
|
0,8 |
1,2 |
0,7 |
1,5 |
1,0 |
3 |
7 |
5 |
569 |
625 |
875 |
|
0,8 |
1,2 |
0,7 |
1,4 |
1,0 |
4 |
8 |
0 |
744 |
400 |
560 |
|
0,9 |
1,1 |
0,8 |
1,4 |
1,0 |
5 |
0 |
9 |
100 |
161 |
710 |
|
0,9 |
1,1 |
0,9 |
1,3 |
1,0 |
6 |
5 |
5 |
025 |
225 |
925 |
|
1,0 |
1,0 |
1,0 |
1,0 |
1,0 |
7 |
0 |
0 |
000 |
000 |
000 |
|
11, |
26, |
9,1 |
45, |
17, |
|
95 |
83 |
095 |
4127 |
3917 |
|
|
|
|
|
|
477
|
|
|
|
|
|
|
|
|
|
|
|
|
|
17 |
|
|
|
17 |
17 |
|
|
|
Из таблицы получаем: åxi |
= 11,95; |
å yi = 26,83; |
åxi2 = 9,1095; |
|||||||||||||||
17 |
|
|
|
|
|
|
|
|
17 |
|
|
|
i=1 |
|
|
i=1 |
i=1 |
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
å yi2 = 45,4127; åxi yi |
= 17,3917. |
|
|
|
||||||||||||||||
i=1 |
|
|
|
|
|
|
|
|
i=1 |
|
|
|
|
|
|
|
|
|
||
|
|
Находим: |
|
|
|
|
|
|
|
|
|
|||||||||
x = |
11,95 |
@ 0,7029; |
|
y = |
26,83 |
@ 1,5782; |
|
|
||||||||||||
|
17 |
|
|
|
|
|
|
|
|
|
17 |
|
|
|
|
|||||
€2 |
= 9,1095 |
- |
(0,7029) |
2 |
@ |
|
|
|
@ |
|
|
|||||||||
σ X |
|
|
|
|
|
|
|
|
|
0,0418; σ X |
|
0,2042; |
|
|||||||
|
|
17 |
|
|
|
|
|
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
€ |
|
|
17,3917 |
|
|
|
|
|
|
|
|
|
|
|
||||||
KXY @ |
|
|
|
|
|
|
- 0,7029×1,5782 @ -0,0863; |
|
|
|||||||||||
|
|
17 |
|
|
|
|
|
|||||||||||||
|
|
Уравнение прямой среднеквадратичной регрессии (6): |
||||||||||||||||||
y =1,5782 - |
|
0,0863 |
(x - 0,7029) или y = −2,0695x + 3,0329. |
|||||||||||||||||
0,0418 |
||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
□ |
|
|||||
|
|
|
|
Здесь b = 3,0329, |
ρY X |
= -2,0695. |
|
|||||||||||||
|
|
|
|
Ясно, что рассчитанные по выборочным данным |
||||||||||||||||
коэффициенты ρY X |
и b в общем случае являются случайными. В |
связи с этим целесообразно проводить анализ статистической значимости коэффициентов линейной регрессии (см. п.2.40).
§ 2. Метод наименьших квадратов
Построим уравнение линейной регрессии методом наименьших квадратов. По этому методу в качестве оценок коэффициентов функции регрессии выбираем значения, которые минимизируют сумму квадратов отклонений наблюдаемых значений yi случайной
величины Y xi от их математических ожиданий.
10. Сглаживание опытных данных. Выборочное уравнение линейной регрессии. Регрессия называется линейной, когда функции регрессии f (x) и ϕ(y) являются линейными, в противном случае –
нелинейной.
Пусть количественные признаки X и Y связаны линейной корреляционной зависимостью. Значит, обе линии регрессии будут
п |
р |
я |
м |
ы |
е |
. |
|
Допустим, что проведено n независимых опытов, в результате |
|||||
чего получены n пар чисел |
|
|
|
|
||
|
|
(x1, y1), |
(x2 , y2 ), ..., |
(xn , yn ) . |
|
(1) |
478
Пары чисел (1) можно считать выборкой из генеральной совокупности возможных значений двумерной случайной величины (X ,Y ) . Уравнения регрессии, полученные по данным выборки,
называются выборочными.
Выборочное уравнение линейной регрессии Y на X запишем так:
y = kx + b . |
(2) |
Угловой коэффициент k выборочной прямой регрессии Y на Х принято обозначать ρY X и называть выборочным коэффициентом
регрессии Y на Х. Теперь уравнение (2) будет выглядеть |
|
y = ρY X × x + b . |
(3) |
Найдем ρY X и b с помощью метода наименьших квадратов.
Согласно этому методу, должно выполняться условие
n |
n |
× xi - b)2 ® min . |
å(yi - y(xi ))2 = Smin |
или å(yi - ρY |
|
i=1 |
i=1 |
X |
Подбор коэффициентов уравнения (3) из последнего условия, т.е. по методу наименьших квадратов, называют сглаживанием опытных данных. Ниже, в §3, будет показано, что этот метод годится и для нелинейной регрессии.
Ввиду необходимых условий экстремума, получаем
|
|
|
|
|
|
|
¶S |
= |
¶S |
= 0 , |
|
|||
|
|
|
|
|
|
|
|
¶b |
|
|||||
|
|
|
|
|
|
|
¶ρ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Y X |
|
|
|
|
|
||
поэтому |
|
|
|
n |
|
|
|
|
|
|
|
|
|
|
|
¶S |
|
|
|
æ |
|
|
|
|
|
ö |
|
||
|
|
|
= -2 |
|
|
ç y |
- ρ x - b÷ x = 0 , |
|||||||
|
¶ρ |
|
|
|
||||||||||
|
|
|
|
åè i |
|
Y |
|
X i |
|
ø |
i |
|||
|
Y X |
|
|
|
i=1 |
|
|
|
|
|
|
|
||
|
¶S |
|
|
|
n |
æ |
- ρY |
|
xi |
- b |
ö |
= 0 . |
||
|
¶b |
|
= -2åç yi |
|
÷ |
|||||||||
|
|
|
i=1 |
è |
|
|
X |
|
ø |
|
||||
Отсюда |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ì |
|
|
n |
|
|
n |
|
|
n |
|
|
|||
ï |
ρY |
åxi2 + båxi = |
åxi yi , |
|||||||||||
ï |
|
|
X i=1 |
|
|
i=1 |
|
|
i=1 |
|
(4) |
|||
í |
|
|
n |
|
|
|
|
n |
|
|
||||
ï |
|
|
|
|
|
|
|
|
|
|||||
ρY |
åxi + bn =å yi . |
|
|
|||||||||||
ï |
|
|
||||||||||||
î |
|
|
X i=1 |
|
|
|
i=1 |
|
|
|
Система алгебраических уравнений (4) эквивалентна системе (3) предыдущего параграфа. Поэтому полученные там выражения (4), (5)
для коэффициентов ρY X остаются в силе. Таким образом, выборочное
479
уравнение линейной среднеквадратичной регрессии (6) § 1 может быть получено методом наименьших квадратов.
20. Выборочный коэффициент корреляции. Рассмотрим вопрос о силе связи между признаками X и Y. Для этого введем выборочный коэффициент корреляции.
На основе определения теоретического коэффициента корреляции и оценок параметров теоретического распределения через выборочные, выборочный коэффициент корреляции r€XY будет иметь
в |
|
|
|
|
|
€ |
|
|
|
|
|
|
|
|
|
и |
|
|
|
|
|
|
|
|
|
|
д |
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n |
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
r€XY = |
|
KXY |
|
€ |
1 |
å(xi - x)(yi - y) = xy |
|
|
|
|
|
|
|
|
||||||||||||||
|
|
|
|
|
|
|
|
, KXY |
= |
|
|
- x y, |
|
(5) |
||||||||||||||||||
|
|
|
|
σ€ |
σ€ |
|
n |
|
||||||||||||||||||||||||
|
|
|
|
|
|
X |
Y |
|
|
|
|
|
|
|
i=1 |
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
€ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
- (x ) |
2 |
|
|
||
|
– выборочный корреляционный момент, а σ€X = |
|
x |
2 |
, |
|||||||||||||||||||||||||||
где KXY |
|
|
|
|||||||||||||||||||||||||||||
|
= |
|
|
- ( y )2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
σ€ |
|
y2 |
– |
|
выборочные среднеквадратичные |
отклонения |
||||||||||||||||||||||||||
Y |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
признаков X и Y. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
Таким образом, |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
- x × y |
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
r€XY = |
|
|
|
|
|
|
xy |
|
. |
|
|
|
|
|
|
(6) |
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
x2 - (x )2 y2 - ( y )2 |
|
|
|
|
|
|
||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Свойства выборочного коэффициента корреляции r€XY аналогичны свойствам теоретического коэффициента rXY (см. п.
1 |
|
0 |
. |
|
1 |
|
0 |
. |
2 |
|
0 |
|
) |
. |
|
|
|
|
|
|
|||||||||
|
Рассмотрим формулы (4), (5) § 1. Умножая правую часть |
|||||||||||||
выражения (4) |
на |
σ€Y |
, |
получаем, |
|
что ρ |
Y X |
= r€ |
σ€Y |
, |
откуда |
|||
|
|
|
|
|
σ€ |
|
|
|
|
XY σ€ |
|
|
||
|
|
|
σ€X . |
|
Y |
|
|
|
|
|
|
X |
|
|
r€ |
= ρ |
Y X |
Значит, |
линейный |
коэффициент |
|
регрессии |
|||||||
XY |
|
σ€ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Y |
|
|
|
|
|
|
|
|
|
|
|
выражается через коэффициент корреляции и наоборот. В силу формулы (5) §1, b = y - ρY X x .
Подставив это значение в (3), получим уравнение линейной регрессии Y на X:
y - y = ρ |
( x - x ) или y - y = r€ |
σ€Y |
(x - x). |
||||||
|
Y |
X |
|
|
XY σ€ |
|
|
|
|
|
|
|
|
|
|
X |
|
|
|
Аналогично можно записать уравнение регрессии X на Y: |
|||||||||
|
|
|
|
|
€ |
|
|
σ€X |
|
x - x = ρ |
X Y |
( y - y) , где ρ |
X Y |
= |
KXY |
= r€ |
|
или |
|
|
|
||||||||
|
|
|
2 |
XY |
|
€ |
|||
|
|
|
|
|
σ€Y |
|
|
σY |
480
x − x = r€XY σ€X ( y − y).
σ€Y
Из уравнений линейной регрессии Y на X (и X на Y) при r€XY = 0 вытекает y - y = 0 Þ y = y; x - x = 0 Þ x = x . Это значит, что линейная
корреляция между признаками X и Y отсутствует. |
Когда r€XY =1, то |
|||||||||||
линейная корреляция будет функциональной зависимостью. |
|
|||||||||||
|
30. Корреляционная таблица. При большом числе наблюдений |
|||||||||||
одно и то же значение x случайной величины X может повториться nx |
раз, |
|||||||||||
а случайной величины Y – ny |
раз. Одинаковая пара чисел (x, y) может |
|||||||||||
наблюдаться nxy |
раз. Поэтому результаты наблюдений группируют, |
|||||||||||
это значит подсчитывают кратности nx , |
nxy , ny . Все данные после |
|||||||||||
этого записывают в виде табл. 1, называемой корреляционной. |
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
Таблица 1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
x1 |
x |
|
|
x3 |
.. |
|
xk |
|
ny j |
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n |
n |
|
|
n |
|
|
n |
|
k |
|
|
1 |
11 |
12 |
|
13 |
|
.. |
|
1k |
|
ån1i |
|
|
|
|
|
|
i=1 |
|
||||||
|
|
n |
n |
|
|
n |
|
|
n |
|
k |
|
|
|
|
|
.. |
|
|
ån2i |
|
||||
|
|
|
|
|
|
|
|
|
|
|
||
|
2 |
21 |
22 |
|
23 |
|
|
2k |
|
i =1 |
|
|
|
|
n |
n |
|
|
n |
|
|
n |
|
k |
|
|
3 |
31 |
32 |
|
33 |
|
.. |
|
3k |
|
ån3i |
|
|
|
|
|
|
i=1 |
|
||||||
|
|
. |
. |
|
|
. |
|
|
. |
|
... |
|
|
.. |
.. |
.. |
|
.. |
|
.. |
|
.. |
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
Продолжение таблицы 1 |
|||
|
|
|
|
|
|
|
|
|
|
|
||
|
|
n |
n |
|
|
n |
|
|
n |
|
k |
|
|
m |
m1 |
m2 |
|
m3 |
|
.. |
|
mk |
|
ånmi |
|
|
|
|
|
|
i=1 |
|
||||||
|
|
m |
m |
|
|
m |
|
|
m |
|
k |
m |
|
|
å |
å |
|
|
å |
|
|
å |
|
n = ånxi |
= å |
|
|
j= |
j= |
|
|
j = |
.. |
|
j= |
|
i=1 |
j= |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Как видно из табл. 1, ее строение простое: в клетки верхней строки записываются наблюдаемые значения xi , а в первый столбец
481
таблицы записываются наблюдаемые значения y j . На пересечении строк и столбцов записываются кратности nxi y j наблюдаемых пар значений признаков.
В правом нижнем углу табл. 1 расположена сумма всех кратностей nxi и ny j , равная общему числу всех наблюдений n. В
примере 2 п. 1.30 получено уравнение линейной регрессии в случае, когда наблюдаемые значения признаков встречались по одному разу. Пользуясь корреляционной таблицей, рассмотрим метод получения параметров уравнения линейной регрессии для случая, когда значения признаков повторяются.
Пример 1. По данным корреляционной табл. 2 найти r€XY , ρY X ,
ρX Y . Записать выборочные уравнения регрессии.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Таблица 2 |
|
|
|
|||
|
|
|
|
|
|
xi |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ny j |
|
|
|
|
|
|
|
|
|
|
|
|
|
5 |
|
|
|
|
|
10 |
|
15 |
|
|
|
20 |
|
|
|
|
|
|
xy j |
|
|
|
|
||||||||
|
|
y j |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
10 |
2 |
|
|
|
|
|
0 |
|
|
0 |
|
|
|
0 |
|
|
2 |
|
|
|
5 |
|
|
|
|
||||||
|
|
|
20 |
5 |
|
|
|
|
|
4 |
|
|
1 |
|
|
|
0 |
|
|
10 |
|
|
|
8 |
|
|
|
|
||||||
|
|
|
30 |
3 |
|
|
|
|
|
8 |
|
|
6 |
|
|
|
3 |
|
|
20 |
|
|
|
12,25 |
|
|
|
|
||||||
|
|
|
40 |
0 |
|
|
|
|
|
3 |
|
|
6 |
|
|
|
6 |
|
|
15 |
|
|
|
16 |
|
|
|
|
||||||
|
|
|
50 |
0 |
|
|
|
|
|
0 |
|
|
2 |
|
|
|
1 |
|
|
3 |
|
|
|
16,67 |
|
|
|
|
||||||
|
|
|
|
nx |
10 |
|
|
|
|
15 |
|
15 |
|
|
|
10 |
|
|
n = 50 |
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
xi |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
y |
21 |
|
|
|
|
29,33 |
|
36 |
|
|
|
38 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
1 |
|
k |
|
|
|
|
1 |
m |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
Здесь |
xy j = |
|
|
ånji xi , |
yxi = |
ånji y j – групповые или |
|||||||||||||||||||||||||
|
|
|
n |
|
|
n |
|
|||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
y j |
i=1 |
|
|
|
|
xi |
j=1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
условные средние. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
|
|
Решение. Для удобства расчетов составим табл. 3. |
|
|
|
Таблица 3 |
|||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
nx |
|
|
|
|
|
n |
x |
|
|
|
|
|
|
ny |
j |
|
n |
y |
|
y |
|
|
nx y |
j |
xi |
|
|
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
j |
|
|
|
i |
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0 |
|
|
|
|
50 |
0 |
|
|
|
|
25 |
0 |
|
|
|
|
|
20 |
|
200 |
|
100 |
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||
|
|
|
|
|
|
|
15 |
|
|
|
|
|
15 |
|
|
|
|
|
|
20 |
|
400 |
|
1600 |
|
|
||||||||
0 |
|
5 |
|
|
|
0 |
|
00 |
|
|
|
|
|
0 |
|
0 |
|
0 |
|
|
0 |
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||
|
|
|
|
|
|
|
22 |
|
|
|
|
|
33 |
|
|
|
|
|
|
60 |
|
180 |
|
7350 |
|
|
||||||||
5 |
|
5 |
|
|
|
5 |
|
75 |
|
|
|
|
|
0 |
|
0 |
|
0 |
|
|
00 |
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
482
|
|
|
|
|
|
|
20 |
40 |
|
|
|
|
|
|
|
|
|
60 |
|
|
|
240 |
|
6000 |
||||||||
0 |
|
|
0 |
|
|
0 |
|
|
00 |
|
|
|
0 |
|
5 |
|
|
|
|
0 |
|
|
|
|
00 |
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0 |
|
|
|
|
|
|
0 |
15 |
0 |
|
750 |
|
2500 |
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
å |
å |
|
|
|
|
|
|
|
|
|
å |
|
|
|
å= |
|
å= 17 |
||||||||
|
|
|
Отсюда имеем: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
|
|
625 |
|
|
(x)2 =156,25; |
|
|
|
|
9125 |
=182,5; |
|
|
|
||||||||||||||||||
x = |
=12,5; |
|
|
|
|
x2 |
= |
|
|
|||||||||||||||||||||||
50 |
|
|
50 |
|
|
|||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
σ€2 |
=182,5 -156,25 = 26,25; |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||
X |
|
|
|
|
|
|
|
1570 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
53700 |
|
|
|
|||
|
|
|
|
|
|
|
|
( y)2 = 985,96; |
|
= |
=1074; |
|
||||||||||||||||||||
σ€ |
= 5,2; |
y = |
= 31,4; |
y2 |
|
|||||||||||||||||||||||||||
|
|
|
|
|||||||||||||||||||||||||||||
X |
|
|
|
|
|
|
50 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
50 |
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
2 |
=1074 - 985,96 = 84,04; |
|
|
= 9,38. |
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||
σ€Y |
|
σ Y |
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||
|
|
|
Найдем теперь r€XY согласно выражению (6): |
|
|
|
|
|||||||||||||||||||||||||
r€ |
|
= |
351-12,5×31,4 |
= -0,85. Следовательно, |
|
|
|
|
|
|
|
|||||||||||||||||||||
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||||
XY |
|
|
|
|
5,2 ×9,38 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
ρ |
|
|
= r€ |
σ€Y = -0,85 |
9,38 |
|
=1,53; |
ρ |
X Y |
= -0,85 |
5,2 |
|
= -0,47. |
|
||||||||||||||||||
|
|
|
9,38 |
|
|
|||||||||||||||||||||||||||
Y X |
XY σ€ |
5,2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||
|
|
|
|
|
|
|
X |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Теперь можем записать выборочные уравнения регрессии:
y- 31,4 = -1,53(x -12,5), x -12,5 = -0,47( y - 31,4). □
40. Проверка гипотезы об отсутствии корреляционной связи.
Рассмотрим проверку гипотезы о значимости выборочного коэффициента корреляции. Допустим, что
генеральная совокупность (X ,Y ) распределена
нормально. Из этой совокупности составлена выборка объемом n, и для нее найден выборочный коэффициент корреляции r€XY ¹ 0 . Но это еще не означает (выборка случайная), что коэффициент корреляции генеральной совокупности rXY будет также отличаться от нуля. В связи с этим нужно проверить нулевую гипотезу H0 о равенстве нулю коэффициента корреляции генеральной совокупности
483