§ 12. Основы корреляционного анализа
Задачей корреляционного анализа является выявление и измерение линейной связи между случайными величинами. Решение задачи включает в себя также определение формы связи между ними, надежности и доверительных границ параметров уравнений регрессии.
12.1. Линейная корреляция
Если система состоит из двух случайных величин X и Y, связанных линейной зависимостью, ее характеристиками являются:
начальные моменты = M(X), = M(Y),
центральные моменты = D(X), =D(Y),
– центральный момент корреляционный момент,
коэффициент линейной корреляции показатель силы линейной связи между X и Y.
В статистическом анализе используются их соответствующие выборочные оценки.
Если объем выборки невелик, выборочные моменты определяются по следующим формулам:
выборочные средние
, ; (12.1)
выборочные (исправленные) дисперсии
(12.2)
выборочный корреляционный момент
; (12.3)
выборочный коэффициент линейной корреляции
. (12.4)
1. Выборочный коэффициент корреляции не зависит от выбора начала отсчета и единицы измерения; иными словами, при любых a1, a2, b1 и b2
.
2. Выборочный коэффициент корреляции не превышает единицы, .
3. Если Y = aX + b , то т.е. rxy = 1.
Чем ближе к единице, тем сильнее связь, тем меньше представлены в ней случайные факторы. При случайные величины связаны линейной функциональной зависимостью.
При большом объеме выборки составляется корреляционная таблица (12.1).
Таблица 12.1
-
Х
Y
mx
y1
y2
. . .
yl
x1
m11
m12
. . .
m1l
x2
m21
m22
. . .
m2l
. . .
. . .
. . .
. . .
. . .
. . .
xk
mk1
mk2
. . .
mkl
my
. . .
n
В этом случае выборочные моменты вычисляются по формулам:
выборочные средние
выборочные дисперсии
корреляционный момент
выборочный коэффициент корреляции .
Как всякая выборочная оценка, выборочный коэффициент корреляции является величиной случайной, достоверность (значимость) которой следует проверить с помощью того или иного критерия.
Если система (X,Y ) распределена нормально, то вопрос о значимости коэффициента корреляции решается с помощью случайной величины , распределенной по закону Стьюдента с = n 2 степенями свободы. Высказывается гипотеза Но: Если по абсолютной величине не превышает критического значения , полученного из таблицы t-распределения, то гипотеза Ho принимается. Если , гипотеза отвергается, корреляционная связь между признаками X и Y признается значимой.
При больших объемах выборки n выборочный коэффициент корреляции rxy распределен асимптотически нормально с параметрами
и .
При доверительной вероятности интервальная оценка для имеет вид
, (12.5)
где .
12.1. Данные о зависимости между объемом выполненных работ X (тыс.руб.) и накладными расходами Y (тыс.руб.) сведены в таблицу (12.2).
Требуется:
а) найти выборочные средние и дисперсии признаков X и Y ;
б) вычислить выборочный коэффициент корреляции rxy;
в) проверить гипотезу о значимости коэффициента корреляции при уровне значимости = 0,05, считая распределение признаков X и Y нормальным;
г) найти интервальную оценку для коэффициента корреляции при доверительной вероятности = 0,95.
Таблица 12.2
Y X |
1,5 |
2,5 |
3,5 |
4,5 |
5,5 |
6,5 |
7,5 |
8,5 |
|
15 |
4 |
5 |
|
|
|
|
|
|
9 |
25 |
1 |
3 |
1 |
|
|
|
|
|
5 |
35 |
2 |
3 |
6 |
5 |
3 |
1 |
|
|
20 |
45 |
|
5 |
6 |
19 |
8 |
7 |
2 |
1 |
48 |
55 |
|
1 |
2 |
7 |
16 |
9 |
4 |
2 |
41 |
65 |
|
|
1 |
5 |
6 |
4 |
2 |
2 |
20 |
75 |
|
|
|
|
|
|
1 |
6 |
7 |
|
7 |
17 |
16 |
36 |
33 |
21 |
9 |
11 |
150 |
Вычислим точечные оценки параметров распределения:
7200 = 48,0 ; 735 = 5,0;
374750 (48,0)2 = 194,333, Sx = 13,94;
4233,5 (5,0)2 = 3,223, Sy = 1,795;
39087,5 48,05,0 = 20,58;
Рассмотрим нулевую гипотезу Но о значимости выборочного коэффициента корреляции. Сначала вычислим эмпирическое значение критерия:
Затем из таблицы распределения Стьюдента (табл. 5 Приложений) получим критическое значение критерия tкр = t для уровня значимости и числа степеней свободы
t0,05;148 = 1,99.
Как видно, tэмп > t , значит нулевая гипотеза о равенстве нулю коэффициента корреляции отвергается, т.е. связь между признаками следует считать существенной.
При доверительной вероятности из табл. 2 Приложений находим . Тогда согласно (12.5) получим интервальную оценку для генерального коэффициента корреляции
0,8221,96 < < 0,822+1,96 ,
или 0,770 < xy < 0,874 .
В задачах 12.2 – 12.5 приведены результаты выборочного обследования системы двух случайных величин X и Y. Вычислить выборочный коэффициент линейной корреляции.
12.2.
X |
0,30 |
0,91 |
1,50 |
2,00 |
2,20 |
2,62 |
3,00 |
3,30 |
Y |
0,20 |
0,43 |
0,35 |
0,52 |
0,81 |
0,68 |
1,15 |
0,85 |
12.3.
X |
4,1 |
4,9 |
10,8 |
11,2 |
11,9 |
10,7 |
9,9 |
11,6 |
Y |
51,2 |
52,4 |
52,7 |
51,2 |
50,6 |
49,8 |
49,0 |
49,3 |
X |
12,0 |
8,4 |
10,8 |
6,5 |
7,8 |
9,9 |
8,7 |
11,2 |
Y |
50,7 |
51,4 |
52,9 |
49,6 |
49,4 |
52,6 |
51,9 |
52,4 |
12.4.
X |
20,8 |
21,0 |
19,0 |
16,9 |
16,8 |
19,2 |
20,5 |
17,1 |
18,4 |
20,4 |
Y |
52 |
73 |
84 |
90 |
75 |
77 |
64 |
58 |
82 |
89 |
12.5.
X |
1,05 |
1,28 |
1,31 |
0,80 |
1,05 |
1,28 |
1,35 |
1,49 |
1,38 |
1,57 |
Y |
53,0 |
53,4 |
55,4 |
55,6 |
56,0 |
54,5 |
53,7 |
52,7 |
52,0 |
52,6 |
X |
1,60 |
1,54 |
1,27 |
1,43 |
1,52 |
1,59 |
1,47 |
1,55 |
1,60 |
0,84 |
Y |
53,4 |
54,7 |
54,8 |
55,1 |
53,5 |
52,8 |
52,1 |
53,3 |
54,6 |
55,9 |
В задачах 12.6 – 12.13 даны эмпирические распределения двумерной случайной величины (X, Y). Требуется: а) найти выборочные средние и дисперсии составляющих системы; б) вычислить выборочный коэффициент линейной корреляции; в) проверить гипотезу о значимости коэффициента корреляции, считая распределение системы нормальным; г) найти интервальную оценку для истинного коэффициента линейной корреляции.
12.6.
|
Y |
||||||
Х |
15-25 |
25-35 |
35-45 |
45-55 |
55-65 |
65-75 |
75-85 |
200 – 300 |
19 |
5 |
|
|
|
|
|
300 – 400 |
23 |
86 |
11 |
|
|
|
|
400 – 500 |
1 |
41 |
98 |
9 |
|
|
|
500 – 600 |
|
4 |
32 |
65 |
7 |
|
|
600 – 700 |
|
1 |
4 |
21 |
36 |
3 |
|
700 – 800 |
|
|
1 |
2 |
11 |
13 |
1 |
800 – 900 |
|
|
|
|
1 |
3 |
2 |
12.7.
X |
Y |
||||||
0 |
1 |
2 |
3 |
4 |
5 |
6 |
|
25 |
2 |
1 |
|
|
|
|
|
35 |
2 |
5 |
7 |
1 |
|
|
|
45 |
|
1 |
4 |
8 |
1 |
|
|
55 |
|
|
|
2 |
13 |
3 |
|
65 |
|
|
|
|
1 |
5 |
2 |
75 |
|
|
|
|
|
2 |
1 |
85 |
|
|
|
|
|
|
1 |
12.8.
X |
Y |
|||||
15-20 |
20-25 |
25-30 |
30-35 |
35-40 |
40-45 |
|
210 – 220 |
1 |
2 |
1 |
|
|
|
220 – 230 |
1 |
2 |
16 |
2 |
1 |
|
230 – 240 |
|
1 |
5 |
10 |
5 |
1 |
240 – 250 |
|
1 |
2 |
8 |
14 |
2 |
250 – 260 |
|
|
1 |
3 |
8 |
2 |
260 – 270 |
|
|
|
2 |
6 |
3 |
12.9.
X |
Y |
||||||
0,02 |
0,06 |
0,10 |
0,14 |
0,18 |
0,22 |
0,26 |
|
10 – 20 |
|
|
|
|
1 |
3 |
2 |
20 – 30 |
|
|
1 |
3 |
4 |
2 |
|
30 – 40 |
|
1 |
3 |
4 |
2 |
1 |
|
40 – 50 |
|
2 |
6 |
4 |
2 |
|
|
50 – 60 |
3 |
5 |
3 |
1 |
|
|
|
60 – 70 |
4 |
2 |
1 |
|
|
|
|
70 – 80 |
4 |
|
|
|
|
|
|
12.10.
X |
Y |
||||||
3,0 |
3,1 |
3,2 |
3,3 |
3,4 |
3,5 |
3,6 |
|
12,5 |
|
|
|
|
|
2 |
5 |
17,5 |
|
|
|
|
2 |
4 |
3 |
22,5 |
|
|
|
2 |
3 |
7 |
1 |
27,5 |
|
|
3 |
11 |
15 |
8 |
2 |
32,5 |
|
1 |
2 |
9 |
4 |
1 |
|
37,5 |
2 |
3 |
5 |
2 |
|
|
|
42,5 |
2 |
1 |
|
|
|
|
|