Учебно-методическое пособие к лабораторной работе N2 Установление зависимости между двумя случайными величинами по результатам их выборок
.pdfX |
[ x0 ,x1 ) |
[ x1 ,x2 ) |
… |
[ xk −1 ,xk ) |
|||
Y |
|||||||
|
|
|
|
|
|
||
[ y0 , y1 ) |
m |
|
m |
… |
m |
|
|
|
11 |
12 |
|
1k |
|||
[ y1 , y2 ) |
m21 |
m22 |
… |
m2k |
|||
… |
… |
… |
|
… |
|||
[ yl−1 , yl ) |
m |
l1 |
m |
… |
m |
lk |
|
|
|
l 2 |
|
|
|||
Здесь частота mij – количество пар значений ( xζ , yθ ) выборки, для которых значение xζ попадает в интервал [ xi−1 ,xi ) , а значение yθ – в интервал [ y j−1 , y j ). Количество интервалов, их длина, атакженачальныезначения x0 , y0 , xk , yl определяютсятак
же, как и для группированного статистического ряда (см. лабораторнуюработу№1, с. 22 – 23).
Следует отметить, что часто информация для статистического исследования сразу поступает в виде интервальной корреляционной таблицы.
Для дальнейших вычислений информацию, представленную в виде интервальной корреляционной таблицы, надо преобразовать в обычную корреляционную таблицу, взяв в качестве значений вариантсерединысоответствующихинтервалов:
|
X |
x* |
x* |
… |
x* |
|
|
||||
Y |
|
1 |
2 |
|
k |
|
|
|
|
|
|
y* |
|
m |
m |
… |
m1k |
1 |
|
11 |
12 |
|
|
y*2 |
|
m21 |
m22 |
… |
m2k |
… |
|
… |
… |
|
… |
yl* |
|
ml1 |
ml 2 |
… |
mlk |
11
Здесь xi* = |
x |
i |
+ x |
i−1 |
, y*j |
= |
y j + y j−1 |
. |
|
|
2 |
|
2 |
||||
|
|
|
|
|
|
|
Разберем сказанное на примере. Пусть получена выборка случайных величин X и Y (X – рост студента в см; Y – его масса в кг).
Данные о росте и массе студентов (X – рост в см; Y – масса в кг):
|
X |
|
178 |
188 |
178 |
165 |
175 |
185 |
183 |
175 |
183 |
193 |
188 |
183 |
173 |
|||||||||
|
Y |
|
63 |
|
95 |
67 |
66 |
|
83 |
|
75 |
|
70 |
77 |
|
79 |
70 |
84 |
84 |
75 |
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
X |
178 |
|
180 |
173 |
|
185 |
|
|
165 |
|
185 |
188 |
|
163 |
183 |
183 |
|
170 |
|
185 |
|||
|
Y |
100 |
|
84 |
82 |
|
77 |
|
|
61 |
|
79 |
82 |
|
68 |
77 |
75 |
|
66 |
|
77 |
|||
Объем выборки n = 25. Найдем количество интервалов по формуле k ≥ [log2 n ] +1 (см. лабораторную работу № 1, с. 33): k ≥ [log2 25] +1 = 4 +1 =5 .
Итак, можно взять k = 5. Так как xmin |
=163 и xmax =193, то |
||||
длина интервала для случайной величины X будет равна |
|||||
hx = 193 −163 |
= 6 , |
|
|
|
|
|
5 |
|
|
|
|
x0 |
=163, |
|
|
|
|
x5 |
=193 . |
|
|
|
|
Аналогично ymin = 61, ymax =100, hy |
= |
100 −61 |
= 7,8 . Ок- |
||
|
|||||
|
|
|
5 |
|
|
руглим hy до 8 и возьмем y0 |
= 60, |
y5 =100 . Построим интер- |
|||
вальную корреляционную таблицу:
12
X |
[163;169) |
[169;175) |
[175;181) |
[181,187) |
[187,193) |
|
Y |
||||||
|
|
|
|
|
||
|
|
|
|
|
|
|
[60;68) |
2 |
|
3 |
|
|
|
|
|
|
|
|
|
|
[68;76) |
1 |
1 |
|
3 |
1 |
|
|
|
|
|
|
|
|
[76;84) |
|
1 |
2 |
5 |
1 |
|
|
|
|
|
|
|
|
[84;92) |
|
|
1 |
1 |
1 |
|
|
|
|
|
|
|
|
[92;100) |
|
|
1 |
|
1 |
|
|
|
|
|
|
|
Преобразуем ее в обычную корреляционную таблицу:
|
X |
166 |
172 |
178 |
184 |
190 |
mX i |
Y |
|
||||||
|
|
|
|
|
|
|
|
64 |
|
2 |
|
3 |
|
|
5 |
|
|
|
|
|
|
|
|
72 |
|
1 |
1 |
|
3 |
1 |
6 |
|
|
|
|
|
|
|
|
80 |
|
|
1 |
2 |
5 |
1 |
9 |
|
|
|
|
|
|
|
|
88 |
|
|
|
1 |
1 |
1 |
3 |
|
|
|
|
|
|
|
|
96 |
|
|
|
1 |
|
1 |
2 |
|
|
|
|
|
|
|
|
mY j |
|
3 |
2 |
7 |
9 |
4 |
25 |
Пустые клетки означают, что соответствующая им частота равна 0.
Y
96
88
80
72
64
X
166 172 178 184 190
Рис. 1.2
13
Для большей наглядности исходные данные представляют в виде так называемого корреляционного поля. (рис. 1.2). Для этого в системе координат XOY строят точки ( xi , y j ) , причем
их количество соответствует частоте из корреляционной таблицы. При частоте, большей единицы, изображается облако близко расположенных друг к другу точек с соответствующими координатами.
1.3.Оценка коэффициента корреляции по результатам эксперимента
Пусть имеется выборка значений пары случайных величин X и Y, которая представлена в виде набора пар (x1, y1), (x2, y2),..., (xn, yn) или в виде корреляционной таблицы.
По аналогии с оценками математического ожидания и дисперсии будем утверждать, что достаточно хорошей оценкой коэффициента корреляции ρ( X ,Y ) будет выборочный коэф-
фициент корреляции, который обозначим r( X ,Y ) |
и будем |
|||||||||||
вычислять по формуле |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n |
|
|
||||||||
|
∑( xi − |
X |
)( yi − |
Y |
) |
|
|
|||||
r ( X ,Y ) = ρ( X ,Y ) = |
|
i=1 |
|
. |
||||||||
n |
|
|
|
n |
|
|||||||
|
[ ∑( xi − |
X |
)2 ∑( yi − |
Y |
)2 ]1 / 2 |
|
||||||
|
i=1 |
|
|
|
i=1 |
|
|
|||||
Заметим, что rXY – случайная величина, которая принимает
конкретные значения при некоторой реализации совокупности
(X, Y ): (x1, y1), ...,(xn, yn).
Вычисления выборочного значения rXY коэффициента корреляции удобно использовать формулу
r |
= |
XY |
− |
X |
|
Y |
|
, |
|
|
|||||||
XY |
|
|
|
|||||
|
|
σ x σ y |
|
|
||||
14
|
|
|
1 |
n |
|
|
|
1 |
n |
|
|
|
|
n |
где |
|
= |
∑xi yi , |
|
|
= |
∑xi |
, |
|
= |
1 ∑xi , |
|||
XY |
|
X |
Y |
|||||||||||
|
|
n |
||||||||||||
|
|
|
n i=1 |
|
|
|
i=1 |
|
|
|
|
n i=1 |
||
|
|
1 |
|
n |
|
|
|
|
|
1 |
n |
|
||
σ x = |
∑xi2 − X |
2 |
, σ y = |
∑yi2 − Y 2 . |
||||||||||
|
|
n i=1 |
|
|
|
|
|
n i=1 |
|
|||||
или, если исходные данные представлены в виде корреляционной таблицы,
|
|
1 |
k |
l |
|
= |
∑∑mij xi* y*j , |
||
XY |
||||
|
|
n i=1 |
j=1 |
|
X= 1n ∑k mX i xi* , i=1
|
|
|
= 1 |
∑l |
mYj y*j |
||
|
Y |
||||||
|
|
|
|
n |
j=1 |
|
|
|
1 |
k |
|
|
( xi* )2 − X 2 |
||
σ x = |
∑mXi |
||||||
|
|
n i=1 |
|
|
|
||
σ y = |
1 |
∑l |
mYj |
( y*j )2 − Y 2 . |
|||
|
|
n |
j=1 |
|
|
|
|
Как и ρ( X ,Y ) , выборочный коэффициент корреляции ле-
жит между – 1 и 1 и принимает одно из граничных значений только при наличии идеальной линейной связи между наблюдениями. Нелинейная связь и/или разброс данных, вызванный ошибками измерения или же неполной коррелированностью случайных величин, приводит к уменьшению абсолютного
15
значения r ( X ,Y ) . Характерные виды корреляционных полей
для различных значений коэффициента корреляции приведены на рис. 1.3.
Y |
rxy = -1 |
Y |
|
rxy ≈ 0,8 |
|
|
|
X X
Y |
|
Y |
rxy = 0 |
|
rxy ≈ -0,5 |
|
|
|
|
|
X 

X
Рис. 1.3
1.4. Проверка значимости выборочного коэффициента корреляции
По методике, изложенной в предыдущем разделе, используя выборочные значения совокупности случайных величин
16
(X, Y): (x1, y1), ..., (xn, yn) найдем выборочный коэффициент корреляции r ( X ,Y ) . Так как выборка отобрана случайно, то
можно утверждать, что r ( X ,Y ) лишь приближенно представляет коэффициент корреляции ρ( X ,Y ) случайных вели-
чин X и Y. Но в конечном итоге нас интересует именно коэффициент ρ( X ,Y ) , поэтому хотелось бы знать, насколько
можно доверять полученной оценке. Другими словами, ста-
вится задача о значимости найденного выборочного коэффи-
циента корреляции. Эту задачу можно сформулировать следующим образом: необходимо при заданном уровне значимости α проверить нулевую гипотезу Н0: ρ( X ,Y ) = ρ0 против
альтернативной гипотезы Н1: ρ( X ,Y ) ≠ ρ0 , если известно, что выборочный коэффициент корреляции r ( X ,Y ) принял
значение, неравное нулю.
На практике чаще приходится встречаться с проверкой этой гипотезы при ρ0 = 0 . Эта задача связана с решением во-
проса о зависимости или независимости случайных величин X и Y. Действительно, если гипотеза Н0: ρ( X ,Y ) = 0 отвергает-
ся, то это значит, что выборочный коэффициент корреляции
значимо отличается от нуля и можно сделать вывод, что ме-
жду X и Y существует статистически значимая корреляционная связь. Если же нулевая гипотеза будет принята, то выборочный коэффициент корреляции незначим, а X и Y некоррелированы, т.е. не связаны какой-либо зависимостью.
Итак, решается задача в следующей постановке: проверить нулевую гипотезу Н0: ρ( X ,Y ) = 0 против альтернативной
гипотезы Н1: ρ( X ,Y ) ≠ 0 .
Для проверки этой гипотезы, как и ранее, используется t- распределение (распределение Стьюдента).
Рассмотрим следующую случайную величину:
17
|
t = |
r |
|
|
|
|||
|
1 |
−r 2 |
|
|
|
|||
|
|
n −2 |
|
|
|
|
||
(сравним |
со случайной величиной t = |
|
X −a |
|
при a =0 и |
|||
|
S |
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n −1 |
|
|
S = 1−r 2 |
). |
|
|
|
|
|
|
|
Оказывается, во-первых, что эта случайная величина имеет распределение Стьюдента с k = n – 2 степенями свободы. Вовторых, легко понять, почему эта случайная величина хорошо отражает изменения r: если r →0 , то t →0 , а если | r |→1, то
t →∞. Таким образом, можно сказать, что гипотеза Н0 будет верна с вероятностью p =1−α , если P(| t |<tγ ) =1−α . Графи-
чески наблюдаемое значение должно попасть в область принятия гипотезы (рис. 1.4).
f(t)
область принятия гипотезы
площадь равна 1-α
t
t-γ tнабл. tγ
Рис. 1.4
Как и ранее, после несложных преобразований можно показать, что tγ находится по таблицам распределения Стью-
дента из равенства:
18
P( t < tγ ) = f ( tγ ) =1− α2 ,
где f(t) – распределение Стьюдента с n – 2 степенями свободы. Таким образом, порядок шагов таков: вычисляем по результатам выборки значение
tнабл. = rXY |
n −2 |
1−r2 |
|
XY |
|
и сравниваем его с квантилем tγ , найденным по таблицам распределения Стьюдента по вероятности γ =1 − α2 и числу
степеней свободы k = n – 2. Если | tнабл. | > tγ , то гипотеза Н0 отвергается, т.е. считается, что ρ ≠ 0 , а X и Y коррелированы. Если | t.| < tγ , то нет оснований отвергать гипотезу Н0, т.е. гипотезу о некоррелированности случайных величин.
1.5. Пример вычисления коэффициента корреляции
Составим таблицу о росте и массе для n = 25 выбранных наугад студентов. Есть ли основание считать, что рост и масса студентов коррелированы при уровне значимости α = 0,05?
Данныеоростеимассестудентов(X – роствсмY – массавкг):
X |
178 |
|
188 |
178 |
165 |
175 |
185 |
|
183 |
175 |
|
183 |
|
193 |
|
188 |
183 |
173 |
||||||||
Y |
63 |
|
95 |
67 |
66 |
83 |
75 |
|
70 |
77 |
|
79 |
|
70 |
|
84 |
|
84 |
75 |
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
X |
|
|
178 |
180 |
173 |
|
185 |
|
165 |
|
185 |
|
188 |
|
163 |
183 |
|
183 |
|
170 |
|
185 |
||||
Y |
|
|
100 |
84 |
82 |
|
77 |
|
61 |
|
|
79 |
|
82 |
|
68 |
|
77 |
|
75 |
|
66 |
|
77 |
||
Вычисляем следующие величины:
19
25 |
|
|
|
|
|
|
25 |
|
|
|
|
|
|
|
25 |
|
|
∑xi yi = 344493, |
∑xi2 |
= 806105, ∑yi2 =148918, |
|||||||||||||||
i=1 |
|
|
|
|
|
|
i=1 |
|
|
|
|
|
|
|
i=1 |
|
|
|
|
|
|
|
|
|
25 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
∑xi |
|
|
|
4485 |
|
|
||||
|
|
|
|
X = |
i=1 |
|
|
= |
=179,4, |
|
|||||||
|
|
|
|
n |
|
|
|
25 |
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
25 |
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
∑yi |
1916 |
|
|
|
|
|||||||
|
Y = |
i=1 |
|
= |
= 76,64, r = |
|
|||||||||||
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
n |
|
|
|
|
25 |
|
|
|
XY |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
= |
|
344493 − 25 |
179,4 |
76,64 |
= 0,43 . |
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
( 806105 − 25 179,42 )(148918 − 25 76,642 )
По таблицам t – распределения при уровне значимости α = 0,05 и числу степеней свободы k = n – 2 = 23 находим кван-
тиль tγ , n−2 =1,714 .
Вычисляем: tнабл. = r n − 2 = |
0,43 23 = 2,29 . |
1 − r 2 |
1 −0,432 |
Так как tнабл. > tγ , то гипотеза H0 должна быть отвергнута с уровнем значимости 5%. Следовательно, есть основания считать, что между ростом и массой студентов существует значимая корреляция.
2. ОСНОВЫ ЛИНЕЙНОГО РЕГРЕССИОННОГО АНАЛИЗА.
Корреляционный анализ позволяет установить степень взаимосвязи двух случайных величин. В случае, когда коэффициент корреляции ρ( X ,Y ) ≠ 0 , т.е. между X и Y существу-
ет значимая корреляционная связь, желательно иметь модель
20
