Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Учебно-методическое пособие к лабораторной работе N2 Установление зависимости между двумя случайными величинами по результатам их выборок

.pdf
Скачиваний:
0
Добавлен:
30.11.2025
Размер:
1.36 Mб
Скачать

X

[ x0 ,x1 )

[ x1 ,x2 )

[ xk 1 ,xk )

Y

 

 

 

 

 

 

[ y0 , y1 )

m

 

m

m

 

 

11

12

 

1k

[ y1 , y2 )

m21

m22

m2k

 

[ yl1 , yl )

m

l1

m

m

lk

 

 

l 2

 

 

Здесь частота mij – количество пар значений ( xζ , yθ ) выборки, для которых значение xζ попадает в интервал [ xi1 ,xi ) , а значение yθ – в интервал [ y j1 , y j ). Количество интервалов, их длина, атакженачальныезначения x0 , y0 , xk , yl определяютсятак

же, как и для группированного статистического ряда (см. лабораторнуюработу№1, с. 22 – 23).

Следует отметить, что часто информация для статистического исследования сразу поступает в виде интервальной корреляционной таблицы.

Для дальнейших вычислений информацию, представленную в виде интервальной корреляционной таблицы, надо преобразовать в обычную корреляционную таблицу, взяв в качестве значений вариантсерединысоответствующихинтервалов:

 

X

x*

x*

x*

 

 

Y

 

1

2

 

k

 

 

 

 

 

y*

 

m

m

m1k

1

 

11

12

 

 

y*2

 

m21

m22

m2k

 

 

yl*

 

ml1

ml 2

mlk

11

Здесь xi* =

x

i

+ x

i1

, y*j

=

y j + y j1

.

 

 

2

 

2

 

 

 

 

 

 

 

Разберем сказанное на примере. Пусть получена выборка случайных величин X и Y (X – рост студента в см; Y – его масса в кг).

Данные о росте и массе студентов (X – рост в см; Y – масса в кг):

 

X

 

178

188

178

165

175

185

183

175

183

193

188

183

173

 

Y

 

63

 

95

67

66

 

83

 

75

 

70

77

 

79

70

84

84

75

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

X

178

 

180

173

 

185

 

 

165

 

185

188

 

163

183

183

 

170

 

185

 

Y

100

 

84

82

 

77

 

 

61

 

79

82

 

68

77

75

 

66

 

77

Объем выборки n = 25. Найдем количество интервалов по формуле k [log2 n ] +1 (см. лабораторную работу № 1, с. 33): k [log2 25] +1 = 4 +1 =5 .

Итак, можно взять k = 5. Так как xmin

=163 и xmax =193, то

длина интервала для случайной величины X будет равна

hx = 193 163

= 6 ,

 

 

 

 

5

 

 

 

 

x0

=163,

 

 

 

 

x5

=193 .

 

 

 

 

Аналогично ymin = 61, ymax =100, hy

=

100 61

= 7,8 . Ок-

 

 

 

 

5

 

руглим hy до 8 и возьмем y0

= 60,

y5 =100 . Построим интер-

вальную корреляционную таблицу:

12

X

[163;169)

[169;175)

[175;181)

[181,187)

[187,193)

Y

 

 

 

 

 

 

 

 

 

 

 

[60;68)

2

 

3

 

 

 

 

 

 

 

 

[68;76)

1

1

 

3

1

 

 

 

 

 

 

[76;84)

 

1

2

5

1

 

 

 

 

 

 

[84;92)

 

 

1

1

1

 

 

 

 

 

 

[92;100)

 

 

1

 

1

 

 

 

 

 

 

Преобразуем ее в обычную корреляционную таблицу:

 

X

166

172

178

184

190

mX i

Y

 

 

 

 

 

 

 

 

64

 

2

 

3

 

 

5

 

 

 

 

 

 

 

 

72

 

1

1

 

3

1

6

 

 

 

 

 

 

 

 

80

 

 

1

2

5

1

9

 

 

 

 

 

 

 

 

88

 

 

 

1

1

1

3

 

 

 

 

 

 

 

 

96

 

 

 

1

 

1

2

 

 

 

 

 

 

 

 

mY j

 

3

2

7

9

4

25

Пустые клетки означают, что соответствующая им частота равна 0.

Y

96

88

80

72

64

X

166 172 178 184 190

Рис. 1.2

13

Для большей наглядности исходные данные представляют в виде так называемого корреляционного поля. (рис. 1.2). Для этого в системе координат XOY строят точки ( xi , y j ) , причем

их количество соответствует частоте из корреляционной таблицы. При частоте, большей единицы, изображается облако близко расположенных друг к другу точек с соответствующими координатами.

1.3.Оценка коэффициента корреляции по результатам эксперимента

Пусть имеется выборка значений пары случайных величин X и Y, которая представлена в виде набора пар (x1, y1), (x2, y2),..., (xn, yn) или в виде корреляционной таблицы.

По аналогии с оценками математического ожидания и дисперсии будем утверждать, что достаточно хорошей оценкой коэффициента корреляции ρ( X ,Y ) будет выборочный коэф-

фициент корреляции, который обозначим r( X ,Y )

и будем

вычислять по формуле

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

( xi

X

)( yi

Y

)

 

 

r ( X ,Y ) = ρ( X ,Y ) =

 

i=1

 

.

n

 

 

 

n

 

 

[ ( xi

X

)2 ( yi

Y

)2 ]1 / 2

 

 

i=1

 

 

 

i=1

 

 

Заметим, что rXY – случайная величина, которая принимает

конкретные значения при некоторой реализации совокупности

(X, Y ): (x1, y1), ...,(xn, yn).

Вычисления выборочного значения rXY коэффициента корреляции удобно использовать формулу

r

=

XY

X

 

Y

 

,

 

 

XY

 

 

 

 

 

σ x σ y

 

 

14

 

 

 

1

n

 

 

 

1

n

 

 

 

 

n

где

 

=

xi yi ,

 

 

=

xi

,

 

=

1 xi ,

XY

 

X

Y

 

 

n

 

 

 

n i=1

 

 

 

i=1

 

 

 

 

n i=1

 

 

1

 

n

 

 

 

 

 

1

n

 

σ x =

xi2 X

2

, σ y =

yi2 Y 2 .

 

 

n i=1

 

 

 

 

 

n i=1

 

или, если исходные данные представлены в виде корреляционной таблицы,

 

 

1

k

l

 

=

∑∑mij xi* y*j ,

XY

 

 

n i=1

j=1

X= 1n k mX i xi* , i=1

 

 

 

= 1

l

mYj y*j

 

Y

 

 

 

 

n

j=1

 

 

1

k

 

 

( xi* )2 X 2

σ x =

mXi

 

 

n i=1

 

 

 

σ y =

1

l

mYj

( y*j )2 Y 2 .

 

 

n

j=1

 

 

 

Как и ρ( X ,Y ) , выборочный коэффициент корреляции ле-

жит между – 1 и 1 и принимает одно из граничных значений только при наличии идеальной линейной связи между наблюдениями. Нелинейная связь и/или разброс данных, вызванный ошибками измерения или же неполной коррелированностью случайных величин, приводит к уменьшению абсолютного

15

значения r ( X ,Y ) . Характерные виды корреляционных полей

для различных значений коэффициента корреляции приведены на рис. 1.3.

Y

rxy = -1

Y

 

rxy 0,8

 

 

X X

Y

 

Y

rxy = 0

 

rxy -0,5

 

 

 

 

X X

Рис. 1.3

1.4. Проверка значимости выборочного коэффициента корреляции

По методике, изложенной в предыдущем разделе, используя выборочные значения совокупности случайных величин

16

(X, Y): (x1, y1), ..., (xn, yn) найдем выборочный коэффициент корреляции r ( X ,Y ) . Так как выборка отобрана случайно, то

можно утверждать, что r ( X ,Y ) лишь приближенно представляет коэффициент корреляции ρ( X ,Y ) случайных вели-

чин X и Y. Но в конечном итоге нас интересует именно коэффициент ρ( X ,Y ) , поэтому хотелось бы знать, насколько

можно доверять полученной оценке. Другими словами, ста-

вится задача о значимости найденного выборочного коэффи-

циента корреляции. Эту задачу можно сформулировать следующим образом: необходимо при заданном уровне значимости α проверить нулевую гипотезу Н0: ρ( X ,Y ) = ρ0 против

альтернативной гипотезы Н1: ρ( X ,Y ) ρ0 , если известно, что выборочный коэффициент корреляции r ( X ,Y ) принял

значение, неравное нулю.

На практике чаще приходится встречаться с проверкой этой гипотезы при ρ0 = 0 . Эта задача связана с решением во-

проса о зависимости или независимости случайных величин X и Y. Действительно, если гипотеза Н0: ρ( X ,Y ) = 0 отвергает-

ся, то это значит, что выборочный коэффициент корреляции

значимо отличается от нуля и можно сделать вывод, что ме-

жду X и Y существует статистически значимая корреляционная связь. Если же нулевая гипотеза будет принята, то выборочный коэффициент корреляции незначим, а X и Y некоррелированы, т.е. не связаны какой-либо зависимостью.

Итак, решается задача в следующей постановке: проверить нулевую гипотезу Н0: ρ( X ,Y ) = 0 против альтернативной

гипотезы Н1: ρ( X ,Y ) 0 .

Для проверки этой гипотезы, как и ранее, используется t- распределение (распределение Стьюдента).

Рассмотрим следующую случайную величину:

17

 

t =

r

 

 

 

 

1

r 2

 

 

 

 

 

n 2

 

 

 

 

(сравним

со случайной величиной t =

 

X a

 

при a =0 и

 

S

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n 1

 

 

S = 1r 2

).

 

 

 

 

 

 

 

Оказывается, во-первых, что эта случайная величина имеет распределение Стьюдента с k = n – 2 степенями свободы. Вовторых, легко понять, почему эта случайная величина хорошо отражает изменения r: если r 0 , то t 0 , а если | r |1, то

t →∞. Таким образом, можно сказать, что гипотеза Н0 будет верна с вероятностью p =1α , если P(| t |<tγ ) =1α . Графи-

чески наблюдаемое значение должно попасть в область принятия гипотезы (рис. 1.4).

f(t)

область принятия гипотезы

площадь равна 1-α

t

t-γ tнабл. tγ

Рис. 1.4

Как и ранее, после несложных преобразований можно показать, что tγ находится по таблицам распределения Стью-

дента из равенства:

18

P( t < tγ ) = f ( tγ ) =1α2 ,

где f(t) – распределение Стьюдента с n – 2 степенями свободы. Таким образом, порядок шагов таков: вычисляем по результатам выборки значение

tнабл. = rXY

n 2

1r2

 

XY

 

и сравниваем его с квантилем tγ , найденным по таблицам распределения Стьюдента по вероятности γ =1 α2 и числу

степеней свободы k = n – 2. Если | tнабл. | > tγ , то гипотеза Н0 отвергается, т.е. считается, что ρ 0 , а X и Y коррелированы. Если | t.| < tγ , то нет оснований отвергать гипотезу Н0, т.е. гипотезу о некоррелированности случайных величин.

1.5. Пример вычисления коэффициента корреляции

Составим таблицу о росте и массе для n = 25 выбранных наугад студентов. Есть ли основание считать, что рост и масса студентов коррелированы при уровне значимости α = 0,05?

Данныеоростеимассестудентов(X – роствсмY – массавкг):

X

178

 

188

178

165

175

185

 

183

175

 

183

 

193

 

188

183

173

Y

63

 

95

67

66

83

75

 

70

77

 

79

 

70

 

84

 

84

75

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

X

 

 

178

180

173

 

185

 

165

 

185

 

188

 

163

183

 

183

 

170

 

185

Y

 

 

100

84

82

 

77

 

61

 

 

79

 

82

 

68

 

77

 

75

 

66

 

77

Вычисляем следующие величины:

19

25

 

 

 

 

 

 

25

 

 

 

 

 

 

 

25

 

xi yi = 344493,

xi2

= 806105, yi2 =148918,

i=1

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

25

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xi

 

 

 

4485

 

 

 

 

 

 

X =

i=1

 

 

=

=179,4,

 

 

 

 

 

n

 

 

 

25

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

25

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

yi

1916

 

 

 

 

 

Y =

i=1

 

=

= 76,64, r =

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

25

 

 

 

XY

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

 

344493 25

179,4

76,64

= 0,43 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

( 806105 25 179,42 )(148918 25 76,642 )

По таблицам t – распределения при уровне значимости α = 0,05 и числу степеней свободы k = n – 2 = 23 находим кван-

тиль tγ , n2 =1,714 .

Вычисляем: tнабл. = r n 2 =

0,43 23 = 2,29 .

1 r 2

1 0,432

Так как tнабл. > tγ , то гипотеза H0 должна быть отвергнута с уровнем значимости 5%. Следовательно, есть основания считать, что между ростом и массой студентов существует значимая корреляция.

2. ОСНОВЫ ЛИНЕЙНОГО РЕГРЕССИОННОГО АНАЛИЗА.

Корреляционный анализ позволяет установить степень взаимосвязи двух случайных величин. В случае, когда коэффициент корреляции ρ( X ,Y ) 0 , т.е. между X и Y существу-

ет значимая корреляционная связь, желательно иметь модель

20

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]