Скачиваний:
12
Добавлен:
30.09.2023
Размер:
602.98 Кб
Скачать

Используя Matlab, найдём квантиль c2

(10 - 2 -1) = c2

(7) = 14,0671 . Поскольку c2

< c2

(7) ,

1−α

0,95

в

0,95

 

то нет оснований отвергать гипотезу о равномерном распределении генеральной совокупности.

1.6. Статистическое описание и выборочные характеристики двумерного случайного вектора

Пусть (xi ; yi ) , i = 1, 2, ... , n , – выборка объёмом n из наблюдений двумерного случайного вектора (X ; Y ) . Предварительное представление о двумерной генеральной совокупности можно получить,

изображая элементы выборки точками на плоскости с выбранной декартовой прямоугольной системой координат. Это представление выборки называется диаграммой рассеивания (корреляционным полем).

Распределением двумерной выборки называется распределение двумерного дискретного случайного вектора , принимающего значения (xi ; yi ) , i = 1, 2, ... , n , с вероятностями, равными 1n . Выборочные

числовые характеристики вычисляются как соответствующие числовые характеристики двумерного случайного вектора дискретного типа.

Двумерную выборку большого объёма представляют в виде корреляционной таблицы. С этой целью группируют реализации величин X и Y по интервалам длины D x и D y , а в клетки таблицы записывают

число пар исходной выборки (т.е. частоты) для каждой комбинации интервалов. Эту процедуру можно также выполнить непосредственно по диаграмме рассеивания, нанося на неё сетку горизонтальных и

вертикальных прямых, взятых с постоянными шагами D x и D y . Наблюдения, которые попадают на

верхнюю и правую границы рассматриваемого прямоугольника, относятся соответственно к соседним верхнему и правому прямоугольникам. В дальнейших вычислениях эмпирических числовых характеристик используются середины интервалов и соответствующие частоты.

Обозначим середины

интервалов

группировки

через

 

xi ,

i = 1, 2, ... , k , и y j , j = 1, 2, ... , l ,

а

 

 

 

 

 

 

 

 

k

 

 

l

l

 

соответствующие им частоты через nij

 

(очевидно, что åånij

= n ). Положим также, что ånij = ni,

 

 

 

 

 

 

 

 

i=1 j=1

j=1

 

k

 

 

 

 

 

 

 

 

 

 

 

 

 

ånij = nj . Тогда для

группированных

данных

 

выборочные

средние, «исправленные» дисперсии

и

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

ковариация определяются по соотношениям

 

 

 

 

 

 

 

 

 

 

 

 

1

 

k )

 

 

1

 

l

)

 

 

 

x =

 

 

åxi ni

,

y =

 

å y j nj ;

 

 

n

n

 

 

 

 

i=1

 

 

 

j=1

 

 

 

 

 

 

 

 

 

 

 

 

 

~

K X , Y

 

 

 

 

 

 

 

1

 

 

k )

 

 

 

 

 

 

1

 

æ

k

 

)

 

 

 

ö

 

 

 

 

s2

=

 

 

 

 

 

 

(x

 

- x)2 n

 

=

 

 

 

ç

 

 

x 2n

 

- nx 2

÷ ,

 

 

 

n

-1 å

 

 

 

n -1

å

 

 

 

 

X

 

 

 

 

 

i

 

 

 

i

 

 

ç

i i

 

 

÷

 

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

è i=1

 

 

ø

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

1

 

 

l

)

 

 

2

 

 

 

1

 

æ

l

 

) 2

 

 

 

ö

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ç

 

 

 

 

2 ÷

 

 

 

 

sY

 

=

 

 

å(y j

- y)

 

nj

=

 

 

ç

åy j nj - ny

 

÷

,

 

 

n -1

 

n -1

 

 

 

 

 

 

 

 

 

 

 

 

 

j=1

 

 

 

 

 

 

 

 

 

 

è j=1

 

 

 

 

ø

 

 

 

1

 

 

 

 

k

l

)

 

 

)

 

 

 

 

 

 

 

1

æ

k

l

)

 

)

 

 

ö

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ç

 

 

 

 

 

÷

=

 

åå(xi - x)(y j

- y)nij =

 

ç

åånij xi

y j

- nx y

÷ .

n -1

n -1

 

 

 

 

 

i=1 j=1

 

 

 

 

 

 

 

 

 

 

 

 

è i=1 j=1

 

 

 

 

ø

Для негруппированных данных аналогичные формулы упрощаются и приобретают вид:

 

 

 

 

 

 

 

1

n

 

 

 

1

 

 

n

 

 

 

 

 

 

 

 

x =

åxm , y =

å ym ;

 

 

 

 

 

 

n

 

n

 

 

 

 

 

 

 

 

 

m=1

 

 

 

 

m=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

n

 

 

 

 

 

1

 

 

æ

n

 

ö

 

sX2

=

 

 

 

 

 

(xm - x)2

=

 

 

 

 

 

 

ç

 

xm2

- nx 2 ÷

,

 

n -1 å

n -1

å

 

 

 

 

 

 

 

ç

 

÷

 

 

 

 

 

 

 

m=1

 

 

 

 

 

 

 

 

 

èm=1

 

ø

 

 

 

1

 

 

n

 

 

 

 

 

1

 

 

æ

n

 

ö

 

s2

=

 

 

 

 

 

(y - y)2

=

 

 

 

 

 

 

ç

 

y2

- ny2 ÷

,

n -

1 å

 

n -

 

 

å

Y

 

 

m

 

 

1ç

m

÷

 

 

 

 

 

 

m=1

 

 

 

 

 

 

 

 

èm=1

ø

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

PDF created with FinePrint pdfFactory Pro trial version http://www.fineprint.com

~

K X , Y

 

1

 

n

 

=

 

å

(xm -

n -1

 

 

 

m=1

 

 

1

 

æ

n

ö

x)(ym - y) =

 

 

ç

å

xm ym - nx y ÷ .

n -1

 

ç

÷

 

 

 

èm=1

ø

Выборочный коэффициент корреляции (как для группированных, так и для негруппированных данных)

определяется по формуле

 

 

 

 

 

 

 

~

 

~

 

 

 

 

 

 

 

 

 

 

 

 

K X , Y

 

 

 

 

 

 

 

 

 

 

rX , Y

=

 

 

,

 

 

 

 

 

 

 

 

 

 

sX sY

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где sX =

2

 

sY =

2

 

 

 

 

~

 

обладает всеми свойствами,

 

 

sX ,

sY

. Выборочный коэффициент корреляции rX , Y

которыми обладает теоретико-вероятностный коэффициент корреляции

rX , Y . В частности, для любой

выборки

 

~

 

£ 1. При

~

 

к 1 (или к 1),

тем

сильнее выражена линейная

 

 

 

 

rX , Y

этом, чем ближе rX , Y

 

зависимость между X и Y.

Пример 1.9. Дана двумерная выборка объёмом n = 50 (табл.1.11).

Таблица 1.11

Выборочные данные двумерного случайного вектора

№ п/п

X

Y

 

№ п/п

X

Y

1

10,30

5,94

 

26

6,77

3,50

2

2,38

1,33

 

27

6,38

2,68

3

3,80

3,71

 

28

2,59

– 1,05

4

– 0,70

– 0,49

 

29

12,18

6,01

5

5,60

3,03

 

30

6,89

4,77

6

4,47

0,81

 

31

1,13

4,92

7

3,25

3,72

 

32

5,70

5,93

8

4,85

2,21

 

33

14,09

9,08

9

– 0,23

– 1,90

 

34

8,84

5,97

10

7,55

– 0,15

 

35

7,42

6,19

11

2,57

0,99

 

36

7,31

1,74

12

1,76

5,03

 

37

6,92

– 1,10

13

5,41

– 1,13

 

38

10,65

7,81

14

9,84

5,81

 

39

1,87

1,79

15

0,36

– 3,38

 

40

7,91

4,75

16

4,25

3,58

 

41

4,18

1,22

17

11,73

3,14

 

42

6,69

3,87

18

13,01

0,66

 

43

3,30

5,64

19

3,28

1,70

 

44

3,12

– 1,54

20

7,68

3,88

 

45

7,24

5,29

21

12,64

5,29

 

46

5,70

1,77

22

6,87

3,06

 

47

6,53

3,05

23

7,39

6,62

 

48

4,71

3,46

24

– 0,87

– 4,56

 

49

7,21

2,12

25

0,96

2,30

 

50

9,96

5,35

Выполнить предварительную обработку результатов наблюдений, включающую:

1)построение диаграммы рассеивания (корреляционного поля);

2)группировку данных и построение корреляционной таблицы;

3)оценку числовых характеристик для негруппированных и группированных данных.

Решение. 1. Диаграмма рассеивания с нанесённой на неё сеткой горизонтальных и вертикальных прямых ( Dx = D y = 3) представлена на рис.1.11.

PDF created with FinePrint pdfFactory Pro trial version http://www.fineprint.com

Рис.1.11. Диаграмма рассеивания с нанесённой на неё сеткой для группировки данных и графики уравнений выборочных линейных регрессий:

1 – Y на x; 2 – X на y

2. Используя графическую группировку данных (с помощью нанесённой на рис.1.11 сетки), построим таблицу частот (табл.1.12).

Таблица 1.12

Таблица частот группированной двумерной выборки

Y

– 3,5

– 0,5

2,5

5,5

8,5

ni

X

 

 

 

 

 

 

– 0,5

2

2

1

0

0

5

2,5

0

3

5

3

0

11

5,5

0

3

11

2

0

16

8,5

0

1

3

7

0

11

11,5

0

0

1

3

1

5

14,5

0

1

0

0

1

2

nj

2

10

21

15

2

50

В первом столбце и в первой строке табл.1.12 указаны середины интервалов группировки по X и по Y соответственно.

3. Проведём вычисление выборочных числовых характеристик:

для негруппированных данных:

x = 5,8688, y = 2,8884

2

= 13,4696

2

= 8,3570

~

= 6,3564

~

= 0,5991;

, sX

, sY

, K X , Y

, ρX , Y

для группированных данных:

x = 5,86

, y = 2,80

2

= 14,5616

2

= 7,4388

~

= 5,5837

~

= 0,5365 .

, sX

, sY

, K X , Y

, ρX , Y

1.7. Элементы корреляционного и регрессионного анализа данных

1.7.1. Корреляционный анализ

Корреляционный анализ это совокупность методов обнаружения так называемой корреляционной зависимости между случайными величинами.

Для двух случайных величин Х и Y корреляционный анализ включает следующие этапы:

построение корреляционного поля (диаграммы рассеивания) и составление корреляционной таблицы;

вычисление выборочного коэффициента корреляции;

проверку статистической гипотезы о значимости корреляционной связи.

Корреляционное поле и корреляционная таблица являются исходными данными при корреляционном анализе. По характеру расположения точек на диаграмме рассеивания можно составить предварительное представление о форме зависимости случайных величин (например, о том, что одна из них в среднем возрастает или убывает с возрастанием другой) (см. пример 1.9, рис.1.11).

Корреляционная таблица даёт возможность выдвинуть предположение о наличии или отсутствии корреляционной связи, а также выяснить её направление (см. пример 1.9, табл.1.12). Если частоты в корреляционной таблице расположены по диагонали из левого верхнего угла в правый нижний угол, то можно предположить наличие прямой корреляционной зависимости между признаками. Если же частоты расположены по диагонали из правого верхнего угла в левый нижний, то можно предположить наличие

PDF created with FinePrint pdfFactory Pro trial version http://www.fineprint.com

обратной связи между признаками. Необходимо подчеркнуть, что при рассмотрении корреляционной таблицы важно установить расположение основной части частот. Возможны варианты, когда все клетки корреляционной таблицы окажутся заполненными. Однако это обстоятельство ещё не означает, что корреляционная связь между признаками отсутствует.

Проверка гипотезы о наличии корреляции осуществляется следующим образом. Основная гипотеза отсутствие линейной статистической связи ( H0 : rX , Y = 0 ); альтернативной гипотезой может выступать

любая из трёх возможных ( H1(1) : rX , Y < 0 , H1(2) : rX , Y ¹ 0 или H1(3) : rX , Y > 0 ).

 

 

 

В тех случаях, когда справедливо предположение о нормальном распределении двумерного

генерального вектора

(X ; Y ) , подходящей статистикой Z для проверки основной гипотезы об отсутствии

линейной статистической связи (по двумерной выборке объёмом n) является

 

 

 

 

 

 

 

 

 

 

 

~

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n - 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Z =

 

rX , Y ×

 

~ St(n - 2) .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

~2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1- rX , Y

 

 

 

 

 

 

 

 

Критерий

проверки

гипотезы

H0 : rX , Y = 0

при альтернативной

гипотезе

H1(2) : rX , Y ¹ 0

заключается в следующем:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

вычисляется выборочное значение zв статистики Z;

гипотезу H0 ; иначе

H0

 

 

если | zв | < t

 

α (n - 2) , то

нет

оснований

отвергать

отклоняется с

 

 

 

1

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ошибкой первого рода α в пользу гипотезы H1(2)

(корреляция значима).

 

 

 

 

Замечание. Статистика Стьюдента сильно зависит от объёма выборки. Для получения надёжных

выводов о наличии корреляции при использовании статистики Z желательно иметь более 100 наблюдений.

 

Пример 1.10. Для негруппированных данных

примера 1.9 проверить

гипотезу

H0 : rX , Y = 0 об

отсутствии линейной статистической связи между компонентами X и Y при двусторонней альтернативе

H1(2) : rX , Y ¹ 0 и α = 0,05 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

~

Решение.

Для негруппированных данных примера 1.9 выборочная оценка коэффициента корреляции

 

равна

0,5991.

Используя

 

Matlab,

 

 

найдём

квантиль

распределения

Стьюдента

rX , Y

 

 

 

t

α (n - 2) = t0,975 (48) = 2,0106 . Тогда выборочное значение статистики Z равно

 

 

1

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

0,5991×

 

 

 

» 5,184 .

 

 

 

 

 

 

 

 

 

 

zв

48

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1- 0,59912

 

 

 

 

 

 

 

Так как | zв | > t0,975 (48) , то гипотеза H0 отклоняется в пользу гипотезы H1(2) . Корреляция значима.

 

Менее чувствительной к объёму n

 

выборки

из

генеральной совокупности, имеющей двумерное

нормальное распределение, является статистика U для проверки более общей гипотезы H0 :

rX , Y = r0

против любой из трёх альтернатив H1(1) : rX , Y < r0 ,

H1(2) : rX , Y ¹ r0 или H1(3) : rX , Y > r0 :

 

 

 

 

 

~

 

 

 

 

 

 

 

 

 

U =

arth rX , Y - arth r0

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

n - 3

 

 

 

 

 

 

 

 

 

где arth x = 1 ln

1+ x

(| x | < 1 ), а

r0 истинное (но неизвестное) значение коэффициента корреляции

 

2

 

1- x

 

 

 

 

 

 

 

двумерного генерального вектора (X ; Y ) .

 

 

 

 

 

 

Фишером было доказано, что если гипотеза H0

 

верна, то случайная величина U при n ³ 30 имеет

распределение, близкое к нормальному N(0;1) :

 

 

 

 

 

 

 

 

 

 

U ~ N(0;1) .

 

 

Критерий

проверки гипотезы

H0 : rX , Y = r0

 

при альтернативной гипотезе H1(2) :

rX , Y ¹ r0

заключается в следующем:

 

 

 

 

 

 

 

вычисляется выборочное значение uв статистики U;

 

 

PDF created with FinePrint pdfFactory Pro trial version http://www.fineprint.com

Y от Х описывают условным

 

если | uв | < u

α , то нет оснований отвергать гипотезу H0 ; иначе H0

отклоняется с ошибкой первого

 

 

 

1−

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

рода α в пользу гипотезы H1(2) .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Пример 1.11. Пользуясь статистикой Фишера U, для негруппированных данных примера 1.9 проверить

гипотезу

H0 : rX , Y = 0 об отсутствии линейной статистической связи между компонентами X и Y при

двусторонней альтернативе H1(2) : rX , Y ¹ 0 и α = 0,05 .

 

 

 

 

 

 

 

 

 

 

 

 

~

Решение.

Для негруппированных данных примера 1.9 выборочная оценка коэффициента корреляции

 

равна

0,5991.

 

Используя

 

 

 

 

 

Matlab,

 

 

найдём

 

квантиль

нормального распределения

rX , Y

 

 

 

 

 

 

 

 

 

u

α = u0,975 = 1,9600 . Тогда выборочное значение статистики U равно (учитывая r0 = 0 )

1−

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1+ 0,5991

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

uв =

 

 

47

×ln

» 4,7423 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

1- 0,5991

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Так как | uв | > u0,975 , то гипотеза H0 отклоняется в пользу гипотезы H1(2) . Корреляция значима.

 

Как уже отмечалось, при малом объёме выборки точечными оценками числовых характеристик

пользоваться некорректно. Необходима интервальная оценка.

 

 

 

 

 

 

 

 

 

 

 

Доверительный интервал для коэффициента корреляции:

 

 

 

 

 

 

 

 

 

 

 

 

æ

1

 

 

 

 

~

 

 

 

u

 

 

 

 

 

 

 

 

~

 

ö

 

 

 

æ

1

 

 

~

 

u

 

 

~

ö

 

 

 

ç

 

 

 

1 + r

 

 

 

1−α 2

 

 

 

 

 

 

r

 

÷

 

 

 

ç

 

 

1 + r

 

 

1−α 2

 

 

r

÷

 

 

 

thç

 

 

ln

 

~

-

 

 

 

 

 

 

 

 

-

 

 

 

 

 

 

÷

< r < thç

 

 

ln

~

+

 

 

 

 

-

 

÷ ,

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

2(n -1)

 

 

 

 

 

 

 

 

n -

3

 

 

 

 

 

 

 

 

 

 

n - 3

 

 

 

è

 

 

 

1 - r

 

 

 

 

 

 

 

 

 

 

2(n -1) ø

 

 

 

è

 

 

1 - r

 

 

 

 

 

ø

где

th x

гиперболический тангенс аргумента x;

ρ и

~

истинное значение и выборочная оценка

r

коэффициента корреляции соответственно; u p

 

 

квантиль нормального распределения порядка p; α

уровень значимости.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Пример 1.12. Для негруппированных данных примера 1.9 получить интервальную оценку истинного

значения коэффициента корреляции r X , Y

 

при уровне значимости α = 0,05 .

 

 

 

 

~

Решение.

Для негруппированных данных примера 1.9 выборочная оценка коэффициента корреляции

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

rX , Y равна 0,5991. Тогда, используя Matlab, найдём:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

u1−α 2 = u0,975 = 1,9600 ,

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

~

 

 

 

 

u1−α 2

 

 

 

 

~

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ln

1+ r

-

 

 

-

 

 

r

 

 

 

» 0,3997 ,

th(0,3997) ≈ 0,3797 ,

 

 

 

 

 

 

 

 

 

~

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

2(n

-1)

 

 

 

 

 

 

 

 

 

1- r

 

 

 

 

 

n - 3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

~

 

 

 

 

u1−α 2

 

 

 

 

~

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ln

1+ r

+

 

-

 

 

r

 

 

» 0,9715 , th(0,9715) ≈ 0,7494 .

 

 

 

 

 

 

 

 

~

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

2(n

-1)

 

 

 

 

 

 

 

 

 

1- r

 

 

 

 

 

n - 3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Следовательно, 0,3797 < rX , Y < 0,7494 .

1.7.2. Регрессионный анализ

Зависимость между случайными величинами X и Y называется стохастической, если с изменением одной из них (например, Х) меняется закон распределения другой (Y). В качестве примеров такой зависимости приведём зависимость веса человека (Y) от его роста (Х), предела прочности стали (Y) от её твёрдости (Х) и т.д.

Напомним, что в теории вероятностей стохастическую зависимость

математическим ожиданием

y(x) = M [Y | X = x] ,

которое, как видно из записи, является функцией от независимой переменной х, имеющей смысл возможного значения случайной величины Х. Уравнение y = y(x) называется уравнением регрессии Y на x.

Переменная х называется регрессионной переменной или регрессором. График функции y = y(x)

называется линией или кривой регрессии.

Кривые регрессии обладают следующим свойством: среди всех действительных функций ϕ(x) минимум

M [(Y - j(x))2 ] достигается для функции

y(x) = M [Y | X = x] . Иными словами, регрессия Y на x даёт

наилучшее (в среднеквадратическом смысле)

предсказание величины Y по заданному значению X = x . На

PDF created with FinePrint pdfFactory Pro trial version http://www.fineprint.com

практике это свойство используется для прогноза Y по Х, если непосредственно наблюдаемой величиной

является лишь компонента Х случайного вектора

 

(X ; Y ) . Например,

если Х диаметр сосны, то в качестве

прогнозируемого значения Y (высота сосны) берётся условное математическое ожидание y(x) .

 

 

 

 

Наиболее простым является случай, когда регрессия Y на x линейна:

 

 

 

 

 

 

 

 

 

 

y(x) = a0 + a1x .

 

 

 

 

 

 

 

 

 

 

Напомним, что если (X ; Y ) случайный вектор, распределённый по двумерному нормальному закону,

то коэффициенты a0

и a1 определяются равенствами

 

 

 

 

 

 

 

 

 

 

 

 

 

 

a

 

= m - r

 

 

 

sY

m

 

,

a = r

 

 

 

sY

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

Y

 

X , Y sX

X

 

1

X , Y s X

 

 

 

 

 

Уравнением регрессии в этом случае является прямая линия

 

 

 

 

 

 

 

 

 

 

 

 

 

y(x) = m + r

 

 

 

sY

× (x - m

 

) ,

 

 

 

 

 

 

 

 

 

X , Y sX

 

 

 

 

 

 

 

 

 

 

 

 

Y

 

 

 

 

 

X

 

 

 

 

 

 

 

 

проходящая через

центр рассеивания

(m

 

; m )

с

 

угловым

 

коэффициентом h

 

= r

 

sY

,

 

 

 

 

 

 

 

 

 

 

 

 

X

 

 

Y

 

 

 

 

 

 

 

 

X , Y

 

X , Y sX

называемым коэффициентом регрессии Y на x.

В реальных экспериментах, связанных со статистической обработкой опытных данных, условный закон распределения случайной величины Y при X = x обычно заранее неизвестен. В таком случае речь может идти лишь о каком-либо приближении к теоретической кривой регрессии, построенном на основе выборочных данных. Другими словами, задача заключается в подборе подходящей функциональной зависимости, наилучшим образом (в некотором статистическом смысле) приближающей стохастическую зависимость.

Во многих случаях можно считать, что «независимая» переменная Х находится под контролем экспериментатора и может быть измерена с любой заданной точностью, в то время как измеряемые значения

Y как функции от Х (выборочные значения yi при фиксированных значениях xi ) определяются с ошибкой

(содержат шум измерения). Если вид функциональной зависимости зафиксирован, то статистическую модель регрессии можно записать следующим образом:

yi = y(xi ) = j(xi ; a0 , a1 , ... , am ) + e(xi ) ,

где a0 , a1 , ..., am набор неизвестных параметров, определяющих функциональную зависимость (параметры регрессии); e(xi ) = ei случайные величины, складывающиеся при каждом фиксированном значении xi из шума измерения и ошибки модели. При исследовании качества построенной модели важно

уметь разделять эти ошибки.

Следует иметь в виду, что наличие шума измерения делает невозможной задачу интерполяции, т.е. график

искомой зависимости не должен проходить через все выборочные точки, а должен проходить таким образом, чтобы «сгладить» шум.

Поскольку уровень шума определяется

дисперсией D[ε] ,

то задача состоит в

подборе параметров

a0 , a1 , ..., am , минимизирующих D[ε] .

В действительности

минимизируется не

сама дисперсия (она

неизвестна), а её выборочная оценка, которая, как будет показано ниже, пропорциональна сумме квадратов отклонений (по оси Оу) кривой регрессии от соответствующих выборочных значений yi , т.е. пропорциональна

величине

n

~

~

~

2

.

 

y = å[yk - j(xk ; a0

, a1

, ... , am )]

 

k =1

Указанный критерий минимизации суммы квадратов отклонений носит название метода наименьших квадратов (МНК), а полученные в результате решения этой задачи оценки a~0 , a~1 , ..., a~m параметров

называются МНК-оценками.

Как правило, в модели регрессии

yi = j(xi ; a0 , a1 , ... , am ) + ei

случайные величины ei , i = 1, 2, ... , n , независимы в совокупности и одинаково распределены по закону N(0; σ) (физически условие M [ei ] = 0 означает, что систематические ошибки измерений отсутствуют, а

условие D[ei ] = s2 , i = 1, 2, ... , n , означает, что измерения проводятся с одинаковой точностью).

PDF created with FinePrint pdfFactory Pro trial version http://www.fineprint.com

Регрессионный анализ проводится в три этапа.

На первом этапе по характеру корреляционного поля выдвигают гипотезу о виде функциональной зависимости j(xk ; a0 , a1 , ... , am ) . Довольно часто используют следующее представление функции ϕ :

m

j(xk ; a0 , a1 , ... , am ) = a0 + åak jk (x) ,

k =1

где jk (x) известные координатные функции. Такая модель регрессии называется линейной по

параметрам. В частном случае, когда jk (x) = xk , модель называется полиномиальной.

На втором этапе по имеющимся выборочным данным осуществляют подгонку модели, т.е. находят МНК-оценки неизвестных параметров регрессии a0 , a1 , ..., am .

На третьем этапе анализируют качество построения модели: проверяются так называемые корректность и адекватность модели. Этот этап осуществляется средствами проверки статистических

гипотез.

Y на

x). Пусть получена выборка (xk ; yk ) ,

Пример 1.13 (Построение прямой регрессии

k = 1, 2, ... , n , из двумерного распределения

(X ; Y ) .

Корреляционный анализ показал, что

корреляционная связь Y от X значима на некотором уровне α . Выдвигается гипотеза о том, что уравнение

прямой регрессии

y(x) = ax + b + ε(x)

должно хорошо аппроксимировать стохастическую зависимость Y от X. Найти МНК-оценки параметров а и b.

Решение. Пусть задан план эксперимента, т.е. совокупность точек x1 , x2 , ... , xn . Выбор этих точек

отдельная задача, решаемая в рамках теории оптимального планирования эксперимента, и здесь не обсуждается.

Искомые оценки являются решениями следующей задачи минимизации:

n

n

[yk - axk - b]2 ® min .

y(a , b) = åek2

= å

k =1

k =1

a , b

 

Применим классический метод поиска безусловного экстремума дифференцируемой функции ψ(a , b) . Запишем необходимые условия экстремума:

y = 0 , ¶ y = 0 .

a b

Получим следующую систему линейных алгебраических уравнений для неизвестных значений а и b:

ì

n

n

n

ïaåxk2 + båxk = åxk yk ,

ï

k=1

k=1

k=1

í

n

 

n

ïïaåxk + bn = åyk .

î

k=1

 

k=1

Разделив обе части каждого уравнения системы на n и введя обычные обозначения для выборочных характеристик случайного вектора (X ; Y ) , приведём данную систему к виду

ìa a~ 2, 0 + b x = a~1, 1 ,

í

îa x + b = y ,

~

1

n

r

s

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где ar, s =

 

 

åxk

yk

начальный выборочный

момент

порядка

r + s ;

x и y средние значения

 

n

 

 

k=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

соответствующих переменных.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

~

~

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Решение (a ; b ) последней системы, как нетрудно убедиться, имеет вид:

 

 

 

 

 

 

 

 

 

 

~

 

s

 

 

~

 

 

s

 

 

 

 

 

 

 

 

~

 

K X , Y

~

Y

 

~

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Y

 

 

 

 

 

 

 

 

a

=

 

= rX , Y ×

 

 

,

b =

y - x × rX , Y ×

 

 

,

~

 

 

 

 

~

 

sX2

sX

sX

 

 

 

 

 

 

 

 

 

 

 

 

 

sX ,

sY ,

 

выборочные числовые характеристики, определённые в разделе 1.6.

где K X , Y ,

rX , Y

Тогда уравнение линейной регрессии, полученное методом наименьших квадратов, приобретает вид:

PDF created with FinePrint pdfFactory Pro trial version http://www.fineprint.com

 

 

 

 

 

 

 

 

 

 

 

 

 

~

 

 

 

sY

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y(x) = y + rX , Y

 

 

 

(x

- x) .

 

 

 

 

 

 

 

 

 

 

 

 

 

Замечание.

 

 

 

 

 

 

sX

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Полученное

 

уравнение

аналогично

теоретическому

 

уравнению

 

регрессии

 

y(x) = m

+ r

 

 

sY

× (x - m

 

) ,

если заменить

все

 

входящие в

 

него

вероятностные

моменты

X , Y sX

 

 

 

 

 

Y

 

 

X

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

соответствующими выборочными оценками.

 

 

 

 

 

 

 

 

 

 

 

a

 

b

 

 

 

 

 

 

 

Аналогично рассматривается регрессия X на y.

Оценки параметров

и

 

линейной регрессии

 

x(y) = ay + b+ e′( y)

вычисляются по формулам

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

~¢

 

~

~

 

sX

 

~¢

 

 

 

 

sX

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

K X , Y

 

 

 

 

~

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

a

 

=

 

= rX , Y ×

 

 

, b

= x - y × rX , Y ×

 

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

s2

sY

sY

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Тогда уравнение приобретает вид:

 

 

 

 

 

 

sX

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

~

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x(y) = x + rX , Y

 

 

(y

- y) .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

s

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Y

 

 

 

 

 

~ ~

 

 

~

 

 

 

 

 

Для контроля правильности расчётов можно использовать соотношение

 

¢ =

 

 

.

 

 

 

 

 

 

 

 

 

 

a

× a

 

rX , Y

 

 

 

 

 

 

 

 

~

~

 

~¢

~¢

пересекаются в точке с координатами

(x ; y) , причём угол между

 

Прямые y = ax + b и x = a y + b

ними уменьшается при увеличении коэффициента корреляции между случайными величинами X и Y. При

 

rX , Y

 

= 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

~

~

 

и

 

~¢

~¢

различные

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

обе прямые совпадают. Следует подчеркнуть, что y = ax

+ b

 

x = a y

+ b

прямые. Первая прямая получается в результате решения задачи о минимизации суммы квадратов отклонений по вертикали, а вторая при решении задачи о минимизации суммы квадратов отклонений по горизонтали.

Во многих случаях графическое представление данных показывает, что интересующая зависимость не может быть описана линейной регрессией. Очень часто достаточно точным для описания фактической

взаимозависимости является уравнение второго порядка

 

~ 2

~

~

y = ax

+ b x + c .

Когда вид нелинейной зависимости между двумя переменными известен, можно с помощью преобразований одной или обеих переменных получить линейную зависимость между ними. Например, если предположить, что описываемая зависимость представляет собой функцию вида

y = a ×bx ,

то следует применить логарифмирование ln y = ln a + x lnb .

Для оценки коэффициентов

линейной

регрессии ln a и lnb можно использовать метод наименьших квадратов (см., например, [1]).

 

Пример 1.14. Для негруппированных и группированных

данных примера 1.9 составить

уравнения

линейной регрессии Y на x и X на y. Для негруппированной двумерной выборки построить прямые регрессии Y на x и X на y.

Решение. Рассмотрим вначале случай негруппированных данных.

В примере 1.12 построен доверительный интервал для коэффициента корреляции rX , Y при α = 0,05 :

0,3797 < rX , Y < 0,7494 .

Этот интервал не содержит нуля, т.е. с доверительной вероятностью 1− α = 0,95 существует корреляция между X и Y и имеет смысл построение уравнений регрессии.

Подставим найденные в примере 1.9 значения x ,

y , sX , sY ,

~

 

в уравнения линейной регрессии

rX , Y

Y на x и X на y:

sY

 

 

 

sX

 

~

 

~

 

 

y(x) = y + rX , Y

 

 

(x - x) ,

x(y) = x + rX , Y

 

 

 

(y - y) .

s

X

s

Y

Получим

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y = 0,1189 + 0,4719x ,

x = 3,672 + 0,7606y .

 

На рис.1.11 построены корреляционное поле, линии регрессии Y на x (прямая 1) и X на y (прямая 2). Прямые регрессии пересекаются в точке с координатами (x ; y) = (5,8688; 2,8884) .

 

~ ~

¢ =

 

 

~

 

 

0,4719× 0,7606 » 0,5991 =

.

Проверка: a × a

rX , Y

Рассмотрим теперь случай группированных данных.

PDF created with FinePrint pdfFactory Pro trial version http://www.fineprint.com

Подставим найденные в примере 1.9 значения x ,

y , sX , sY ,

~

 

 

rX , Y в уравнения линейной регрессии

Y на x и X на y. Получим:

 

 

 

 

 

 

 

 

 

 

 

y = 0,5529 + 0,3835x ,

x = 3,7583 + 0,7506y .

 

 

 

 

 

~ ~

 

 

 

~

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

Проверка: a × a¢ = 0,3835×0,7506 » 0,5365 =

rX , Y

 

 

 

 

Качество аппроксимации результатов наблюдений (xi ; yi ) ,

i = 1, 2, ... , n , выборочной регрессией

~

~

 

 

 

 

определяется величиной остаточной дисперсии s

2

,

y = ax + b

(ограничимся далее регрессией Y на x)

 

вычисляемой по формуле

s2 = nQ-e2 .

Величина Qe называется остаточной суммой квадратов и определяется выражением

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

~

2

 

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Qe = å( yi - yi )

 

 

 

 

 

 

 

 

 

 

 

 

 

~

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где yi

 

 

 

разности между наблюдаемыми значениями переменной Y при

x = xi и

- yi , i = 1, 2, ... , n ,

 

 

 

~

 

~

 

 

~

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

расчётными значениями yi

= axi + b , называемые остатками.

 

 

 

 

 

 

 

 

 

 

В практических вычислениях остаточную сумму квадратов получают из тождества

 

 

 

 

 

 

 

 

 

n

 

 

 

2

 

n

~

 

- y)

2

+

 

n

~

2

,

 

 

 

 

 

 

 

 

 

 

 

 

å(yi - y)

 

= å( yi

 

å(yi - yi )

 

 

 

 

 

 

 

 

которое записывается в виде

 

i=1

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Qy = QR + Qe ,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Qy = å(yi - y)2 = åyi2 - ny 2 ,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

~ 2

 

 

 

 

 

 

 

 

 

n

~

 

 

 

 

~

 

 

 

~

 

 

 

~2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

2

 

(n -1)K X , Y

 

 

 

 

 

 

 

QR = å( yi - y)

 

= a ×(n -1)K X , Y = a

×(n -1)sX =

 

 

 

 

 

 

.

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

sX

 

 

 

 

 

 

Величина QR называется суммой квадратов, обусловленной регрессией.

 

 

 

 

 

 

 

 

 

Полезной

характеристикой

линейной

регрессии

 

является

коэффициент

 

 

детерминации

R2 ,

вычисляемый по формуле

 

 

 

 

 

 

 

 

 

 

 

 

QR

 

 

 

Qe

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

R2 =

 

= 1-

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Qy

 

 

Qy

 

 

 

 

 

 

 

 

 

 

 

Коэффициент

детерминации

R2 равен

той

 

 

доле

разброса

результатов наблюдений

(xi ; yi ) ,

i = 1, 2, ... , n ,

относительно горизонтальной прямой

y = y ,

которая объясняется выборочной регрессией

~

~

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

~

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

~

 

между результатами

y = ax

+ b . Величина R = + R

 

 

является оценкой коэффициента корреляции rY , Y

 

наблюдений

yi

и вычисленными

 

 

 

 

 

~

 

 

 

 

 

 

 

 

 

 

 

 

~

~

т.е.

 

значениями

yi , предсказываемыми регрессией y = ax + b ,

~

~

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

R = rY , Y . В случае линейной регрессии Y на x (одной независимой переменной x) между коэффициентом R

 

 

 

 

 

 

 

 

 

 

 

 

~

 

 

имеется следующее соотношение:

 

 

 

 

 

 

и выборочным коэффициентом корреляции rX , Y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

~

 

 

 

 

 

 

 

~

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

rX , Y

 

 

= (знак a)R .

 

 

 

 

 

 

 

 

 

 

Линейная регрессионная модель

y(x) = ax + b + ε(x)

называется незначимой,

если параметр a = 0 .

Для проверки гипотезы H0 : a = 0 можно использовать доверительный интервал для параметра a:

 

 

 

 

 

~

 

 

 

 

 

 

 

S 2

 

 

 

 

 

 

~

 

 

 

 

 

 

 

 

S 2

 

 

 

 

 

 

 

 

 

a - t

α

(n - 2)

×

 

 

 

 

 

 

 

< a < a

+ t

 

 

α (n - 2) ×

 

 

 

 

 

,

 

 

 

 

 

 

(n -1) × S X2

 

 

 

 

(n -1) × S X2

 

 

 

 

 

 

 

1−

2

 

 

 

 

 

 

 

 

 

 

 

 

 

1−

2

 

 

 

 

 

 

 

 

где α уровень значимости; t p (n - 2) квантиль распределения Стьюдента с n − 2 степенями свободы

порядка p; S 2 остаточная дисперсия;

S X2 выборочная «исправленная» дисперсия компоненты X.

Часто для проверки гипотезы H0 :

a = 0 используется статистика

PDF created with FinePrint pdfFactory Pro trial version http://www.fineprint.com

 

 

 

 

 

 

 

 

 

 

 

 

F =

(n - 2) ×QR

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Qe

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Если гипотеза H0 : a = 0 верна, то статистика F имеет распределение Фишера с 1 и n − 2

степенями

свободы:

 

 

 

 

 

 

 

 

 

 

 

F ~ F(1; n − 2) .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Критерий проверки гипотезы H0 при альтернативной гипотезе H1 : a ¹ 0 заключается в следующем:

вычисляется выборочное значение

 

fв

 

статистики F;

 

 

 

 

 

 

гипотезу H0 ;

иначе H0

если

Fα (1; n - 2) < fв < F

α (1; n - 2) ,

 

то нет

оснований отвергать

 

 

2

 

 

1

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

отклоняется

с

ошибкой

первого

рода

 

α

 

в пользу

 

гипотезы

H1

(здесь

Fp (1; n - 2)

квантиль

распределения Фишера с 1 и n − 2 степенями свободы).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

В

случае,

когда

гипотеза

 

 

H0 : a = 0

 

 

отклоняется,

говорят, что

регрессионная

модель

y(x) = ax + b + ε(x) статистически значима.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

В линейной регрессионной модели y(x) = ax + b + ε(x)

полезными также являются:

 

 

доверительный интервал для параметра b:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

~

 

 

 

 

S 2 ×

å

xi2

 

 

 

 

 

~

 

 

 

 

 

 

S 2 ×

å

xi2

 

 

 

 

 

 

 

b - t

α (n - 2) ×

 

 

 

 

 

 

 

< b < b + t

 

α (n - 2) ×

 

 

 

 

;

 

 

 

 

 

 

 

n(n -1) × S X2

 

 

 

n(n -1) × S X2

 

 

 

 

 

1

2

 

 

 

 

 

 

 

 

 

 

12

 

 

 

 

 

 

 

доверительный интервал для среднего значения Y0 , соответствующий заданному значению x = x0

(границы интервала имеют вид):

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

~

 

 

 

 

 

 

 

 

 

 

 

2

 

æ

1

 

 

(x0 - x)2

ö

 

 

 

 

 

 

 

 

 

 

 

 

y

0

± t

α

(n - 2) ×

 

 

S

 

×

ç

 

+

 

 

 

÷ ;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

ç

 

 

 

 

÷

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

è n

 

 

(n -1) × S X

ø

 

 

 

 

 

 

 

 

доверительный интервал для дисперсии ошибок наблюдений s2 :

(n - 2) × S 2

< s2 <

(n - 2) × S 2

,

 

α (n - 2)

 

c2

 

c2α (n - 2)

1

2

 

2

 

 

 

 

где c2p (n - 2) квантиль распределения χ2 с n − 2 степенями свободы.

Пример 1.15. Для негруппированных данных примера 1.9 по найденным оценкам параметров линейной регрессии Y на x:

получить оценку s2 дисперсии ошибок наблюдений s2 ;

найти коэффициент детерминации R2 ;

построить доверительные интервалы для параметров регрессии a и b, дисперсии ошибок наблюдений

s2 и среднего значения Y при x = x0 .

Проверить значимость линейной регрессии Y на x. Принять α = 0,05 .

Решение. Для негруппированных данных примера 1.9 были получены следующие оценки числовых

характеристик и

коэффициентов

~

регрессии:

~

x = 5,8688, y = 2,8884 , sX2

~

= 6,3564 ,

~

= 0,5991,

= 0,4719 ,

= 0,1189 .

K X , Y

rX , Y

a

b

Используя Matlab, найдём сумму квадратов, обусловленную регрессией Qy = 409,4935 и остаточную сумму квадратов Qe = 262,5102 .

Тогда оценка дисперсии ошибок наблюдений равна

= 13,4696 , s2

= 8,3570 ,

Y

 

QR = 146,9833, а также

s2 = nQ-e2 = 5,4690 .

Коэффициент детерминации равен R2 = 0,3589 .

Поскольку ~rX , Y = (знак a~)R , то сделаем проверку правильности расчётов: 0,5991 = +0,3589 (верно).

PDF created with FinePrint pdfFactory Pro trial version http://www.fineprint.com

Полученный результат для

коэффициента детерминации

означает,

что уравнение регрессии

y = 0,1189 + 0,4719x

на 35,89%

объясняет общий разброс

результатов

наблюдений относительно

горизонтальной прямой

y = 2,8884 .

 

 

 

С помощью Matlab найдём квантили распределений Стьюдента и χ2 :

t0,975 (48) = 2,0106 , c02,975 (48) = 69,0226 , c02,025 (48) = 30,7545 .

Тогда можно построить доверительные интервалы для параметров линейной регрессии, дисперсии

ошибок наблюдений

0,2889 < a < 0,6549 , −1,1444 < b < 1,3822 , 3,8033 < s2 < 8,5357 ,

а также найти границы доверительных интервалов для среднего значения Y при x = x0 :

~

 

æ

1

 

(x0 - 5,8688)

2 ö

y0

± 2,0106 ×

5,4690 ×ç

 

+

 

 

÷ .

50

660,0104

 

 

 

ç

 

÷

 

 

è

 

 

 

ø

На рис.1.12 пунктирными линиями показаны границы доверительных интервалов для среднего значения переменной Y при всех x (−2;16) .

Рис.1.12. Линейная регрессия Y на x: графическое изображение границ доверительных интервалов для среднего значения переменной Y при всех x (−2; 16) и α = 0,05

Проверим значимость линейной регрессии Y на x.

Гипотеза H0 : a = 0 отклоняется на уровне значимости α = 0,05 , так как доверительный интервал 0,2889 < a < 0,6549 не накрывает нуль с доверительной вероятностью 0,95.

Этот же результат можно получить, используя для проверки гипотезы H0 : a = 0 статистику

F= (n - 2) ×QR Qe .

Спомощью Matlab найдём квантили распределения Фишера:

F0,025 (1; 48) = 0,0010 ,

F0,975 (1; 48) = 5,3541.

Выборочное значение статистики F равно

 

fв = 26,8759 .

Поскольку fв Ï (0,0010; 5,3541) , то гипотеза

H0 : a = 0 отклоняется на уровне значимости

α = 0,05 . Таким образом, линейная регрессия Y на x статистически значима.

Замечание. Из статистической значимости не следует, что регрессионная модель y(x) = ax + b + ε(x)

хорошо согласуется с результатами наблюдений, т.е. адекватна им.

Проверку адекватности модели можно проводить следующим образом. Пусть при различных значениях x1 , x2 , ... , xm переменной X получены повторные наблюдения переменной Y, причём при x = xi

m

проведено ni наблюдений Y: yi1 , yi2 , ... , yini . Очевидно, что åni = n , где n объём всей выборки. Для i=1

проверки адекватности модели используется статистика G, имеющая распределение Фишера с m − 2 и n m степенями свободы:

G= Qn (m - 2) ~ F(m - 2; n - m) ,

Qp (n - m)

PDF created with FinePrint pdfFactory Pro trial version http://www.fineprint.com

m ni

 

2

 

m

~

2

1

ni

~

 

где Qp = åå(yij

- yi )

 

,

Qn = åni (yi - yi )

 

, yi =

 

å yi j ,

yi

расчётные значения в линейной

 

 

n

i=1 j=1

 

 

 

i=1

 

 

 

i j=1

 

 

регрессионной модели, i = 1, 2, ... , m .

Если выборочное значение статистики G удовлетворяет условию gв < F1−α (m - 2; n - m)

(здесь Fp (m - 2; n - m) квантиль распределения Фишера с m 2 и n m степенями свободы), то гипотеза об адекватности линейной регрессии результатам наблюдений принимается.

В этом случае остаточную дисперсию s2 можно использовать в качестве оценки дисперсии ошибок

наблюдений s2 , найти доверительные интервалы для параметров линейной регрессии и проверить гипотезы о параметрах. В противном случае нужно попытаться использовать другую модель, например, параболическую регрессию.

Пример 1.16. Для данных примера 1.9, сгруппированных только по X, проверить адекватность линейной регрессии Y на x. Принять α = 0,05 .

Решение. Для проверки адекватности воспользуемся корреляционной таблицей (см. табл.1.12). Будем считать, что середины интервалов группировки xi , i = 1, ... , 6 , являются значениями компоненты X. Тогда число m повторных наблюдений равно 6. Запишем результаты этих наблюдений в виде табл.1.13.

Таблица 1.13

Повторные наблюдения, сгруппированные по X

xi

– 0,5

2,5

5,5

8,5

11,5

14,5

 

 

 

– 1,13

 

 

 

 

 

 

– 1,10

 

 

 

 

 

– 1,54

0,81

– 0,15

 

 

 

 

1,22

 

 

 

 

– 1,05

1,74

 

 

 

 

1,77

 

 

 

 

0,99

2,12

 

 

 

 

2,21

 

 

 

– 4,56

1,33

3,88

3,14

 

 

2,68

 

 

– 3,38

1,70

4,75

5,29

 

yi j

3,03

0,66

– 1,90

1,79

5,29

5,94

3,05

9,08

 

– 0,49

3,71

5,35

6,01

 

3,06

 

 

2,30

3,72

5,81

7,81

 

 

3,46

 

 

 

4,92

5,97

 

 

 

 

3,50

 

 

 

 

5,03

6,19

 

 

 

 

3,58

 

 

 

 

5,64

6,62

 

 

 

 

3,87

 

 

 

 

 

 

 

 

 

 

 

4,77

 

 

 

 

 

 

5,93

 

 

 

ni

5

11

16

11

5

2

yi

– 1,606

2,385

2,544

4,325

5,638

4,87

Для удобства расчётов в последней строке таблицы приведены средние значения yi , i = 1, ... , 6 .

С помощью Matlab получим уравнение выборочной линейной регрессии Y на x для данных, сгруппированных по X:

y = 0,2851+ 0,4442x ,

а также вычислим:

 

 

6 ni

 

 

 

 

 

 

 

 

Qp = åå(yi j

- yi )2 = 235,4766 ,

 

 

i=1 j=1

 

 

 

 

 

 

 

 

6

 

~

 

2

 

 

 

Qn = åni (yi

 

= 33,1952 ,

 

 

- yi )

 

~

 

 

i=1

 

 

 

 

 

 

+ 0,4442

× xi , i = 1, ... , 6 .

 

 

 

 

 

 

где yi = 0,2851

 

 

 

 

 

 

Выборочное значение статистики G =

Qn

(m - 2)

 

равно

Qp

(n - m)

 

 

 

 

 

 

PDF created with FinePrint pdfFactory Pro trial version http://www.fineprint.com

gв

33,1952 (6 − 2)

≈ 1,5507 .

235,4766 (50 − 6)

 

 

Так как квантиль распределения Фишера, вычисленный с помощью Matlab, равен

F0,95 (4; 44) = 2,5837 ,

то gв < F0,95 (4; 44) , а значит, линейная регрессия Y на x для данных примера 1.9, сгруппированных по X, адекватна результатам наблюдений.

PDF created with FinePrint pdfFactory Pro trial version http://www.fineprint.com

Соседние файлы в папке Ресурсы