Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Аксенчик А. В. - Теория вероятностей и мат статистика. Уч. мет. пос.pdf
Скачиваний:
33
Добавлен:
17.03.2016
Размер:
1.92 Mб
Скачать

k (mi npi)2 . i 1 npi

Сумма квадратов нормированных нормальных случайных величин (как было показано ранее) имеет распределение 2 , обозначим

 

2

k

(m np )2

 

 

 

 

i

i

.

(11.10)

 

 

 

 

 

i 1

 

npi

 

 

Эта случайная величина имеет закон распределения 2

 

Р

 

с числом степеней

свободы

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

И

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k r 1,

 

 

(11.11)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

У

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где r – число параметров закона распределения, оцениваемых по выборочным

 

данным.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Г

 

 

 

 

 

Анализируя правые части формул (11.9) и (11.10), можно отметить, что в

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Б

 

 

 

 

 

критерии согласия 2 фактически сравниваются эмпирические и теоретические

частоты распределения.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Проверка гипотезы состоит в следующем. Задаем уровень значимости .

По таблицам 2

– распределения для з д нных и числу степеней свободы

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

к

 

 

 

 

 

 

k r 1

находим

 

 

 

 

 

 

 

2

 

 

 

,

удовлетворяющий

 

 

условию

 

 

квантиль ,

 

 

P( 2

2

 

:H

 

 

 

 

 

 

 

 

 

е

 

 

 

 

 

 

 

 

0

) . По формуле

(11.10)авычисляем значение 2 . Сравнивая

 

, 0

2

 

2

 

 

 

 

квантил

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

2

 

 

 

 

 

 

 

 

 

рассчитанное значение

с

 

 

 

 

 

 

найденным по таблицам,

принима-

 

 

 

 

 

м , ,

ем одно из двух решений:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1. Если 2

2

, ,

то

 

 

 

 

 

 

 

 

 

H0

отвергается в пользу альтерна-

 

 

 

нулевая гипотеза

тивной Н, т. е. f(x) не с гласуется с результатами эксперимента.

 

 

 

 

2. Если

 

, , то H0 принимается,

т. е. f(x) согласуется с эксперимен-

 

 

 

 

л

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

тальными данными,

закон распределения f0(x) подтверждается. При этом ве-

роятность

ошибки

равнаи.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

и

 

 

 

 

 

11.5. Критерий Романовского

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рассмотрим неравенство

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Б

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

3,

 

 

 

 

 

(11.12)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

где

2

вычисляется по формуле (11.10);

 

 

 

 

 

 

 

 

k r 1 по (11.11).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

140

Проверка гипотезы состоит в следующем: если это неравенство выполняется ( 3), то расхождение теоретических и экспериментальных данных неслучайно, т. е. закон распределения не подтверждается, гипотеза H0 отклоняется.

В противном случае гипотеза H0 подтверждается, действительно случайная величина Х имеет плотность распределения f0(x). Этот критерий хорош тем, что для проверки гипотезы не требуются таблицы 2 – распределения.

11.6. Критерий согласия Колмогорова

Р

 

И

В критерии согласия А. Н. Колмогорова проводится сравнение эмпириче-

ской и теоретической функций распределения. Укажем этапы проверки гипотез

этим критерием.

 

У

 

 

1.

По выборке x1,x2,...,xn

строится вариационный ряд и график эмпириче-

ской функции распределения.

Г

2.

 

Б

 

По виду графика функции распределения выдвигается гипотеза о виде

закона распределения генеральной случайной величины Х. Тогда в качестве ну-

левой гипотезы H0 будет предположение, что генеральная случайная величина

Х имеет функцию распределения F0(x):

а

 

 

 

 

 

 

 

 

 

H

0 :F

к

 

 

 

 

 

 

 

 

 

(x) F0(x).

 

 

 

 

 

При альтернативной гипот

 

H :F(x) F0(x).

 

 

 

 

 

 

 

 

 

т

 

 

 

 

 

 

 

 

 

 

 

 

 

3. По выборке x1,x2,...,xn

 

находят точечные оценки параметров теорети-

ческой функции распределениязеF (x) , используя метод моментов или метод

 

 

 

 

о

 

 

 

0

 

 

 

 

 

 

 

 

 

 

 

 

наибольшего правд п д бия.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4. На графике эмпирической функции распределения строится график

теоретической функц распределения F0(x).

 

 

 

 

 

 

 

л

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5. Путем сравнен я графиков вычисляется максимальное значение моду-

 

б

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ля отклонения

значений эмпирической функции распределения от теоретиче-

ской функции распределения F0(x):

 

 

 

 

 

 

 

 

 

и

 

 

F max

 

F*(x) F(x)

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Б

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

6. Рассчитывают значение -критерия Колмогорова:

 

 

 

 

 

F

 

 

max

 

F*(x) F(x)

 

 

 

.

(11.13)

 

 

 

 

 

 

 

 

 

 

 

 

 

n

n

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

7. Задавая уровень значимости , определяем квантиль

из условия

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

P( ) 1 ( 1)k e 2k2 2

.

 

k

141

Отметим, что самостоятельно решать это уравнение не надо, поскольку составлены таблицы квантилей распределения Колмогорова, из которых по заданному уровню значимости определяем квантиль .

Сравнивая значение , рассчитанное по формуле (11.13) с квантилем , делаем следующие выводы:

а) если , то гипотеза H0 отклоняется;

б) если , то гипотеза H0 принимается, закон распределения под-

тверждается, т. е. действительно генеральная случайная величина Х имеет функцию распределения F0(x).

полностью известен закон распределения функции распределенияИРF(x) и значения ее параметров. При решении практических задач это не всегда удается

Следует отметить, что критерий Колмогорова применяется тогда, когда

правильно подобрать теоретический закон распределенияУдля функции распределения F(x). Но в этом случае неизвестны ее параметры. И если их оценивать

выполнить. Для этого прибегают к некоторым дополнительным исследованиям:

применяют вероятностные бумаги, строят гистограммы и т. д. Это помогает

по этой же выборке, то это может привести к ошибочным выводам в отноше-

 

 

 

 

 

 

 

 

Г

 

 

нии принятой гипотезы. В этом случае следует использовать другие критерии

согласия, например 2 .

 

Б

 

 

 

 

 

 

Пример.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Проведено 100 измерений расстояния радиодальномером до цели. Ре-

 

 

 

 

 

 

 

а

 

 

 

 

 

 

 

 

 

 

 

 

к

 

 

 

 

– границы интер-

зультаты представлены в виде статистич с ого ряда ([xi, xi 1[

валов в [км], mi

– число выборочных значений, попавших в i-й интервал).

Оценить закон распределения ошибкиеизмерения дальности радиодальномером.

 

 

 

 

т

 

 

 

 

 

 

 

 

[xi, xi 1[

 

mi

 

 

 

 

 

 

 

 

[км]

 

 

 

 

 

 

 

 

 

 

 

 

 

 

о

 

 

 

 

 

 

 

 

 

450

 

0

 

 

 

 

 

 

 

 

 

 

и

 

 

 

 

 

 

 

 

 

450 – 500

12

 

 

 

 

 

 

 

 

500 – 550

 

15

 

 

 

 

 

 

 

 

 

 

 

л

 

 

 

 

 

 

 

 

 

 

550 – 600

 

14

 

 

 

 

 

 

 

 

 

600 – 650

 

15

 

 

 

 

 

 

 

 

 

 

б

 

 

 

 

 

 

 

 

 

 

 

650 – 700

 

13

 

 

 

 

 

 

 

 

 

и

 

 

 

 

 

 

 

 

 

 

 

 

700 – 750

 

16

 

 

 

 

 

 

 

 

 

750 – 800

 

15

 

 

 

 

 

 

 

 

Б

 

 

 

 

 

 

 

 

 

mi

.

 

Занесем в таблицу значения относительных частот

i

 

 

 

 

 

 

 

 

 

 

 

 

 

n

Анализ значений относительных частот позволяет выдвинуть гипотезу о равномерном законе распределения. Теоретическая функция распределения для этого закона имеет вид

142

F0(x) x a . b a

Принимаем a = 450, b = 800. Полагая x = xi+1 для каждого интервала, рассчитываем F0(x) в этих точках и заносим результат в таблицу. Зная mi, рас-

считаем эмпирическую функцию распределения F*(x) в точках xi 1 для каждо-

го интервала: F*(x)

nx

, где n

x

– число значений x меньших заданного x,

 

 

n

i

 

 

 

n – объем выборки. Рассчитаем разность: F*(x) F0(x) . Данные заносим в таблицу.

 

 

 

[xi, xi 1[

 

 

 

mi

 

 

 

i

 

F0(x)

 

F*(x)

 

 

 

 

 

 

Р

 

 

[км]

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

И

 

 

450

 

 

 

0

 

0

 

 

0

 

0

 

 

 

 

 

 

 

450 – 500

 

 

 

12

 

0,12

 

0,14

 

0,12

0,02

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

 

 

3

У

 

 

 

500 – 550

 

 

 

15

 

0,15

 

0,28

 

0,27

0,01

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

6

 

 

Г

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

6

 

 

 

 

 

 

 

 

550 – 600

 

 

 

14

 

0,14

 

0,42

 

0,41

0,01

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

9

 

Б

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

9

 

 

 

 

 

 

 

 

600 – 650

 

 

 

15

 

0,15

 

0,57

 

0,56

0,01

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1 а

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

к

 

 

 

 

 

 

 

 

650 – 700

 

 

 

13

 

0,13

 

0,71

 

0,69

0,02

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4

 

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

е

 

 

 

 

 

 

 

 

 

 

700 – 750

 

 

 

16

 

0,16

0,85

 

0,85

0,00

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

7

 

 

7

 

 

 

 

 

 

 

 

750 – 800

 

 

 

15

 

0,15

1

 

1

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

т

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

о

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Вычис яем кр тер й Колмогорова по формуле (11.13), учитывая, что из

 

 

 

 

 

 

 

*

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

таблицы F max

 

 

 

 

= 0,024, тогда = 0,024

 

n= 0,24. Задавая уро-

иF (x) F(x)

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

вень значимости

= 0,05, по таблице квантилей Колмогорова находим кван-

тиль

 

л

 

 

 

 

 

1,358, то гипотеза H0

принимается, т. е. дей-

= 1,358. Поскольку 0,24

ств

 

 

б

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

тельно генеральная случайная величина Х имеет функцию распределения

F (x)с равномерным законом распределения.

 

 

 

 

 

 

 

0

и

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Б

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

143

ГЛАВА 12. ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ

12.1. Уравнение линейной регрессии

Регрессия – это оценка зависимости одной случайной величины от другой случайной величины.

нанести на плоскость в декарт вой системе координат X,Y, то получим диаграмму в виде точек (д аграмму рассеивания), которая называется корреляци-

Уравнением регрессии Y на Х называется условное математическое

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Р

ожидание составляющей Y двумерной случайной величины (Х,Y), вычисленное

при условии, что составляющая Х приняла определенное значение

X x:

 

 

 

 

 

 

 

 

 

 

 

 

 

И

 

 

M Y / X x

 

yf (y/ x)dy (x),

У

(12.1)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Г

 

 

где f (y/x)

f (x,y)

 

 

 

 

 

 

 

 

 

 

 

– условная плотность распределения.

 

 

 

 

 

 

f1(x)

 

 

 

 

 

 

 

 

Б

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Функцию (x)называют модельной функцией регрессии Y на Х, а ее гра-

фик – модельной линией регрессии Y на Х. Ур внение (12.1) называется уравне-

нием регрессии 1-го рода.

 

 

 

 

 

 

а

 

 

 

 

Функци й (x)может представляться полином k-ой

степени (x) x x

2

x

3

...,

к

 

 

 

 

 

 

 

, , , ,...– коэффициенты уравнения

регрессии.

 

 

 

 

 

 

где

 

 

 

 

 

Пусть заданы две генеральные случайные величины Х и Y и выборочные

пары их значений: (x1;y1),(x2

;y2),...(xn;yn) . Если эти выборочные значения

 

 

 

 

 

т

 

 

 

 

 

 

 

 

 

о

 

 

 

 

 

 

 

 

 

и

 

 

 

 

 

 

 

 

 

 

онным полемб. л Пример.

группыилюдей. Для этого, например, в группе студентов проводим измерения весаБ, пусть это будет случайная величина Y, и роста – случайная величина Х для каждого студента. Результаты занесли в таблицу в виде выборочных пар их значений: (x1;y1),(x2;y2),...(xn;yn) и нанесли на плоскость в системе коорди-

Пусть зучаем зависимость веса человека от его роста для определенной

нат X,Y. В результате получим корреляционное поле (рис. 12.1). Изобразим на рисунке предполагаемую теоретическую зависимость между Y и X в виде жирной линии – это и есть модельная линия регрессии Y на Х. Она, допустим, описывается определенной аналитической зависимостью Y (X), т. е. модельной функцией регрессии Y на Х.

144

Y

модельная линия y (x) регрессии

эмпирическая функция регрессии

 

X

Р

 

 

Рис. 12.1

 

И

 

 

Аппроксимируем корреляционное поле (см. на рис. 12.1) пунктирной линией – это будет эмпирическая линия регрессии, которая может описываться несколько другой аналитической зависимостью. Понятно, что вид эмпирической линии регрессии (зависимость веса человека от его роста) зависит от многих факторов: возраста, национальности, пола и т. д. Сравнение модельной и

эмпирической линий регрессии позволяет выявить справедливость наших тео-

ретических предположений.

У

Г

 

Рассмотрим линейную регрессию. Предположим, что между Х и Y суще-

ствует линейная зависимость: y x. Допустим, что при любом значении Х

мы можем измерить значение Y

 

 

 

Б

 

с не оторой ошибкой . Тогда выборочное

значение yi

можно представить в следующем виде:

 

 

 

 

 

 

 

 

 

 

 

 

а

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

yi

(xi x) i ,

(12.2)

где (xi

 

 

 

 

 

 

к

 

 

 

 

 

 

 

 

 

 

x) – точная линейная зависимость,

 

i

– ошибка.

 

 

е

 

 

 

 

 

Будем предполага ь, ч

i , величина ошибки, – это случайная величина

с нормальным зак н м распределения с M i 0

и D i 2 ; обозначим

 

 

 

 

 

 

 

 

т

 

 

 

 

 

 

 

 

 

 

 

 

о

 

 

 

 

 

 

x .

 

 

 

 

 

 

 

 

 

x xi

 

 

 

 

 

 

 

 

 

 

Исходя из выборочных значений можно каким-либо методом найти то-

 

 

 

 

 

 

 

и

 

 

 

 

 

 

 

чечные оценки коэффициентов и уравнения регрессии (12.2).

 

Уравнениел, в которое входят оценки ˆ,ˆ,ˆ,ˆ,...

коэффициентов уравне-

 

 

 

б

 

 

 

 

 

 

 

 

рессииилиуравнением регрессии 2-го рода: Y ˆ ˆ(xˆ) ˆx2 ˆx3....

ния регресс , , , ,... и которое является приближенным выражением модельнойБфункции регрессии Y на Х, называется эмпирической функцией рег-

Сформулируем суть регрессионного анализа.

Регрессионный анализ это анализ функций регрессий первого и второ-

го рода, состоящий в следующем:

1.Нахождение точечных и интервальных оценок параметров функции регрессии 1-го рода.

2.Осуществление точечного и интервального оценивания условных математических ожиданий, необходимого для предсказания средних значений од-

145

ной случайной величины, соответствующих определенным фиксированным значениям другой случайной величины.

3.Проверка согласованности найденной эмпирической функции регрессии с экспериментальными данными.

Для определения точечных оценок параметров функции регрессии чаще

используется метод наименьших квадратов.

 

 

12.2. Метод наименьших квадратов

 

 

Метод наименьших квадратов (МНК) позволяет так выбрать пара-

метры ˆ,ˆ,ˆ...

эмпирической функции регрессии, что она будет наилучшей

оценкой модельной функции регрессии в том смысле, что сумма квадратовРот-

клонений наблюдаемых значений переменной Y от соответствующих ординат

эмпирической функции регрессии будет наименьшей.

 

 

И

 

 

 

 

 

 

 

 

 

 

 

ˆx2 ...

Параметры ˆ,ˆ,ˆ... эмпирической функции регрессии у ˆ ˆx

находятся методом наименьших квадратов из условия

У

 

 

 

 

n

 

n

 

 

Г

 

 

 

 

S i2

(yi ˆ ˆxˆ ˆx

2 ...)2

min.

 

(12.3)

 

 

i 1

i 1

 

Б

 

 

 

 

2

 

3

 

 

а

 

 

 

 

 

 

 

 

 

 

к

 

 

 

 

 

МНК обеспечивает наилучшее согл сов ние теоретической зависимости

(x) x x

 

x

 

... и эксп рим нтальных данных.

 

 

Подробнее рассмотрим прим н

МНК для определения точечных оце-

нок параметров функции регрессии. В результате проведения n опытов получа-

 

 

 

 

 

 

 

 

ние

 

 

 

 

 

 

 

 

т

 

 

 

 

 

 

 

о

 

 

 

 

 

 

 

 

ем двумерную выборку

(x1;y1),(x2;y2),...(xn;yn) . Пусть эмпирическая функция

 

си i

 

 

i

i

 

 

, опус-

 

 

 

 

 

 

 

 

 

 

над коэффициентами

регрессии линейна, т. е. y x, (значок

каем для упрощен я зап

 

), т гда (12.3) принимает вид

 

б

 

 

 

n

 

 

 

n

 

 

 

 

 

Для определениял

S

 

 

2

 

 

 

2

min .

(12.4)

 

 

 

(y x )

 

 

 

i 1

 

 

 

i 1

 

 

 

 

 

 

минимума функции S необходимо найти производные

по интересующ м нас параметрам, приравнять их к нулю и решить полученные уравнен я. Вычисляем частные производные и приравниваем их к нулю:

и

 

S

n

 

 

 

 

Б

 

 

2 (yi

 

 

xi) 0,

 

i 1

 

(12.5)

 

S

n

 

 

 

 

 

 

2 (yi

 

0.

 

 

 

 

 

 

xi)xi

 

i 1

 

 

 

 

 

 

Раскрываем знак суммы:

146