Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Лавренченко, А. С. Лекции по математической статистике и теории случайных процессов учебное пособие

.pdf
Скачиваний:
13
Добавлен:
19.10.2023
Размер:
4.94 Mб
Скачать

т. е. между р и q необходим компромисс. Компромиссные значения р и q выбирают в соответствии с важностью последствий ошибок 1-го и 2-го рода.

Проверка гипотезы о равенстве генеральных средних нормальных совокупностей

Гипотезы о равенстве каких-либо параметров сравниваемых генеральных совокупностей называются нулевыми.

Пусть имеем две стохастически независимые выборки

 

Хи *2, • ••,

У\, У2, ■■ Ут

(3)

объемов п и т из нормальных

генеральных совокупностей

А' н Y

с неизвестными параметрами тх, ах и m!hо(/.

Проверим нулевую гипотезу Но о равенстве генеральных сред­

них тх — т„ при условии ох- = а/.

_

_

 

Случайные выборочные средние х и у здесь независимы и рас­

пределены нормально с параметрами

 

 

Щ = тх,

V

V n

 

 

 

 

Шу’

а»

V m

 

Поэтому для у — х при тх = т„ имеем

 

М\у — х\ = М\у\ — М [х\ = ту — тх = 0;

п 17/ - *1 = D \~у\ -f D\ - х\ = l l - +

 

 

т

п

Следовательно, при тх = т„ величина

 

у х

 

(4)

U-

 

 

VУ ~ т

 

п

 

имеет нормальное нормированное распределение.

Согласно лекции 2 величина

 

 

 

mi

+

msu

 

V=L

 

 

 

У

 

имеет распределение х2 с (п — 1)4~(нг— 0

степенями свободы,

так как ее слагаемые независимы и имеют распределения х2 со

степенями свободы п — 1 и т — 1.

_

 

_

Величины U и V независимы, так как х

и у не зависят от

n s 2.

Поэтому если

гипотеза На(тх= т,1)

верна и ах2 = ву2, то

величина

+ m

/ пт (я + т 2)

у — х

т -

и / ±

I/

V

п т

 

(5)

 

 

 

V nsx2+ m s 2

30

не содержит неизвестных тх, т,„ пх И а„ и по определению имеет распределение Стыодента с k = п + т — 2 степенями свободы.

Если же гипотеза Н0(тх — т„) не верна, т. е. верна гипотеза

Но(тх^ т„), то величина (5)

уже не имеет

распределения

Стыо­

дента и ее значения группируются уже не около нуля.

 

 

В связи с этим, выбрав величину (5) за критерий проверки

гипотезы Нй(тх — т„) и установив уровень

значимости

р,

крити­

ческую область G найдем из условия

 

 

 

 

P( | 7’| > 0

= 2 j7 (T )d T = /;,

 

(6)

 

 

t

 

 

 

где учли четность

плотности -

вероятности

распределения

Стью-

дента /(/).

 

 

 

 

 

Из (6) следует, что

 

 

 

 

F ( t ) = U ( T ) d - z = \ - ] f (T)rfT = l —А

 

 

 

— оо

}

~

 

 

т. е. / — квантиль /

р распределения Стыодента с k — n- ^m — 2

степенями свободы.

1_1Г

 

 

 

 

Поэтому для критической области G при уровне

значимости р окончательно получим

 

 

 

 

 

2

 

 

( 7)

 

 

 

 

 

Если же генеральные дисперсии ах2 и а,,2

известны, то, выбрав

за критерий проверки гипотезы Нп(тх = т„)

величину

(4) и уста­

новив уровень значимости р, аналогично (7) лайдем критическую область

\U\ > и р_,

2

где и р — квантиль нормального нормированного распределения.

'~Т

Пример 1. Станок изготовляет кольца. В начале и в конце смены взяли пробы по 12 колен^ В 1-й и 2-й пробах средние диа­

метры

колец

.г = 10,70

мм, у =10,75

мм,

a /is* = 0,01

мм,

ms2= 0,03 мм.

 

 

 

 

 

Допустив, что за смену точность

с-танка не изменилась

(a*2— <v’), выясним, изменился ли за смену

уровень настройки

станка при уровне значимости /? = 0,02.

Стьюдента при k =

n- f-

Из

таблицы

квантилей

распределения

-f т — 2 = 22 и р = 0,02 найдем

t п = 2 , 5 \ .

2

По формуле (5) и данным примера вычислим

Т~2,87.

31

Это наблюденное значение критерия (5) попало в критическую область (7). Следовательно, наблюденное расхождение значений х и у значимо, и мы должны признать, что за смену уровень на­ стройки станка изменился.

Проверка гипотезы о равенстве генеральных дисперсий нормальных совокупностей

По выборкам (3) проверим нулевую гипотезу HQ о равенстве генеральных дисперсий

о2 = о2

ху

нормальных совокупностей X и У. Если гипотеза

/ М а 2 = а 2)

верна, то согласно лекции 2 величина

F= -А

(8)

имеет распределение Фишера с k\ = п — 1, k2 = tn— 1 степенями свободы, так как при

п

п. - 1

т

тп — 1

ее можно представить в виде

Щ - т - 1

ms\

-p t - l m - 1 Ju

где

nsl

>2

 

■ms*

 

 

н

— независимые величины, имеющие распределения х2 с п — 1 и т — 1 степенями свободы.

Величину (8) возьмем за критерий проверки гипотезы

/7«(а2 = о2).

Можно показать, что при конкурирующей гипотезе

~Н0(о1ф о2)

и заданном уровне значимости р мощность критерия Фишера (8)

32

будет максимальной, если критическую область G находить из условий

P ( F < h ) = P ( F > h ) = * - £ - .

Но

P ( F < f 2)= \ - P ( F > f 2 ) = \ - f .

Следовательно, fi и /г есть квантили

и /

п распределения

Фишера с параметрами k\ = n — 1, k2 =

2

2

rn— 1, отвечающие вероят­

ностям —■ и 1----

Поэтому для критической области G оконча­

тельно получим

 

 

 

 

\ ' Г C #

 

 

При а2 = о2

значения критерия (8)

группируются около точки

f = l e [ / £ , /,__£.]•

Если же условиться за числитель дроби (8) брать большую из несмещенных выборочных дисперсий s 2 и s2, то величина (8) апостериорно будет больше 1. При этом гипотезу

Н0(ох2 = в*н)

будем отклонять, если наблюденное значение критерия Фишера (8) окажется больше, чем

 

h ~

JL*

 

 

2

Пример

2. Исходя из условия примера 1 выясним, изменилась ли

за смену

точность (дисперсия)

станка при уровне значимости

=0,02.

 

 

Здесь

 

 

V> s 2.

иг

Из

таблицы

квантилей распределения

Фишера при kx— m

1 =

1 1, k2 =

п — 1 = 11 и р —- 0,02

найдем

 

 

‘4,5.

 

По данным примера вычислим

 

 

 

 

E = 7 2

3.

 

 

 

si

 

 

Это наблюденное значение критерия F

меньше

 

 

*4,5.

 

3

1316

33

Следовательнб, мы должны признать, что за смену точность станка не изменилась.

Проверка гипотезы о законе распределения

 

По выборке

(9)

хи х2,

из генеральной совокупности X и заданному уровню значимости р проверим гипотезу Н о том, что X имеет предполагаемую плотность вероятности f(x\ 0 ,,.. ., 6*).

Предварительно по выборке (9), например методом наиболь­

шего правдоподобия, для неизвестных параметров 0 Ь. ..,

S k найдем

оценки

 

0, (х ,,..., *„),..., 0* (.г,,..., хп).

(10)

Далее область наблюдения величины X разобьем на / интер­ валов Дь ..., А ,.

Пусть pi — вероятность того, что величина X при предполагаемой

/(л-; 0 1,..., 0 л) попадет

на интервал А;, a mi — число значений из

(9), попавших на Д,- (i =

1 ,..., /). Тогда

 

 

 

 

Р\ + Рч + ... + Pi — 1,

1

'

 

 

тх-f т2+ ... 4- т, = п.

]

Если гипотеза Н верна, то trii есть число появлений в п опы­

тах события, имеющего

в каждом из этих

п опытов вероятность

Pi, т.

е. trii априори есть случайная величина, имеющая биномиаль­

ное распределение со средним пр1 и дисперсией npt (1 — pt).

В силу теоремы Муавра — Лапласа величина

приближенно

(тем

точнее, чем больше п) распределена

нормально с парамет­

рами

 

 

 

 

 

 

а ~ npi,

з = V nPi(\ —Pi)ttVnJTi,

 

где учли, что 0

1.

 

 

 

Поэтому величины

 

m-i npi

 

 

 

 

 

l,

( 12)

 

 

 

Vnpi

 

 

 

 

 

приближенно имеют

нормальные нормированные

распределения.

Оценки (10) на выборку (9), а следовательно,

и на величины

(12)

накладывают k связей. Кроме того, в силу (11) величины (12)

связаны еще соотношением

 

 

2miVPt = 0.

i-i

Таким образом, среди I величин (12) только / — k — 1 незави­ симых.

34

За меру расхождения наблюденных Ми . . . , М1 и Предполагае­

мых при ..., npt величин возьмем величину

 

ш ± •, =

<,

1т,-пр,)\

(13)

<=1

~ I

npi

 

называемую критерием согласия у2.

критерия (13) при

Если гипотеза Н верна,

то

распределение

пуоо сходится к распределению у2 с / — k — 1 степенями свободы. Чем ближе наблюденное значение критерия (13) к нулю, тем

правдоподобнее

гипотеза

Н. Поэтому

критическую область G

возьмем в виде у2> v, а число v найдем из условия

 

^(Х2>

1 — ^(Х2 <

= Р,

где р — заданный

уровень значимости.

 

Отсюда

Р(х*<*>) = 1— Р,

 

 

 

т. е. v есть квантиль х?_р

распределения у2 с l — k — 1 степенями

свободы, отвечающий вероятности 1 — р.

Если наблюденное значение критерия (13) при больших п (по­ рядка сотен) попадет в критическую область

X > X i -р,

то гипотезу // отклоним, а в противном случае — примем.

3*

Л е к ц и я 5. Р Е Г Р Е С С И О Н Н Ы Й А Н А Л И З

Параболическая регрессия.

Анализ точности параболической регрессии. Корреляционное отношение.

Параболическая регрессия

Зависимость между случайными величинами называется стоха­ стической^ если с изменением одних величин меняется распределе­ ние других.

Стохастическую зависимость У от X описывают условным мате­ матическим ожиданием

V(х) — М \YjX =

х\ = j yf (ylx)dy.

(1)

В механической аналогии распределения, если единичная масса

распределена на плоскости хоу

с плотностью Щх,у), то у(х)

есть

ордината центра тяжести массы, распределенной на прямой Х — х. Дисперсия M [ ( Y а ) 2] минимальна при и = M\YIX — х].

Поэтому линия (1) дает наплучшее предсказание значения вели­

чины У по

заданному значению Х ~ х

и называется линией

регрессии.

 

 

 

 

 

Исследование вида линии регрессии (1) называется регрессион­

ным анализом.

 

 

 

 

Пусть для

(X, У) имеем выборку

 

 

 

 

(хиУ|), (л-2, */а).......(хп, уп).

(2)

Линию регрессии (1) приближенно будем искать в виде пара­

болы m-го порядка

(т<^п),

которую ради упрощения

вычислений

запишем так:

У =

аоРо(х) +

а1р1(х)+... +

ая, рт (х),

 

где

(3)

 

 

а0, а и . . . , а т

 

(4)

— искомые коэффициенты,

 

 

 

а

 

Po(x),Pi(x),..., рт(х)

(5)

— система ортогональных на множестве точек хи х2, .

. ., хп много-

36

членов порядка 0, 1,..., т, т. е. система многочленов, удовлетворя­ ющих условию ортогональности

^ P A xi) Pi (*/) = 0. Ь I. i=1

Такие многочлены называются многочленами Чебышева.

Положим

Л (л-)=1,

 

Пусть

 

f , w =

. + р,-

Тогда

из (6) при k =

0, 1 = 1

получим

 

'lPl(Xi) = ^ ( * , +

Pi) = 0 .

откуда

i- 1

I

1

 

 

 

 

 

 

 

 

 

 

 

 

1

 

V

 

 

 

----------

<=1

 

и для (8)

окончательно найдем

п

 

 

 

 

1

«

 

Pi(x) = х

 

 

 

 

У * ,

 

 

 

 

 

a i-i

(6)

(7)

( 8)

(9)

Далее

можно показать,

что

многочлен

 

ри + 1

(х)

выражается

че[>ез многочлены pk (x), Pk- \ (х)

по рекуррентной формуле

где

Pk+l {х) = (* + fa+\) р к (х) -f у* и р к-\ (х).

 

 

 

 

 

 

 

 

 

 

2 ■¥>*(*/)

 

 

 

 

 

Р*+. ------ —--------

 

 

 

 

 

 

 

М ( * / )

 

 

 

 

 

 

//

1= 1

 

 

 

 

 

 

 

(* )

 

 

 

 

V x ^*_,(w

 

 

 

T*+i =

1=1_______________

 

 

 

 

 

 

 

 

 

 

 

k p i - i ( x d

 

 

 

 

 

 

(= 1

 

 

 

 

 

k = 1, 2 ,.. ., т — 1.

 

 

 

 

Отсюда

по выборочным

точкам хи х2, ...,

хп из

(2)

в силу (7)

и(9) можно найти все ортогональные многочлены (5).

Коэффициенты (4) найдем по принципу наименьших квадратов:

дисперсия выборочных точек (2) относительно параболы (3) должна быть минимальной, т. е.

1

п

2

 

 

D„

-- --------

Z ajPj(xi) — Pi

= min.

( 1 0 )

 

m

— 1

«•= 1 ../-О

 

 

Сумма (10)

делится

не

на п, а на п — (m -1-1) потому,

что,

выражая коэффициенты

(4)

через выборку (2),

мы на эту выборку

накладываем т + 1 связей.

37

Если т фиксировано, то в силу (10) коэффициенты (4) найдем, минимизируя функцию

 

$т(@о>

«1) • • • 5

®m) —^ 2

Z a j P j M - y t

(П)

 

 

 

 

 

1=1 / - 0

 

 

 

т. е. решая относительно а;-

(/ = 0,

1 ,...,

т )

систему уравнений

ЛС2

п '

«

/

v

 

 

 

 

 

л

^ ХЛ

V

— уi

/M*i) = °,

k = 0,

, т.

= 2 2

2. cijPj (*,)

пак

<•- 1 /-о

 

 

 

 

 

 

 

Отсюда в силу

(6) для коэффициентов (4) получим оценки

 

 

i=\1V t P k

( x i>

 

 

 

( 12)

 

 

 

 

 

 

 

 

 

 

 

 

2 /> 2 W

 

 

 

 

 

 

 

i- 1

 

 

 

 

 

 

и параболу приближенной регрессии (3)

запишем в виде

 

 

 

 

т

,

2 U l P k ( x i)

 

 

(13)

 

 

>’ =

2

 

,_1

 

/М*)-

 

 

 

А—0 1

2 Pt(xi)

 

 

 

 

 

 

 

 

 

 

 

/= i

Замечательное свойство метода ортогональных многочленов состоит в том, что оценки (12) не зависят от т. Это позволяет при переходе от многочлена т-й степени к многочлену (т-{-1)-й сте­ пени находить только ат+1. Коэффициенты же аи, аи ..., ат остаются прежними.

Условие ортогональности (6) позволяет также легко находить сумму квадратов (11) при этом переходе. Действительно, в силу

(11), (6) и (12) найдем

•^m+i (а0,

iii, • • • > «т+ i) — 2

т | 1 ~

 

 

2 т + 1

и

 

 

2

ajPj(xi)— yt

=

2 « 2/ 2

P ) ( x t) -

 

 

 

 

 

i - 17“0

 

 

 

/=0

*i-\

 

7

 

 

m-f 1

п

п

 

 

т

п

 

т

а/

 

 

(xi)

 

-

2 2

«у 2 y i P j

( X i ) + 2

у /

=

2 а ) > > ^ ) - 2

2

«у 2

y , P

j

 

 

I

1=1

<-1

/=0

1-1

 

/=0

(=0

 

 

 

+

2

У/2 + « т + 1 2 /»т+1 (* l) —

2 а т +1 2

y t P m + 1 (■*у)—

(«0. «1> •' • 5 «т)

 

1—1

1-1

 

 

 

1-1

 

 

 

 

 

 

 

 

 

 

 

2

 

*.

2

 

 

 

 

 

 

 

 

 

 

 

£tm+12l Рт+1 (■*-() •

 

 

 

 

 

 

Итак,

 

л

 

 

1- 1

л

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(14)

 

 

 

 

•Sm+1 —

5 ^

П т+ 1 2 Р т +

1 (■*-») э

 

 

 

 

 

 

 

 

 

 

 

1=1

 

 

 

 

 

 

т.

е. добавление к параболе регрессии (3)

члена

 

 

 

 

38

Qm+ 1 /?m+1(я)

уменьшает сумму квадратов типа (11) на

-'о

о

^m+l

Рт+ 1 (-^/)-

 

i= 1

Из (14) и (10) видно, что при увеличении т имеем два конкури­ рующих процесса. С одной стороны, при увеличении т уменьшает­ ся сумма квадратов (11), так как при этом лучше аппроксимиру­ ются точки (2), и дисперсия (10) уменьшается. С другой стороны, при увеличении т увеличивается число связей т -\- 1, наклады­ ваемых на выборку (2) из-за оценок (12), и дисперсия (10) увели­ чивается.

Оптимальное значение степени /и, т. е. то значение т, для кото­ рого выполняется условие (10), находят в процессе вычисления

коэффициентов (4), а именно:

т увеличивают на единицу, начиная

обычно

с т = 1, до тех пор,

пока

не станет выполняться нера­

венство

 

1

j

 

 

точнее, до тех пор, пока выборочная дисперсия (10) перестанет уменьшаться значимо. Дальнейшее увеличение степени гп прекра­

щают.

Значимость неравенства Д„ > Dm+1 проверяется по односто­

роннему критерию Фишера, согласно которому это неравенство признается значимым, если окажется, что

Dm

Dm+1 > / i - p >

где ft - ,,квантиль распределения Фишера с п т—1 и п т—2 степенями свободы;

р — заданный уровень значимости.

Анализ точности параболической регрессии

Пусть генеральная совокупность (X, У) нормальна, а оптималь­ ная степень т и оценки (12) коэффициентов (4) уже найдены.

Найдем интервальные оценки для коэффициентов (4). Для этого вычислим математические ожидания и дисперсии оценок (12):

м W = ^

 

------- Ъ Р ^ хдЩУ1\ =

 

 

 

 

1

п

гп

 

= — --------------

Ъ

Р Л х ^ а 1 Р Л х д = a k\

(15)

М Ю

-

1

 

39

Соседние файлы в папке книги из ГПНТБ