![](/user_photo/_userpic.png)
книги из ГПНТБ / Лавренченко, А. С. Лекции по математической статистике и теории случайных процессов учебное пособие
.pdfт. е. между р и q необходим компромисс. Компромиссные значения р и q выбирают в соответствии с важностью последствий ошибок 1-го и 2-го рода.
Проверка гипотезы о равенстве генеральных средних нормальных совокупностей
Гипотезы о равенстве каких-либо параметров сравниваемых генеральных совокупностей называются нулевыми.
Пусть имеем две стохастически независимые выборки |
|
|
Хи *2, • ••, |
У\, У2, ■■ Ут |
(3) |
объемов п и т из нормальных |
генеральных совокупностей |
А' н Y |
с неизвестными параметрами тх, ах и m!hо(/.
Проверим нулевую гипотезу Но о равенстве генеральных сред
них тх — т„ при условии ох- = а/. |
_ |
_ |
|
Случайные выборочные средние х и у здесь независимы и рас |
|||
пределены нормально с параметрами |
|
|
|
Щ = тх, |
V |
V n |
|
|
|
|
|
Шу’ |
а» |
V m ‘ |
|
Поэтому для у — х при тх = т„ имеем |
|
||
М\у — х\ = М\у\ — М [х\ = ту — тх = 0; |
|||
п 17/ - *1 = D \~у\ -f D\ - х\ = l l - + |
|||
|
|
т |
п |
Следовательно, при тх = т„ величина |
|
||
у — х |
|
(4) |
|
U- |
|
|
|
VУ ~ т |
|
п |
|
имеет нормальное нормированное распределение. |
|||
Согласно лекции 2 величина |
|
|
|
mi |
+ |
msu |
|
V=L |
|
||
|
|
У |
|
имеет распределение х2 с (п — 1)4~(нг— 0 |
степенями свободы, |
так как ее слагаемые независимы и имеют распределения х2 со
степенями свободы п — 1 и т — 1. |
_ |
|
_ |
||||
Величины U и V независимы, так как х |
и у не зависят от |
||||||
n s 2. |
Поэтому если |
гипотеза На(тх= т,1) |
верна и ах2 = ву2, то |
||||
величина |
+ m |
/ пт (я + т —2) |
у — х |
||||
т - |
и / ± |
||||||
I/ |
V |
п -г т |
|
(5) |
|||
|
|
|
V nsx2+ m s 2 |
30
не содержит неизвестных тх, т,„ пх И а„ и по определению имеет распределение Стыодента с k = п + т — 2 степенями свободы.
Если же гипотеза Н0(тх — т„) не верна, т. е. верна гипотеза
Но(тх^ т„), то величина (5) |
уже не имеет |
распределения |
Стыо |
||
дента и ее значения группируются уже не около нуля. |
|
|
|||
В связи с этим, выбрав величину (5) за критерий проверки |
|||||
гипотезы Нй(тх — т„) и установив уровень |
значимости |
р, |
крити |
||
ческую область G найдем из условия |
|
|
|
||
|
P( | 7’| > 0 |
= 2 j7 (T )d T = /;, |
|
(6) |
|
|
|
t |
|
|
|
где учли четность |
плотности - |
вероятности |
распределения |
Стью- |
|
дента /(/). |
|
|
|
|
|
Из (6) следует, что |
|
|
|
|
|
F ( t ) = U ( T ) d - z = \ - ] f (T)rfT = l —А |
|
|
|||
|
— оо |
} |
~ |
|
|
т. е. / — квантиль / |
р распределения Стыодента с k — n- ^m — 2 |
||||
степенями свободы. |
1_1Г |
|
|
|
|
Поэтому для критической области G при уровне |
|||||
значимости р окончательно получим |
|
|
|
||
|
|
2 |
|
|
( 7) |
|
|
|
|
|
|
Если же генеральные дисперсии ах2 и а,,2 |
известны, то, выбрав |
||||
за критерий проверки гипотезы Нп(тх = т„) |
величину |
(4) и уста |
новив уровень значимости р, аналогично (7) лайдем критическую область
\U\ > и р_,
2
где и р — квантиль нормального нормированного распределения.
'~Т
Пример 1. Станок изготовляет кольца. В начале и в конце смены взяли пробы по 12 колен^ В 1-й и 2-й пробах средние диа
метры |
колец |
.г = 10,70 |
мм, у =10,75 |
мм, |
a /is* = 0,01 |
мм, |
ms2= 0,03 мм. |
|
|
|
|
|
|
Допустив, что за смену точность |
с-танка не изменилась |
|||||
(a*2— <v’), выясним, изменился ли за смену |
уровень настройки |
|||||
станка при уровне значимости /? = 0,02. |
Стьюдента при k = |
n- f- |
||||
Из |
таблицы |
квантилей |
распределения |
-f т — 2 = 22 и р = 0,02 найдем
t п = 2 , 5 \ .
2
По формуле (5) и данным примера вычислим
Т~2,87.
31
Это наблюденное значение критерия (5) попало в критическую область (7). Следовательно, наблюденное расхождение значений х и у значимо, и мы должны признать, что за смену уровень на стройки станка изменился.
Проверка гипотезы о равенстве генеральных дисперсий нормальных совокупностей
По выборкам (3) проверим нулевую гипотезу HQ о равенстве генеральных дисперсий
о2 = о2
ху
нормальных совокупностей X и У. Если гипотеза
/ М а 2 = а 2)
верна, то согласно лекции 2 величина
F= -А |
(8) |
имеет распределение Фишера с k\ = п — 1, k2 = tn— 1 степенями свободы, так как при
п
■
п. - 1
т
тп — 1
ее можно представить в виде
Щ - т - 1
ms\
-p t - l m - 1 Ju
где |
nsl |
>2 |
|
■ms* |
|
|
|
н |
— независимые величины, имеющие распределения х2 с п — 1 и т — 1 степенями свободы.
Величину (8) возьмем за критерий проверки гипотезы
/7«(а2 = о2).
Можно показать, что при конкурирующей гипотезе
~Н0(о1ф о2)
и заданном уровне значимости р мощность критерия Фишера (8)
32
будет максимальной, если критическую область G находить из условий
P ( F < h ) = P ( F > h ) = * - £ - .
Но
P ( F < f 2)= \ - P ( F > f 2 ) = \ - f .
Следовательно, fi и /г есть квантили |
и / |
п распределения |
|
Фишера с параметрами k\ = n — 1, k2 = |
2 |
2 |
|
rn— 1, отвечающие вероят |
|||
ностям —■ и 1---- |
Поэтому для критической области G оконча |
||
тельно получим |
|
|
|
|
\ ' Г C # |
|
|
При а2 = о2 |
значения критерия (8) |
группируются около точки |
f = l e [ / £ , /,__£.]•
Если же условиться за числитель дроби (8) брать большую из несмещенных выборочных дисперсий s 2 и s2, то величина (8) апостериорно будет больше 1. При этом гипотезу
Н0(ох2 = в*н)
будем отклонять, если наблюденное значение критерия Фишера (8) окажется больше, чем
|
h ~ |
JL* |
|
|
2 |
Пример |
2. Исходя из условия примера 1 выясним, изменилась ли |
|
за смену |
точность (дисперсия) |
станка при уровне значимости |
=0,02. |
|
|
Здесь |
|
|
V> s 2.
иг
Из |
таблицы |
квантилей распределения |
Фишера при kx— m — |
|
1 = |
1 1, k2 = |
п — 1 = 11 и р —- 0,02 |
найдем |
|
|
|
‘4,5. |
|
|
По данным примера вычислим |
|
|
||
|
|
E = 7 2 |
3. |
|
|
|
si |
|
|
Это наблюденное значение критерия F |
меньше |
|||
|
|
*4,5. |
|
3 |
1316 |
33 |
Следовательнб, мы должны признать, что за смену точность станка не изменилась.
Проверка гипотезы о законе распределения |
|
По выборке |
(9) |
хи х2, |
из генеральной совокупности X и заданному уровню значимости р проверим гипотезу Н о том, что X имеет предполагаемую плотность вероятности f(x\ 0 ,,.. ., 6*).
Предварительно по выборке (9), например методом наиболь
шего правдоподобия, для неизвестных параметров 0 Ь. .., |
S k найдем |
оценки |
|
0, (х ,,..., *„),..., 0* (.г,,..., хп). |
(10) |
Далее область наблюдения величины X разобьем на / интер валов Дь ..., А ,.
Пусть pi — вероятность того, что величина X при предполагаемой
/(л-; 0 1,..., 0 л) попадет |
на интервал А;, a mi — число значений из |
||||
(9), попавших на Д,- (i = |
1 ,..., /). Тогда |
|
|
||
|
|
Р\ + Рч + ... + Pi — 1, |
1 |
' |
|
|
|
тх-f т2+ ... 4- т, = п. |
] |
||
Если гипотеза Н верна, то trii есть число появлений в п опы |
|||||
тах события, имеющего |
в каждом из этих |
п опытов вероятность |
|||
Pi, т. |
е. trii априори есть случайная величина, имеющая биномиаль |
||||
ное распределение со средним пр1 и дисперсией npt (1 — pt). |
|||||
В силу теоремы Муавра — Лапласа величина |
приближенно |
||||
(тем |
точнее, чем больше п) распределена |
нормально с парамет |
|||
рами |
|
|
|
|
|
|
а ~ npi, |
з = V nPi(\ —Pi)ttVnJTi, |
|
||
где учли, что 0 |
1. |
|
|
|
|
Поэтому величины |
|
m-i — npi |
|
|
|
|
|
|
l, |
( 12) |
|
|
|
|
Vnpi |
||
|
|
|
|
|
|
приближенно имеют |
нормальные нормированные |
распределения. |
|||
Оценки (10) на выборку (9), а следовательно, |
и на величины |
||||
(12) |
накладывают k связей. Кроме того, в силу (11) величины (12) |
||||
связаны еще соотношением |
|
|
2miVPt = 0.
i-i
Таким образом, среди I величин (12) только / — k — 1 незави симых.
34
За меру расхождения наблюденных Ми . . . , М1 и Предполагае
мых при ..., npt величин возьмем величину |
|
||
ш ± •, = |
<, |
1т,-пр,)\ |
(13) |
<=1 |
~ I |
npi |
|
называемую критерием согласия у2. |
критерия (13) при |
||
Если гипотеза Н верна, |
то |
распределение |
п—уоо сходится к распределению у2 с / — k — 1 степенями свободы. Чем ближе наблюденное значение критерия (13) к нулю, тем
правдоподобнее |
гипотеза |
Н. Поэтому |
критическую область G |
возьмем в виде у2> v, а число v найдем из условия |
|||
|
^(Х2> |
1 — ^(Х2 < |
= Р, |
где р — заданный |
уровень значимости. |
|
|
Отсюда |
Р(х*<*>) = 1— Р, |
|
|
|
|
||
т. е. v есть квантиль х?_р |
распределения у2 с l — k — 1 степенями |
свободы, отвечающий вероятности 1 — р.
Если наблюденное значение критерия (13) при больших п (по рядка сотен) попадет в критическую область
X > X i -р,
то гипотезу // отклоним, а в противном случае — примем.
3*
Л е к ц и я 5. Р Е Г Р Е С С И О Н Н Ы Й А Н А Л И З
Параболическая регрессия.
Анализ точности параболической регрессии. Корреляционное отношение.
Параболическая регрессия
Зависимость между случайными величинами называется стоха стической^ если с изменением одних величин меняется распределе ние других.
Стохастическую зависимость У от X описывают условным мате матическим ожиданием
V(х) — М \YjX = |
х\ = j yf (ylx)dy. |
(1) |
В механической аналогии распределения, если единичная масса |
||
распределена на плоскости хоу |
с плотностью Щх,у), то у(х) |
есть |
ордината центра тяжести массы, распределенной на прямой Х — х. Дисперсия M [ ( Y — а ) 2] минимальна при и = M\YIX — х].
Поэтому линия (1) дает наплучшее предсказание значения вели
чины У по |
заданному значению Х ~ х |
и называется линией |
|||
регрессии. |
|
|
|
|
|
Исследование вида линии регрессии (1) называется регрессион |
|||||
ным анализом. |
|
|
|
|
|
Пусть для |
(X, У) имеем выборку |
|
|
||
|
|
(хиУ|), (л-2, */а).......(хп, уп). |
(2) |
||
Линию регрессии (1) приближенно будем искать в виде пара |
|||||
болы m-го порядка |
(т<^п), |
которую ради упрощения |
вычислений |
||
запишем так: |
У = |
аоРо(х) + |
а1р1(х)+... + |
ая, рт (х), |
|
где |
(3) |
||||
|
|
а0, а и . . . , а т |
|
(4) |
|
— искомые коэффициенты, |
|
|
|
||
а |
|
Po(x),Pi(x),..., рт(х) |
(5) |
||
— система ортогональных на множестве точек хи х2, . |
. ., хп много- |
36
членов порядка 0, 1,..., т, т. е. система многочленов, удовлетворя ющих условию ортогональности
^ P A xi) Pi (*/) = 0. Ь I. i=1
Такие многочлены называются многочленами Чебышева.
Положим |
Л (л-)=1, |
|
||||
Пусть |
|
f , w = |
. + р,- |
|||
Тогда |
из (6) при k = |
0, 1 = 1 |
получим |
|||
|
'lPl(Xi) = ^ ( * , + |
Pi) = 0 . |
||||
откуда |
i- 1 |
I |
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
|
V |
|
|
|
---------- |
<=1 |
|
||
и для (8) |
окончательно найдем |
п |
|
|
||
|
|
1 |
« |
|||
|
Pi(x) = х |
|
|
|||
|
|
— |
У * , |
|||
|
|
|
|
|
a i-i |
(6)
(7)
( 8)
(9)
Далее |
можно показать, |
что |
многочлен |
|
ри + 1 |
(х) |
выражается |
че[>ез многочлены pk (x), Pk- \ (х) |
по рекуррентной формуле |
||||||
где |
Pk+l {х) = (* + fa+\) р к (х) -f у* и р к-\ (х). |
|
|||||
|
|
|
|
|
|
|
|
|
|
2 ■¥>*(*/) |
|
|
|
|
|
|
Р*+. ------ —-------- |
|
|
|
|
||
|
|
|
М ( * / ) |
|
|
|
|
|
|
// |
1= 1 |
|
|
|
|
|
|
|
(* ) |
|
|
||
|
|
V x ^*_,(w |
|
|
|||
|
T*+i = |
1=1_______________ |
|
|
|||
|
|
|
|
|
|
|
|
|
|
k p i - i ( x d |
|
|
|
|
|
|
|
(= 1 |
|
|
|
|
|
|
k = 1, 2 ,.. ., т — 1. |
|
|
|
|
||
Отсюда |
по выборочным |
точкам хи х2, ..., |
хп из |
(2) |
в силу (7) |
и(9) можно найти все ортогональные многочлены (5).
Коэффициенты (4) найдем по принципу наименьших квадратов:
дисперсия выборочных точек (2) относительно параболы (3) должна быть минимальной, т. е.
1 |
п |
2 |
|
|
D„ |
-- -------- |
Z ajPj(xi) — Pi |
= min. |
( 1 0 ) |
|
|
m |
— 1 |
«•= 1 ../-О |
|
|
Сумма (10) |
делится |
не |
на п, а на п — (m -1-1) потому, |
что, |
|
выражая коэффициенты |
(4) |
через выборку (2), |
мы на эту выборку |
накладываем т + 1 связей.
37
Если т фиксировано, то в силу (10) коэффициенты (4) найдем, минимизируя функцию
|
$т(@о> |
«1) • • • 5 |
®m) —^ 2 |
Z a j P j M - y t |
(П) |
||||
|
|
|
|
|
1=1 / - 0 |
|
|
|
|
т. е. решая относительно а;- |
(/ = 0, |
1 ,..., |
т ) |
систему уравнений |
|||||
ЛС2 |
п ' |
« |
/ |
v |
|
|
|
|
|
л |
^ ХЛ |
V |
— уi |
/M*i) = °, |
k = 0, |
, т. |
|||
= 2 2 |
2. cijPj (*,) |
||||||||
пак |
<•- 1 /-о |
|
|
|
|
|
|
|
|
Отсюда в силу |
(6) для коэффициентов (4) получим оценки |
||||||||
|
|
i=\1V t P k |
( x i> |
|
|
|
( 12) |
||
|
|
|
|
|
|
|
|
|
|
|
|
|
2 /> 2 W |
|
|
|
|
||
|
|
|
i- 1 |
|
|
|
|
|
|
и параболу приближенной регрессии (3) |
запишем в виде |
|
|||||||
|
|
|
т |
, |
2 U l P k ( x i) |
|
|
(13) |
|
|
|
>’ = |
2 |
|
,_1 |
|
/М*)- |
||
|
|
|
А—0 1 |
2 Pt(xi) |
|
|
|
||
|
|
|
|
|
|
|
|
/= i
Замечательное свойство метода ортогональных многочленов состоит в том, что оценки (12) не зависят от т. Это позволяет при переходе от многочлена т-й степени к многочлену (т-{-1)-й сте пени находить только ат+1. Коэффициенты же аи, аи ..., ат остаются прежними.
Условие ортогональности (6) позволяет также легко находить сумму квадратов (11) при этом переходе. Действительно, в силу
(11), (6) и (12) найдем
•^m+i (а0, |
iii, • • • > «т+ i) — 2 |
т | 1 ~ |
|
|
2 т + 1 |
и |
|
|
||||||
2 |
ajPj(xi)— yt |
= |
2 « 2/ 2 |
P ) ( x t) - |
||||||||||
|
|
|
|
|
i - 17“0 |
|
|
|
/=0 |
*i-\ |
|
7 |
||
|
|
m-f 1 |
п |
п |
|
|
т |
п |
|
т |
а/ |
|
|
(xi) |
|
- |
2 2 |
«у 2 y i P j |
( X i ) + 2 |
у / |
= |
2 а ) > > ^ ) - 2 |
2 |
«у 2 |
y , P |
j |
|||
|
|
I-О |
1=1 |
<-1 |
/=0 |
1-1 |
|
/=0 |
(=0 |
|
|
|
||
+ |
2 |
У/2 + « т + 1 2 /»т+1 (* l) — |
2 а т +1 2 |
y t P m + 1 (■*у)— |
(«0. «1> •' • 5 «т) |
|||||||||
|
1—1 |
1-1 |
|
|
|
1-1 |
|
|
|
|
|
|
||
|
|
|
|
|
2 |
|
*. |
2 |
|
|
|
|
|
|
|
|
|
|
|
£tm+12l Рт+1 (■*-() • |
|
|
|
|
|
||||
|
Итак, |
|
л |
|
|
1- 1 |
л |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
(14) |
||||
|
|
|
|
•Sm+1 — |
5 ^ |
П т+ 1 2 Р т + |
1 (■*-») э |
|
|
|
||||
|
|
|
|
|
|
|
|
1=1 |
|
|
|
|
|
|
т. |
е. добавление к параболе регрессии (3) |
члена |
|
|
|
|
38
Qm+ 1 /?m+1(я)
уменьшает сумму квадратов типа (11) на
-'о |
о |
^m+l |
Рт+ 1 (-^/)- |
|
i= 1 |
Из (14) и (10) видно, что при увеличении т имеем два конкури рующих процесса. С одной стороны, при увеличении т уменьшает ся сумма квадратов (11), так как при этом лучше аппроксимиру ются точки (2), и дисперсия (10) уменьшается. С другой стороны, при увеличении т увеличивается число связей т -\- 1, наклады ваемых на выборку (2) из-за оценок (12), и дисперсия (10) увели чивается.
Оптимальное значение степени /и, т. е. то значение т, для кото рого выполняется условие (10), находят в процессе вычисления
коэффициентов (4), а именно: |
т увеличивают на единицу, начиная |
||
обычно |
с т = 1, до тех пор, |
пока |
не станет выполняться нера |
венство |
|
1 |
^тj |
|
|
точнее, до тех пор, пока выборочная дисперсия (10) перестанет уменьшаться значимо. Дальнейшее увеличение степени гп прекра
щают.
Значимость неравенства Д„ > Dm+1 проверяется по односто
роннему критерию Фишера, согласно которому это неравенство признается значимым, если окажется, что
Dm
Dm+1 > / i - p >
где ft - ,, — квантиль распределения Фишера с п — т—1 и п — т—2 степенями свободы;
р — заданный уровень значимости.
Анализ точности параболической регрессии
Пусть генеральная совокупность (X, У) нормальна, а оптималь ная степень т и оценки (12) коэффициентов (4) уже найдены.
Найдем интервальные оценки для коэффициентов (4). Для этого вычислим математические ожидания и дисперсии оценок (12):
м W = ^ |
|
------- Ъ Р ^ хдЩУ1\ = |
|
■ |
|
|
|
1 |
п |
гп |
|
= — -------------- |
Ъ |
Р Л х ^ а 1 Р Л х д = a k\ |
(15) |
М Ю |
- |
1 |
|
39