Добавил:

ivanov666 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Башкирский Государственный Аграрный Университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

книги из ГПНТБ / Лавренченко, А. С. Лекции по математической статистике и теории случайных процессов учебное пособие

.pdf

Скачиваний:

Добавлен:

19.10.2023

Размер:

4.94 Mб

Скачать

☆

<<< < Предыдущая 1 2 34 / 154 5 6 7 8 9 10 11 12 13 14 15 > Следующая >>>

т. е. между р и q необходим компромисс. Компромиссные значения р и q выбирают в соответствии с важностью последствий ошибок 1-го и 2-го рода.

Проверка гипотезы о равенстве генеральных средних нормальных совокупностей

Гипотезы о равенстве каких-либо параметров сравниваемых генеральных совокупностей называются нулевыми.

Пусть имеем две стохастически независимые выборки
Хи *2, • ••,	У\, У2, ■■ Ут	(3)
объемов п и т из нормальных	генеральных совокупностей	А' н Y

с неизвестными параметрами тх, ах и m!hо(/.

Проверим нулевую гипотезу Но о равенстве генеральных сред

них тх — т„ при условии ох- = а/.	_	_
Случайные выборочные средние х и у здесь независимы и рас
пределены нормально с параметрами
Щ = тх,	V	V n
		V n
Шу’	а»	V m ‘
Поэтому для у — х при тх = т„ имеем
М\у — х\ = М\у\ — М [х\ = ту — тх = 0;
п 17/ - *1 = D \~у\ -f D\ - х\ = l l - +
		т	п
Следовательно, при тх = т„ величина
у — х			(4)
U-			(4)
VУ ~ т		п
имеет нормальное нормированное распределение.
Согласно лекции 2 величина
mi	+	msu
V=L	+	msu
		У
имеет распределение х2 с (п — 1)4~(нг— 0			степенями свободы,

так как ее слагаемые независимы и имеют распределения х2 со

степенями свободы п — 1 и т — 1.				_		_
Величины U и V независимы, так как х					и у не зависят от
n s 2.	Поэтому если		гипотеза На(тх= т,1)		верна и ах2 = ву2, то
величина		+ m	/ пт (я + т —2)			у — х
т -	и / ±
		I/	V	п -г т		(5)
						V nsx2+ m s 2

не содержит неизвестных тх, т,„ пх И а„ и по определению имеет распределение Стыодента с k = п + т — 2 степенями свободы.

Если же гипотеза Н0(тх — т„) не верна, т. е. верна гипотеза

Но(тх^ т„), то величина (5)		уже не имеет	распределения		Стыо
дента и ее значения группируются уже не около нуля.
В связи с этим, выбрав величину (5) за критерий проверки
гипотезы Нй(тх — т„) и установив уровень			значимости	р,	крити
ческую область G найдем из условия
	P( \| 7’\| > 0	= 2 j7 (T )d T = /;,			(6)
		t
где учли четность	плотности -	вероятности	распределения		Стью-
дента /(/).
Из (6) следует, что
F ( t ) = U ( T ) d - z = \ - ] f (T)rfT = l —А
	— оо	}	~
т. е. / — квантиль /	р распределения Стыодента с k — n- ^m — 2
степенями свободы.	1_1Г
степенями свободы.	Поэтому для критической области G при уровне
значимости р окончательно получим
		2			( 7)
		2
Если же генеральные дисперсии ах2 и а,,2			известны, то, выбрав
за критерий проверки гипотезы Нп(тх = т„)			величину	(4) и уста

новив уровень значимости р, аналогично (7) лайдем критическую область

\U\ > и р_,

где и р — квантиль нормального нормированного распределения.

'~Т

Пример 1. Станок изготовляет кольца. В начале и в конце смены взяли пробы по 12 колен^ В 1-й и 2-й пробах средние диа

метры	колец	.г = 10,70	мм, у =10,75	мм,	a /is* = 0,01	мм,
ms2= 0,03 мм.
Допустив, что за смену точность				с-танка не изменилась
(a*2— <v’), выясним, изменился ли за смену					уровень настройки
станка при уровне значимости /? = 0,02.				Стьюдента при k =		n- f-
Из	таблицы	квантилей	распределения

-f т — 2 = 22 и р = 0,02 найдем

t п = 2 , 5 \ .

По формуле (5) и данным примера вычислим

Т~2,87.

Это наблюденное значение критерия (5) попало в критическую область (7). Следовательно, наблюденное расхождение значений х и у значимо, и мы должны признать, что за смену уровень на стройки станка изменился.

Проверка гипотезы о равенстве генеральных дисперсий нормальных совокупностей

По выборкам (3) проверим нулевую гипотезу HQ о равенстве генеральных дисперсий

о2 = о2

ху

нормальных совокупностей X и У. Если гипотеза

/ М а 2 = а 2)

верна, то согласно лекции 2 величина

F= -А

(8)

имеет распределение Фишера с k\ = п — 1, k2 = tn— 1 степенями свободы, так как при

■

п. - 1

тп — 1

ее можно представить в виде

Щ - т - 1

ms\

-p t - l m - 1 Ju

где	nsl	>2
	nsl	■ms*
		н

— независимые величины, имеющие распределения х2 с п — 1 и т — 1 степенями свободы.

Величину (8) возьмем за критерий проверки гипотезы

/7«(а2 = о2).

Можно показать, что при конкурирующей гипотезе

~Н0(о1ф о2)

и заданном уровне значимости р мощность критерия Фишера (8)

будет максимальной, если критическую область G находить из условий

P ( F < h ) = P ( F > h ) = * - £ - .

Но

P ( F < f 2)= \ - P ( F > f 2 ) = \ - f .

Следовательно, fi и /г есть квантили		и /	п распределения
Фишера с параметрами k\ = n — 1, k2 =		2	2
Фишера с параметрами k\ = n — 1, k2 =		rn— 1, отвечающие вероят
ностям —■ и 1----	Поэтому для критической области G оконча
тельно получим
	\ ' Г C #
При а2 = о2	значения критерия (8)	группируются около точки

f = l e [ / £ , /,__£.]•

Если же условиться за числитель дроби (8) брать большую из несмещенных выборочных дисперсий s 2 и s2, то величина (8) апостериорно будет больше 1. При этом гипотезу

Н0(ох2 = в*н)

будем отклонять, если наблюденное значение критерия Фишера (8) окажется больше, чем

	h ~	JL*
		2
Пример	2. Исходя из условия примера 1 выясним, изменилась ли
за смену	точность (дисперсия)	станка при уровне значимости
=0,02.
Здесь

V> s 2.

иг

Из	таблицы	квантилей распределения		Фишера при kx— m —
1 =	1 1, k2 =	п — 1 = 11 и р —- 0,02	найдем
		‘4,5.
По данным примера вычислим
		E = 7 2	3.
		si
Это наблюденное значение критерия F				меньше
		*4,5.

1316

Следовательнб, мы должны признать, что за смену точность станка не изменилась.

Проверка гипотезы о законе распределения
По выборке	(9)
хи х2,	(9)

из генеральной совокупности X и заданному уровню значимости р проверим гипотезу Н о том, что X имеет предполагаемую плотность вероятности f(x\ 0 ,,.. ., 6*).

Предварительно по выборке (9), например методом наиболь

шего правдоподобия, для неизвестных параметров 0 Ь. ..,	S k найдем
оценки
0, (х ,,..., „),..., 0 (.г,,..., хп).	(10)

Далее область наблюдения величины X разобьем на / интер валов Дь ..., А ,.

Пусть pi — вероятность того, что величина X при предполагаемой

/(л-; 0 1,..., 0 л) попадет			на интервал А;, a mi — число значений из
(9), попавших на Д,- (i =			1 ,..., /). Тогда
		Р\ + Рч + ... + Pi — 1,		1	'
		тх-f т2+ ... 4- т, = п.		]
Если гипотеза Н верна, то trii есть число появлений в п опы
тах события, имеющего			в каждом из этих	п опытов вероятность
Pi, т.	е. trii априори есть случайная величина, имеющая биномиаль
ное распределение со средним пр1 и дисперсией npt (1 — pt).
В силу теоремы Муавра — Лапласа величина					приближенно
(тем	точнее, чем больше п) распределена			нормально с парамет
рами
	а ~ npi,		з = V nPi(\ —Pi)ttVnJTi,
где учли, что 0		1.
Поэтому величины			m-i — npi
				l,	( 12)
			Vnpi

приближенно имеют		нормальные нормированные			распределения.
Оценки (10) на выборку (9), а следовательно,					и на величины
(12)	накладывают k связей. Кроме того, в силу (11) величины (12)
связаны еще соотношением

2miVPt = 0.

i-i

Таким образом, среди I величин (12) только / — k — 1 незави симых.

За меру расхождения наблюденных Ми . . . , М1 и Предполагае

мых при ..., npt величин возьмем величину
ш ± •, =	<,	1т,-пр,)\	(13)
<=1	~ I	npi
называемую критерием согласия у2.			критерия (13) при
Если гипотеза Н верна,	то	распределение	критерия (13) при

п—уоо сходится к распределению у2 с / — k — 1 степенями свободы. Чем ближе наблюденное значение критерия (13) к нулю, тем

правдоподобнее	гипотеза	Н. Поэтому	критическую область G
возьмем в виде у2> v, а число v найдем из условия
	^(Х2>	1 — ^(Х2 <	= Р,
где р — заданный	уровень значимости.
Отсюда	Р(х<>) = 1— Р,
	Р(х<>) = 1— Р,
т. е. v есть квантиль х?_р		распределения у2 с l — k — 1 степенями

свободы, отвечающий вероятности 1 — р.

Если наблюденное значение критерия (13) при больших п (по рядка сотен) попадет в критическую область

X > X i -р,

то гипотезу // отклоним, а в противном случае — примем.

Л е к ц и я 5. Р Е Г Р Е С С И О Н Н Ы Й А Н А Л И З

Параболическая регрессия.

Анализ точности параболической регрессии. Корреляционное отношение.

Параболическая регрессия

Зависимость между случайными величинами называется стоха стической^ если с изменением одних величин меняется распределе ние других.

Стохастическую зависимость У от X описывают условным мате матическим ожиданием

V(х) — М \YjX =	х\ = j yf (ylx)dy.	(1)
В механической аналогии распределения, если единичная масса
распределена на плоскости хоу	с плотностью Щх,у), то у(х)	есть

ордината центра тяжести массы, распределенной на прямой Х — х. Дисперсия M [ ( Y — а ) 2] минимальна при и = M\YIX — х].

Поэтому линия (1) дает наплучшее предсказание значения вели

чины У по	заданному значению Х ~ х			и называется линией
регрессии.
Исследование вида линии регрессии (1) называется регрессион
ным анализом.
Пусть для	(X, У) имеем выборку
		(хиУ\|), (л-2, */а).......(хп, уп).			(2)
Линию регрессии (1) приближенно будем искать в виде пара
болы m-го порядка		(т<^п),	которую ради упрощения		вычислений
запишем так:	У =	аоРо(х) +	а1р1(х)+... +	ая, рт (х),
где					(3)
		а0, а и . . . , а т			(4)
— искомые коэффициенты,
а		Po(x),Pi(x),..., рт(х)			(5)
— система ортогональных на множестве точек хи х2, .					. ., хп много-

членов порядка 0, 1,..., т, т. е. система многочленов, удовлетворя ющих условию ортогональности

^ P A xi) Pi (*/) = 0. Ь I. i=1

Такие многочлены называются многочленами Чебышева.

Положим		Л (л-)=1,
Пусть		f , w =	. + р,-
Тогда	из (6) при k =	0, 1 = 1	получим
	'lPl(Xi) = ^ ( * , +					Pi) = 0 .
откуда	i- 1	I	1
откуда
			1		V
		----------			<=1
и для (8)	окончательно найдем		п		<=1
и для (8)	окончательно найдем				1	«
	Pi(x) = х				1	«
	Pi(x) = х			—		У * ,
					a i-i

(6)

(7)

( 8)

(9)

Далее	можно показать,	что	многочлен		ри + 1	(х)	выражается
че[>ез многочлены pk (x), Pk- \ (х)			по рекуррентной формуле
где	Pk+l {х) = (* + fa+\) р к (х) -f у* и р к-\ (х).
где
		2 ■¥>(/)
	Р*+. ------ —--------
			М ( * / )
		//	1= 1
		//		(* )
		V x ^*_,(w		(* )
	T*+i =	1=1_______________
	T*+i =
		k p i - i ( x d
		(= 1
	k = 1, 2 ,.. ., т — 1.
Отсюда	по выборочным	точкам хи х2, ...,			хп из	(2)	в силу (7)

и(9) можно найти все ортогональные многочлены (5).

Коэффициенты (4) найдем по принципу наименьших квадратов:

дисперсия выборочных точек (2) относительно параболы (3) должна быть минимальной, т. е.

1	п	2
		2

D„	-- --------		Z ajPj(xi) — Pi	= min.	( 1 0 )
	m	— 1	«•= 1 ../-О
Сумма (10)	делится	не	на п, а на п — (m -1-1) потому,		что,
выражая коэффициенты		(4)	через выборку (2),	мы на эту выборку

накладываем т + 1 связей.

Если т фиксировано, то в силу (10) коэффициенты (4) найдем, минимизируя функцию

	$т(@о>	«1) • • • 5		®m) —^ 2		Z a j P j M - y t			(П)
					1=1 / - 0
т. е. решая относительно а;-					(/ = 0,	1 ,...,	т )	систему уравнений
ЛС2	п '	«	/	v
л	^ ХЛ	V	/	v	— уi	/M*i) = °,		k = 0,	, т.
л	= 2 2	2. cijPj (*,)			— уi	/M*i) = °,		k = 0,	, т.
пак	<•- 1 /-о
Отсюда в силу		(6) для коэффициентов (4) получим оценки
		i=\1V t P k			( x i>				( 12)
									( 12)
			2 /> 2 W
			i- 1
и параболу приближенной регрессии (3)							запишем в виде
			т	,	2 U l P k ( x i)				(13)
		>’ =	2		,_1		/М*)-		(13)
			А—0 1		2 Pt(xi)
					2 Pt(xi)

/= i

Замечательное свойство метода ортогональных многочленов состоит в том, что оценки (12) не зависят от т. Это позволяет при переходе от многочлена т-й степени к многочлену (т-{-1)-й сте пени находить только ат+1. Коэффициенты же аи, аи ..., ат остаются прежними.

Условие ортогональности (6) позволяет также легко находить сумму квадратов (11) при этом переходе. Действительно, в силу

(11), (6) и (12) найдем

•^m+i (а0,

iii, • • • > «т+ i) — 2

т | 1 ~

2 т + 1

ajPj(xi)— yt

2 « 2/ 2

P ) ( x t) -

i - 17“0

/=0

*i-\

m-f 1

а/

(xi)

2 2

«у 2 y i P j

( X i ) + 2

у /

2 а ) > > ^ ) - 2

«у 2

y , P

I-О

1=1

<-1

/=0

1-1

/=0

(=0

У/2 + « т + 1 2 /»т+1 (* l) —

2 а т +1 2

y t P m + 1 (■*у)—

(«0. «1> •' • 5 «т)

1—1

1-1

£tm+12l Рт+1 (■*-() •

Итак,

1- 1

(14)

•Sm+1 —

5 ^

П т+ 1 2 Р т +

1 (■*-») э

1=1

т.

е. добавление к параболе регрессии (3)

члена

Qm+ 1 /?m+1(я)

уменьшает сумму квадратов типа (11) на

-'о	о
^m+l	Рт+ 1 (-^/)-
	i= 1

Из (14) и (10) видно, что при увеличении т имеем два конкури рующих процесса. С одной стороны, при увеличении т уменьшает ся сумма квадратов (11), так как при этом лучше аппроксимиру ются точки (2), и дисперсия (10) уменьшается. С другой стороны, при увеличении т увеличивается число связей т -\- 1, наклады ваемых на выборку (2) из-за оценок (12), и дисперсия (10) увели чивается.

Оптимальное значение степени /и, т. е. то значение т, для кото рого выполняется условие (10), находят в процессе вычисления

коэффициентов (4), а именно:		т увеличивают на единицу, начиная
обычно	с т = 1, до тех пор,	пока	не станет выполняться нера
венство		1	^тj

точнее, до тех пор, пока выборочная дисперсия (10) перестанет уменьшаться значимо. Дальнейшее увеличение степени гп прекра

щают.

Значимость неравенства Д„ > Dm+1 проверяется по односто

роннему критерию Фишера, согласно которому это неравенство признается значимым, если окажется, что

Dm+1 > / i - p >

где ft - ,, — квантиль распределения Фишера с п — т—1 и п — т—2 степенями свободы;

р — заданный уровень значимости.

Анализ точности параболической регрессии

Пусть генеральная совокупность (X, У) нормальна, а оптималь ная степень т и оценки (12) коэффициентов (4) уже найдены.

Найдем интервальные оценки для коэффициентов (4). Для этого вычислим математические ожидания и дисперсии оценок (12):

м W = ^		------- Ъ Р ^ хдЩУ1\ =
■
1	п	гп
= — --------------	Ъ	Р Л х ^ а 1 Р Л х д = a k\	(15)
М Ю	-	1

<<< < Предыдущая 1 2 34 / 154 5 6 7 8 9 10 11 12 13 14 15 > Следующая >>>

Соседние файлы в папке книги из ГПНТБ