6.4. Интервальное оценивание

Добавил:

korayakov Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Национальный исследовательский университет «МИЭТ»

Предмет:

Теория вероятностей и математическая статистика

Файл:

Литература / книга.pdf

Скачиваний:

148

Добавлен:

17.04.2013

Размер:

1.36 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1516 / 2216 17 18 19 20 21 22 > Следующая >>>

∂

(x −m)2

I (m)

ln f

ln σ2

−

= M

C −

∂m

m,σ

∂m

2σ

(x −m)2

In (m) =

и D[m] =

σ4

σ2

(m)

Следовательно, оценка x абсолютно эффективна. Как показывают

подробные выкладки, для оценки S 2 имеет место только асимптотическая эффективность.

Пример 10. Для оценки S 2 из предыдущего примера вычислить информацию по Фишеру In (σ2 ), содержащуюся в выборке.

Для решения использовать замечание 2. Ответ:

	2		n	9		2
In (σ		) =			−
			4	µ4		µ2	+1 .

; крометого, всилусостоятельностиоценки S22 имеем

Основные распределения, используемые в статистике

Приведем несколько важных распределений, используемых в статистике, которыестроятсякакфункцииотнормальных случайных величин.

1. Распределение хи-квадрат (обозначается χ2(n), n - число сте-

пеней свободы).

Теорема 6.3. (Пирсона). Пусть Z1, Z2,…,Zn таковы, что Zk ~ N(0,1),

k и независимы в совокупности Yn = ∑Zk2 ~ χ2(n) , т.е. распреде-

k =1

лению хи-квадрат с n степенями свободы. Плотность этого распределения имеет вид:

0, y ≤

−1

−

y 2

2 , y > 0.

(6.9)

fY ( y) =

104

fYn ( y )

n=1

n=3

n=2

n=4

					dX -мода		y
				Рис.6.2.
	Замечание. Г(λ) = ∫∞tλ−1e−t dt -					гамма-функция.	Частные значе-
		0
ния:	Г(n) = (n – 1)!;	Г(1) = 1;		1	=	π.
ния:	Г(n) = (n – 1)!;	Г(1) = 1;	Г	2	=	π.
				2

Подробное доказательство приводится, например, в [5]. На рис.6.2 изображено семейство кривых функции плотности хи-

квадрат для различных значений n.

Заметим, что при n = 1 Y1 = Z12 , где Z1 ~ N(0,1) Y1 = χ2(1), плотность этого распределения найдена в примере 10 главы 4 и имеет вид

	0, y ≤		0;
				y
fY	( y) =	1	−
fY	( y) =	1	−	2 , y > 0,
1		2πy	e	2 , y > 0,
		2πy

что совпадает с формулой, полученной из (6.9) при n = 1. Заметим, что функция плотности имеет особенность в начале координат.

При n = 2, как следует из (6.9), получаем знакомое распределение

	1		2				1
Ex		. Таким образом, Y2	~ χ	(2)	≡	Ex		. Плотность этого распреде-
Ex	2	. Таким образом, Y2	~ χ	(2)	≡	Ex	2	. Плотность этого распреде-
	2						2

ления монотонно убывает на положительной полуоси.

105

При n ≥ 3 у распределения хи-квадрат появляется максимум ("горб") при y = n – 2 (n – 2 - мода распределения хи-квадрат).

Пример11. ПустьYn ~ χ2(n). Найтиеехарактеристическую функцию. Представим Yn следующим образом:

Yn = ∑Zk2 , где Zk ~ N(0,1) и Z1, Z2,…, Zn независимы в совокупности.

k =1

Найдем сначала характеристическую функцию отдельного слагаемого:

itZ 2

+∞

itz 2

−

z 2

+∞

−(z 1−2it )2

EZk2

(t) = M e

2π

∫−∞ e

2 dz =

2π

∫−∞ e

dz =

+∞ −

u 2

−

1− 2it

2π ∫−∞ e

2 du =

(1 −

2it)

2 .

По свойству 3) характеристической функции, имеем:

EYn (t) = ∏EZk2 (t) = (1 − 2it)−

k =1

Пример 12. Пусть Yn ~ χ2(n). Вычислить M[Yn] и D[Yn]. Используем свойство 4) характеристической функции:

−

−1 M [Y

]= α = n.

(0) = iα

(t) = 2i

(1 − 2it)

Для второго начального момента получаем:

n +2

E''Y (0) = i2α2 E''Y (t) = in (2i)

−2it)−

−2 α2

= n(n +2)

D[Yn] = α2 – M2[Yn] = n(n + 2) – n2 = 2n.

Важнейшие свойства распределения хи-квадрат.

1) распределение асимптотически нормально. При n → ∞ "горб" "убегает" в бесконечность (см. рис.6.2). Чтобы его вернуть к началу координат, нужно провести стандартизацию:

Yn − n	~ N (0,1);
2n	n>>1

106

2) χ2(n) композиционно устойчиво, при этом Yn + Ym ~ χ2(n + m), где

Yn, Ym - независимые случайные величины, распределенные по законам

χ2(n) и χ2(m) соответственно.

2. Распределение Стьюдента (обозначается St(n), n - число

степеней свободы).

fWn(w)

n = 2

n = 1

Рис.6.3.

Теорема 6.4. (Стьюдента). Пусть Wn

n , где U ~

N(0,1),

Yn ~ χ2(n) и U и Yn - независисмы.

n +1

−(n+1)

ТогдаWn~St(n), f

(w) =

, −∞< w < +∞.

Доказательство можно найти в [5].

Нарис.6.3 приведеныкривые Стьюдентаприразличныхзначенияхn.

Свойства распределения Стьюдента:

при

n =

получаем

распределение

Коши с

плотностью

(w) =

, w R ;

+ w2

2) математическоеожиданиесуществуетприn ≥ 2 иравноM[Wn] = 0;

3) дисперсия существует только при n > 2 и равна D[W ]=

;

−2

4) St(n) асимптотически нормально (при этом

lim D[Wn ] =1 ).

n→∞

107

Основные статистики, связанные с выборочными средним и дисперсией, и их законы распределения

Напомним выражения для основных выборочных моментов:

				n		∑
	x =			1			n		xk ;	(6.10)
	x =					k =1			xk ;	(6.10)
						k =1
S 2 =		1		n			(x		− m)2;	(6.11)
1		n	∑					k
			k =1
S22 =		1				n		(xk − x)2.		(6.12)
		1
	n −1 ∑
					k =1

Пусть генеральная случайная величина Х нормально распределена: Х~ N (m,σ2 ) и взята выборка из этого распределения.

Теорема 6.5. Статистика U =	x − m	~ N(0,1).
	σ/ n

Согласно (6.10) x - линейная функция от выборки, U - линейное преобразование - стандартизация результат.

n S 2

Теорема 6.6. Статистика V =

~ χ2

(n) .

σ2

Преобразуем, используя (6.11):

n 1

− m

V1 =

∑(xk − m)2 =

∑

= ∑Zk2.

σ2

k =1

Ясно, чтоZ

~ N(0,1) по теореме Пирсона V ~ χ2

(n).

Теорема 6.7. (Фишера). Статистика V =

(n −1) S22

~ χ2 (n −1).

σ2

Согласно (6.12)

V2 = ∑n xk σ− x 2. k =1

108

Если обозначить Zk = xkσ− x , то очевидно, что Zk – нормальная СВ с

нулевым математическим ожиданием для любого k. Преобразуем V2 :

(n −1)

V2 =

см. преобразование

(n −1)

впримере2

∑(xk − m)

− (x − m)

∑(xk − m)

(x − m)

−

σ2

k =1

− m

(x − m)2

−

σ2

∑

k =1 14243

14243

U 2

(x − т)

(x − m)

x − m

=V −U 2.

σ2

σ2 /( n )2

σ/

Уравнение (6.13) перепишем в виде:

V =V +U 2.

Ранее было доказано, что

V ~ χ2 (n) , U 2 ~ χ2 (1) . Перейдем

(6.13)

(6.14)

от слу-

чайных переменных x1, x2,…, xn к переменным y1, y2,…, yn с помощью некоторого ортогонального преобразования. Коэффициенты этого преобразования подберем таким образом, чтобы новые переменные оказались попарно некоррелированы (эта задача всегда разрешима: подробности можно найти в [5]). В силу свойства n-мерного нормального распределения (из некоррелированности независимость) следует, что новые переменные y1, y2,…, yn независимы в совокупности. При этом оказывается, что случайные величины V2 и U выражаются через различные группы переменных из множества {y1, y2,…, yn} и поэтому независимы. Кроме того, ортогональное преобразование обеспечивает инвариантность квадратичной формы.

Таким образом, в уравнении (6.14) складываются два независимых распределения хи-квадрат:

V2~χ 2(k), где k - пока неизвестно; U2~χ2(1) - по доказанному ранее (пример 10 гл. 4).

109

В силу композиционной устойчивости хи-квадрат (см. свойство 2), получаем:

n = k + 1 k = n – 1 V2 ~χ2(n – 1).

Теорема 6.8. Статистика			x − m
		W =	x − m	~ St(n – 1).
Преобразуем W:		S2 / n
Преобразуем W:
		σ =	x − m	σ	2	(n −1)	=U	n −1,
W =	x − m	σ =	x − m	σ		(n −1)	=U	n −1,
	σ/ n	S2	σ/ n	S22 (n −1)				V2

где U и V2 определены в теореме 6.7, независимы по теореме Стью-

дента W ~ St(n – 1).

Понятиедоверительного интервала и методика его построения

Пусть θ - неизвестная характеристика генерального, θ - ее оценка

по выборке; |θ – θ | - абсолютная ошибка при оценивании. При этом

если бы для любой выборки выполнялось неравенство θ − θ < δ , то

величину δ можно было бы назвать точностью оценки. В статистике δ найти невозможно, но ту или иную точность можно получить с определенной вероятностью. Зададимся какой-либо вероятностью β и решим

уравнение P{θ − θ < δ}= β.

Если закон распределения случайной величины θ− θ известен, то искомое δ можновычислитьчерезквантилиданногораспределения и β .

Определение. Квантилью порядка р для заданного распределения случайной величины Х называется действительное число tp, удовлетворяющее уравнению

p = P{X < tp} = FX(tp).

(6.15)

Отсюда, в частности, следует, что медиана распределения есть квантиль порядка 1/2. С понятием квантили тесно связано понятие "критическая точка".

Определение. Критической точкой порядка р для данного распре-

деления случайной величины Х называется действительное число κp , удовлетворяющее уравнению:

110

p = P{X ≥ κp } = 1 – FX( κp ).

Следствиеизопределения. Очевидно, чтоимеютместосоотношения:

t p = κ1− p или κp = t1− p .

Замечание. Для основных распределений, используемых в статистике, имеютсяподробныетаблицыквантилейи(или) критических точек.

Пример 13. Пусть Х ~ N(m, σ2 ), причем σ2 известно, m - неизвестный параметр распределения, x - его оценка по выборке. Зададим достаточно большое β {0,95; 0,975; 0,99} и найдем δ из уравнения

P{| x − m |< δ} = β.

Поскольку x - линейное преобразование выборочных значений, независимых в совокупности, то x распределено нормально с парамет-

рами M[ x ] = m, D[ x ]

σ2

. Отсюда следует, что x ~ N (m,

σ2

)

x −m

– 1= β получим уравнение

< δ} = 2 Ф

1+β

откуда, согласно определению (6.15.), следует:

δσn = u 1+β ,

где символом up будем в дальнейшем обозначать квантили порядка р из

нормального распределения N(0,1). Таким образом, δ = σ u						1+β	, зада-
					n	1+β
ча решена.					n	2
						2

Раскроем неравенство −δ < x − m < δ:
x −	σ	u1+β < m < x +	σ	u1+β.			(6.16)
	n		n
	n	2	n	2
		2		2

Получен так называемый доверительный интервал для математического ожидания.

111

Говорят: "Полученный интервал с гарантированной вероятностью β накрывает неизвестное значение математического ожидания". Длина

этого интервала - неслучайная величина, удовлетворяющая условию

l = 2σ u1+β → 0 при n → ∞.
n	2

Формально всю проблему можно свести к работе с известной статистикой U. Действительно:

P{ x − m < δ} = β.

Делим на σ/ n обе части неравенства под знаком Р:

			δ
x − m		<	δ		= β
P		<			= β
	σ/ n		σ/
	σ/ n		σ/	n

β = 2Φ σδn −1 .

	δ		= β и так как U ~ N(0,1)
P U <			= β и так как U ~ N(0,1)
	σ	n

Далее действуем, как в примере 18.

Замечание. Пусть генеральная величина Х распределена по произвольному закону, причем M[X 2]. Тогда, поскольку для выборочного вектора (x1,x2,…,xn) выполнены все условия центральной предельной теоремы, при достаточно большом объеме выборки (n >> 1) можем ут-

верждать, что U ~ N (0,1) построенный в этом случае доверитель-

n>>1

ный интервал (6.16) будет достаточно близок к истинному и без условия, что X ~ N(m,σ2 ) . Из сказанного следует, что для построения до-

верительного интервала нужна подходящая статистика. Перейдем к более строгим определениям.

Определение 1. Статистика Z (θ, θ) называется подходящей для

построения доверительного интервала для неизвестного параметра θ,

если выполнены два условия:

1) закон распределения Z известен и не зависит от θ;

2) Z (θ, θ) как функция от θ непрерывна и строго монотонна.

Определение 2. Пусть Z (θ, θ) - подходящая статистика, Θ1(θ) и

Θ2 (θ) - две функции, вычисленные по статистике Z и такие, что:

1)Θ1(θ) < Θ2 (θ) для любой выборки;

112

2)		~		~						fZ(z) - плотность
2)	P{Θ1(θ) < Θ < Θ2 (θ)}= β;									fZ(z) - плотность
3)	интервал			~		~	1	β		1	β
3)	интервал		(Θ1(θ),Θ			2 (θ)) -	1	β		1	β
наименьшей		длины	для		данного			2		β	2
распределения		статистики Z; тогда								β
распределения		статистики Z; тогда
		~	~	называется
интервал (Θ1(θ),Θ2 (θ))				называется
доверительным интервалом с веро-											z
ятностью β накрывающим неиз-											z
ятностью β накрывающим неиз-
вестный параметр Θ.										Рис.6.4.
Рассмотрим два типа распреде-									fZ(z)
ления статистики Z.									fZ(z)
I.	Распределение симметрично						1	β		1	β
относительно		начала		координат			1	β		1	β
(нормальное и стьюдентово распре-								2		β	2
деления). Эскиз такой плотности
приведен на рис.6.4.									z1	z2	z
Выберем		симметричный				отно-			z1	z2	z
Выберем		симметричный				отно-
сительно Z = 0 интервал, такой, что										Рис.6.5.
площадь под графиком плотности на этом интервале равна β, т.е.

Учитывая, что Z (θ, θ)


	Z			= β.
P	Z	< t1+β		= β.


			2

строго монотонно зависит от θ, можно

разрешить неравенство Z < t1+β относительно θ получаем ис-

комый доверительный интервал.

II. Распределение несимметричного типа (хи-квадрат, Фише-

ра). График подобной плотности приведен на рис.6.5.

Выбираем интервал вблизи "горба" таким образом, чтобы выполнялось условие:

P{Z < z1} = P{Z > z2} =	1−β	z = t	1−β	; z	2	= t	1+β	-

	2	1
			2				2

квантили из распределения статистики Z P{z1 < Z < z2} = β .

113

Пример 14. Пусть X ~ N(m,σ2), m и σ2 неизвестны. Построить доверительный интервал для m.

Статистику U использовать нельзя, так как σ неизвестно воспользуемся статистикой W:

W = x −m ~ St(n – 1). S2 / n

Так как статистика W отличается от U только законом распределения и наличием в знаменателе оценки S2 вместо точного значения σ , то доверительный интервал в этом случае получается в результате формальных замен в формуле (6.16).

Квантиль u1+β заменяем на квантиль t1+β из распределения St(n – 1)

и σ заменяем на S2. Получаем следующее неравенство, определяющее

доверительный интервал:

x −

S2 t

1+β

< m < x + S2 t

1+β

Длина интервала, в отличие от предыдущего, становится случай-

ной величиной:

2S2 t

L =

1+β

(6.17)

Возникает вопрос: как

ведет себя длина интервала при n → ∞ ? Возве-

дем (6.17) в квадрат:

4S22

1+β .

Поскольку распределение Стьюдента асимптотически нормально, то

поэтому можно утверждать, что L2 →0.

n→∞

Пример 15. Построить доверительный интервал для σ2 (m неизвестно).

Подходящей статистикой является V2,

114

V = (n −1) S22

~ χ2 (n −1).

σ2

V2(σ )

Имеем второй тип распределения.

Для минимизации длины интервала

выбираем точки v1 и v2 следующим

образом:

= t

- квантильизχ2

(n −1) порядка

−β

;

1−β

2 (n 1)S22

(n 1)S22 σ2

1 +β

v2 = t1+β

- квантиль изχ

(n −1) порядка

Рис.6.6.

Отсюда следует:

(6.18)

(n −1) S

2 < v

= β.

P v

σ2

Так как статистика V2 - монотонно убывающая функция от

σ2

(рис.6.6),

то, решая неравенство v <

(n −1) S22

< v

относительно

σ2 ,

σ2

получим:

(n −1) S22

< σ2 < (n −1) S22

(6.19)

Неравенство (6.19) определяет искомый доверительный интервал (точки

v1 и v2 определяются формулами (6.18)).

Пример 16. Установить зависимость длины доверительного интер-

вала от объема выборки при n >> 1.

Воспользуемся

свойством

асимптотической

нормальности

распределения хи-квадарат:

V2 − (n −1)	~ N (0,1).
2(n −1)	n>>1

Используя это свойство, выразим квантиль tp из распределения χ2 (n – 1) через нормальную квантиль up. По определению квантили

115

−(n −1)

t p −

(n −1)

t p −(n −1)

p = P{V

< t

} = P

2(n −1)

tp = (n −1) + u p

2(n −1).

(6.20)

Формула (6.20) обычно используется при таких значениях n >> 1, которые отсутствуют в таблице (n > 100). Обычно уже при n > 30 формула (6.20) дает относительную ошибку не более 2%.

С помощью (6.20) выразим значения v1 и v2, входящие в выражения доверительного интервала (6.19):

v =		t1−β	= (n −1)	+ u	1−β		2(n −1);
v =			= (n −1)	+ u			2(n −1);
1	2					(6.21)
	2				2
	= t1+β				2
v2	= t1+β		= (n −1) + u1+β 2(n −1).
	2
	2				2
					2

Далее, как следует из (6.19), длина доверительного интервала:

		2		1			1		подставляя(6.21)
L = (n −	1)S	2				−			=					=
L = (n −	1)S					−	v		=					=
			v				v	2	ипреобразуя
					1			2
2			2									1
2			2									1
= S2						u1+β −u1−β
= S2		n −1				u1+β −u1−β					+ о	n −1	.

							2
							2			2
Учитывая свойства оценки S22									по аналогии с примером 14, можно

утверждать, что L →0.

n→∞

Замечание 1. Если математическое ожидание известно, то вместо статистики V2 следует воспользоваться статистикой V1:

V1 = nσ2S1 ~ χ2 (n),

где S1 определяется формулой (6.11), и в формуле (6.19) сделать замену: n −1 n, S22 S12.

Замечание 2. Чтобы получить доверительный интервал для σ, а не σ2 в условиях примера 15, достаточно извлечь корень из неравенства

(6.19)	n −1 S2 < σ <	n −1 S2 .
	v2	v1

116

Возможность такого простого решения мотивируется законом сохранения вероятностей для монотонных статистик: в силу того, что

функция y = v - монотонно возрастающая, получаем P{v1 <V2 < v2} =

= P{ v1 < V2 < v2 }.

Пример 17. Пусть Х ~ B(1, p). Построить доверительный интервал для р.

Наилучшей оценкой для р является относительная частота p* = mn . Подходящей статистикой для построения доверительного ин-

тервала является статистика	Z =		p* − p			. Рассмотрим случай npq >> 1.
тервала является статистика	Z =				pq	. Рассмотрим случай npq >> 1.
					pq
					n
		m		− p = m −np ~ N (0,1) в силу инте-
Преобразуя Z, получим Z (P) =		n		− p = m −np ~ N (0,1) в силу инте-
				pq		npq n>>1

гральной теоремы Муавра-Лапласа.

Таким образом, свойство 1) подходящей статистики выполнено. Проверим монотонную зависимость от p. Для этого вычислим

производную Z'(p) и исследуем ее знак:

Z '( p) = ... = − p(1− p) + p(1− p)	< 0 Z(p) монотонно убывает для
2( p(n −1))3 / 2

p (0,1).

Поскольку закон распределения статистики Z относится к первому типу, товыбираеминтервал, симметричныйотносительноначалакоординат:


		Z				= β ;
	p	Z		< u1+β		= β ;


					2
	p* − p		< u1+β			p( p −1) .
	p* − p		< u1+β			p( p −1) .
						n
				2		n
				2
Возведем в квадрат:

117

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1516 / 2216 17 18 19 20 21 22 > Следующая >>>

Соседние файлы в папке Литература

#
17.04.20131.36 Mб148книга.pdf
#
17.04.201321.9 Mб413Феллер_теория вероятностей_I.pdf
#
17.04.201333.75 Mб370Феллер_теория вероятностей_II.pdf