Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Tom_2

.pdf
Скачиваний:
59
Добавлен:
18.02.2016
Размер:
3.2 Mб
Скачать

Покажем, что оценка a= x удовлетворяет указанным выше условиям.

Прежде всего подчеркнем, что можно рассматривать величину x как случайную, а результаты выборки x1, x2 ,..., xn как n независимых

случайных величин, каждая из которых распределена по тому же закону, что и генеральная случайная величина. Поскольку они одинаково распределены, то имеют одинаковые числовые характеристики.

П

о

 

э

 

 

т

 

о

м

 

у

 

æ x + x

+ ... + x

ö

 

M (x ) + M (x ) + ... + M (x )

 

na

 

 

M (x) = M ç

 

1 2

n

÷

=

1

2

n

=

 

= a . (3)

 

 

 

n

 

n

 

n

 

è

 

 

ø

 

 

 

 

 

Это означает, что оценка a= x является несмещенной. Состоятельность этой оценки следует из того, что на основании

закона больших чисел среднее арифметическое независимых одинаково распределенных случайных величин, имеющих ограниченную дисперсию, сходится по вероятности к их математическому ожиданию. Можно показать также, что оценка a= x имеет минимальную дисперсию и, следовательно, является эффективной.

Теперь обратимся к дисперсии. Пусть σ 2 – дисперсия генеральной совокупности. Ее оценкой является выборочная дисперсия

 

 

 

1

 

n

 

 

 

 

 

 

 

 

σ€2 =

 

å(xk - x )2 .

 

 

 

 

 

 

 

 

 

 

 

 

 

n k=1

 

 

 

 

 

 

 

Величину σ€2 также можно рассматривать как случайную,

причем

Mx1 = Mx2

= ... = Mxn = a,

 

 

 

(4)

Dx = Dx

= ... = Dx

 

= σ 2.

 

 

 

n

 

 

 

 

1

 

 

2

 

 

 

 

 

 

 

 

 

Проверим оценку σ€2 на несмещенность. Как известно (10.7.30),

 

 

 

2

 

n -1

 

2

 

 

 

 

 

 

 

Mσ€

=

 

σ

 

.

 

 

 

(5)

 

 

n

 

 

 

 

Отсюда следует,

что

оценка

σ€2 имеет систематическое

æ

-

σ 2

ö

 

. Правда,

при

æ

-

σ 2 ö

® 0 и

смещение на величину ç

n

÷

 

n → ∞ ç

÷

è

 

ø

 

 

 

 

 

 

è

 

n ø

 

рассматриваемая оценка является асимптотически несмещенной. Однако, на ее основании легко построить несмещенную оценку.

Для этого нужно рассмотреть следующую оценку:

444

 

n

 

1

n

s2 =

σ€2 =

å(xk - x )2 .

n -1

 

 

 

n -1k=1

Ее называют исправленной статистической дисперсией выборки.

Нетрудно проверить, используя (5), что

Ms2 = σ 2 .

Можно также показать, что эта оценка является состоятельной.

30. Метод максимального правдоподобия. Для применения этого метода нахождения оценки неизвестного параметра α сначала составляют функцию правдоподобия. Допустим, что X – исследуемая случайная величина, закон распределения которой известен с точностью до некоторого параметра α. При проведении n независимых опытов получаем n-мерную случайную величину Y = (x1;...; xn ) , где xi – значение случайной величины X, принятое ею в i опыте. Проведем n независимых опытов и получим выборку (a1,..., an ) . Если X – дискретная случайная величина, то вероятность полученной выборки равна произведению вероятностей P(X = a1,α ) ×...× P(X = an ,α ) , а если X – непрерывная случайная величина с плотностью f (x,α) , то значение плотности n-мерной случайной величины Y = (x1;...; xn ) в

точке

y = (a1;...;an )

равно

произведению

плотностей

f (a1)×K× f (an ) .

Функция

L(a1,K,an ,a) ,

равная

произведению вероятностей или плотностей (последнее зависит от того, дискретная случайная величина или нет), называется функцией правдоподобия.

Значение α0 параметра α, при котором функция правдоподобия достигает своего максимума, и есть оценка настоящего значения параметра α.

Пример 1. Пусть X – случайная величина с двумя возможными значениями: единица с вероятностью p и нуль с вероятностью (1 – p). Покажем, что ее выборочное среднее по серии опытов есть оценка p по методу максимального правдоподобия.

Решение. Пусть в n опытах получены значения (a1,..., an ) , из них k единиц. Функцию правдоподобия получаем по формуле

Бернулли: L(a ,K,a , p) = Ck pk (1- p)nk . Для нахождения ее

1

n

n

максимума продифференцируем ее по p (считая a1,...,an константами) и приравняем производную к нулю. Получим

445

kpk−1 (1- p)nk - (n - k ) pk (1- p)nk−1 = 0 ,

откуда k (1- p) - (n - k ) p = 0 и, значит, p = kn . Но kn и есть выборочное среднее по серии проведенных опытов.

Отсюда следует, что относительная частота наступления события в серии опытов есть оценка вероятности этого события по

методу максимального правдоподобия.

40. Интервальные оценки. Как было отмечено выше, оценка θявляется приближенным значением параметра θ. Тогда возникает вопрос: в каких пределах находится истинное значение θ, т.е. ставится вопрос

онахождении интервала (θ12 ) , которому принадлежит θ.

Естественно, что такой интервал также находится не точно, а с определенной вероятностью, желательно как можно близкой к единице.

Доверительным интервалом для параметра θ называется интервал (θ12 ) , содержащий истинное значение параметра с

заданной

вероятностью γ = 1−α ,

т.е. P(θ1 < θ < θ2 ) = γ . Число

γ = 1−α

называется доверительной

вероятностью, а значение α –

уровнем значимости. На практике обычно используют следующие значения уровня значимости: 0,1; 0,05; 0,01.

Построим доверительный интервал для математического ожидания в случае нормально распределенной генеральной с о в о к у п н о с т и .

Величину математического ожидания a будем оценивать известным образом:

a x .

Исследуем точность этого приближенного равенства, т.е. укажем доверительный интервал, в котором практически достоверно лежит неизвестное число a. Воспользуемся формулой

 

 

 

 

 

 

 

 

 

ε

 

n

σ

 

x2

æ

ε

 

ö

 

 

 

P{

 

 

 

< ε} =

 

1

 

e

n

 

 

 

x - a

 

 

ò

 

 

2 dx = 2

÷

,

(6)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ç

σ

 

÷

 

 

 

 

 

 

 

 

 

 

−ε

 

 

 

 

 

è

 

ø

 

 

 

 

 

 

 

x

 

 

 

 

n σ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где F(x) =

 

 

òet

2 dt – стандартная функция Лапласа (табл. П2).

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Пусть задан α – уровень значимости, а следовательно, и γ – доверительная вероятность. Тогда найдем корень уравнения

446

2F(t ) = γ = 1-α .

 

(7)

Обозначим его через tα . Теперь легко найти соответствующее

значение ε:

 

и ε = σ tα

 

 

t = ε

 

 

 

 

n

σ

 

.

n

α

 

 

Таким образом, для данного ε будем иметь

P{ x - a < ε} = γ .

Значит, доверительный интервал для параметра a, соответствующий уровню значимости α, задается неравенством

или

 

 

x - a

 

< ε

 

 

 

 

 

σtα

< a < x + σtα

 

 

x -

.

(8)

 

 

n

 

 

 

n

 

 

Согласно центральной предельной теореме, при больших n

распределение x близко

к

нормальному.

Поэтому оценку (8)

применяют и когда закон распределения генеральной совокупности неизвестен или отличен от нормального. Если число σ 2 неизвестно,

то его заменяют приближенным значением s2 (исправленной выборочной дисперсией), тогда

 

 

1

n

 

 

σ » s =

å(xk - x )2 .

(9)

 

 

 

n -1k=1

 

Отметим, что в следующем параграфе будет изложен более эффективный алгоритм оценки математического ожидания нормально распределенной случайной величины X с неизвестной дисперсией.

50. Предельная ошибка и необходимый объем выборки. Как и раньше, будем рассматривать выборку

(x1, x2 ,..., xn )

как n независимых случайных одинаково распределенных величин. Тогда, как известно, Mx = a .

Найдем также Dx :

æ

1

n

 

ö

 

1

n

 

 

1

n

 

= σ

2

 

Dx = Dç

 

x

÷

=

å

Dx

=

å

σ 2

.

(10)

 

 

 

2

 

2

ç

 

å k ÷

 

n

k

 

n

 

n

 

è n k=1

 

ø

 

 

k=1

 

 

 

k=1

 

Таким образом, дисперсия выборочной средней в n раз меньше дисперсии генеральной совокупности.

Средней ошибкой выборки называют величину

447

μ =

 

=

σ

.

(11)

Dx

 

 

 

 

 

 

n

 

Предельной ошибкой выборки называют наибольшее отклонение выборочной средней от математического ожидания a, которое возможно с данной доверительной вероятностью γ. Обычно за предельную ошибку выборки принимают величину

D = μtα ,

где μ – средняя ошибка выборки, tα – корень уравнения (7).

равенство можно записать в виде (см. формулу (11))

D = σtnα .

Отсюда легко находим, что

n = æσ tα ö2 . çè D ÷ø

(12)

Последнее

(13)

Таким образом, получена формула для определения необходимого объема повторной выборки.

В формуле (13) величины tα и D известны. Величина σ неизвестна,

иее, как и в оценке (8), заменяют приближенным значением (см. (9)). Формула (13) применяется и в случае бесповторной выборки

при условии, что μ вычисляется по формуле

 

 

σ

 

 

 

 

 

 

 

μ =

 

1-

n

,

(14)

 

 

 

N

 

n

 

 

 

 

 

 

 

 

где n и N – соответственно объемы выборки и генеральной совокупности. Следовательно, предельная ошибка для бесповторной выборки будет вычисляться по формуле

D =

 

σ tα

 

 

1-

n

 

.

 

 

 

 

 

 

 

 

 

n

 

 

 

N

 

Решая это уравнение относительно n, найдем

 

 

 

 

Nσ 2t2

 

n =

 

 

 

 

 

α

 

 

.

(15)

ND2 +σ 2t2

 

 

 

 

 

 

 

α

 

В этой формуле параметр σ 2 также заменяют исправленной выборочной дисперсией.

Пример 2. Из 2000 деталей было отобрано 400, распределение которых дается в табл. 1.

Таблица 1

Размер

7,95 –

8,00 –

8,05 –

8,10 –

8,15 –

8,20 –

448

детали, мм

8,00

8,05

8,10

8,15

8,20

8,25

Количество

12

28

132

150

62

16

деталей

 

 

 

 

 

 

Найти среднюю ошибку выборки при определении параметра a в случае повторной и бесповторной выборки.

Решение. По условию задачи полагаем n = 400, N = 2000. Вместо интервалов будем рассматривать их средние значения:

x1 = 7,975, x2 = 8,025, x3 = 8,075, x4 = 8,125, x5 = 8,175, x6 = 8,225.

Далее будем использовать формулы (11) и (14), заменив

неизвестную величину σ 2

исправленной выборочной дисперсией s2

(см. (9)). Найдем вначале x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x =

 

1

(12×7,975 + 28×8,025 +132 ×8,075 +150 ×8,125 +

 

 

 

 

400

 

 

 

 

 

 

 

 

+62 ×8,175 +16×8,225) @ 8,11.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Теперь получим s:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(12×(0,135)2 + 28×(0,085)2 +132 ×(0,035)2 +

 

 

1

 

n

 

 

 

 

 

 

 

 

1

 

 

s =

 

å(xk - x )2 = êé

 

 

 

 

 

 

 

 

 

n -1 k =1

 

 

 

 

ë399

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

+150 ×(0,015)2 + 62 ×(0,065)2 +16×(0,115)2 )úù

 

@ 0,052 .

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

û

 

 

 

 

В результате будем иметь:

 

 

 

 

 

 

 

 

 

 

а) для повторной выборки

 

 

0,052

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

μ @

 

= 0,0026;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

400

 

 

 

 

б) для бесповторной выборки

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,052

 

 

 

 

 

 

0,052

×

2

=

0,0052

@ 0,0023.

 

 

 

μ @

1-

400

 

=

 

 

 

 

 

 

 

 

20

 

 

 

 

 

 

 

 

 

 

 

 

 

400

 

2000

 

 

 

 

 

5

5

 

 

 

 

Пример 3. Из генеральной совокупности с известным стандартным отклонением σ = 0,72 извлечена выборка объемом n = 12 (см. табл. 2).

Таблица 2

xi

– 0,5

– 0,4

– 0,2

0

0,2

0,6

0,8

1

1,2

1,5

mi

1

2

1

1

1

1

1

1

2

1

Найти доверительный интервал для математического ожидания нормально распределенной генеральной совокупности, если доверительная вероятность γ = 0,95.

449

Решение. Воспользуемся формулой (8). Так же, как и в предыдущем примере, найдем значение x :

x ≈ 0,417 .

Теперь найдем корень уравнения (см. (7)) 2F(t) = 0,95 ,

обратившись к табл. П2 приложения. Получим tα = 1,96 . Следовательно, доверительный интервал будет таким:

æ

0,417

-

0,72

×1,96; 0,417

+

0,72

×1,96

ö

ç

 

 

 

 

 

 

÷

 

 

 

 

 

 

è

 

 

12

 

 

 

12

 

 

ø

или (0,01; 0,82).

Смысл полученного результата состоит в следующем: если будет произведено достаточно большое число выборок данного объема, то в 95 % из них найденный доверительный интервал накроет математическое ожидание и только в 5 % случаев оцениваемое математическое ожидание может выйти за границы доверительного

и н т е р в а л а . Пример 4. Определить объем повторной и бесповторной выборок для определения средней продолжительности горения лампочек в партии

из 5000 лампочек, чтобы с вероятностью 0,99 предельная ошибка выборки не превосходила 25 часов. Дисперсия оказалась равной

2

2

 

 

 

5

 

 

0

0

.

 

Решение. Здесь воспользуемся формулами (13) и (15).

Очевидно, имеем

σ = 150,

 

= 25,

γ = 0,99 .

 

 

 

 

 

 

 

 

С помощью таблиц находим tα ,

α = 1- γ = 0,01:

 

 

 

 

 

tα = 2,58 .

 

 

 

 

 

Следовательно, необходимый объем выборки в случае

повторной выборки

 

 

 

 

 

 

 

 

 

 

 

æ150× 2,58

ö

2

 

2

 

 

 

 

n =

ç

 

÷

= (6 × 2,58)

 

@ 240 ,

 

 

 

 

 

 

 

 

 

è 25

ø

 

 

 

 

 

 

а в случае бесповторной выборки

 

5000 ×(150 × 2,58)2

n =

5000×(25)2 + (150× 2,58)2 @ 229 .

§ 4. Некоторые замечательные статистические распределения

450

Наряду с нормальным распределением, которое занимает центральное место в теории и практике вероятностно-статистических исследований, в математической статистике нужны и некоторые другие важные распределения, которые используются для построения разного рода статистических оценок и в других целях. К таким распределениям относятся в первую очередь распределения «хи-квадрат»

( χ 2 ), Стьюдента и Фишера. Далее приведем подробные характеристики и таблицы таких распределений (см. табл. П3–П5).

10. Распределение «хи-квадрат» (χ 2). Случайная величина χ 2

используется при интервальном оценивании параметров распределений, при статистической проверке гипотез и т.д.

Пусть X1, X2 ,..., Xn – последовательность независимых случайных величин и Xi Î N (0,1) , i = 1,2,...,n . Тогда плотность распределения случайной величины

χn2

определяется так:

fχn2 (

= X12 + X22 +K + Xn2

ì0,

 

x < 0;

 

ï

x

 

n

−1

 

ï

 

 

 

 

 

x) = íe

 

2

× x2

 

 

, x ³ 0,

(1)

ï

 

n

æ n

ö

 

 

 

 

ï

 

2

 

 

 

ï

2

 

 

 

 

 

÷

 

 

î

 

 

 

 

è 2

ø

 

 

где Г

æ n

ö

гамма-функция от аргумента

n

. Если

n

– целое число,

ç

÷

2

2

 

è 2

ø

 

 

 

 

æ n ö

 

æ n

ö

 

 

 

 

то Гç

÷

= ç

÷!.

 

 

 

 

è

2 ø

 

è 2

ø

 

 

 

 

Распределение χn2 полностью определяется величиной n,

называемой числом степеней свободы.

Если на величины X1, X2 ,..., Xn наложено k < n связей, то число степеней свободы уменьшается на k. Например, если известно, что X1 + X2 + ... + Xn = β , то число степеней свободы случайной

величины χ 2 равно n – 1.

Приведем числовые характеристики случайной величины χn2 :

451

 

 

 

2

2

 

1. M (χ 2 ) = n ;

2. D(χ 2 ) = 2n ;

3. Асимметрия ε =

3

;

 

 

n

n

1

 

n

 

4. Эксцесс ε = 12 .

 

 

 

 

 

 

 

 

 

n

при x > 0 монотонно убывает, если n ≤ 2 , а при

Функция fχn2 (x)

n > 2 имеет единственный максимум. В табл. П4 для различных значений

вероятности α и числа степеней свободы k приведены значения

χкр2 ,

являющиеся решениями уравнения

 

P(χk2 > χкр2

) = ò fχk2 (x)dx = α .

(2)

 

χкр2

 

Величину χкр2 называют критической точкой, а вероятность α –

уровнем значимости.

распределения χ 2 является

 

Важным свойством

его

воспроизводимость по параметру. Это означает, что сумма k независимых случайных величин, распределенных по закону χ 2 ,

также распределена по этому закону с числом степеней свободы, равным сумме степеней свободы слагаемых.

20. Распределение Стьюдента. Как и распределение χ 2 ,

распределение Стьюдента играет в основном роль вспомогательного вычислительного средства и используется при построении доверительного интервала для математического ожидания, проверке гипотезы о равенстве математических ожиданий двух нормальных случайных величин и т.д. Оно впервые описано в 1908 г. английским статистиком В. Госсетом, который опубликовал свою научную работу под псевдонимом Стьюдент.

Пусть X0 , X1,..., Xn – независимые и одинаково распределенные

случайные величины и Xi Î N (0,1),

i = 0,1,...,n .

Тогда плотность распределения случайной величины

Tn =

 

 

X0

 

 

 

 

=

X0

 

 

 

 

 

1

 

 

 

 

 

 

 

n

 

 

 

 

χ 2

æ 1

 

 

ö2

 

 

 

 

 

 

 

 

n

 

 

å

X

2

 

 

 

 

ç

 

÷

 

 

 

 

n

 

 

 

 

ç

 

 

i

÷

 

 

 

 

 

è n i=1

 

 

ø

 

 

 

 

 

 

 

определяется формулой

452

 

 

 

 

æ n +1

ö

 

 

 

 

 

n+1

 

 

 

1

 

Gç

 

 

 

 

÷

æ

 

x

2

ö

 

 

 

 

 

 

 

 

 

 

 

2

 

 

fT (x) =

 

 

è 2

 

 

ø

ç1

+

 

÷

 

, xÎ(;) ,

(3)

 

 

 

 

æ n

ö

 

 

 

 

 

 

 

 

 

 

n

π n

 

 

 

 

ç

 

n ÷

 

 

 

 

Gç

 

÷

 

 

è

 

 

 

ø

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

è 2

ø

 

 

 

 

 

 

 

 

 

 

где Г(k) – гамма-функция.

В этом случае говорят, что случайная величина Tn имеет

распределение Стьюдента с n степенями свободы.

Можно убедиться, что fTn (x) является унимодальной функцией x,

т.е. найдется точка x* , что

fTn (x1 ) > fTn (x2 ) , если x1 < x2 < x* ; fTn (x1 ) < fTn (x2 ) , если x* < x1 < x2 .

Числовые характеристики случайной величины Tn :

1.M (Tn ) = 0 ; 2. D(Tn ) = n -n 2 и существует только при n > 2;

3.Асимметрия ε1 = 0 ; 4. Эксцесс ε = n -6 4 и существует только при n > 4.

Отметим, что с ростом n распределение Стьюдента быстро сходится к нормальному (практически уже при n > 50).

В табл. П3 для различных значений α и k приведены величины tα ,k , являющиеся решениями уравнения

P(Tn > tα ,k ) =

ò fTn (x)dx = α .

(4)

 

tα ,k

 

При нахождении критических точек по табл. П3 нужно иметь в виду, что эта таблица составлена для односторонней критической области. В случае двусторонней критической области те же критические точки tα ,k будут соответствовать уровню значимости 2α.

При решении задач интервального оценивания нахождение значений tγ ,k производится по табл. П3, причем tγ ,k = t1−α ,k .

30. Распределение Фишера. Пусть X и Y – независимые случайные величины, распределенные по закону χ 2 со степенями свободы ν1 = m и ν2 = n , соответственно. Тогда величина

453

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]