Скачиваний:
12
Добавлен:
30.09.2023
Размер:
602.98 Кб
Скачать

Рис.1.9. Эмпирическая функция распределения с наложением графика теоретической функции распределения FX (x)

1.3. Числовые характеристики выборки

Пусть (x1 , x2 , ... , xn ) выборка объёмом n из генеральной совокупности с функцией распределения FX (x) . Рассмотрим выборочное распределение, т.е. распределение дискретной случайной величины, принимающей значения x1 , x2 , ... , xn с вероятностями, равными 1n . Числовые характеристики этого

выборочного распределения называются выборочными (эмпирическими).

Замечание. Выборочные числовые характеристики являются характеристиками данной выборки, но не являются характеристиками распределения генеральной совокупности. Поэтому в дальнейшем изложении при обозначении эмпирических числовых характеристик будет использоваться знак «~».

1.3.1. Выборочные числовые характеристики негруппированной выборки

n

Математическое ожидание случайной величины дискретного типа определяется по формуле mX = åxi pi . i=1

Так как для выборочного распределения pi = 1n , то выборочное математическое ожидание (среднее)

определяется по соотношению

 

 

 

~

 

 

1

n

 

 

 

 

 

 

 

 

 

 

 

mX

= x =

 

åxi .

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

Аналогично определяется выборочная дисперсия

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

~

n

2

 

1

n

 

 

2

 

1

æ

n

 

2

ö

= å(xi - x)

pi =

å(xi

- x)

 

ç

2

- nx

÷

DX

 

 

 

=

 

ç

åxi

 

÷ .

 

i=1

 

 

n i=1

 

 

 

 

n è i=1

 

 

ø

Выборочные начальные и центральные моменты порядка s ( s = 1, 2, ... ) определяются по следующим

формулам:

 

 

 

 

n

 

 

 

 

n

 

 

 

 

 

 

 

~

1

s

~

 

1

 

s

 

 

 

 

 

as =

 

åxi

, ms

=

 

å(xi - x)

 

.

 

 

 

 

n

n

 

 

 

 

~

 

i=1

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

унимодального (одновершинного) распределения называется элемент выборки,

Выборочной модой d X

встречающийся с наибольшей частотой.

 

 

 

~

 

 

 

 

 

 

 

Выборочной медианой

называется

число

 

которое

делит вариационный ряд на две части,

 

hX ,

 

 

 

 

 

 

 

 

 

 

 

 

 

~

= x(l+1) ;

содержащие равное число элементов. Если объём выборки n число нечётное ( n = 2l +1 ), то hX

~

1

(x(l) + x(l+1) ).

 

 

 

 

 

 

 

 

 

 

 

если n = 2l , то hX =

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

PDF created with FinePrint pdfFactory Pro trial version http://www.fineprint.com

1.3.2. Выборочные числовые характеристики группированной выборки

Пусть данные представлены в группированном виде, когда отрезок [x(1) ; x(n) ] , содержащий выборку (x1 , x2 , ... , xn ) , разбит на m промежутков D j , j = 1, 2, ... , m . Обозначим через z1 , z2 , ... , zm середины интервалов группировки, а через n j частоты попадания выборочных значений в соответствующие промежутки D j , j = 1, 2, ... , m . Выборочное среднее определяется по соотношению

1m

x= n åj=1 z j n j .

Выборочная дисперсия равна

~

 

1

m

1

æ m

 

å(z j - x)2 n j =

çåz2j

DX

=

 

 

n

 

 

 

j=1

n ç

 

 

 

 

è j=1

Выборочные начальные и центральные моменты порядка s (

формулам:

ö

n j - nx 2 ÷÷ .

ø

s = 1, 2, ... ) определяются по следующим

~

1

m

s

 

~

1

m

 

 

s

 

as =

 

åz j n j ,

ms =

 

 

å(z j - x)

 

n j .

n

 

n

 

 

j=1

 

 

 

 

j=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Выборочная мода вычисляется по формуле

 

 

 

 

 

 

 

 

 

~

 

 

æ

 

nd

- nd1

ö

 

 

 

 

 

ç

 

÷

 

 

 

d X = ad

+ ç

 

 

 

 

 

÷

× D ,

 

 

 

 

 

 

 

 

è

2nd - nd1 - nd +1 ø

 

 

 

где ad нижняя граница интервала,

содержащего наибольшее число элементов выборки; nd число

элементов выборки в этом интервале;

nd 1 ,

nd +1

количества элементов выборки в соседних интервалах;

длина интервала группировки.

Оценка медианы по группированной выборке может быть вычислена по формуле

 

æ n

 

 

ö

 

~

ç

 

 

- (n1 + n2

+ ... + nh1) ÷

 

2

 

hX

= ah + ç

 

 

 

÷

× D ,

 

 

n

 

 

ç

 

 

h

÷

 

 

ç

 

 

 

÷

 

 

è

 

 

 

 

ø

 

где ah нижняя граница интервала, которому принадлежит середина вариационного ряда; nh число элементов выборки в этом интервале; n1 + n2 + ... + nh1 число элементов выборки в разрядах, лежащих слева от интервала, содержащего середину вариационного ряда; – длина интервала группировки.

1.4. Оценки параметров распределения

Пусть неизвестная функция распределения генеральной совокупности зависит от некоторого параметра θ . Нужно по наблюдениям оценить этот параметр. Для построения оценок используются статистики, т.е.

~

~

, X 2

 

~

функции qn

= qn (X1

, ... , X n ) случайного выборочного вектора (X1 , X 2 , ... , X n ) . Статистика qn

рассматривается как приближённое значение параметра

θ . Например, такими статистиками могут быть

выборочное среднее, выборочная дисперсия и т.п.

Замечание. Как правило, для оценки параметра θ можно использовать несколько статистик, получая при этом различные значения оценок.

~

Как измерить «близость» оценки qn к истинному значению θ или как определить качество оценки? Качество оценки определяется не по одной конкретной выборке, а по всему мыслимому набору

конкретных выборок, т.е. по случайному выборочному

вектору (X1 , X 2 , ... , X n ) .

Поэтому для

установления качества полученных оценок следует во всех

формулах раздела 1.3

заменить конкретные

 

 

 

n

~

 

1

 

n

 

 

выборочные значения xi на случайные величины X i . Например, X = 1 åX i ,

 

å(X i - X )2 и

DX

=

 

 

 

 

 

n i=1

 

 

n i=1

т.п.

PDF created with FinePrint pdfFactory Pro trial version http://www.fineprint.com

~

Качество точечной оценки qn параметра θ устанавливают, проверяя, выполняются ли следующие три свойства:

~

1) несмещённость, т.е. M[qn ] = q . Это свойство желательно, но не обязательно. Часто полученная оценка бывает смещённой, но её можно поправить так, что она станет несмещённой. Иногда оценка бывает

~

смещённой, но асимптотически несмещённой, т.е. limM[qn ] = q ; n→∞

~

2) состоятельность, т.е. lim P{| qn - q | < e} = 1. Это свойство является обязательным, n→∞

несостоятельные оценки не используются;

3) эффективность. Пусть

~(1)

 

 

~(2)

две различные оценки параметра θ

~(1)

~(2)

qn

и qn

. Если qn

и qn

 

 

~(1)

~(2)

] считается, что оценка

~(2)

 

 

~(1)

несмещённые, то при D[qn ] > D[qn

 

 

qn

более эффективная, чем оценка qn .

~(1)

~(2)

смещённые, то

 

сравнение оценок по эффективности осуществляется с помощью

Если qn

и qn

 

 

~(1)

~(2)

где

 

 

~

 

~

- q)

2

~

 

квадрат отклонения

неравенства D(qn

) > D(qn ) ,

 

D(qn ) =

(M[qn ]

 

+ D[qn ] средний

оценки.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

= 1

n

 

 

 

 

 

 

 

 

Например, выборочное среднее

 

 

åX i является несмещённой и состоятельной оценкой для

X

 

 

 

 

 

 

 

n

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

математического ожидания, а в случае, когда генеральная совокупность имеет нормальное распределение,

 

X

является и наиболее эффективной из оценок.

 

~

 

1

n

 

 

 

 

å(X i - X )2

является смещённой оценкой дисперсии s2

 

 

Выборочная дисперсия DX

=

 

 

 

n

 

 

 

 

i=1

 

 

 

 

 

 

 

генеральной совокупности с конечным математическим ожиданием m. Эта оценка занижает в среднем истинное значение дисперсии на величину s2 n . Очевидно, что это смещение «сходит на нет» при n → ∞ ,

~

т.е. оценка DX асимптотически несмещённая. На практике всегда лучше использовать в качестве

несмещённой и состоятельной оценки дисперсии s2 «исправленную» выборочную дисперсию, которая имеет вид:

 

1

 

n

 

 

 

n

~

S 2 =

 

å(X i - X )2

 

 

 

=

 

 

× DX .

n -1

n -1

 

i=1

 

 

 

 

 

 

 

 

 

К сожалению, при оценке параметров не всегда оказывается возможным одновременное выполнение требований несмещённости, эффективности и состоятельности точечной оценки.

~

В ряде задач для параметра θ требуется не только найти подходящую точечную оценку qn , но и

~

указать, к каким ошибкам может привести замена параметра θ его оценкой qn . Другими словами, требуется оценить точность и надёжность оценки. Такого рода задачи особенно актуальны при малом числе

~

в значительной мере случайна и замена θ

~

наблюдений, когда точечная оценка qn

на qn может привести к

серьёзным ошибкам. Для определения

~

статистике пользуются

точности оценки qn в математической

доверительными интервалами, а для определения надёжности доверительными вероятностями.

Доверительным интервалом для параметра θ называется интервал (q1 ; q2 ) , содержащий его истинное значение с заданной вероятностью p = 1- a . Таким образом,

P{q1 < q < q2} = 1- a .

Число p = 1- a называется доверительной вероятностью, а значение α уровнем значимости.

Чем меньше для выбранной доверительной вероятности длина интервала | q2 - q1 | , тем точнее оценка

неизвестного параметра θ , и наоборот, если этот интервал велик, то оценка, произведённая с его помощью, малопригодна для практики.

Замечание. Нижняя q1 и верхняя q2 границы доверительного интервала определяются по результатам

наблюдений и, следовательно, являются случайными величинами. Поэтому говорят, что доверительный интервал «накрывает» оцениваемый параметр с вероятностью p = 1- a (или в 100 ×(1- a) % случаев).

Выбор доверительной вероятности определяется конкретными условиями задачи. Обычно используются следующие значения 1− α :

0,90; 0,95; 0,99.

PDF created with FinePrint pdfFactory Pro trial version http://www.fineprint.com

Часто применяют односторонние доверительные интервалы, границы которых определяются из условий: P{q < q2} = 1- a (левосторонний), P{q1 < q} = 1- a (правосторонний).

Ниже приведены доверительные интервалы при оценке параметров по случайным выборкам из нормально распределённых генеральных совокупностей.

1. Доверительный интервал для математического ожидания m (дисперсия s2 неизвестна):

 

 

-

S

 

×t

α (n -1) < m <

 

+

S

×t

α (n -1) .

X

X

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n 1−

2

 

 

 

n 1−

2

 

 

 

 

 

 

 

 

 

 

 

 

2. Доверительный интервал для дисперсии s2 (математическое ожидание m неизвестно):

(n -1)S 2

< s2 <

(n -1)S 2

.

 

α (n -1)

 

c2

 

c2α (n -1)

1−

2

 

2

 

 

 

 

Пример 1.2. Используя выборку примера 1.1, вычислить для негруппированных и группированных (см. табл.1.3) данных эмпирические числовые характеристики: медиану, среднее, дисперсию (смещённую и несмещённую оценки), а также для группированных данных получить оценку моды. Считая, что выборка

взята из нормально распределённой генеральной совокупности с неизвестными m и s2 , найти доверительные интервалы для математического ожидания и дисперсии при доверительной вероятности, равной 0,95.

Решение. Оценка медианы по негруппированным данным:

~

=

1

(x(25)

+ x(26) )=

8,93 +

9,01

= 8,97 .

hX

2

2

 

 

 

 

 

 

 

Для получения оценок среднего и дисперсии по негруппированным данным воспользуемся средствами

Matlab:

 

1

50

 

 

 

~

 

1

æ

50

2

 

2

ö

 

x =

 

åxi = 9,0708

, DX

=

 

ç

åxi

- 50 × x

 

÷

» 5,9858 ,

50

50

 

 

i=1

 

 

 

 

 

 

ç

 

 

 

 

÷

 

 

 

 

 

 

 

 

 

 

è i=1

 

 

 

ø

 

 

 

 

 

1

æ

50

 

 

 

 

ö

 

 

 

 

 

 

 

s2

=

 

ç

å

xi2

- 50 × x 2 ÷

» 6,1080 .

 

 

 

 

49

 

 

 

 

 

 

ç

 

 

 

 

÷

 

 

 

 

 

 

 

 

 

 

è i=1

 

 

 

 

ø

 

 

 

 

 

Оценки медианы, среднего, дисперсии и моды по группированным данным:

 

 

 

 

 

 

æ

 

 

n

 

 

 

 

 

 

 

 

 

ö

 

 

 

 

 

 

 

 

 

 

 

 

~

 

 

 

 

 

ç

 

 

 

 

- (n1 + n2 + ... + nh−1) ÷

 

 

 

 

 

25 - (1+ 7)

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

hX

= ah +

ç

 

 

 

 

 

 

 

 

 

 

 

÷ × D = 7 +

 

 

 

 

× 2

= 9 ,

 

 

 

 

 

 

n

 

 

 

 

 

 

17

 

 

 

 

 

 

 

 

ç

 

 

 

 

 

 

 

 

h

 

 

 

÷

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ç

 

 

 

 

 

 

 

 

 

 

 

 

÷

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

è

 

 

 

 

 

 

 

 

 

 

 

 

 

ø

 

 

 

 

 

 

 

 

 

 

 

 

x =

 

1

 

× (4 ×1 + 6 × 7 + 8 ×17 +10 ×16 +12 × 7 +14 ×1 +16 ×1) = 9,12 ,

50

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

~

 

 

 

 

 

×(42 ×1+ 62 ×7 + 82 ×17 +102 ×16 +122 ×7 +142 ×1+

DX

=

 

 

 

50

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

+162 ×1- 50 ×9,122 ) = 5,1456 ,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

s2 =

50

 

 

~

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

× DX » 5,251,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

50 -

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

~

 

 

 

 

 

æ

 

 

 

 

 

 

nd - nd −1

ö

 

 

 

 

 

17

 

- 7

 

 

 

 

 

 

 

 

 

ç

 

 

 

 

 

 

÷

 

 

 

 

 

 

 

 

 

 

d X

= ad +

ç

 

 

 

 

 

 

 

 

 

 

 

÷

× D = 7 +

 

 

 

 

 

 

 

× 2

» 8,818 .

 

 

2nd - nd −1 - nd +1

2

×17 - 7 -16

 

 

 

 

 

 

è

 

 

ø

 

 

 

 

 

 

 

Доверительный интервал для дисперсии s2 найдём из условия

 

 

 

 

 

 

 

 

 

 

 

x -

s

 

×t

α (n -1) < m < x +

s

 

×t

 

α (n -1) .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

1−

2

 

 

 

 

 

 

 

 

n 1−

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Задавшись доверительной вероятностью 1− α = 0,95 с учётом t0,975 (49) = 2,0096 , получим:

8,369 < m < 9,773 для негруппированной выборки; 8,469 < m < 9,771 для группированной выборки.

Доверительный интервал для математического ожидания m найдём из условия

PDF created with FinePrint pdfFactory Pro trial version http://www.fineprint.com

Соседние файлы в папке Ресурсы