Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

3110

.pdf
Скачиваний:
2
Добавлен:
15.11.2022
Размер:
3.01 Mб
Скачать
xmin
(xmin

(относительных частот).

Такое соотношение удобно записывать в виде таблицы, например:

 

 

 

 

Таблица 10.1

 

 

 

 

 

 

ui

u1

u2

uk

 

ni

n1

n2

...

nk

 

или

 

 

 

 

 

 

 

 

 

Таблица 10.2

 

 

 

 

 

ui

u1

u2

...

uk

 

 

 

 

 

 

 

wi

w1

w2

...

wk

 

 

 

 

 

 

 

Нетрудно видеть, что ni n , а

wi 1. Здесь имеется аналогия с зако-

i

i

ном распределения дискретной случайной величины.

Ломаную, соединяющую точки (ui ni ) (или (ui wi ) ), называют полигоном частот (или полигоном относительных частот). Она является аналогом мно-

гоугольника распределения.

Пусть nu – число выборочных значений, меньших u . Тогда относитель-

ная частота события U u равна nu

n . Функция, определяющая для каждого

значения u относительную частоту события U u ,

F (u)

nu n

называется эмпирической функцией распределения. В отличие от функции рас-

пределения случайной величины FU (s) , которая определяет вероятность события U s , эмпирическая функция распределения F (u) задает относительную частоту этого события. Легко показать, что функция F (u) обладает всеми свойствами функции распределения дискретной случайной величины.

Если в вариационном ряду практически все варианты различны, то это говорит о непрерывности CВ U . В этом случае удобно разбить интервал xmax ) , где – наименьшее значение в выборке, xmax – наибольшее значение в выборке, на несколько частичных интервалов длиной h каждый и найти для каждого из этих интервалов число вариант ni , в него попавших. Число ni ( i 1 … n ) также называют частотой, а отношение wi ni n ( i 1 … n ) – относительной частотой. Отметим, что количество интервалов должно быть не слишком малым, чтобы сохранить особенности распределения CВ U , но и не слишком большим. Количество интервалов рекомендуется находить по форму-

61

U1 U2

ле Стерджесса:

k 1 3 322 lg n

Тогда длина частичного интервала:

h

xmax xmin

k

 

Соответствие между частичными интервалами и их частотами (относи-

тельными частотами) называют интервальным распределением частот (относительных частот).

Ступенчатую фигуру, состоящую из прямоугольников, основаниями которых являются частичные интервалы длиной h , а высотами ni (или wi h ), на-

зывают гистограммой частот (или гистограммой относительных частот).

Отметим, что площадь гистограммы относительных частот равна 1, кроме того, гистограмма относительных частот является аналогом графика функции плотности распределения вероятностей, поэтому по ее виду можно делать предположения относительно закона распределения случайной величины U .

От интервального распределения частот можно перейти к дискретному статистическому распределению частот, взяв в качестве xi i 1 2 k , середины частичных интервалов.

11. Точечные оценки числовых характеристик распределения

Напомним, что основными числовыми характеристиками СВ U являются ее математическое ожидание, дисперсия и среднеквадратическое отклонение. Эти и подобные скалярные величины называют параметрами распределения. Основной вопрос: по каким формулам на основе выборочных данных

Un можно получить приближенное значение параметра СВ U ?

Исходя из определений математического ожидания и дисперсии, приведенных в разделе 7.1, а также учитывая изложенные там обоснование и мотивацию, наиболее естественными являются следующие формулы.

Для математического ожидания M (U ) выборочное среднее:

 

 

U1 U2

Un

 

 

U B

 

 

 

 

n

 

 

 

 

(11.1)

Для дисперсии D(U ) выборочная дисперсия:

62

 

 

1

n

 

 

2

1 n

2

 

 

2

 

DB

(U )

(Ui U B)

 

(11.2)

 

 

n i 1

Ui

U B

 

 

n i 1

 

 

 

 

 

 

Для среднеквадратического отклонения:

 

 

 

B (U ) DB (U )

(11.3)

Если значения числовых характеристик распределения (выборочного среднего, выборочной дисперсии) находятся по конкретной реализации u1 u2 … un выборки, то формулы (11.1)-(11.2) примут вид:

 

 

 

 

 

 

u1

u2

 

un

,

 

 

 

 

 

u B

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

n

 

 

 

2

1 n

2

 

2

DB

(U )

 

(ui

u B)

 

 

 

 

 

 

n i 1

ui

u B

 

 

 

n i 1

 

 

 

 

 

 

 

Так как в результате применения формул (11.1)-(11.3) получаются конкретные числа, то такие оценки называются точечными оценками параметра случайной величины. Позже мы рассмотрим так называемые интервальные оценки параметра.

Так как точечные оценки используют данные случайной выборки, то сами они также являются случайными величинами (результат их применения к значениям другой выборки даст уже другое число, заранее не известно какое).

Чтобы оценить качество той или иной формулы, дающей точечную оценку n параметра случайной величины X , построенной на основе выборки объема n , сформулируем некоторые свойства точечных оценок. Важнейшим из них является состоятельность.

Определение 11.1. Точечная оценка

n параметра

называется состоя-

тельной, если для любого

0 с ростом n вероятность встретить значение n ,

удаленное от больше чем на

, стремится к 0 (то есть lim P( n

) 0 ).

 

 

n

 

 

Определение 11.2. Точечная оценка

n параметра

называется несме-

щенной, если для любого n математическое ожидание M ( n ) равно .

 

Определение 11.3. Точечная несмещенная оценка

n параметра

назы-

вается минимальной (эффективной), если для любого n дисперсия D( n ) минимальна среди всех возможных оценок .

Все три оценки, заданные формулами (11.1)-(11.3), являются состоятельными. Докажем это, например, для выборочного среднего.

Действительно, как было сказано выше, выборочные значения UK есть

63

независимые, одинаково распределенные с U случайные величины. Поэтому согласно закону больших чисел (теорема 8.2) их среднее арифметическое U B есть величина почти не случайная, в точности удовлетворяющая определению состоятельности оценки.

Далее, в

силу одинаковости распределений UK и U , получаем

 

 

 

 

1

n

M (UK ) M (U ) ,

откуда M (U b)

M (Ui ) M (Ui ) M (U ) . То есть выборочное

 

n i 1

среднее есть несмещенная точечная оценка математического ожидания M (U ) . Можно доказать, что выборочное среднее будет также и минимальной

оценкой для M (U ) .

Легко проверить, что выборочная дисперсия и выборочное среднеквадратическое отклонение будут также состоятельными точечными оценками соответствующих параметров. Однако обе они не являются несмещенными и минимальными. Так, M (DB (U )) (n 1)D(U ) / n , что означает некоторое занижение оценки истинного значения дисперсии случайной величины U по формуле (11.2). Поэтому на практике обычно применяют формулу так называемой ис-

правленной выборочной дисперсии:

 

 

1

n

 

 

 

 

 

 

 

1

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

s2

(U )

 

 

(U

i

U B

)2

 

 

(

U 2

n

2 ) .

(11.4)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(n 1) i 1

 

 

(n

 

1)

 

i

U B

 

 

 

 

 

 

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

Аналогично s s2 (U )

называется исправленным выборочным средним

квадратическим отклонением.

12. Интервальные оценки параметров распределения

Сначала отметим, что при малых объемах выборки точечная оценка может приводить к большим ошибкам и значительно отличаться от оцениваемого параметра. Поэтому более распространен другой подход к вопросу оценивания параметра, а именно метод доверительных интервалов, разработанный американским статистиком Ежи Нейманом.

Пусть — некоторый числовой параметр СВ U , закон распределения

которой не известен. Выберем некоторое число 0

1.

Определение 12.1. Интервальной оценкой параметра , полученной на основе выборки значений СВ U объема n , называется интервал ( An Bn ) со случайными концами, которые построены по выборке, и который с вероятностью

содержит внутри себя истинное значение параметра . То есть вероятность

64

P(An Bn )

Интервал ( An Bn ) называют доверительным интервалом для параметра

с надежностью оценки . Другими словами, доверительный интервал накрывает неизвестный параметр с заданной надежностью. Половина длины интервала называется точностью интервальной оценки. Обычно надежность или доверительная вероятность задается числом, близким к единице (например,

0 9

0 95

0 99 ). Число

1

называют уровнем значимости.

Пусть

– некоторая точечная оценка параметра . В большинстве слу-

чаев доверительный интервал для параметра

строится симметричным отно-

сительно оценки , а именно

 

 

где

точность оценки. Точность оценки находится по известной надежно-

сти

из уравнения

 

 

 

 

 

 

P(

)

(12.1)

 

Приведем несколько примеров построения доверительных интервалов.

 

Пример 12.1. Доверительные интервалы для математического ожида-

ния нормального распределения при известном .

 

 

 

 

 

 

 

Пусть U – нормально распределенная СВ с неизвестным параметром m и

известным параметром

. В качестве точечной оценки параметра m возьмем

выборочное среднее

 

 

B . Требуется найти доверительные интервалы для пара-

U

метра m с заданной надежностью .

 

 

 

 

 

 

 

 

 

 

 

 

 

Выборка

объема

n

значений

СВ

U

есть

не что

иное, как набор

U1 U2

Un

независимых, нормально распределенных случайных величин с па-

раметрами m и

 

. Следовательно,

выборочное среднее

 

B

имеет нормальное

U

 

 

 

 

 

 

 

 

 

 

 

 

распределение с параметрами m и

 

 

n (см. пример 8.1). Для отыскания точ-

ности

воспользуемся следствием из формулы (8.5) и формулой (12.1). Тогда,

с одной стороны

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

,

 

 

 

 

 

(12.2)

 

 

 

P(

 

 

B

m

) 2

0 (

 

 

n

)

 

 

 

 

 

 

 

 

U

 

 

 

 

 

 

 

а с другой стороны, так как

0 (s) строго возрастает от 0 до 1/2, то найдется

такое

0 t

 

, что

0 (t)

/ 2 . Сравнивая это равенство с (12.2) получаем

 

 

 

 

 

 

 

 

 

уравнение

t

 

n , из которого находим

t

 

n .

 

65

Зная

, число t

можно легко найти по табл. П. 1 функции Лапласа из со-

 

 

 

 

 

 

отношения

0 (t)

2 . При этом точность оценки будет равна

t

n . Та-

ким образом, доверительный интервал для математического ожидания нор-

мального распределения при известном

имеет вид

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(

 

B

t

n

 

B

t

n)

 

 

 

U

U

Очевидно, что с ростом объема выборки число убывает, а значит, точ-

ность оценки увеличивается;

если же растет надежность , то число t тоже

увеличивается,

так как

 

0 (t)

– возрастающая функция. Следовательно, точ-

ность оценки

 

 

тоже растет, и, значит, точность с ростом ухудшает-

t

n

ся.

 

 

 

 

 

 

 

 

 

 

 

 

 

В теории ошибок принято точность измерений (точность прибора) харак-

теризовать с помощью среднего

квадратического отклонения

случайных

ошибок измерений. Для оценки

используют исправленное среднее квадрати-

ческое отклонение s (см. формулу (11.4) и конец предыдущего раздела).

Приведем

без доказательств доверительные интервалы для математиче-

ского ожидания

нормального распределения при неизвестном и для среднего

квадратического отклонения

нормального распределения, покрывающие не-

известные параметры m и

с заданной надежностью :

 

 

 

 

 

 

 

 

 

(

 

B t s n

 

B t s n)

U

U

 

 

 

(s(1 q ) s(1 q ))

где значения t t( n) и q

q( n) находятся по табл. П. 2 и П. 3.

13. Проверка статистических гипотез

13.1. Основные понятия

Значительная часть человеческой деятельности в науке, технике и повседневной жизни связана с получением ответов типа "да" или "нет" на те, или иные важные вопросы. Например, эффективно ли данное лекарство? Есть ли жизнь на Марсе? Пытаясь ответить на подобные вопросы, мы выдвигаем те или иные гипотезы и, на основе опытных данных ― результатов некоторых экспериментов (уже имеющихся или планируемых) пытаемся выбрать наиболее верное решение. Процесс определения характера ответа ("да" или "нет") по ис-

66

ходу эксперимента называется проверкой гипотез. Однако в большинстве случаев не удается спланировать эксперимент таким образом, чтобы ответ был однозначным. Кроме того во многих случаях эксперимент оказывается или должен быть случайным.

Для знакомства с идеями, подходами и терминологией статистической проверки гипотез разберем следующую задачу.

Задача 13.1. Рассмотрим в качестве генеральной совокупности множество семей с двумя детьми. Нас будет интересовать распределение СВ Y , равное числу мальчиков в такой случайно взятой семье. В семье могут быть две девоч-

ки, тогда Y равно 0, два мальчика, тогда Y =2, и один мальчик – Y=1.

Каковы

вероятности событий (Y k), k 0,1, 2 ?

 

Гипотеза H0 . Так как все семьи равноправны, то вероятности

перечис-

ленных событий одинаковы, и мы получаем ответ

 

pk P(Y k) 1 / 3, k 0,1, 2.

 

Гипотеза H1 . Так как рождение мальчика равновероятно рождению девочки и результаты родов не зависят друг от друга, то рождение двух детей можно понимать как серию из двух испытаний Бернулли. Тогда Y совпадает с биномиальной СВ X p, n , p q 1 / 2, n 2 , и по формуле Бернулли

p0 P(Y 0) 1 / 4, p1 P(Y 1) 1 / 2, p2 P(Y 2) 1 / 4 .

Спрашивается: какая модель правильная?

Так как практика – критерий истины, то ответ следует искать с помощью выборки достаточно большого объема и с помощью специальных критериев согласия и проверки статистических гипотез, разработанных в математической статистике.

Критерий согласия Пирсона

Согласно этому критерию, проверку соответствия выборочных данных выдвинутой гипотезе об истинном распределении СВ Y (распределении признака Y в генеральной совокупности) можно осуществить следующим образом.

Получив некоторую выборку, весь промежуток выборочных значений разбивают на ряд интервалов (возможно, разной длины для наиболее точного отображения особенностей распределения выборочных данных), причем так, чтобы каждый интервал Ik , k 1, 2,..., m содержал не менее 5 выборочных значений. Пусть mk – число выборочных значений СВ Y, попавших в интервал Ik . Далее, в соответствии с выдвинутой гипотезой (называемой еще теоретическим

67

распределением СВ Y ), вычисляют вероятности pk P(Y Ik ), k 1, 2,..., m . Пусть n – объем выборки. Тогда, если гипотеза справедлива, то при большом

n относительные частоты

 

mk

будут близки

pk , k

1, 2,..., m . Значит, чем

 

n

 

 

 

 

 

 

 

 

 

меньше по сравнению с p

 

будет квадрат отклонения

(

mk

p )2

, тем лучше

k

 

 

 

 

 

 

 

n

k

 

 

 

 

 

 

 

 

 

 

согласуются выборочные данные с выдвинутой гипотезой о виде истинного (теоретического распределения) СВ Y. Поэтому в качестве критерия согласия выбирают построенную по выборке и, значит, случайную величину

 

 

 

 

 

 

 

 

 

m (m np )2

 

 

 

 

 

 

 

 

 

 

 

 

 

Rn,m

 

 

 

k

k

,

 

 

 

 

 

 

 

 

 

 

 

 

k 1

npk

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где n есть объем выборки, а m – количество интервалов.

 

 

 

 

Доказано (см. [10, гл. 7]), что если гипотеза верна, то при n

и любом

x P(Rn,m

x)

P(

2

x) , где

2

 

 

 

 

 

 

 

 

 

 

m 1

m 1 есть СВ, распределенная по закону «хи-

квадрат» Пирсона с m

1 степенью свободы. Эта вероятность означает, что

при данном числе интервалов m и объеме выборки n, n

5

m отклонение

 

 

 

 

 

 

 

 

m (m

np )2

 

 

 

 

 

 

 

 

 

 

 

 

Rn,m

 

 

k

k

 

 

x,

x 0,

 

 

 

 

 

 

 

 

 

k 1

npk

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

объяснимо

чисто

случайными

особенностями

выборки

с

вероятностью

P(R

 

x)

P(

2

x) .

 

 

 

 

 

 

 

 

 

 

 

 

 

n,m

 

 

m 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Выберем малую вероятность

0,05,

 

 

0,01

и найдем по табл. П. 4

такое

 

C, что P( 2

 

C)

.

Тогда,

если

гипотеза

верна,

то

вероятность

 

 

 

 

m 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

P(R

 

C)

P(

2

C) тоже крайне мала. Таким образом, выборка, у которой

n,m

 

 

m 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

отклонение Rn,m

больше C, может появиться в первом же опыте с крайне малой

вероятностью. Если же в результате нашей выборки величина Rn,m

все же ока-

залась больше C, то это значит, что результаты опыта можно объяснить чисто случайными причинами лишь с крайне малой вероятностью. То есть причина такого большого отклонения кроется в самой гипотезе об истинном законе распределения СВ, и ее следует отвергнуть. Отсюда получаем следующий критерий согласия Пирсона.

Пусть С таково, что P(

2

C)

, где заранее выбранное

на-

 

m 1

 

 

 

столько мало, что событие, появляющееся с такой вероятность в данном опыте можно считать невозможным. Тогда, если Rn,m > C, то гипотеза о виде

закона распределения СВ отвергается. Если же Rn,m < C, то говорят, что ги-

68

потеза не противоречит выборочным данным, и гипотеза не отвергается (принимается).

В этом критерии верная гипотеза будет отвергаться лишь с малой вероятностью α, которую можно считать несущественной (незначимой). Само α называют уровнем значимости.

Наконец отметим, что никакой статистический критерий не может служить строгим доказательством гипотезы, но может установить ее противоречие опытным данным и, следовательно, обоснованно опровергнуть.

При этом ясно, что верное решение можно получить лишь по выборке большого объема.

Решим нашу задачу этим методом. Пусть выборка 200 семей с двумя

детьми показала следующие результаты.

Семей с двумя девочками

оказалось 52, семей с разнополыми детьми

оказалось 88,

а

семей с двумя

мальчиками – 60. Рассмотрим интервалы

I1 [ 0,5, 0,5],

I2

[0,5, 1,5],

I3

[1,5, 2,5] . В первом содержится 52 значения

выборки, во втором – 88, а в третьем – 60.

Согласно гипотезе H0 :

n

pk 200 1 / 3 67, k 1, 2,3.

Отсюда получаем

 

 

 

 

 

(52

67)2

(88

67)2

 

(60

67)2

25

441

49

 

 

Bn,m

B200,3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

7,7 .

 

 

67

 

 

 

 

67

 

 

 

67

 

 

67

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

В нашем случае число степеней свободы равно 2. Поэтому для α=0,05

C 5,99

7,7

B200, 3

и, значит, с этим уровнем значимости гипотеза H0 отвер-

гается, так как ее справедливость противоречит выборочным данным.

 

Согласно гипотезе H1

:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

p1

n

p3 200 1 / 4 50,

а n

p2 200 1 / 2 100.

 

Отсюда получаем:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Bn,m

B200,3

 

(52

50)2

 

 

(88

100)2

 

 

(60

50)2

 

8

144

200

 

 

3,52 .

 

 

 

50

 

100

 

 

 

50

 

 

100

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Так как по табл. П.4 для α = 0,1 соответствующее C

4,60 , то гипотеза H1 при-

нимается не только с уровнем значимости 0,05, но и с уровнем значимости 0,1.

Выбор гипотезы по математическому ожиданию

Идея этого подхода очень проста. Пусть две конкурирующие гипотезы

69

имеют разные математические ожидания и одновременно из опыта получена случайная выборка. Тогда из двух гипотез отвергается та, для которой отклонение ее математического ожидания от выборочного среднего окажется больше. Это будет тем более справедливо, если наблюдаемое отклонение крайне маловероятно (не значимо, происходит с малой вероятностью α).

К сожалению, обе гипотезы из нашего примера имеют одинаковые

M (Y ) . Поэтому рассмотрим новую СВ Z , равную 6, если в семье мальчик и девочка, и равную 0 в остальных случаях.

Гипотеза H0

 

Гипотеза H1

 

 

 

 

 

 

 

 

 

 

Z

0

6

0

 

Z

0

6

0

 

 

 

 

 

 

 

 

 

Y

0

1

2

 

Y

0

1

2

 

 

 

 

 

 

 

 

 

pk

1/3

1/3

1/3

 

pk

1/4

1/2

1/4

 

 

 

 

 

 

 

 

 

Заметим, что СВ Z в обоих случаях есть биномиально распределенная

случайная величина с n

1, но разными p и q. В таблице H0

p

1 / 3, q

2 / 3 ,

а в таблице H1 p

1 / 2,

q

1 / 2 .

 

 

 

 

 

 

 

 

 

Далее все величины, найденные при условии справедливости гипотезы Hk ,

будут обозначаться буквой с индексом k, k 0,1.

 

 

 

 

 

 

 

Для гипотезы H0 имеем: M0 (Z )

2,

D0 (Z ) 8,

0 (Z )

2,8 .

 

 

 

Для гипотезы H1 имеем: M1 (Z )

3, D1 (Z ) 9,

1 (Z )

3 .

 

 

 

 

Так как n

200 велико, то по интегральной теореме Муавра-Лапласа вы-

 

 

 

 

 

 

 

 

борочное среднее Z k , k

0,1, распределено практически по нормальному зако-

 

 

 

 

 

 

 

 

 

 

 

 

 

ну с параметрами m0

2,

0 2,8 /

200

0, 2 и m1

3,

1

 

3 / 200

 

0, 21,

соответственно.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Выберем некоторое число C, m0

C

m1 . Критерий можно сформулиро-

 

 

 

 

 

 

 

 

вать так: если Z

 

 

C , то принимается гипотеза H1 ,

а если Z

C , то прини-

мается гипотеза H0 .

Пусть произошло событие Z C , но на самом деле справедлива гипотеза H0 . В этом случае говорят, что произошла ошибка 1-го рода. Тогда ее вероятность, рассчитанная в предположении верности гипотезы H0 , равна

70

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]