Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Загребаев Лектсии по теории вероятностеы и математическоы статистике 2015

.pdf
Скачиваний:
28
Добавлен:
12.11.2022
Размер:
4.61 Mб
Скачать

Таблица 14.1 Виды ошибок при проверке статистических гипотез

Гипотеза H0

Верна

Неверна

Отвергается

Ошибка 1-го рода

Правильное решение

Принимается

Правильное решение

Ошибка 2-го рода

Из таблицы видно, что ошибка первого рода – это когда отвергается истина, а ошибка второго рода – когда принимается ложь.

Неотрицательный результат статистической проверки статистических гипотез не означает, что высказанное предположение абсолютно верно, просто оно не противоречит выборочным данным, так результат проверки гипотезы H0 и необходимо рассмат-

ривать.

Вероятность совершить ошибку первого рода обозначают α и называют уровнем значимости, а вероятность совершить ошибку

второго рода обозначают β.

Общая логическая схема проверки статистических гипотез

1. Формулируется нулевая и альтернативная гипотезы: H0 предположение;

H1 альтернативное предположение.

2. Формируется некоторая функция K = fn ( X1,..., Xn ) от резуль-

татов наблюдения. Эта функция называется критерием. Так как величины X1,..., Xn – случайные, то K случайная величина. Обя-

зательным является, чтобы закон распределения f (k) был хорошо изучен и затабулирован в предположении справедливости H0 .

Принцип построения критерия K: величиной критерия опре-

деляется мера расхождения имеющихся в распоряжении выборочных данных с высказанной гипотезой H0 .

3. Задается величина уровня значимости α. Величина априорного значения α зависит от тех потерь, которые мы понесем, отвергнув

правильную гипотезу. Чем больше потери, тем меньше величина α.

121

Обычно значения α выбираются из следующего ряда: 0,1

0,05

0,025

0,005

0,001.

 

4. Из таблиц, где затабулирована f (k) – плотность распределе-

ния K, при заданном уровне значимости находим точки, разделяющие всю область мыслимых значений K в зависимости от выбранной альтернативной гипотезы на три или две части. Эти точки называются критическими. Совокупности значений критерия, при

котором отвергается гипотеза H0 образуют критические области:

1 – неправдоподобно малых значений K;

2 – правдоподобных значений K;

3 – неправдоподобно больших значений K.

5. В функцию K = fn (X1,..., Xn ) подставляем выборочные зна-

чения x1,..., xn . Если окажется, что число kнабл = fn (x1,..., xn ) попадает во вторую область, то считают, что гипотеза не противоречит экспериментальным данным. Если же в первую или третью область, то, скорее всего, случайная величина K не подчиняется известному закону f (k) и это несоответствие объясняется неверностью гипоте-

зы H0 , и мы от нее отказываемся.

Рис. 14.1. Критические области

Мощность критерия – вероятность принятия альтернативной гипотезы H1 , если она верна, или вероятность попадания критерия

122

в критическую область при условии правильности гипотезы H1 . То есть мощность критерия – это вероятность того, что H0 отвергнута, если H1 верна. Если β – вероятность совершить ошибку второго

рода, т.е. события «принята нулевая гипотеза, причем справедлива

конкурирующая», то мощность критерия 1 – β.

Таким образом, чем больше мощность критерия, тем меньше вероятность совершить ошибку второго рода (рис. 14.2).

Рис. 14.2. Геометрическая интерпретация проверки гипотез

Построение статистического критерия на основе принципа отношения правдоподобия

Пусть требуется определить, какому закону распределения принадлежат полученные числа выборки a, b, c. Пусть законы X (x) и

Y ( y) – нормальные и отличающиеся только математическим ожи-

данием.

Пусть: H0: F(x) = X (x); H1: F(x) = Y (x).

Из рис. 14.3 видно, что гипотеза H0 не противоречит экспери-

ментальным данным, и a, b, c выглядят более правдоподобными, чем при гипотезе H1 .

123

x1...xn

Рис. 14.3. К принципу отношения правдоподобия

В общем случае представление о сравнительной правдоподобности имеющихся наблюдений в отношении проверяемой H0

и альтернативной H1 гипотез, дает сопоставление соответственных функций правдоподобия:

k= LH1 (x1,..., xn ) . LH0 (x1,..., xn )

Очевидно, чем правдоподобнее наблюдения x1,..., xn в доказательстве справедливости H0 , тем меньше k, т.е. меньше отличие наблюдаемых значений от тех, которые назначены гипотезой H0 .

Лекция 15. ПРОВЕРКА ГИПОТЕЗЫ О РАВЕНСТВЕ ЦЕНТРОВ РАСПРЕДЕЛЕНИЯ ДВУХ НОРМАЛЬНЫХ ГЕНЕРАЛЬНЫХ СОВОКУПНОСТЕЙ ПРИ ИЗВЕСТНОМ σ

Представим себе, что некая компания занимается спекуляциями земельными участками. Менеджеры компании хотят купить землю «оптом» в одном из двух районов Подмосковья, а потом продавать частями. Чтобы определить, в каком из районов выгоднее купить землю оптом, менеджерам необходимо узнать, за сколько в среднем можно будет продать одну «сотку». Исследуя ситуацию, менеджеры

наугад отобрали 30 участков в первом районе и 40 во втором.

124

Оказалось, что в первом районе средняя цена по выборке 8000 у.е., а во втором 7000 у.е. Визуальный анализ гистограмм показал, что цена за «сотку» при продаже участков в розницу скорее всего подчиняется нормальному закону. Оценки исправленных выборочных средних квадратических отклонений, соответственно, в первом районе 2000 у.е., а во втором 3000 у.е. Так как выборки имеют достаточно большой объем можно считать оценки дисперсий по выборкам совпадают с истинными дисперсиями. Иными словами, будем считать, что дисперсии в генеральных совокупностях нам известны. Поскольку усреднение цен на землю получено по конечным объемам выборок, не факт, что в первом районе средняя цена в целом выше, чем во втором. Вы хотите проверить гипотезу, что на самом деле средняя цена одинакова. При этом возможны следующие альтернативы:

средняя цена разная; цена в первом районе больше, чем во втором;

цена в первом районе меньше, чем во втором.

При этом вас устраивает, если вероятность отвергнуть истину будет составлять величину 5 %.

Формально данную задачу сформулируем следующим образом. Пусть две случайные величины X и Y подчинены нормальному закону. Имеются две независимые выборки объемом n и m. Необходимо проверить нулевую гипотезу о том, что математические ожидания этих двух генеральных совокупностей совпадают относительно альтернативной гипотезы – математические ожидания не

равны.

В соответствии с общей логической схемой статистической проверки статистических гипотез, реализуем следующие шаги:

1. Выдвигаем гипотезу H0 и альтернативную ей гипотезу H1 .

H0: : M[ X ] = M[Y ];

H1: M[X ] M[Y ].

2. Задаемся критерием проверки выдвинутой гипотезы H0 :

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

n

 

 

 

1

m

 

 

X Y

 

 

 

 

 

 

 

 

 

 

K =

 

 

 

, где

 

=

Xi

 

 

 

Yi .

 

 

X

, Y

=

 

 

 

 

 

 

 

 

 

 

n

m

σ X Y

 

 

 

 

 

 

i=1

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Ясно, что M[X

] = M[X ], M[Y

] = M[Y ],

причем величины X

и

Y распределены нормально.

125

Понятно, что

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

D[X ]

 

D[Y ]

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

σ X

Y =

D X Y

=

D X

+ D Y

=

 

 

 

 

+

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

m

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Если справедлива H0 , т.е. если

 

 

 

 

 

 

M[Y

] = M[X ], то величина

K

распределена по нормальному закону с параметрами:

M[K ] = 0

и

 

 

 

 

 

 

1

 

k2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

σ[K ]= 1, т.е. f (k) =

 

e2 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2π

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3. Задаемся величиной уровня значимости α, т.е. вероятностью отвергнуть истинную гипотезу, если она верна, что в геометриче-

ском плане

означает попасть в

критическую область α =

= P(

 

K

 

> Kкр )

(см. рис. 14.1).

f (k) – плотность распределе-

 

 

4. Из таблиц, где затабулирована

ния K, находим точки, разделяющие всю область мыслимых значений критерия на три части.

В силу симметрии нормального закона распределения имеем

P(0 < K < ∞) = 12 .

Эта вероятность есть сумма вероятности того, что случайная величина K попадет в области 0 < K < Kкр и Kкр < K < ∞, т.е.

12 = P(0 < K < kкр) + P(kкр < K < ∞).

С другой стороны, это соотношение можно записать, используя функцию Лапласа, определяющую вероятность попадания норми-

рованной случайной величины K в интервал (0 < K < kкр). 12 = P(0 < K < kкр) + P(kкр < K < ∞) = Φ(kкр) + α2 .

Откуда Φ(kкр) = 12α . Обратным интерполированием по таблицам функции Лапласа определяем величину kкp , т.е. критическую

область kкр = Φ1 1− α .2

126

 

5. По

 

 

 

экспериментальным данным вычислим: kнабл =

 

1

n

 

1

 

m

 

xi

 

 

yi

 

n

 

m

=

i=1

 

i=1

 

 

 

 

 

.

 

D[X ]

+

 

D[Y ]

 

 

n

 

 

m

 

 

 

 

 

 

 

Если kнабл попадает в критическую область, то гипотезу о ра-

венстве центров распределения следует отвергнуть. В противном случае можем сказать, что H0 не противоречит имеющимся экспе-

риментальным данным.

Рассмотрим случай, когда выдвигается другая альтенативная гипотеза:

1.H0: M [ X ] = M [Y ]; H1: M [ X ] > M [Y ].

 

 

 

 

 

 

 

 

 

 

 

 

2. Критерий выберем тот же самый:

K =

X

Y

 

 

.

 

 

 

 

 

 

 

 

 

σ X

Y

 

 

 

 

 

3.Выбор альтернативной гипотезы определяет форму математической записи P(K > kкр) = α.

4.Выбор критической области при этом находится из условия

 

 

P(0 < K < kкр) + P(kкр < K < ∞) = 1

 

 

 

 

1

 

 

2

 

 

 

или

= P(0 < K < kкр) + P(kкр < K < ∞) = Φ(kкр) + α.

 

 

2

 

12α

 

 

 

12α

Откуда получим Φ(kкр) =

, тогда kкр = Φ

1

2

 

 

2

.

 

 

 

 

 

 

 

5. Если kнабл =

x y

 

 

> kкр , то H0

отвергаем.

 

 

 

 

 

σ X

Y

 

 

 

 

 

 

Пример. Решим поставленную в начале лекции практическую задачу о земельных участках.

Дано: m = 30 , x = 8000 уе. . , n = 40 , y = 7000 уе. .; D[X ] = 2000 2000 = 4000000 ( у.е)2 ;

D[Y ] = 3000 3000 = 9000000 ( уе. )2 ; α = 0,05 .

127

Решение:

 

 

 

D[X ] D[Y ]

 

 

 

 

 

 

 

 

 

 

4000000 + 9000000 = 1892,18 у.е.;

σ X

Y

=

 

 

 

 

 

+

 

=

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

m

30

40

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Kнабл =

 

 

x y

=

8000 7000

= 0,53.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

σ[ X Y ]

1892,18

 

 

 

 

 

 

 

 

Проверим выдвинутую гипотезу относительно различных конкурирующих:

1. H0: M[ X ] = M[Y ]; H1: M[X ] M[Y ].

Найдем значение функции Лапласа при заданном α по формуле

Φ(kкр) = 1− α

= 10,05

= 0,475, а

затем критическую

точку,

2

2

 

 

 

kкр = Φ1(0,475) = 1,96

используя

таблицы функции

Лапласа

(см. gриложение 1).

 

 

 

Сравнивая

kнабл = 0,53 и kкр = 1,96 , получим | kнабл |< kкр , т.е.

нет оснований считать, что средняя цена на землю по районам отличается.

2. H0: M [X ]= M [Y ];

H1: M [X ]> M [Y ].

Φ(kкр) = 12α

= 10,1

= 0,45 , kкр = Φ1(0,45) = 1,65

2

2

 

Kнабл < Kкр . Гипотезу о равенстве средних принимаем.

3. H0: M [X ]= M [Y ];

H1: M [X ]< M [Y ].

Учитывая, что критерий распределен симметрично относительно нуля, заключаем, что искомая критическая точка kкр

симметрична такой точке kкр > 0 для которой P(k > k) = α,

т.е

k

= −k

кр

= −1,65, и в этом случае k

набл

= 0,53 больше

чем

кр

 

 

 

 

k

= −k

кр

= −1,65. Нулевая гипотеза принимается.

 

кр

 

 

 

 

 

Замечание. Для нахождения критических точек с помощью программы Excel нужно воспользоваться функцией НОРМОБР

(Вставка → Функция → Мастер функций → Статистические

→ НОРМОБР). Следует только учесть, что функция НОРМОБР возвращает обратное нормальное распределение для указанного среднего и стандартного отклонения. То есть для заданного зна-

128

чения функции распределения F(x) при известных σ, m находится значение x. Учитывая, что функция распределения имеет вид

 

 

1

x

(xm)2

F(x) =

 

e

 

2σ2 dx для решения нашей задачи следует за-

σ

 

 

 

2π

 

 

дать m = 0,

−∞

 

Значения же функции распределения для различ-

σ = 1.

ных альтернативных гипотез выражаются через α следующим образом:

1. Двухстороння критическая область F = 1α2 = 0,975.

Рис. 15.1. Диалоговое окно функции НОРМОБР

2. Правосторонняя критическая область F = 1− α = 0,95.

Рис. 15.2. Диалоговое окно функции НОРМОБР

129

3. Левосторонняя критическая область F = α.

Рис. 15.3. Диалоговое окно функции НОРМОБР

Проверка гипотезы о равенстве центров распределения двух нормальных генеральных совокупностей при известном и неизвестном, но одинаковом σ

Рассмотрим прежнюю задачу с земельными участками, но в следующей модификации: объем выборок в каждом из районов мал, например в первом районе m = 5, а во втором n = 7. Дисперсии цен

на землю по районам неизвестны (при таких малых объемах выборок нельзя, как мы сделали выше, считать, что исправленные выборочные дисперсии совпадают с генеральными дисперсиями). Но, исходя из сравнения характера местности и развитости инфраструктуры районов, можно полагать, что неизвестные генеральные дисперсии цен равны между собой. Пусть средняя цена по выборкам в первом районе 7500 у.е., а во втором 8000 у.е. Исправленные вы-

борочные дисперсии имеют соответственно значения sx2 = = 3,5000000 ( уе. )2 и s2y = 7000000 ( уе. )2. Требуется, как и в преж-

ней задаче, проверить гипотезу о том, что средняя цена одинакова при различных конкурирующих гипотезах:

средняя цена разная; цена в первом районе больше, чем во втором;

цена в первом районе меньше, чем во втором.

130

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]