Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

statistika_проц_22

.pdf
Скачиваний:
867
Добавлен:
11.04.2015
Размер:
2.41 Mб
Скачать

сией нормальной совокупности, проверить гипотезы о равенстве двух средних генеральных совокупностей, дисперсии которых известны (независимые выборки), о равенстве двух средних произвольно распределенных генеральных совокупностей, дисперсии которых неизвестны и одинаковы (малые независимые выборки), о равенстве выборочной средней с предполагаемой генеральной средней нормальной совокупности при известной и неизвестной генеральной дисперсии, о равенстве двух долей.

8.1. Понятие статической гипотезы. Нулевая и альтернативная, простая

èсложная гипотезы

Âсамом широком смысле слова гипотеза (hypothesis — основание, предположение) — предположительное суждение о закономерной (причинной) связи явлений. Проверка гипотез осуществляется всюду, где теория может быть подтверждена или опровергнута опытом.1

Так, например, медик может выдвинуть гипотезу о том, что новое лекарство эффективнее излечивает некоторое хроническое заболевание. Для проверки своей гипотезы он отбирает людей, страдающих этим заболеванием, и случайным образом делит их на две равные группы. Новое лекарство применяется им при лечении первой группы пациентов, а прежнее — при лечении второй группы. Затем, выяснив долю выздоровевших пациентов в каждой группе, исследователь решает вопрос о том, какое лекарство, новое или старое, более эффективно.

Еще пример. Предположим, что политик «А» предполагает, что получит на ближайших выборах не менее 50 % голосов избирателей. Если мы не доверяем предположению политика «А», то выдвигаем гипотезу о том, что его поддерживает менее 50 % электората. Пусть n = 15 — число избирателей, случайно выбранных в

1 При этом гипотеза относительно параметра формулируется до опыта (до полу- чения выборочных данных). В этом и состоит принципиальное различие между построением доверительного интервала для неизвестного параметра и процедурой проверки гипотезы.

271

определенном городе, среди них m избирателей предпочитает политика «А». Как по этой выборке оценить истинность утверждения политика «А»? Если в результате выборки никто не предпочитает политика «А» (m = 0), то какой мы можем сделать вывод относительно политика «А»? Если его действительно поддерживает более 50 % электората, то вероятность получить m = 0 в выборке очень мала, а если он не имеет достаточного числа сторонников, то вероятность того, что m = 0, будет несколько больше. И при m = 1 (или при другом малом значении m), наши выводы останутся такими же.

Статистической гипотезой называется всякое высказывание о виде неизвестного распределения, или параметрах генеральной совокупности известных распределений, или о равенстве параметров двух или нескольких распределений, или о независимости выборок, которое можно проверить статистически, то есть, опираясь на результаты наблюдений в случайной выборке.

Наиболее часто формулируются и проверяются гипотезы о числовых значениях одного или нескольких параметров генеральной совокупности, подчиняющейся одному из известных законов распределения, такому как нормальный, Стьюдента, Фишера и др.

В то же время, например, предположение о реальности посещения Земли инопланетянами не является статистической гипотезой, так как она не относится ни к одному из типов задач статисти- ческой проверки гипотез.

Выдвинутую гипотезу, которую необходимо проверить, называют нулевой гипотезой H0.

Гипотезу, противоположную нулевой, называют конкурирующей (альтернативной) гипотезой Н1.

Утверждение политика «А» о том, что за него проголосует не менее 50 % избирателей — является нуль-гипотезой, которую можно сформулировать так:

H0 : p 0,5.

Хотя условие «не менее» означает p 0,5 , для подтверждения истинности убеждения политика «А» достаточно выполнения условия p = 0,5 .

Альтернативная ей гипотеза — «Политика “А” поддерживает менее 50 % электората» получается путем утверждения того, что нуль-гипотеза, противоположная ей, — ложна. Таким образом, поддержка одного из предположений получается доказательством

272

«от противного». Поскольку мы заявляем в альтернативной гипотезе, что утверждение политика «А» ложно, то ее можно сформулировать и так: вероятность выбора избирателей, предпочитающих «А», меньше, чем 0,5 (p < 0,5) . Если мы сможем показать, что данные, поддерживающие отклонение нуль-гипотезы, p = 0,5 (минимальное значение, необходимое для избрания), согласуются с альтернативной гипотезой p < 0,5, то мы достигаем поставленной цели.

Статистистическую гипотезу, однозначно определяющую закон распределения, называют простой (параметр Θ имеет одно конкретное значение Θ = Θ 0), в противном случае ее называют сложной. Например, случайная величина Х с нормальным распределением имеет значение а0 = 3, случайная величина Х имеет распределение Пуассона и т.д.

Статистическая гипотеза называется параметрической, если в ней сформулированы предположения относительно неизвестных значе- ний параметров распределения определенного вида.1

В большинстве случаев простая гипотеза, например, H0 : Θ = Θ0 проверяется сложной альтернативной. Можно проверить эту нульгипотезу альтернативной H1, состоящей в том, что истинное значе- ние генерального параметра Θ больше, чем Θ0 :

H1 :Θ > Θ0 ,

èëè

H1 :Θ < Θ0 .

Более общей формой записи последних двух альтернатив является:

H1 :Θ Θ0 .

8.2. Ошибки первого и второго рода

При проверке выдвинутой гипотезы на основе бесповторной выборки объема n необходимо научиться принимать решение о том, какая их двух конкурирующих гипотез верна.

1Существуют также и непараметрические гипотезы, однако в специальной литературе нет однозначного определения этого типа гипотез. Согласно одному из определений статистическая гипотеза называется непараметрической, если в ней сформулированы предположения относительно вида закона распределения, а предположения о параметрах не рассматриваются.

273

Поскольку решение об отклонении или принятии выдвигаемой нулевой гипотезы осуществляется на основании результатов слу- чайной выборки, то мы никогда не можем быть полностью уверены, истинна или ложна выдвинутая нами нулевая гипотеза, т. е. всегда есть риск принять ложное решение в силу ограниченного ряда наблюдений или ввиду того, что выборка была просто неудачной.

Если отклоняется нуль-гипотеза, которая истинна, то мы совершаем ошибку I рода, а если принимается нулевая гипотеза, которая ложна, то говорят, что имеет место ошибка II рода.

Для примера с выборами политика «А» ошибка первого рода — отклонение гипотезы H0 : p = 0,5, когда H0 — верна, означает, что мы пришли к выводу о том, что политик «А» проиграет выборы, в то время как фактически он победит. Ошибка второго рода означает, что мы примем H0 : p = 0,5, в то время как p < 0,5 и придем к заключению, что политик «А» победит, в то время как он фактически проиграет выборы.

Для большинства реальных ситуаций в экономике и общественной жизни неверное решение стоит денег, престижа, сопряжено с определенными потерями, предвидение которых поможет избежать их.

Вероятность ошибки первого рода обозначаетсяα и называется

уровнем значимости.

Вероятность ошибки второго рода обозначается β .

Конечно, желательно, чтобы и первая, и вторая ошибки были малы, однако более важным является контроль уровня α . Вероятностьα задается заранее, обычно малым числом, поскольку это — вероятность ошибочного заключения.1 Как правило, при этом используют некоторые стандартные значения: 0,005; 0,01; 0,05; 0,1, хотя это не означает, что нельзя выбирать α = 0,03. Принятая стандартизация имеет некоторое преимущество, так как она позволяет сократить объем специальных таблиц критических значе- ний статистических критериев, с которыми познакомимся на следующих страницах. Никакой другой специальной причины для выбора этих значений нет. Например, α = 0,05 означает следующее: если гипотезу H0 проверять по каждой из 100 выборок одинакового объема, то в среднем в 5 случаях из 100 мы совершим ошибку

1Нахождение α — это не статистическая задача. Уровень значимости — это внешнее проявление, субъективное, волевое решение о допустимом риске.

274

первого рода. Можно записатьα è β , используя запись условных вероятностей:

α = P(отклонения

0

/ Н отклонения) = P(H / H ) = PH (H1),

(8.1)

 

0

1

0

0

 

β = P(принятияH0 / Í0ложна) = P(H0

/ H1) = PH

(P0 ),

(8.2)

 

 

 

 

1

 

В результате проверки гипотезы может быть принято и пра-

вильное решение — также двух типов. Принимают гипотезу H0, когда она в действительности верна. Вероятность этого решения:

P(принятияH0 / Í0истинна) = 1 – α.

Или отклоняют гипотезу H0 (то есть принимают гипотезу H1), тогда как на самом деле гипотеза H0 — ложная (т. е. верна гипотеза

H1)

P(H0отклонения / Н0ложна) = 1 – β,

 

 

 

 

èëè

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0 ) = P

 

 

 

 

 

 

PH

(H

 

(H1) = 1 − β.

 

 

 

 

H

 

 

 

 

1

 

 

 

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 8.1

 

 

Схема проверки гипотез

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Статистическое

 

 

 

 

 

Реальная ситуация

 

 

 

решение

 

 

 

H0

верна

 

H

0 ложна

 

 

 

 

 

 

 

 

H0

отклоняется

 

1

α

 

 

1 − β

 

H0

не отклоняется

 

α

 

 

β

 

 

 

 

 

 

 

 

 

Обычно в нулевой гипотезе мы приводим статистическое утверждение, которое будем пытаться опровергнуть (отклонить). Перед проверкой гипотезы мы задаем α, т. е. вероятность того, что совершим ошибку I рода. Когда у нас нет оснований отклонить нуль-гипотезу (т. е. мы ее принимаем), то правильнее будет так и утверждать: «нет достаточных оснований отклонить нульгипотезу».

8.3. Статистический критерий проверки нулевой гипотезы. Наблюдаемое значение критерия

Чтобы по наблюдаемому значению õ случайной величины X сделать разумный выбор между нулевой и альтернативной гипоте-

275

зами, надо построить критерий, который представляет собой правило поведения в ситуации выбора.

Статистическим критерием называют правило, с помощью которого с высокой вероятностью принимаются решения о принятии или отклонении выдвинутой нулевой гипотезы на основании результатов, наблюдаемых в выборке.

Критерий — это специально составленная выборочная характеристика (статистика) K = f(x1, x2, ..., xn),1 точное или приближенное распределение которой нам известно. Значение критерия, вы- численное по данным выборки, называют наблюдаемым значением — Kíàáë. Численное значение α называется уровнем значимости критерия. Критерий такого типа называется критерием значимости. После выбора определенного критерия K множество всех возможных его значений разбивают на два непересекающихся подмножества: одно из них содержит значения критерия, при которых нулевая гипотеза отклоняется, а другое — при которых она принимается.

8.4. Критическая область. Мощность критерия. Область принятия гипотезы. Критические точки

Множество значений критерия, при которых нулевая гипотеза отклоняется, называется областью критических значений (обозна- чим W). Для критериев проверки гипотез выбираются надлежащие «уровни значимости» (0,01; 0,05; и др.), соответствующие событиям, которые считаются практически невозможными (с некоторым риском).

Критическая область данного критерия — совокупность значе- ний критерия, при которых H0 отклоняют и принимают гипотезу

H1.

При данном уровне значимости можно по-разному строить критическую область. Чтобы выбор критической области был наилуч- шим, необходимо, чтобы вероятность попадания критерия в крити- ческую область, когда справедлива альтернативная гипотеза H1, была наибольшей. Эта вероятность носит название мощности критерия (обозначим через M).

1Эту выборочную статистику обозначают различными буквами в зависимости от закона ее распределения. Например, z — если она имеет нормальное распреде-

ление, F — если она имеет распределение Фишера, t — если она имеет распределение Стьюдента. Обозначим ее в целях общности через K.

276

Под мощностью критерия понимается вероятность несовершить ошибку второго рода.

M = 1 – β .

(8.3)

Мощность является важнейшей характеристикой критерия. Чем больше мощность критерия, тем меньше вероятность совершения ошибки второго рода.

Множество значений критерия, при которых нулевую гипотезу не отклоняют (принимают), называют областью принятия гипотезы

H0 (обозначим О).

Если наблюдаемое значение критерия Kíàáë принадлежит крити- ческой области, то нуль-гипотезу отклоняют; если наблюдаемое значение критерия принадлежит области принятия гипотезы, то нуль-гипотезу принимают (не отклоняют). Это — основной принцип проверки гипотез.

Так как критерий K — случайная величина, то все ее возможные значения принадлежат некоторому интервалу, обычно (−∞;+∞) èëè (0;+∞). Поэтому критическая область и область принятия гипотезы также являются интервалами, и, следовательно, существуют точки, которые их разделяют. Точки, отделяющие критическую область от области принятия гипотезы, называются критическими точками (критическими границами), обозначаются Kêð.

8.5.Отыскание правосторонней, левосторонней

èдвусторонней критических областей

Âзависимости от вида альтернативной гипотезы (H1 ) критические области подразделяются на односторонние (правосторонние и левосторонние) и двусторонние.

Правосторонней критической областью называют область, определяемую неравенством Kíàáë > Kêð, ãäå Kêð — положительное число.

Левосторонняя критическая область определяется неравенством K < Kêð, ãäå Kêð — отрицательное число.

Двустороннюю критическую область будем определять неравен-

ствами K < Kêðëåâ è K < Kêðïðàâ.

277

f (K )

fH

(K )

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

 

+∞

 

 

 

 

 

 

 

P(K Kêð ) = fH0 (K )dK = α

 

 

 

1 −α

 

 

Êêðïðàâ

 

 

 

 

 

 

 

H0

 

H

 

 

 

 

 

K

 

1

 

 

 

 

èëè

 

 

 

 

 

 

 

 

 

область принятия

K

ïðàâ

критическая

Î

K ïðàâ

W

H 0

 

êð

 

 

êð

 

 

 

 

область

 

 

 

 

 

 

 

 

 

 

 

Рис. 8.1. Правосторонняя критическая область

f (K )

 

 

 

 

fH

(K )

 

 

 

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

Êêðëåâ

 

 

 

 

 

 

 

 

 

P (K Kêð ) =

fH0 (K )dK = α

 

 

 

 

 

 

 

 

 

−∞

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1 −α

 

K

H1

 

 

H0

 

 

 

 

 

 

 

èëè

 

 

 

 

 

 

критическая

ëåâ область принятия

W

K êðëåâ

Î

 

 

 

область

 

K êð

 

H 0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рис. 8.2. Левосторонняя критическая область

 

 

 

 

f (x)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

fH

(x)

 

 

 

 

 

 

 

 

 

 

 

0

P(K K1) + P(K K2 ) = α

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

критическая

 

 

 

 

критическая

 

 

 

 

 

область

 

1

α

 

область

 

 

 

 

 

 

α / 2

 

 

α / 2

H1

H

 

H

0

 

 

 

 

 

0

 

 

 

 

 

 

 

x

èëè

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

K

1

= K ëåâ

область принятия K

2

= K ïðàâ

W K

êðëåâ Î Kêðïðàâ

W

 

êð

 

 

H0

êð

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рис. 8.3. Двусторонняя критическая область

278

Однако, следует заметить, что если критерий K — случайная величина, симметричная относительно оси ординат, то при Kêð >0 Kêðëåâ = –Kêð, а двусторонняя критическая область определяется неравенствами K ≤ –Kêð è K ≥ Kêð èëè |K|≥Kêð.

При справедливости нулевой гипотезы критические точки для двусторонней критической области находят из следующего равенства:

P(K Kêðëåâ) + P(K ≥ Kêðïðàâ) = α.

Если распределение симметрично относительно оси OY , òî

α

P(K Kêð) = P(K ≥ Kêð) = 2 .

Как найти критическую точку, например, для правосторонней критической области? Для этого задаются уровнем значимости α . Находят критическую точку Kêð, такую, чтобы при условии справедливости нулевой гипотезы вероятность того, что критерий K примет значение, не меньше Kêð, была равна принятому уровню

значимости: P(K ≥Kêð) = α .

Для каждого критерия в зависимости от закона распределения имеются соответствующие таблицы, по которым находят крити- ческие точки.

8.6.Стандартная форма проверки гипотезы

îзначении генеральной средней нормально распределенной генеральной совокупности при известной генеральной дисперсии

Напомним, что если из значений нормально распределенной слу- чайной величины вычесть ее среднюю арифметическую и результат разделить на среднее квадратическое отклонение, то мы полу- чим нормированную случайную величину

Z = Xσ− a , è Z → N (0;12 ).

Переход к стандартной форме случайной величины позволит нам формализовать процедуру проверки гипотез.

Предположим, что верна нулевая гипотеза H0 : X = a0.

279

Преобразуем

 

%

 

 

 

 

 

 

 

 

Z =

X − a0

,

(8.4)

 

 

 

 

 

 

σ

 

n

 

 

 

òàê êàê

 

 

 

σ

 

 

 

 

 

 

 

%

 

 

 

 

 

 

 

 

σ (X) =

 

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

%

 

 

 

 

 

 

 

 

 

При большом объеме Z =

X − a0

 

подчиняется стандартному нор-

σ n

мальному закону Z → (0;12 ).

 

 

 

 

 

 

 

Если нулевая гипотеза H0 — неверна, то

 

 

либо больше, либо

X

меньше a0, т. е. стандартный критерий либо слишком велик, либо слишком мал. Это надо понимать так, что при уровне значимости

α= 0,05 к критической области относятся все значения статисти- ческого критерия, превышающие ±1,96. При уровне значимости

α= 0,01 критические точки стандартного нормального распределения будут равны ±2,575.

Таблица 8.2

Процедура, проверка гипотезы о численной величине генеральной средней при известной дисперсии

Íóëü-гипотеза

 

 

 

= a0

H0 : X

 

 

 

 

 

 

 

 

 

 

Альтернативная

 

 

 

 

 

 

 

 

 

à) H1 : X ≠ a0

гипотеза

 

 

 

 

 

 

 

= a0 ; a1 > a0

 

á) H1 : X

 

 

 

 

= a0 ; a1 < a0

 

â) H1 : X

 

 

 

 

Уровень

α (часто α = 0,05 èëè α = 0,01 )

значимости для

 

 

 

 

 

 

 

 

 

критерия

 

 

 

 

 

 

 

 

 

Критерий

%

− a

 

(критериальная

Z =

x

(предполагается, что σãåí известно)

 

 

статистика)

σ

 

 

 

n

 

 

 

 

 

 

 

 

 

Критические

Зависят от α . Ýòî:

точки

а) границы ±Zα 2 , разделяющие критические области

 

 

принятия H0 (когдаα = 0,05, критические точки ±1,96 ;

 

когдаα = 0,01 , критические точки ±2,575. Для других

 

значений α критические точки могут быть получены из

 

таблицы стандартного нормального распределения

 

приложение 2)

280

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]