Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Downloads / pdf_in_archive (2) / 1_obrabotka.pdf
Скачиваний:
38
Добавлен:
02.04.2015
Размер:
1.05 Mб
Скачать

2.5. Статистическая проверка гипотез

Проверка гипотез, наряду с задачей статистической оценки параметров, рассмотренной в предыдущих параграфах, составляет одну из важнейших процедур принятия статистических решений. Она широко используется в измерительном эксперименте при анализе данных и обработке результатов измерений. Под гипотезой Н0 понимается некоторое предположение о случайной величине х (о виде распределения, параметрах распределения и т.п.). Путем статистической проверки необходимо установить, насколько данные, полученные из выборки ( x1, x 2 ,, x n ), согласуется с гипотезой, т. е. можно ли на их основании

принять или отвергнуть гипотезу. Абсолютно надежное решение получить нельзя. Необходимо заранее допустить возможность ошибочного решения. Обозначим через α вероятность того, что гипотеза Н0 будет отвергнута, хотя на самом деле она верна. Ее называют также уровнем значимости проверки гипотезы или вероятностью ошибки первого рода. Эта величина или величина P =1 α , называемая статистической достоверностью или доверительной вероятностью, т. е. вероятностью принять правильную гипотезу, должны быть выбраны экспериментатором. При решении экономических или технических проблем, обычно выбирают α = 0,05 или α = 0,01; в медицинских исследованиях, где цена ошибки очень высока, полагают α 0,001.

Процедура проверки гипотезы заключается в следующем: выбирается некоторая подходящая выборочная функция (критерий проверки гипотезы) T (x1, x 2 ,, x n ; H 0 ), определяемая выборкой и

выдвинутой гипотезой Н0. Затем устанавливается область К, в которую в случае справедливости гипотезы Н0 значение функции Т попадает с вероятностью Р=α. Область К называется критической областью. Если

конкретное

значение

функции

Т,

найденное

по

выборке

T (x1, x 2 ,, x n ; H 0 )

попадает в критическую область

К, то

гипотеза

отклоняется, в противном случае принимается. При этом вероятность того, что гипотеза Н0 будет отвергнута в случае, когда на самом деле она верна, оказывается равной заданной величине α. При любом значении α существует множество различных возможностей для выбора критической области. Наиболее часто используется три типа критической области: симметричная, квазисимметричная, и односторонняя. На рис. 16 приведена функция плотности распределения f(t) для критерия Т:

0 t ε1 ;

{

 

}

 

t

 

 

< t

=

f (t) dt ,

(2.124)

P T

 

 

−∞

которая симметрична относительно нуля и близка по виду к кривой нормального распределения или распределения Стьюдента. Критическая область выбрана здесь симметричной относительно нуля, а именно, К: t ε .

 

 

f(t)

 

 

α/2

 

P=1–α

 

α/2

 

 

 

t

K

ε

 

ε

0

K

Рис.16. Симметричная критическая область.

На рис. 17, 18 приведены функции плотности распределения, близкие по виду к χ2 и F – распределению Фишера. Критическая область на рис. 18 расположена в диапазоне больших значений критерия, К: t ε . На рис. 17 показана квазисимметричная критическая область, К:

ε2 t , одна часть которой располагается правее нуля, а другая –

в области больших значений критерия. Заштрихованная часть, расположенная над критической областью, на всех трех рисунках имеет площадь равную α.

F(t)

 

 

 

α/2

 

 

α/2

 

P=1–α

 

 

 

t

K ε1

ε2

K

 

F(t)

 

P=1–α

α

t

ε

K

Рис.17. Квазисимметричная

критическая область.

Рис. 18. Односторонняя критическая область.

Выбор критической области определяется из следующих соображений. Обозначим H 0 – альтернативную гипотезу по отношению к Н0. Тогда, PH 0 {T K} – вероятность того, что Н0 отвергается, если она не

верна, т.е. когда истинной является альтернативная гипотеза. Эта вероятность характеризует избирательность критерия и называется мощностью критерия. Чем больше мощность критерия проверки гипотезы, тем меньше вероятность ошибки второго рода β =1 PH 0 ,

характеризующей вероятность принять неправильную

гипотезу.

При заданной вероятности ошибки первого

 

рода критическая

область

выбирается

так,

чтобы

обеспечить

максимальную

избирательность критерия:

 

 

 

 

 

P

 

(T K )= max .

 

 

 

 

(2.125)

H0

 

 

 

 

Введение двух пороговых вероятностей α и β отражает тот факт, что принятие статистического решения – это всегда компромисс между необходимым и возможным. Возможное (риск исполнителя) характеризуется значением вероятности α, а необходимое (риск заказчика) – значением β. Рассмотрим несколько примеров, иллюстрирующих выбор критической области.

2.5.1. Проверка гипотезы о среднем значении нормально распределенной случайной величины х с известной дисперсией

Гипотеза Н0: среднее значение Е(х)=m0 (постоянная величина);

гипотеза H 0 : Е(х)m0.

В качестве критерия выберем функцию:

 

T =

x n m0

,

(2.126)

 

 

 

 

 

 

 

σ

 

 

 

 

 

 

 

n

 

 

 

 

 

 

1

n

 

 

где

x n

=

x i

– выборочное среднее.

 

 

 

 

 

 

 

n i=1

 

 

Отметим, что критерий всегда выбирается безразмерной величиной, поэтому числитель (x n m0 ) делится на СКО выборочного среднего

σ

. Критерий Т при справедливости гипотезы Н0

имеет нормированное

n

нормальное распределение. Критическую область К, соответствующую

уровню значимости α, выберем симметричной, К:

 

t

 

ε .

 

 

Для определения ε решается уравнение:

 

 

P{

 

T

 

< ε}= Φ(ε ) − Φ(ε ) = P =1 α ,

(2.127)

 

 

где Ф(ε) – функция нормированного нормального распределения.

Если Т попадает в область К, то гипотеза Н0 отвергается. Поясним этот вывод расчетами. Пусть из нормально распределенной совокупности

с дисперсией σ2 = 25 извлечена выборка объема n=16, с помощью которой получена оценка среднего xn = 22 . Требуется проверить гипотезу

Е(х)=20. Зададим уровень значимости α=0,05; по таблице нормального распределения найдем ε=1,96. При этом критическая область К: t >1,96.

Подсчитаем выборочное значение критерия: t =T =

22 20

=16,

< ε , т.е.

25

16

 

 

 

гипотеза Н0 принимается.

2.5.2. Проверка гипотезы о значении дисперсии нормально распределенной случайной величины х при неизвестном среднем

Гипотеза Н0: σ2 = σ02 (постоянная величина);

 

:σ2

σ02 .

H 0

В качестве критерия используем функцию:

 

 

(n 1)S 2

 

T =

 

 

 

,

 

 

(2.128)

σ

2

 

 

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

где S2 – выборочная дисперсия (оценка дисперсии σ 2).

 

Если Н0

 

справедлива, то T подчиняется χ 2

распределению

Пирсона. Критическую область, соответствующую уровню значимости α выберем квазисимметричной:

P{T < ε 1}= P{T > ε 2 }=

α .

(2.129)

 

2

 

Если T попадает в критическую область К: 0 T ε 1 ;

ε 2T , то

гипотезу Н0 следует отвергнуть. Проведем расчеты. Пусть из нормально распределенной совокупности извлечена выборка объема n=40, с помощью которой рассчитана оценка дисперсии S2=20,61. Требуется

проверить гипотезу σ2 = 20 . Зададим уровень значимости α=0,05 и по таблице распределения Пирсона найдем ε1=24,4; ε2=59,3. При этом критическая область К: 0 χ 2ε 1 ; χ 2ε 2 . Подсчитаем выборочное значение критерия: χ 2 =T = 39 2020,61 = 40,2. Так как T не попадает в

критическую область, то гипотеза Н0 принимается.

В рассмотренных примерах критическая область выбрана наилучшим образом в смысле обеспечения максимальной избирательности критерия. Положение критической области существенно

зависит также от выбора альтернативной гипотезы H 0 . Мы выбираем H 0 : Е(х)m0 (в первом примере) либо σ2 σ20 (во втором примере). Если

использовать другую гипотезу, например, H 0 : σ2 > σ20 , то в качестве

критической следует выбрать одностороннюю критическую область на рис.18.

Использованные критерии зависят от вида распределения случайной величины х; такие критерии называют параметрическими. Существует и другая группа критериев, применение которых не связано с предположениями о законе распределения. Они называются непараметрическими. В табл. 7 приведены наиболее распространенные виды критериев и области их применения.

 

 

 

 

Таблица 7

 

Статистические критерии проверки гипотез

 

Параметрические критерии

Непараметрические критерии

 

Критерий

Область

Критерий

 

Область

 

 

применения

 

 

применения

 

Аббе

Проверка гипотез

Серий

 

Проверка

 

Стьюдента

об однородности,

Знаков

 

гипотез

об

 

независимости,

Уилкоксона

или

однородности,

 

 

стационарности

ранговых сумм

независимости,

 

данных; проверка

(одно-

и

стационарности

 

гипотез о средних

двухвыборочны

и сдвиге.

 

 

 

 

й).

 

 

Пирсона

Проверка гипотез

Ансари-Бредли

Проверка

 

Фишера

о

дисперсиях;

 

гипотез

о

Кокрена

проверка гипотез

 

дисперсиях

 

Бартлета

о

 

 

 

 

 

равнорассеянност

 

 

 

 

и данных

 

 

 

Хотеллинга

Проверка гипотез

 

 

 

 

 

 

Шеффе

об

однородности

 

 

 

Уилкса

многомерных

 

 

 

 

совокупностей

 

 

 

Пирсона

Проверка гипотез

 

 

 

Крамера-

о

согласии

 

 

 

Мизеса-

(соответствии)

 

 

 

Смирнова

выбранной

 

 

 

Колмогорова

модели

 

 

 

 

распределения с

 

 

 

 

исходными

 

 

 

 

данными.

 

 

 

Рассмотрим несколько часто применяемых непараметрических критериев, свободных от вида распределения.

2.5.3. Проверка гипотез о независимости и стационарности данных

Пусть имеется последовательность, состоящая из m элементов а и n элементов в (а – знак «плюс», в – знак «минус»). Серией называется часть последовательности, состоящая из элементов одного вида. Обозначим k – общее число серий в данной последовательности. Гипотеза Н0: элементы а

и в расположены случайно; гипотеза H 0 : в расположении а и в

наблюдается закономерность. Для проверки гипотезы используется так называемый критерий серий, который имеет вид (при больших m, n и отношении m/n):

 

T = k E(k) + 0,5 ,

(2.130)

 

D(k)

 

 

где

E(k) =1 +

2mn

 

(математическое ожидание величины k),(2.131)

m + n