Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Тема 11.doc
Скачиваний:
23
Добавлен:
07.02.2016
Размер:
1.04 Mб
Скачать

3. Понятие статистической гипотезы. Общая постановка задачи проверки гипотез.

Проверка статистических гипотез тесно связана с теорией оценивания параметров. В естествознании, технике, экономике часто для выяснения того или иного случайного факта прибегают к высказыванию гипотез, которые можно проверить статистически, т. е. опираясь на результаты наблюдений в случайной выборке. Под статистическими гипотезами подразумеваются такие гипотезы, которые относятся или к виду, или к отдельным параметрам распределения случайной величины. Так, например, статистической является гипотеза о том, что распределение производительности труда рабочих, выполняющих одинаковую работу в одинаковых условиях, имеет нормальный закон распределения. Статистической будет также гипотеза о том, что средние размеры деталей, производимые на однотипных, параллельно работающих станках, не различаются между собой.

Статистическая гипотеза называется простой , если она однозначно определяет распределение случайной величины , в противном случае гипотеза называется сложной. Например, простой гипотезой является предположение о том, что случайная величина распределена по нормальному закону с математическим ожиданием, равным нулю, и дисперсией, равной единице. Если высказывается предположение, что случайная величина имеет нормальное распределение с дисперсией, равной единице, а математическое ожидание - число из отрезка , то это сложная гипотеза. Другим примером cложной гипотезы является предположение о том, что непрерывная случайная величина с вероятностью принимает значение из интервала , в этом случае распределение случайной величины может быть любым из класса непрерывных распределений.

Часто распределение величины известно, и по выборке наблюдений необходимо проверить предположения о значении параметров этого распределения. Такие гипотезы называются параметрическими.

Проверяемая гипотеза называется нулевой гипотезой и обозначается . Наряду с гипотезой рассматривают одну из альтернативных (конкурирующих) гипотез . Например, если проверяется гипотеза о равенстве параметра некоторому заданному значению , т. е. : , то в качестве альтернативной гипотезы можно рассмотреть одну из следующих гипотез: : ; : ; : ; : , где - заданное значение, . Выбор альтернативной гтпотезы определяется конкретной формулировкой задачи.

Правило, по которому принимается решение принять или отклонить гипотезу , называется критерием . Так как решение принимается на основе выборки наблюдений случайной величины , необходимо выбрать подходящую статистику, называемую в этом случае статистикой критерия . При проверке простой параметрической гипотезы : в качестве статистики критерия выбирают ту же статистику, что и для оценки параметра .

Проверка статистической гипотезы основывается на принципе, в соответствии с которым маловероятные события считаются невозможными, а события, имеющие большую вероятность, считяются достоверными. Этот принцип можно реализовать следующим образом. Перед анализом выборки фиксируется некоторая малая вероятность , называемая уровнем значимости. Пусть - множество значений статистики , а - такое подмножество, что при условии истинности гипотезы вероятность попадания статистики критерия в равна , т. е. .

Обозначим через выборочное значение статистики , вычисленное по выборке наблюдений. Критерий формулируется следующим образом: отклонить гипотезу , если ; принять гипотезу , если . Критерий, основанный на использовании заранее заданного уровня значимости, называют критерием значимости. Множество всех значений статистики критерия , при которых принимается решение отклонить гипотезу , называется критической областью; область называется областью принятия гипотезы .

Уровень значимости определяет размер критической области . Положение критической области на множестве значений статистики зависит от формулировки альтернативной гипотезы . Например, если проверяется гипотеза : , а альтернативная гипотеза форимулируется как : (), то критическая область размещается на правом (левом) “хвосте” распределения статистики , т. е. имеет вид неравенства: (), где и - те значения статистики , которые принимаются с вероятностями соответственно и при условии, что верна гипотеза . В этом случае критерий называется односторонним, соответственно правосторонним и левосторонним. Если альтернативная гипотеза формулируется как : , то критическая область размещается на обоих “хвостах” распределения , т. е. определяется совокупностью неравенств и ; в этом случае критерий называется двухсторонним.

Рис. 30

На рис. 30 показано расположение критической области для различных альтернативных гипотез. Здесь - плотность распределеиня статистики критерия при условии, что верна гипотеза , - область принятия гипотезы, .

Таким образом, проверка параметрической статистической гипотезы при помощи критерия значимости может быть разбита на следующие этапы:

1) сформулировать проверяемую () и альтернативную () гипотезы;

2) назначить уровень значимости ;

3) выбрать статистику критерия для проверки гипотезы ;

4) определить выборочное распределение статистики при условии, что верна гипотеза ;

5) в зависимости от формулировки альтернативной гипотезы определить критическую область одним из неравенств , или совокупностью неравенств и ;

6) получить выборку наблюдений и вычислить выборочные значения статистики критерия;

7) принять статистическое решение: если , то оклонить гипотезу как не согласующуюся с результатами наблюдений; если , то принять гипотезу , т. е. считать, что гипотеза не противоречит результатам наблюдений.

Обычно при выполнении п. п. 4 - 7 используют статистику, квантили которых табулированы: статистику с нормальным распределением, статистику Стьюдента, статистику Фишера.

Пример 3. По паспортным данным автомобильного двигателя расход топлива на 100 км пробега составляет 10 л. В результате изменения конструкции двигателя ожидается, что расход топлива уменьшится. Для проверки проводятся испытания 25 случайно отобранных автомобилей с модернизированным двигателем, причем выборочное среднее расходов топлива на 100 км пробега по результатам испытаний составило 9,3 л. Предположим, что выборка расходов топлива получена из нормально распределенной генеральной совокупности с средним и дисперсией . Испольуя критерий значимости, проверить гипотезу, утверждающую, что изменение конструкции двигателя не повлияло на расход топлива.

Решение. Проверяется гипотеза о среднем () нормально распределенной генеральной совокупности. Проверку гипотезы проведем по этапам:

1) проверяемая гипотеза : , альтернативная гипотеза : ;

2) выберем уровнь значимости ;

3) в качестве статистики критерия используем статистику математического ожидания - выборочное среднее;

4) т. к. выборка получена из нормально распределенной генеральной совокупности, выборочное среднее также имеет нормальное распределение с дисперсией: . При условии, что верна гипотеза , математическое ожидание этого распределения равно . Нормированная статистика имеет нормальное распределение;

5) альтернативная гипотеза : предполагает уменьшение расхода топлива, следовательно, нужно использовать односторонний критерий. Критическая область определяется неравенством . По таблице (см. приложение 5) находим ;

6) выборочное значение нормированной статистики критерия равно ;

7) статистическое решение: т. к. выборочное значение статистики критерия принадлежит критической области, гипотеза отклоняется: следует считать, что изменение конструкции двигателя привело к уменьшению расхода топлива. Граница критической области для исходной статистики критерия может быть получена из соотношения , откуда получаем, что , т. е. критическая область для статистики определяется неравенстсвом .

Решение, принимаемое на основе критерия значимости, может быть ошибочным. Пусть выборочное значение статистики критерия попадает в критическую область, и гипотеза отклоняется в соответствии с критерием. Если, тем не менее, гипотеза верна, то принимаемое решение неверно. Ошибка, совершаемая при отклонении правильной гипотезы , называется ошибкой первого рода. Очевидно, вероятность ощибки первого рода равна вероятности попадания статистики критерия в критическую область при условии, что верна гипотеза , т. е. равна уровню значимости :

. (11.1)

Ошибка второго рода происходит в том случае, если гипотеза принимается, но в действительности верна гипотеза . Вероятность ошибки второго рода можно вычислить по формуле

. (11.2)

Пример 4. В условиях примера 3 предположим, что наряду с гипотезой : рассматривается альтернативная гипотеза : . В качестве статистики критерия снова возьмем выборочное среднее . Предположим, что критическая область задана следующим неравенством . Найти вероятности ошибок первого и второго рода для критерия с такой критической областью.

Решение. Найдем вероятность ошибки первого рода. Статистика критерия при условии, что верна гипотеза : , имеет нормальное распределение с математическим ожиданием, равным , и дисперсией, равной . По формуле (11.1), используя таблицу приложения 5, находим

.

Это означает, что принятый критерий классифицирует примерно 8% автомобилей, имеющих расход 10 л на 100 км пробега, как автомобили, имеющие меньший расход топлива. При условии, что верна гипотеза : , статистика имеет нормальное распределение с математическим ожиданием, равным и дисперсией, равной . Вероятность ошибки второго рода найдем по формуле (11.2):

.

Следовательно, в соответствии с принятым критерием 13,6% автомобилей, имеющих расход топлива 9 л на 100 км пробега, классифицируются как автомобили, имеющие расход топлива 10 л.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]