- •Тема 11
- •Статистические оценки параметров генеральной совокупности. Статистические гипотезы.
- •1. Определение статистической оценки. Точечные статистические оценки.
- •2. Интервальные оценки.
- •3. Понятие статистической гипотезы. Общая постановка задачи проверки гипотез.
- •4. Теоретические и эмпирические частоты. Критерии согласия.
- •Вопросы для самопроверки
- •Задачи для самостоятельного решения
3. Понятие статистической гипотезы. Общая постановка задачи проверки гипотез.
Проверка статистических гипотез тесно связана с теорией оценивания параметров. В естествознании, технике, экономике часто для выяснения того или иного случайного факта прибегают к высказыванию гипотез, которые можно проверить статистически, т. е. опираясь на результаты наблюдений в случайной выборке. Под статистическими гипотезами подразумеваются такие гипотезы, которые относятся или к виду, или к отдельным параметрам распределения случайной величины. Так, например, статистической является гипотеза о том, что распределение производительности труда рабочих, выполняющих одинаковую работу в одинаковых условиях, имеет нормальный закон распределения. Статистической будет также гипотеза о том, что средние размеры деталей, производимые на однотипных, параллельно работающих станках, не различаются между собой.
Статистическая гипотеза называется простой , если она однозначно определяет распределение случайной величины , в противном случае гипотеза называется сложной. Например, простой гипотезой является предположение о том, что случайная величина распределена по нормальному закону с математическим ожиданием, равным нулю, и дисперсией, равной единице. Если высказывается предположение, что случайная величина имеет нормальное распределение с дисперсией, равной единице, а математическое ожидание - число из отрезка , то это сложная гипотеза. Другим примером cложной гипотезы является предположение о том, что непрерывная случайная величина с вероятностью принимает значение из интервала , в этом случае распределение случайной величины может быть любым из класса непрерывных распределений.
Часто распределение величины известно, и по выборке наблюдений необходимо проверить предположения о значении параметров этого распределения. Такие гипотезы называются параметрическими.
Проверяемая гипотеза называется нулевой гипотезой и обозначается . Наряду с гипотезой рассматривают одну из альтернативных (конкурирующих) гипотез . Например, если проверяется гипотеза о равенстве параметра некоторому заданному значению , т. е. : , то в качестве альтернативной гипотезы можно рассмотреть одну из следующих гипотез: : ; : ; : ; : , где - заданное значение, . Выбор альтернативной гтпотезы определяется конкретной формулировкой задачи.
Правило, по которому принимается решение принять или отклонить гипотезу , называется критерием . Так как решение принимается на основе выборки наблюдений случайной величины , необходимо выбрать подходящую статистику, называемую в этом случае статистикой критерия . При проверке простой параметрической гипотезы : в качестве статистики критерия выбирают ту же статистику, что и для оценки параметра .
Проверка статистической гипотезы основывается на принципе, в соответствии с которым маловероятные события считаются невозможными, а события, имеющие большую вероятность, считяются достоверными. Этот принцип можно реализовать следующим образом. Перед анализом выборки фиксируется некоторая малая вероятность , называемая уровнем значимости. Пусть - множество значений статистики , а - такое подмножество, что при условии истинности гипотезы вероятность попадания статистики критерия в равна , т. е. .
Обозначим через выборочное значение статистики , вычисленное по выборке наблюдений. Критерий формулируется следующим образом: отклонить гипотезу , если ; принять гипотезу , если . Критерий, основанный на использовании заранее заданного уровня значимости, называют критерием значимости. Множество всех значений статистики критерия , при которых принимается решение отклонить гипотезу , называется критической областью; область называется областью принятия гипотезы .
Уровень значимости определяет размер критической области . Положение критической области на множестве значений статистики зависит от формулировки альтернативной гипотезы . Например, если проверяется гипотеза : , а альтернативная гипотеза форимулируется как : (), то критическая область размещается на правом (левом) “хвосте” распределения статистики , т. е. имеет вид неравенства: (), где и - те значения статистики , которые принимаются с вероятностями соответственно и при условии, что верна гипотеза . В этом случае критерий называется односторонним, соответственно правосторонним и левосторонним. Если альтернативная гипотеза формулируется как : , то критическая область размещается на обоих “хвостах” распределения , т. е. определяется совокупностью неравенств и ; в этом случае критерий называется двухсторонним.
Рис. 30
На рис. 30 показано расположение критической области для различных альтернативных гипотез. Здесь - плотность распределеиня статистики критерия при условии, что верна гипотеза , - область принятия гипотезы, .
Таким образом, проверка параметрической статистической гипотезы при помощи критерия значимости может быть разбита на следующие этапы:
1) сформулировать проверяемую () и альтернативную () гипотезы;
2) назначить уровень значимости ;
3) выбрать статистику критерия для проверки гипотезы ;
4) определить выборочное распределение статистики при условии, что верна гипотеза ;
5) в зависимости от формулировки альтернативной гипотезы определить критическую область одним из неравенств , или совокупностью неравенств и ;
6) получить выборку наблюдений и вычислить выборочные значения статистики критерия;
7) принять статистическое решение: если , то оклонить гипотезу как не согласующуюся с результатами наблюдений; если , то принять гипотезу , т. е. считать, что гипотеза не противоречит результатам наблюдений.
Обычно при выполнении п. п. 4 - 7 используют статистику, квантили которых табулированы: статистику с нормальным распределением, статистику Стьюдента, статистику Фишера.
Пример 3. По паспортным данным автомобильного двигателя расход топлива на 100 км пробега составляет 10 л. В результате изменения конструкции двигателя ожидается, что расход топлива уменьшится. Для проверки проводятся испытания 25 случайно отобранных автомобилей с модернизированным двигателем, причем выборочное среднее расходов топлива на 100 км пробега по результатам испытаний составило 9,3 л. Предположим, что выборка расходов топлива получена из нормально распределенной генеральной совокупности с средним и дисперсией . Испольуя критерий значимости, проверить гипотезу, утверждающую, что изменение конструкции двигателя не повлияло на расход топлива.
Решение. Проверяется гипотеза о среднем () нормально распределенной генеральной совокупности. Проверку гипотезы проведем по этапам:
1) проверяемая гипотеза : , альтернативная гипотеза : ;
2) выберем уровнь значимости ;
3) в качестве статистики критерия используем статистику математического ожидания - выборочное среднее;
4) т. к. выборка получена из нормально распределенной генеральной совокупности, выборочное среднее также имеет нормальное распределение с дисперсией: . При условии, что верна гипотеза , математическое ожидание этого распределения равно . Нормированная статистика имеет нормальное распределение;
5) альтернативная гипотеза : предполагает уменьшение расхода топлива, следовательно, нужно использовать односторонний критерий. Критическая область определяется неравенством . По таблице (см. приложение 5) находим ;
6) выборочное значение нормированной статистики критерия равно ;
7) статистическое решение: т. к. выборочное значение статистики критерия принадлежит критической области, гипотеза отклоняется: следует считать, что изменение конструкции двигателя привело к уменьшению расхода топлива. Граница критической области для исходной статистики критерия может быть получена из соотношения , откуда получаем, что , т. е. критическая область для статистики определяется неравенстсвом .
Решение, принимаемое на основе критерия значимости, может быть ошибочным. Пусть выборочное значение статистики критерия попадает в критическую область, и гипотеза отклоняется в соответствии с критерием. Если, тем не менее, гипотеза верна, то принимаемое решение неверно. Ошибка, совершаемая при отклонении правильной гипотезы , называется ошибкой первого рода. Очевидно, вероятность ощибки первого рода равна вероятности попадания статистики критерия в критическую область при условии, что верна гипотеза , т. е. равна уровню значимости :
. (11.1)
Ошибка второго рода происходит в том случае, если гипотеза принимается, но в действительности верна гипотеза . Вероятность ошибки второго рода можно вычислить по формуле
. (11.2)
Пример 4. В условиях примера 3 предположим, что наряду с гипотезой : рассматривается альтернативная гипотеза : . В качестве статистики критерия снова возьмем выборочное среднее . Предположим, что критическая область задана следующим неравенством . Найти вероятности ошибок первого и второго рода для критерия с такой критической областью.
Решение. Найдем вероятность ошибки первого рода. Статистика критерия при условии, что верна гипотеза : , имеет нормальное распределение с математическим ожиданием, равным , и дисперсией, равной . По формуле (11.1), используя таблицу приложения 5, находим
.
Это означает, что принятый критерий классифицирует примерно 8% автомобилей, имеющих расход 10 л на 100 км пробега, как автомобили, имеющие меньший расход топлива. При условии, что верна гипотеза : , статистика имеет нормальное распределение с математическим ожиданием, равным и дисперсией, равной . Вероятность ошибки второго рода найдем по формуле (11.2):
.
Следовательно, в соответствии с принятым критерием 13,6% автомобилей, имеющих расход топлива 9 л на 100 км пробега, классифицируются как автомобили, имеющие расход топлива 10 л.