
- •Тема 11
- •Статистические оценки параметров генеральной совокупности. Статистические гипотезы.
- •1. Определение статистической оценки. Точечные статистические оценки.
- •2. Интервальные оценки.
- •3. Понятие статистической гипотезы. Общая постановка задачи проверки гипотез.
- •4. Теоретические и эмпирические частоты. Критерии согласия.
- •Вопросы для самопроверки
- •Задачи для самостоятельного решения
3. Понятие статистической гипотезы. Общая постановка задачи проверки гипотез.
Проверка статистических гипотез тесно связана с теорией оценивания параметров. В естествознании, технике, экономике часто для выяснения того или иного случайного факта прибегают к высказыванию гипотез, которые можно проверить статистически, т. е. опираясь на результаты наблюдений в случайной выборке. Под статистическими гипотезами подразумеваются такие гипотезы, которые относятся или к виду, или к отдельным параметрам распределения случайной величины. Так, например, статистической является гипотеза о том, что распределение производительности труда рабочих, выполняющих одинаковую работу в одинаковых условиях, имеет нормальный закон распределения. Статистической будет также гипотеза о том, что средние размеры деталей, производимые на однотипных, параллельно работающих станках, не различаются между собой.
Статистическая
гипотеза называется
простой ,
если она однозначно определяет
распределение случайной величины
,
в противном случае гипотеза называется
сложной.
Например,
простой гипотезой является предположение
о том, что случайная величина
распределена по нормальному закону с
математическим ожиданием, равным нулю,
и дисперсией, равной единице. Если
высказывается предположение, что
случайная величина
имеет нормальное распределение с
дисперсией, равной единице, а математическое
ожидание - число из отрезка
,
то это сложная гипотеза. Другим примером
cложной гипотезы является предположение
о том, что непрерывная случайная величина
с вероятностью
принимает значение из интервала
,
в этом случае распределение случайной
величины
может быть любым из класса непрерывных
распределений.
Часто распределение
величины
известно, и по выборке наблюдений
необходимо проверить предположения о
значении параметров этого распределения.
Такие гипотезы называются параметрическими.
Проверяемая
гипотеза называется нулевой
гипотезой
и обозначается
.
Наряду с гипотезой
рассматривают одну из альтернативных
(конкурирующих) гипотез
.
Например, если проверяется гипотеза о
равенстве параметра
некоторому заданному значению
,
т. е.
:
,
то в качестве альтернативной гипотезы
можно рассмотреть одну из следующих
гипотез:
:
;
:
;
:
;
:
,
где
- заданное значение,
.
Выбор альтернативной гтпотезы определяется
конкретной формулировкой задачи.
Правило, по которому
принимается решение принять или отклонить
гипотезу
,
называется критерием
.
Так как решение принимается на основе
выборки наблюдений случайной величины
,
необходимо выбрать подходящую статистику,
называемую в этом случае статистикой
критерия
.
При проверке простой параметрической
гипотезы
:
в качестве статистики критерия выбирают
ту же статистику, что и для оценки
параметра
.
Проверка
статистической гипотезы основывается
на принципе, в соответствии с которым
маловероятные события считаются
невозможными, а события, имеющие большую
вероятность, считяются достоверными.
Этот принцип можно реализовать следующим
образом. Перед анализом выборки
фиксируется некоторая малая вероятность
,
называемая уровнем
значимости.
Пусть
- множество значений статистики
,
а
- такое подмножество, что при условии
истинности гипотезы
вероятность попадания статистики
критерия в
равна
,
т. е.
.
Обозначим через
выборочное значение статистики
,
вычисленное по выборке наблюдений.
Критерий формулируется следующим
образом: отклонить гипотезу
,
если
;
принять гипотезу
,
если
.
Критерий, основанный на использовании
заранее заданного уровня значимости,
называют критерием
значимости.
Множество
всех значений статистики критерия
,
при которых принимается решение отклонить
гипотезу
,
называется критической
областью;
область
называется областью
принятия
гипотезы
.
Уровень значимости
определяет размер критической области
.
Положение критической области на
множестве значений статистики
зависит от формулировки альтернативной
гипотезы
.
Например, если проверяется гипотеза
:
,
а альтернативная гипотеза
форимулируется как
:
(
),
то критическая область размещается на
правом (левом) “хвосте” распределения
статистики
,
т. е. имеет вид неравенства:
(
),
где
и
- те значения статистики
, которые принимаются с вероятностями
соответственно
и
при условии, что верна гипотеза
.
В этом случае критерий называется
односторонним,
соответственно правосторонним и
левосторонним. Если альтернативная
гипотеза формулируется как
:
,
то критическая область размещается на
обоих “хвостах” распределения
,
т. е. определяется совокупностью
неравенств
и
;
в этом случае критерий называется
двухсторонним.
Рис. 30
На рис. 30 показано
расположение критической области
для различных альтернативных гипотез.
Здесь
- плотность распределеиня статистики
критерия при условии, что верна гипотеза
,
- область принятия гипотезы,
.
Таким образом, проверка параметрической статистической гипотезы при помощи критерия значимости может быть разбита на следующие этапы:
1) сформулировать
проверяемую ()
и альтернативную (
)
гипотезы;
2) назначить уровень
значимости
;
3) выбрать статистику
критерия для проверки гипотезы
;
4) определить
выборочное распределение статистики
при условии, что верна гипотеза
;
5) в зависимости
от формулировки альтернативной гипотезы
определить критическую область
одним из неравенств
,
или совокупностью неравенств
и
;
6) получить выборку
наблюдений и вычислить выборочные
значения
статистики критерия;
7) принять
статистическое решение: если
,
то оклонить гипотезу
как не согласующуюся с результатами
наблюдений; если
,
то принять гипотезу
,
т. е. считать, что гипотеза
не противоречит результатам наблюдений.
Обычно при выполнении п. п. 4 - 7 используют статистику, квантили которых табулированы: статистику с нормальным распределением, статистику Стьюдента, статистику Фишера.
Пример
3. По паспортным
данным автомобильного двигателя расход
топлива на 100
км пробега
составляет 10
л. В результате
изменения конструкции двигателя
ожидается, что расход топлива уменьшится.
Для проверки проводятся испытания 25
случайно отобранных автомобилей с
модернизированным двигателем, причем
выборочное среднее расходов топлива
на 100 км
пробега по результатам испытаний
составило
9,3 л.
Предположим, что выборка расходов
топлива получена из нормально
распределенной генеральной совокупности
с средним
и дисперсией
.
Испольуя критерий значимости, проверить
гипотезу, утверждающую, что изменение
конструкции двигателя не повлияло на
расход топлива.
Решение. Проверяется
гипотеза о среднем ()
нормально распределенной генеральной
совокупности. Проверку гипотезы проведем
по этапам:
1) проверяемая
гипотеза
:
,
альтернативная гипотеза
:
;
2) выберем уровнь
значимости
;
3) в качестве статистики критерия используем статистику математического ожидания - выборочное среднее;
4) т. к. выборка
получена из нормально распределенной
генеральной совокупности, выборочное
среднее также имеет нормальное
распределение с дисперсией:
.
При условии, что верна гипотеза
,
математическое ожидание этого
распределения равно
.
Нормированная статистика
имеет нормальное распределение;
5) альтернативная
гипотеза
:
предполагает уменьшение расхода топлива,
следовательно, нужно использовать
односторонний критерий. Критическая
область определяется неравенством
.
По таблице (см. приложение 5) находим
;
6) выборочное
значение нормированной статистики
критерия равно
;
7) статистическое
решение: т. к. выборочное значение
статистики критерия принадлежит
критической области, гипотеза
отклоняется: следует считать, что
изменение конструкции двигателя привело
к уменьшению расхода топлива. Граница
критической области для исходной
статистики
критерия может быть получена из
соотношения
,
откуда получаем, что
,
т. е. критическая область для статистики
определяется неравенстсвом
.
Решение, принимаемое
на основе критерия значимости, может
быть ошибочным. Пусть выборочное значение
статистики критерия попадает в критическую
область, и гипотеза
отклоняется в соответствии с критерием.
Если, тем не менее, гипотеза
верна, то принимаемое решение неверно.
Ошибка, совершаемая при отклонении
правильной гипотезы
,
называется ошибкой
первого рода. Очевидно,
вероятность ощибки первого рода равна
вероятности попадания статистики
критерия в критическую область при
условии, что верна гипотеза
,
т. е. равна уровню значимости
:
. (11.1)
Ошибка
второго рода
происходит в том случае, если гипотеза
принимается, но в действительности
верна гипотеза
.
Вероятность ошибки второго рода
можно вычислить по формуле
. (11.2)
Пример
4. В условиях
примера 3 предположим, что наряду с
гипотезой
:
рассматривается альтернативная гипотеза
:
.
В качестве статистики критерия снова
возьмем выборочное среднее
.
Предположим, что критическая область
задана следующим неравенством
.
Найти вероятности ошибок первого и
второго рода для критерия с такой
критической областью.
Решение. Найдем
вероятность ошибки первого рода.
Статистика
критерия при условии, что верна гипотеза
:
,
имеет нормальное распределение с
математическим ожиданием, равным
,
и дисперсией, равной
.
По формуле (11.1), используя таблицу
приложения 5, находим
.
Это означает, что
принятый критерий классифицирует
примерно 8% автомобилей, имеющих расход
10 л
на 100 км
пробега, как автомобили, имеющие меньший
расход топлива. При условии, что верна
гипотеза
:
,
статистика
имеет нормальное распределение с
математическим ожиданием, равным
и дисперсией, равной
.
Вероятность ошибки второго рода найдем
по формуле (11.2):
.
Следовательно, в соответствии с принятым критерием 13,6% автомобилей, имеющих расход топлива 9 л на 100 км пробега, классифицируются как автомобили, имеющие расход топлива 10 л.