
Альтернативная гипотеза:
это гипотеза о значимости различий. Обозначается как
.
Это то, что мы хотим доказать, поэтому ее иногда называют экспериментальной гипотезой.
Они бывают ненаправленными и направленными.
|
: превышает
Пусть в (статистическом) эксперименте доступна наблюдению случайная величина X, распределение которой P неизвестно полностью или частично. Тогда любое утверждение, касающееся P называется статистической гипотезой. Гипотезы различают по виду предположений, содержащихся в них:
Статистическая гипотеза, однозначно определяющая распределение P, то есть H:{P=
, где
какой-то конкретный закон, называется простой.
Статистическая гипотеза, утверждающая принадлежность распределения P к некоторому семейству распределений, то есть вида H:{P €
}, где — семейство распределений, называется сложной.
Выдвинутая гипотеза нуждается в проверке, которая осуществляется статистическими методами, поэтому гипотезу называют статистической. Для проверки гипотезы используют критерии, позволяющие принять или опровергнуть гипотезу.
В
большинстве случаев статистические
критерии основаны на случайной выборке
(
фиксированного
объема n
1 из
распределения P.
В последовательном анализе выборка
формируется в ходе самого эксперимента
и потому её объем является случайной
величиной.
Этапы проверки статистических гипотез:
Формулировка основной гипотезы и конкурирующей гипотезы . Гипотезы должны быть чётко формализованы в математических терминах.
Задание уровня значимости
, на котором в дальнейшем и будет сделан вывод о справедливости гипотезы. Он равен вероятности допустить ошибку первого рода.
Расчёт статистики
критерия такой, что:
её величина зависит от исходной выборки
;
по её значению можно делать выводы об истинности гипотезы ;
сама статистика должна подчиняться какому-то известному закону распределения, так как сама является случайной в силу случайности Х.
Построение критической области. Из области значений выделяется подмножество С таких значений, по которым можно судить о существенных расхождениях с предположением. Его размер выбирается таким образом, чтобы выполнялось равенство
. Это множество С и называется критической областью.
Вывод об истинности гипотезы. Наблюдаемые значения выборки подставляются в статистику и по попаданию (или непопаданию) в критическую область С выносится решение об отвержении (или принятии) выдвинутой гипотезы .
Статистика – формула, составленная из случайных величин, в которую при расчете будут подставлены полученные результаты (выборка)
Критическая точка - точка, где производная равна нулю, либо неопределенна.
Свойства критической области:
Содержательно понятно6 что попадание результатов (а именно вычисленной статистики от имеющихся выборок) в критическую область свидетельствуют скорее в пользу , чем .
Вероятность попадания результата (статистики) в критическую область, если гипотеза истинна, равна α.
Ошибки первого и второго рода. Понятия статистики и критерия. Квантилей и уровня значимости.
В идеале эксперимент по проверке гипотезы должен всегда вести экспериментатора к принятию правильного решения. Если гипотеза окажется верной, он должен ее принять. Если – ложной, то отвергнуть. Проводя подобный идеальный эксперимент, экспериментатор всегда будет уверен в правильности своего решения. Но на практике подобный эксперимент невозможен, так как всегда есть шанс ошибки.
На практике при принятии решения должны рассматриваться две возможности. Предположим, что наше решение состоит в отбрасывании гипотезы.
(а) первая возможность – решение оказалось правильным => в действительности выдвинутая гипотеза ложна и должна быть отвергнута.
(б) вторая возможность – наше решение отвергнуть гипотезу ошибочно, и выдвинутая гипотеза верна, но результат ввел экспериментатора в заблуждение.
Ошибка такого рода называется ошибкой первого рода.
Опр. Экспериментатор, отвергая верную гипотезу, допускает ошибку первого рода.
Предположим, что решение состоит в принятии гипотезы.
(а) первая возможность – решение правильное =>выдвинутая гипотеза должна быть принята.
(б) вторая возможность – решение принять гипотезу оказалось ошибочным. Гипотеза ложна, и приняв ее мы допустили ошибку.
Ошибка такого рода называется ошибкой второго рода.
Опр. Экспериментатор, ошибочно принимая ложную гипотезу, допускает ошибку второго рода.
Статистика – формула, составленная из случайных величин, в которую при расчете будут подставлены полученные результаты (выборка)
Все критерии обладают общей логической структурой:
- формулируется пара альтернатив и , на различие которых направлен критерий.
- задается статистика для выбора между и .
- рассчитывается распределение статистики при условии истинности гипотезы .
- для каждого уровня значимости α установлена критическая область.
Критерий, основанный на данной статистике, оказывается полезным, если аномальные значения статистики указывают на предпочтительную истинность гипотезы . Тогда составляют таблицы распределения статистики, помогающие найти квантили для уровня значимости, который пользователь считает разумным для своих целей, - т.е. выделяются границы области аномальных значений, маловероятных при условиях истинности гипотезы .
Если статистика, вычисленная на значениях выборки, попадает в область, это считается убедительным свидетельством в пользу гипотезы .
Некоторые распределения оказываются полезными в большом количестве разных критериев. К таким относятся распределения Стьюдента и хи-квадрата. Другие рассчитываются специально для одной задачи. Две задачи, которые в случае нормального распределения решаются с помощью одного и того же распределения Стьюдента, решаются с помощью двух разных распределений (Вилкоксона и Манна-Уитни), если отказаться от требования нормальности.