Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
чётка.docx
Скачиваний:
1
Добавлен:
01.03.2025
Размер:
4.06 Mб
Скачать

23. Построение доверительного интервала для коэффициента корреляции двумерного нормального распределения с неизвестными математическими ожиданиями и дисперсиями.

Пусть выборка из двумерного нормального распределения с неизвестными математическими ожиданиями и , и неизвестными дисперсиями и . Требуется построить доверительный интервал для коэффициента корреляции с уровнем доверия .

Если случайная величина имеет распределение , то коэффициент корреляции :

.

Моментная оценка коэффициента корреляции имеет вид:

,

, .

Можно показать, что статистика имеет асимптотически нормальное распределение , однако, использовать непосредственно статистику для построения доверительного интервала весьма затруднительно, поскольку зависимость дисперсии от в конечном счете приводит к необходимости решать громоздкое квадратное уравнение. Во избежание указанной проблемы прибегают к преобразованию Фишера:

.

Можно показать, что статистика имеет асимптотически нормальное распределение , где и не зависит от . Легко видеть, что случайная величина :

будет иметь асимптотически нормальное распределение и поэтому может быть использована для построения «приближенного» доверительного интервала. Для этого достаточно вычислить – квантиль распределения с уровнем доверия , тогда:

.

Разрешая неравенства относительно , получим статистики и (значения статистик вычисляют численными методами):

,

откуда непосредственно будет получен доверительный интервал .

24. Основные определения в задачах проверки статистических гипотез: статистическая гипотеза (простая и сложная), основная и альтернативная гипотезы (альтернативные распределения), статистический критерий и статистика критерия, критическая область и общий принцип проверки гипотез.

См25 хз что хотят куда всунуть

25. Основные определения в задачах проверки статистических гипотез: статистика критерия и критическая область, вероятности ошибок первого и второго родов, функция мощности критерия (функции мощности как характеристика критерия и вид функции мощности «хорошего» критерия), свойства несмещенности и состоятельности критерия.

Билеты из себя представляют сбор определений которые объяснены на тупом примере. Что из этого оставлять что убирать – сам черт ногу сломит. При формировании шпор по моему мнению нужно оставить только определения и чё нить попробовать наболтать

Одной из основных задач статистики является задача проверки статистических гипотез различного вида.

Определение 6.1.

Статистической гипотезой (гипотезой) называют некоторое утверждение о вероятностных свойствах наблюдения.

Задача проверки гипотезы заключается в формировании такого метода обработки наблюдения, который позволяет определить согласуется ли сформулированное утверждение о свойстве наблюдения с конкретной реализацией наблюдения, полученной в результате эксперимента. Фактически, задача проверки гипотезы, говоря неформально, заключается в том, чтобы проверить насколько гипотетическое представление о наблюдении согласуется с тем, что наблюдается в действительности.

Если метод обработки наблюдения выявил наличие согласованности между гипотезой и наблюдением, полученным в результате эксперимента, то говорят, что гипотеза принимается, в противном случае говорят, что гипотеза отклоняется.

Определение 6.2.

Метод обработки наблюдения, согласно которому гипотеза принимается либо отклоняется, называется статистическим критерием (критерием).

Разработка критерия и исследование его свойств составляют суть задачи проверки статистической гипотезы.

Определение 6.3.

Если в задаче проверки сформулирована только одна гипотеза, то её называют основной (нулевой) гипотезой (обычно её обозначают ).

Если гипотеза полностью (однозначно) определяет гипотетическую (предполагаемую) функцию распределения наблюдения, то гипотеза называется простой, в противном случае – сложной (например, гипотеза, определяющая функцию распределения с точностью до неизвестного параметра, является сложной).

Определение 6.4.

В задачах проверки с одной гипотезой статистический критерий также называют критерием согласия.

Происхождение названия «критерий согласия» происходит от того, что критерий призван ответить на вопрос «согласуются ли наблюдаемые статистические данные с гипотезой».

Неформально общий принцип всех критериев проверки гипотез может быть проиллюстрирован на следующем простом примере: рассмотрим серию независимых испытаний, в которых некоторая монета, вероятность выпадения герба для которой неизвестна, подбрасывается раз и при этом фиксируется количество выпавших гербов . Основная гипотеза заключается в том, что «монета является симметричной», то есть неизвестная вероятность :

.

Пусть проведено три серии испытаний, в каждой из которых количество выпавших гербов разное:

а) в первой серии – ;

б) во второй серии – ;

в) в третьей серии – .

В рамках первой серии выпадение герба 52 раза из 100 для симметричной монеты кажется вполне правдоподобным. Действительно, для симметричной монеты среднее количество выпадений герба при 100 подбрасываниях равно 50, и наблюдаемое значение 52 отличается от среднего на 2. Вероятность отклонения случайной величины количества выпавших гербов от среднего 50 не менее чем на 2, в случае если гипотеза верна, весьма велика:

,

то есть такое событие имеет большую вероятность, при справедливости гипотезы, и вполне могло произойти в конкретном эксперименте, поэтому в данном случае нет причин отклонять гипотезу, и гипотеза вполне обосновано принимается.

В рамках второй серии отклонение количества выпавших гербов 43 от среднего 50 для симметричной монеты кажется менее правдоподобным. Действительно, вероятность отклонения случайной величины количества выпавших гербов от среднего 50 не менее чем на 7, в случае если гипотеза верна, оказывается малой:

.

В данном случае на основании наблюдения весьма затруднительно судить о том верна гипотеза или нет, поэтому принять или отклонить гипотезу в данном случае можно только с большой вероятностью ошибки.

В рамках третьей серии отклонение количества выпавших гербов 73 от среднего 50 для симметричной монеты кажется абсолютно неправдоподобным. Действительно, в этом случае вероятность отклонения случайной величины количества выпавших гербов от среднего 50 не менее чем на 23, в случае если гипотеза верна, оказывается чрезвычайно малой величиной:

.

Если считать, что гипотеза верна и монета симметрична, то наблюдаемое событие, как видно, имеет слишком малую вероятность, и вряд ли наблюдалось бы в конкретном эксперименте, поэтому в данном случае, гипотезу безоговорочно можно считать отклоненной.

В приведенном примере метод обработки наблюдения заключался в следующем: вычислялось отклонение наблюдаемого значения количества выпавших гербов от гипотетического (ожидаемого) среднего значения количества выпавших гербов. Если гипотеза верна, то отклонение наблюдаемого значения от ожидаемого с большой вероятностью окажется мало и с малой вероятностью – велико, поэтому если наблюдалось малое отклонение, как в первой серии, то гипотеза принималась, если же наблюдалось большое отклонение, как в третьей серии, то гипотеза отклонялась.

Рассмотрим решение задачи проверки статистической гипотезы в общем случае: пусть – наблюдение, которое является исходным (на основе которого формируется решение, принимается гипотеза или отклоняется). Прежде всего, разрабатывается специальная статистика , которая является основой критерия и называется статистикой критерия.

Определение 6.5.

Статистикой критерия называется всякая статистика , отвечающая требованиям:

а) статистика отражает меру расхождения между наблюдаемым значением некоторой величины, вычисляемой на основе наблюдения, и гипотетическим (ожидаемым) значением некоторой, возможно уже другой, величины;

б) статистика имеет полностью известную функцию распределения (во многих случаях это требование может быть ослаблено: достаточно располагать способом приближенного вычисления значений функции распределения ).

Требование б) оказывается вполне естественным, поскольку гипотеза предписывает наблюдению некоторую определенную, возможно с точностью до параметров, функцию распределения. Статистика устроена таким образом, что гипотеза предписывает статистике полностью определенную функцию распределения (уже не зависящую от параметров). Вопрос лишь в том, удается ли найти выражение для функции распределения , если этого сделать не удается, то допустимым является нахождение выражения, аппроксимирующего функцию распределения , и в частности, нахождение предельной функции распределения, то есть функции распределения, к которой асимптотически с ростом стремится функция распределения .

В примере, рассмотренном выше, роль статистики играет модуль разности наблюдаемого количества выпавших гербов и гипотетического (ожидаемого) среднего количества выпадений герба при подбрасываниях в том случае, когда основная гипотеза верна:

.

Требование а) для статистики выполнено – статистика измеряет отклонение между наблюдаемой величиной и ожидаемым средним . Требование б) для статистики также выполнено, поскольку случайная величина имеет распределение Бернулли , параметры которого полностью определяются гипотезой (на это указывает значение вероятности ), и следовательно функция распределения полностью определена.

Пусть – множество всех возможных значений статистики :

.

Выделим в подмножество , которое отвечает «большим» значениям статистики (в примере, разобранном выше, подмножество имеет вид: , где некоторый порог). Будем считать, что если статистика принимает значение из множества , то наблюдение не согласуется с гипотезой, то есть гипотеза отклоняется, в противном случае наблюдение не противоречит гипотезе и гипотеза принимается.

Рисунок 6.1.Статистика критерия и критическая область.

Определение 6.6.

Множество значений статистики критерия, при которых гипотеза отклоняется, называется критической областью гипотезы .

Термин критическая область отражает факт отклонения (критики) гипотезы.

Имея конкретную реализацию наблюдения , не составляет труда вычислить значение статистики и определить принадлежит ли значение критической области , если принадлежит, то гипотеза отклоняется, если не принадлежит, то гипотеза принимается.

Поскольку статистика критерия согласно требованию б) имеет известную функцию распределения, предписываемую гипотезой , то оказывается определенной вероятность попадания статистики в критическую область .

Определение 6.7.

Пусть – статистика критерия и – критическая область гипотезы , уровнем значимости называется вероятность события :

,

где вероятность вычисляется в соответствии с той функцией распределения , которая определяется гипотезой .

Поскольку при попадании статистики в критическую область , согласно действию критерия, гипотеза отклоняется, то уровень значимости фактически является вероятностью отклонения гипотезы в случае, когда она верна.

Вообще говоря, для проверки гипотезы в общем случае можно использовать различные критерии согласия (основанные на различных статистиках ), поэтому необходимо располагать способом сравнения различный критериев, который позволил бы выяснить какой критерий является наилучшим.

Определение 6.8.

Пусть – наблюдение, – гипотеза и – множество функций распределения наблюдения, которые определяет гипотеза :

.

Альтернативным распределением называется всякая функция распределения , которая может оказаться истиной функций распределения наблюдения и не совпадает ни с одной функцией распределения из .

Определение 6.9.

Множество всех альтернативных распределений определяет альтернативную гипотезу (обычно обозначаемую ).

Определение 6.10.

Пусть для проверки гипотезы построен критерий согласия со статистикой критерия и критической областью . Функцией мощности критерия называется функционал, который для заданной функции распределения наблюдения равен вероятности события , которая вычисляется при условии, что наблюдение имеет функцию распределения :

.

Определение 6.11.

Пусть альтернативное распределение, значение функции мощности называется мощностью критерия при альтернативе .

Рисунок 6.2. Функция мощности.

Функция мощности критерия является фундаментальной характеристикой критерия, поскольку отражает способность критерия принимать правильные решения: принимать основную гипотезу в том случае, когда она оказывается верной, и отклонять в том случае, когда она оказывается неверной. Действительно, функция мощности равна вероятности отклонения основной гипотезы , если наблюдение имеет функцию распределения . Если гипотеза верна и наблюдение имеет функцию распределения , определяемую гипотезой , то гипотеза должна приниматься критерием, а значение функции мощности определяет вероятность отклонения критерием верной гипотезы (вероятность принять неверное решение), желательно, чтобы эта вероятность была как можно меньше. Если же гипотеза неверна и наблюдение имеет какое-либо альтернативное распределение , то гипотеза должна отклоняться критерием и значение функции мощности равно вероятности отклонения критерием неверной гипотезы (вероятность принять верное решение), желательно, чтобы эта вероятность была как можно больше.

Таким образом, наилучшим критерием является тот, для которого функция мощности:

а) имеет как можно меньшее значение для функций , определяемых гипотезой (если наблюдение действительно имеет функцию распределения , то критерий с как можно меньшей вероятностью должен отклонять гипотезу , поскольку она оказывается верной);

б) как можно быстрее возрастает до единицы при отклонениях от множества распределений , определяемых гипотезой (если наблюдение имеет функцию распределения , то критерий с как можно большей вероятностью должен отклонять гипотезу, поскольку она оказывается неверной).

Определение 6.12.

Критерий называется несмещенным, если мощность критерия при любом альтернативном распределении больше уровня значимости при любом распределении , определяемом гипотезой :

.

Свойство несмещенности является желательным и говорит о том, что вероятность отклонения гипотезы, когда она неверна, больше вероятности отклонения гипотезы, когда она верна.

Определение 6.13.

Критерий называется состоятельным, если мощность критерия при любой альтернативе стремится к 1 при возрастании :

.

На практике не всегда используют наилучшие в смысле функции мощности критерии, поскольку существенную роль может иметь сложность вычисления критерия. В условиях ограниченного времени, когда решение о том принимается гипотеза или отклоняется нужно сделать за короткий промежуток времени, зачастую применяются менее мощные критерии, но более простые в смысле вычисления.

26. Постановка задачи проверки простой гипотезы о вероятностях и критерий хи-квадрат. Утверждение о неограниченности по вероятности статистики критерия хи-квадрат при условии, что основная гипотеза не верна (без доказательства). Теорема Пирсона об асимптотическом распределение статистики критерия хи-квадрат при условии, что основная гипотеза верна (без доказательства). Состоятельность критерия хи-квадрат. Нецентральное распределение хи-квадрат и асимптотическое распределение статистики критерия хи-квадрат при условии, что основная гипотеза не верна. Условие применимости критерия хи-квадрат на практике.

Представим себе, что проводится серия независимых испытаний, в каждом из которых происходит в точности одно из событий , , …, (события образуют полную группу событий), имеющих неизвестные вероятности , , …, ( ). По результатам серии фиксируется количество наступлений события , количество наступлений , и так далее до , так что наблюдение представляет собой вектор , имеющий полиномиальное распределение, которое будем обозначать :

.

(Заметим, что отсюда в частности следует, что каждая случайная величина имеет распределение Бернулли, действительно, для получим ( ):

.

Очевидно, то же самое может быть проделано и для любого , поэтому ).

Основная гипотеза заключается в том, что неизвестные вероятности равны заданным вероятностям ( ):

: , , …, .

Требуется построить статистический критерий проверки гипотезы .

Для решения сформулированной задачи используется критерий хи-квадрат со статистикой критерия следующего вида:

.

Статистика отражает «суммарное» отклонение наблюдаемых количеств наступлений событий , от ожидаемых средних количеств наступлений событий – , причем каждое отклонение входит в сумму с «весом» , учитывающим величину гипотетической вероятности .

Оказывается, что в том случае, когда гипотеза не верна, статистика с большой вероятностью принимает «большие» значения (утверждение 6.14), поэтому гипотезу следует отклонять, если значение статистики оказалось «большое», то есть в качестве критической области гипотезы следует брать области вида:

,

где – некоторый порог, выбираемый из условия заранее заданного уровня значимости . По определению уровень значимости есть вероятность:

,

,

откуда следует, что в качестве порога следует брать квантиль уровня того распределения статистики , которое определяется гипотезой . Точное выражение для функции распределения найти затруднительно, однако, можно показать (теорема 6.15), что если гипотеза верна, то функция распределения при возрастании стремится к функции распределения хи-квадрат с степенью свободы, то есть при больших :

.

Таким образом, проверка гипотезы сводится к следующей последовательности действий:

1) по заданному уровню значимости определяется квантиль уровня распределения ;

2) по реализации наблюдения (числовым данным, полученным в результате проведения эксперимента) вычисляется значение статистики ;

3) если , тогда гипотеза отклоняется, если , тогда гипотеза принимается.

Перейдем к доказательству основных фактов, использованных при формулировке критерия. Прежде всего, покажем, что в случае, когда гипотеза не верна, значения статистики неограниченно возрастают с ростом .

Утверждение 6.14.

Пусть наблюдение имеет полиномиальное распределение , и основная гипотеза заключается в том, что ( ).

Если гипотеза не верна, тогда последовательность (по ) случайных величин не ограничена по вероятности, то есть:

, при .

В силу утверждения 6.14 статистика отвечает условию а) определения статистики критерия 6.5: в случае если гипотеза не верна, статистика с большой вероятностью примет «большое» значение, которое укажет на «большое» расхождение между наблюдаемыми величинами и ожидаемыми значениями.

Для того, чтобы статистика отвечала и пункту б) определения статистики критерия и могла быть использована в статистическом критерии, остается лишь найти способ вычисления (хотя бы приближенного) значений функции распределения статистики . Оказывается, что в случае если гипотеза верна (то есть , ) распределение статистики с ростом стремится к распределению .

Теорема 6.14. (Пирсон)

Пусть наблюдение имеет полиномиальное распределение ( ). Если верна гипотеза :

: , ,

тогда распределение статистики стремится к распределению хи-квадрат с степенью свободы:

, при .

Можно показать, что критерий хи-квадрат является состоятельным: в данном случае наблюдение имеет полиномиальное распределение , полностью определяемое вектором вероятностей и числом .

Утверждение 6.16.

Пусть наблюдение имеет полиномиальное распределение и основная гипотеза заключается в том, что ( ), статистика критерия имеет вид:

,

и критическая область , тогда при всяком альтернативном распределении значение функции мощности :

стремится к 1 при :

.

Ранее было показано, что если гипотеза верна, то распределение статистики при увеличении стремится к распределению , можно также установить, что если гипотеза не верна, то распределение статистики при увеличении стремится к нецентральному распределению хи-квадрат .

Случайная величина имеет нецентральное распределение , если:

,

где – совместно независимые случайные величины, и , при этом плотность вероятности случайной величины зависит только от величины , но не по отдельности от , …, .

Утверждение 6.17.

Пусть наблюдение имеет полиномиальное распределение ( ) и основная гипотеза заключается в том, что ( ).

Если гипотеза не верна, тогда распределение статистики :

стремится при к нецентральному распределению .

Без доказательства.

Условия применимости на практике.

Поскольку известно только предельное (при ) распределение статистики (теорема 6.15), то для конечного использование распределения в качестве распределения является приближенным. Замечено, что «хорошее» приближение достигается в тех случаях, когда все произведения ( ),

.