- •Глава 6. Статистическая проверка гипотез и оценка однородности гидрологической информации (14.11.2016)
- •6.1. Постановка задачи
- •6.2. Понятие гипотез
- •6.3. Критерий значимости
- •6.4.1. Выбор закона распределения. Постановка задачи
- •6.4.2. Критерий согласия Колмогорова
- •6.4.3. Критерий согласия Пирсона p[χ2]
- •6.4.4. Критерий согласия пω2
- •6.5. Проверка гипотез о параметрах распределения
- •6.5.1. Постановка задачи
- •6.5.2. Оценка среднего значения
- •6.5.3. Определение доверительных границ математического ожидания
- •6.5.4. Оценка значимости среднего значения
- •6.5.5. Оценка расхождения между средними значениями
- •6.6. Оценка дисперсии
- •6.6.1. Постановка задачи
- •6.6.2. Определение доверительных границ дисперсии
- •6.6.3. Оценка равенства дисперсий
- •6.7. Непараметрические методы проверки гипотез
- •6.7.1. Критерий Уилкоксона
- •6.7.2. Критерий Манна — Уитни
- •6.7.3. Критерий знаков
6.4.3. Критерий согласия Пирсона p[χ2]
Для
оценки согласия эмпирических данных
(x1,
х2,…,
хп)
и
предполагаемого закона распределения
используется
расхождение между эмпирической
и
теоретической Р(х)
вероятностью
отдельных значений или интервалов
значений случайной величины.
Если число значений дискретной случайной величины X ограничено (ξ1, ξ2,…,ξk) и каждое ξj (j=1, 2, …, k) встречается в выборке (имеющегося ряда наблюдений) не менее 5 раз, то расчеты критерия согласия производятся по вероятности, эмпирической и теоретической, каждого значения ξj.
Если X является непрерывной случайной величиной или возможное число значений X велико так, что каждое или некоторые значения ξ встречаются менее 5 раз, то необходимо использовать метод группировки данных и перейти к рассмотрению дискретной системы, в которой рассматриваются вероятности отдельных интервалов значений X.
Пусть
имеется выборка x1,
x2,
..., хп.
Значения
выборки оформлены
в виде статистического ряда распределения
(см. разд. 4.3), в
котором указаны эмпирические вероятности
(относительная частота)
отдельных значений или интервалов
значений X.
(Отдельные
значения или интервалы значений X
здесь
и дальше обозначим
через ζj
(j=1,
2,
…, k),
через
k-
число
отдельных значений или интервалов
значений).
Здесь
же приводятся вероятности
значений ζ
j,
определенные по предполагаемому
теоретическому закону распределения.
В
качестве меры расхождения между
теоретической и эмпирической
вероятностью принимается сумма квадратов
отклонений
взятых
с некоторыми весами Сj:
(6.9)
Веса Cj вводятся потому, что в общем случае относящиеся к различным разрядам отклонения нельзя считать равноправными по значимости. Действительно, одно и то же ∆Pj может быть малозначительным, если сама вероятность Pj(ζ) велика, и очень заметным, если она мала. Поэтому естественно, что Сj берутся обратно пропорциональными Pj(ζ). Пирсон показал, что закон распределения
если нулевая гипотеза верна, обладает рядом интересных свойств: он практически не зависит от закона распределения X и от числа опытов п, а зависит только от числа к. При больших значениях п этот закон приближается к так называемому распределению χ2, т. е. можно принять, что
(6.10)
Распределением χ2 с v степенями свободы называется распределение суммы квадратов v независимых нормированных случайных величин, каждая из которых подчинена нормальному закону распределения с математическим ожиданием, равным нулю, и дисперсией, равной единице. Это распределение характеризуется плотностью вероятностей
(6.11)
где v —число степеней свободы
(6.12)
Г (v/2) —значение гамма-функции (см. гл. 4).
На
основе формул (6.11) и (6,12) составлены
таблицы значений
χ2
для
различных значений обеспеченности и
числа степеней свободы
(см., например, работу [ ], прилож. ).
По этой таблице можно определить
вероятность события
,
где
χ2
–
значение, рассчитанное
для данной нулевой гипотезы. Если
вероятность окажется
меньше заданного уровня значимости, то
гипотеза опровергается.
Аналогично можно сравнивать рассчитанное
значение χ2
с
табличным при данных v
и
α.
Если
,
то гипотеза опровергается.
Для
обоснованного применения критерия
согласия χ2
необходимо
иметь ввиду, что при выводе закона
распределения χ2
предполагается,
что биномиальное распределение частоты
превышения
может
быть сведено к нормальному. Однако
соответствующий
предельный переход осуществляется
достаточно быстро, если ни
одна из вероятностей
или Pi(x)
не
очень мала. Поэтому при
практическом применении критерия
согласия Р
(χ2)
необходимо
частоты крайних разрядов, представляющих
обычно малые числа,
объединять между собой.
Считается, что использование распределения χ2 в качестве критерия согласия возможно только в тех случаях, когда длина выборки п ≥ 50, а частота отдельных значений или интервалов значений X (в том числе полученная за счет объединения крайних интервалов) не меньше 5.
Недостатком метода является то, что группировка данных по интервалам в случае непрерывной случайной величины или большого числа возможных ее значений приводит к некоторой потере информации. Кроме того, элементы неопределенности и возможной неоднозначности решений вносятся при назначении числа интервалов и длины самих интервалов.
К достоинствам критерия χ2 следует отнести универсальность — независимость от закона распределения; возможность использования для данных нечислового характера; состоятельность.
В некоторых случаях, для оценки согласия законов распределения по критеоию Пирсона можно воспользоваться предложением В. А. Романовского. Он предложил простое правило, в значительной степени облегчающее применение критерия согласия Пирсона. Это правило основывается на том, что
(6.13)
и
вероятность значений χ2,
отклоняющихся от М(χ2),
меньше, чем на 3
,
т. е. на 3
в ту или другую сторону, близка к единице.
Отсюда, если
|
|
(6.14) |
то расхождение можно считать существенным, гипотеза опровергается, в противном случае — гипотеза не опровергается (при уровне значимости 0,3 %).
