Пп. 1. Критерий Пирсона ( - хи-квадрат)
Пусть произведено n независимых опытов, в каждом из которых случайная величина Х приняла определенное значение, то есть дана выборка наблюдений случайной величины Х (генеральной совокупности) объема n. Рассмотрим задачу по проверке близости теоретической и эмпирической функций распределения для дискретного распределения, то есть требуется проверить, согласуются ли экспериментальные данные с гипотезой Н0, утверждающей, что случайная величина Х имеет закон распределения F(x) при уровне значимости α. Назовем этот закон «теоретическим».
При получении критерия согласия для проверки гипотезы определяют меру D отклонения эмпирической функции распределения данной выборки от предполагаемой (теоретической) функции распределения F(x).
Наиболее употребительной является мера, введенная Пирсоном. Рассмотрим эту меру. Разобьем множество значений случайной величины Х на r множеств - групп S1, S2,…, Sr , без общих точек. Практически такое разбиение осуществляется с помощью (r - 1) чисел c1 < c2 < … < cr-1. При этом конец каждого интервала исключают из соответствующего множества, а левый – включают.
S
1
S2
S3
…. Sr-1
Sr
c1 c2 c3 cr-1
Пусть pi,
,
- вероятность того, что СВ Х принадлежит
множеству Si
(очевидно
).
Пусть ni,
,
- количество величин (вариант) из числа
наблюдаемых, принадлежащих множеству
Si
(эмпирические частоты). Тогда
относительная
частота попадания СВ Х во множество
Si
при n наблюдениях.
Очевидно, что
,
.
Для разбиения, приведенного выше, pi есть приращение F(x) на множестве Si, а приращение на этом же множестве. Cведем результаты опытов в таблицу в виде группированного статистического ряда.
Границы группы |
Относительная частота |
S1: x1 – x2 |
|
S2: x2 – x3 |
|
… |
… |
Sr: xr – xr+1 |
|
Зная теоретический закон распределения, можно найти теоретические вероятности попадания случайной величины в каждую группу: р1, р2, …, pr. Проверяя согласованность теоретического и эмпирического (статистического) распределений, будем исходить из расхождений между теоретическими вероятностями pi и наблюдаемыми частотами .
За меру D расхождения
(отклонения) эмпирической функции
распределения от теоретической принимают
сумму квадратов отклонений теоретических
вероятностей pi
от соответствующих частот
,
взятых с некоторыми «весами» ci:
.
Коэффициенты ci
вводятся потому, что в общем случае
отклонения, относящиеся к разным группам,
нельзя считать равноправными по
значимости: одно и то же по абсолютной
величине отклонение
может
быть мало значительным, если сама
вероятность pi
велика, и очень заметным, если она мала.
Поэтому естественно «веса» ci
взять обратно пропорциональным
вероятностям. Как выбрать этот
коэффициент?
К.Пирсон показал, что если положить
,
то при больших n
закон распределения величины U
обладает весьма простыми свойствами:
он практически не зависит от функции
распределения F(x)
и от числа опытов n, а
зависит только от количества групп r,
а именно, этот закон при увеличении n
приближается к так называемому
распределению «хи-квадрат»
.
Определение 52. Распределением
«хи-квадрат»
с k степенями свободы
называется распределение суммы квадратов
k независимых
случайных величин, каждая из которых
подчинена нормальному закону с
математическим ожиданием, равным нулю,
и дисперсией, равной единице. Это
распределение характеризуется плотностью
,
где x > 0,
- гамма функция.
При таком выборе коэффициентов мера расхождения (отклонения) U обозначается :
.
Величины
называются теоретическими частотами.
Тогда
.
(*)
Величина случайная, определим ее распределение в предположении, что принятая гипотеза Н0 верна.
Теорема Пирсона. Какова бы ни была
функция распределения F(x)
случайной величины Х, при
распределение величины
стремиться к
-
распределению с k
степенями свободы, то есть при
в каждой точке х, где f(x)
– плотность распределения случайной
величины
с k степенями
свободы.
Распределение
зависит от параметра k
– числа степеней свободы, которое
определяется как
,
где s – число неизвестных
параметров распределения случайной
величины Х, r -
число интервалов группировки.
Если предполагаем закон распределения
Х полностью определенным, то
.
Если, например, выдвигаем гипотезу о
том, что закон распределения Х –
нормальный, а его параметры
и
определяем
по выборке, то
.
Обычно с помощью теоремы Пирсона вводят критерий для поверки выдвинутой гипотезы Н0: СВ Х распределена по нормальному закону, так как с увеличением степеней свободы распределение стремится к нормальному закону.
Для распределения составлены специальные таблицы (Таблица П5, стр. 412-413 задачника Ефимова), пользуясь которыми можно для каждого значения и числа степеней свободы k найти вероятность р того, что величина, распределенная по закону , превзойдет это значение.
Распределение дает возможность оценить степень согласованности теоретического и статистического распределений. Будем исходить из того, что величина Х действительно распределена по закону F(x) . Тогда вероятность р, определенная по таблице, есть вероятность того, что за счет чисто случайных причин мера расхождения (отклонения) теоретического и статистического распределений U будет не меньше, чем фактически наблюдаемое в данной серии опытов значение . Если эта вероятность р весьма мала (настолько, что событие с такой вероятностью можно считать практически невозможным), то результат опыта следует считать противоречащим гипотезе Н0 о том, что закон распределения величины Х есть F(x). Эту гипотезу следует отбросить как неправдоподобную. Напротив, если вероятность р сравнительно велика, можно признать расхождения между теоретическим и статистическим распределениями несущественными и отнести их за счет случайных причин. Гипотезу Н0 о том, что величина Х распределена по закону F(x) можно считать правдоподобной или, по крайней мере, не противоречащей опытным данным.
Схема применения критерия к оценке согласованности теоретического и статистического (эмпирического) распределений:
1) Задают уровень значимости α.
2) Находят оценки параметров нормального
закона
и
:
или
zi – середина интервала.
,
или
.
3) Вычисляют теоретические частоты по
формуле
,
где
,
и
,
примем
- функция Лапласа.
4) По формуле (*) находится величина набл. – наблюдаемое значение критерия Пирсона.
5) Находят число степеней свободы
.
6) По таблице критических точек
распределения
,
по заданному уровню значимости α
и числу степеней свободы
находят
критическую точку правосторонней
критической области
.
7) Если
,
то нет оснований отвергнуть гипотезу
о нормальном распределении случайной
величины Х. Если
,
то гипотезу отвергают.
Насколько мала должна быть вероятность р для того, чтобы отбросить или пересмотреть гипотезу, - вопрос неопределенный, он не может быть решен из математических соображений, так же как и вопрос о том, насколько мала должна быть вероятность события для того, чтобы считать его практически невозможным. На практике, если р оказывается меньшим, чем 0,1, рекомендуется проверить эксперимент, если возможно – повторить его и в случае, если заметные расхождения снова появятся, пытаться искать более подходящий для описания статистических данных закон распределения.
С помощью критерия (или любого другого критерия согласия) можно только в некоторых случаях опровергнуть выбранную гипотезу или отбросить ее как явно несогласную с опытными данными. Если же вероятность р велика, то этот факт сам по себе ни в коем случае не может считаться доказательством справедливости гипотезы, а указывает только на то, что гипотеза не противоречит опытным данным.
Замечание 1. Асимптотический характер теоремы Пирсона, лежащий в основе этого правила, требует осторожности при его практическом использовании. На него можно полагаться только при больших n. Достаточно велико должно быть и n, и все и произведения npi. На практике рекомендуется иметь в каждом интервале не менее 5-10 наблюдений.
Критерий
использует
тот факт, что случайная величина
,
,
имеет закон распределения близкий к
нормальному N(0, 1).
Проблема применимости
аппроксимации
(непрерывное распределение) к статистике,
распределение которой дискретно,
оказалась сложной.
Согласно
имеющемуся опыту, аппроксимация
применима, если все ожидаемые частоты
npi
> 10.
Если число
различных исходов велико, граница для
npi
может быть снижена: необходимо,
чтобы для всех интервалов выполнялось
условие
.
Если в некоторых интервалах это
условие не выполняется, то их следует
объединить с соседними.
Замечание 2. Если дано статистическое распределение выборки в виде последовательности равноотстоящих вариант и соответствующих им эмпирических частот:
xi |
x1 |
x2 |
… |
xr |
ni |
n1 |
n2 |
… |
nr |
то в этом случае теоретические частоты
вычисляются по формуле:
,
где
,
h – шаг (разность
между двумя соседними вариантами),
-
функция Гаусса.
Пример. Дан статистический ряд:
xi xi |
2,5 |
3,0 |
3,5 |
4,0 |
4,5 |
5,0 |
5,5 |
6,0 |
6,5 |
7 |
ni ni |
5 |
7 |
8 |
18 |
20 |
15 |
10 |
7 |
6 |
4 |
Проверить гипотезу о нормальном распределении данной генеральной совокупности. Уровень значимости α = 0,01.
