Критерий
соответствия (согласия) χ2.
Проводя
графическое сравнение полигонов и
гистограмм с кривой распределения,
можно составить себе, по крайней мере
с качественной стороны, представление
о большей или меньшей близости
теоретического и эмпирического
распределений. Рассмотрим критерии
проверки по данным выборки гипотезы о
том, что данная величина X подчинена
закону распределения F(x).
Рассмотрим
применение одного из наиболее
употребительных критериев—критерия
χ2
(К. Пирсона). Допустим сначала, что наша
гипотеза полностью определяет вид
функции распределения F
(x),
(т.е. известны параметры распределения).
Такая гипотеза называется простой.
Пусть, далее, вся область изменения
величины разбита на конечное число m
множеств
Δ1,
Δ2,
...,
Δm,
например, m
интервалов. Пусть pi;
есть вероятность для величины X
при
данном распределении F
(x)
принять значение, принадлежащее i-му
множеству
Δj;,
nj—число
значений X
из общего числа их N
в
выборке), попавших в Δj;.
При этом, очевидно, должны выполняться
условия
Если
проверяемая гипотеза верна, то
nj
представляет частоту появления
события, имеющего
в каждом из N
произведенных испытаний вероятность
pi;
следовательно, мы можем рассматривать
nj,
как случайную величину, подчиняющуюся
биномиальному закону распределения с
центром в точке n
pi
и средним квадратическим
Когда
N
велико,
можно считать, что частота распределена
асимптотически нормально с теми же
параметрами. При правильности нашей
гипотезы мы можем ожидать, что будут
асимптотически нормально распределены
(в совокупности) также величины
.
(*)
В
качестве меры расхождения данных
выборки n1,
n2,…,nm
с «теоретическими»
данными Np1,
Nр2,
..., Npm
рассмотрим величину
Для
практических приложений часто удобно
использовать следующее легко выводимое
равенство:
В
этом случае в качестве оценки вероятности
попадания в какой-нибудь интервал Δ
естественно считать:
Эти
оценки
зависят от выборочных характеристик
и s.
В качестве критерия соответствия в
данном случае рассматривают величину
где
—
оценки вероятностей для каждой j
-
й
группы, j
=
l,
2,...,
m,
на
которые подразделено наше распределение.
* * *
Расчеты, связанные с применением критерия χ2, целесообразно сводить в приведенную ниже таблицу. Таблицу можно использовать вручную или в электронной таблице Exsel.
Величины
.
распределены практически нормально, если для всех i произведения Npi ≥ 10.
Если есть интервалы со значениями Npi меньше 10, то следует объединить соседние группы.
i |
Xi |
F(ti) |
pi= F(ti-1)-F(ti) |
nj |
nj2 |
j |
|||
0 |
X0 |
t0 |
F(t0) |
|
|
|
|
|
|
1 |
X1 |
t1 |
F(t1) |
|
n1 |
|
|
|
1 |
2 |
X2 |
t2 |
|
|
n2 |
|
|
|
2 |
3 |
X3 |
|
|
|
n3 |
|
|
|
3 |
… |
|
|
|
|
|
|
|
|
|
… |
|
|
|
|
|
|
|
|
|
m-2 |
|
|
|
|
|
|
|
|
m-2 |
m-1 |
|
|
|
|
|
|
|
|
m-1 |
m |
|
|
|
|
|
|
|
|
m |
Обозначения в таблице:
N – размер выборки,
i – номер границы участка,
j – номер участка,
Xi - значение границы участка,
- выборочное среднее арифметическое,
S – среднее квадратическое отклонение,
F(ti) – Функция «теоретического» распределения,
nj – число выборочных значений в j-ом интервале.