
-
Теоретические и эмпирические частоты. Критерии согласия.
Эмпирические частоты получают в результате опыта (наблюдения). Теоретические частоты рассчитывают по формулам. Для нормального закона распределения их можно найти следующим образом:
,
(*)
где
–
сумма эмпирических (наблюдаемых) частот;
–
разность между двумя соседними вариантами
(то есть длина частичного интервала);
–
выборочное среднее квадратическое
отклонение;
;
–
выборочная средняя арифметическая;
–
середина
-го
частичного интервала; значения функции
находят по таблице (см. приложения).
Обычно эмпирические и теоретические частоты различаются. Возможно, что расхождение случайно и связано с ограниченным количеством наблюдений; возможно, что расхождение неслучайно и объясняется тем, что для вычисления теоретических частот выдвинута статистическая гипотеза о том, что генеральная совокупность распределена нормально, а в действительности это е так. Распределение генеральной совокупности, которое она имеет в силу выдвинутой гипотезы, называют теоретическим.
Возникает необходимость установить правило (критерий), которое позволяло бы судить, является ли расхождение между эмпирическим и теоретическим распределениями случайным или значимым. Если расхождение окажется случайным, то считают, что данные наблюдений (выборки) согласуются с выдвинутой гипотезой о законе распределения генеральной совокупности и, следовательно, гипотезу принимают. Если же расхождение окажется значимым, то данные наблюдений не согласуются с выдвинутой гипотезой, и её отвергают.
Критерием согласия называют критерий, который позволяет установить, является ли расхождение эмпирического и теоретического распределений случайным или значимым, то есть согласуются ли данные наблюдений с выдвинутой статистической гипотезой или не согласуются.
Имеются несколько
критериев согласия: критерий
(Пирсона), критерий Колмогорова, критерий
Романовского и др. Ограничимся описанием
того, как критерий
применяется к проверке гипотезы о
нормальном распределении генеральной
совокупности1
(предлагаем студентам
написать рефераты по различным критериям
согласия и их применению).
Допустим, что в
результате
наблюдений получена выборка:
-
Значения признака
. . .
Эмпирические частота
. . .
причём
Выдвинем
статистическую гипотезу: генеральная
совокупность, из которой извлечена
данная выборка, имеет нормальное
распределение. Требуется установить,
согласуется ли эмпирическое распределение
с этой гипотезой. Предположим, что по
формуле (*)
вычислены теоретические частоты
.
Обозначим
среднее арифметическое квадратов
разностей между эмпирическими и
теоретическим частотами, взвешенное
по обратным величинам теоретических
частот:
.
Чем больше
согласуются эмпирическое и теоретическое
распределения, тем меньше различаются
эмпирические и теоретические частоты
и тем меньше значение
.
Отсюда следует, что
характеризует близость эмпирического
и теоретического распределений. В разных
опытах
принимает различные, заранее неизвестные
значения, то есть является случайной
величиной. Плотность вероятности этого
распределения (для выборки достаточно
большого объёма) не зависит от проверяемого
закона распределения, а зависит от
параметра
,
называемого числом степеней свободы.
Так при проверке гипотезы о нормальном
распределении генеральной совокупности
,
где
–
число групп, на которые разбиты данные
наблюдений. Существуют таблицы (см.
приложения), в которых указана вероятность
того, что в результате влияния случайных
факторов величина
примет значение не меньше вычисленного
по данным выборки
.
Для определённости
примем уровень значимости 0,01. Если
вероятность, найденная по таблицам,
окажется меньше 0,01, то это означает, что
в результате влияния случайных причин
наступило событие, которое практически
невозможно. Таким образом, тот факт, что
приняло значение
,
нельзя объяснить случайными причинами;
его можно объяснить тем, что генеральная
совокупность не распределена нормально
и, значит, выдвинутая гипотеза о нормальном
распределении генеральной совокупности
должна быть отвергнута. Если вероятность,
найденная по таблицам, превышает 0,01, то
гипотеза о нормальном распределении
генеральной совокупности согласуется
с данными наблюдений и поэтому может
быть принята. Полученные выводы
распространяются и на другие уровни
значимости.
На практике надо,
чтобы объём выборки был достаточно
большим ()
и чтобы каждая группа содержала 5 – 8
значений признака.
Для проверки гипотезы о нормальном распределении генеральной совокупности нужно:
-
вычислить теоретические частоты по формуле (*);
-
вычислить
, где
– соответственно частоты эмпирические и теоретические;
-
вычислить число степеней свободы
, где
– число групп, на которые разбита выборка;
-
выбрать уровень значимости;
-
найти по таблице (см. приложения) по найденным
и
вероятность
, причём, если эта вероятность меньше принятого уровня значимости, то гипотезу о нормальном распределении генеральной совокупности отвергают; если же вероятность больше уровня значимости, то гипотезу принимают.
ПРИМЕР 5. Проверить, согласуются ли данные выборки со статистической гипотезой о нормальном распределении генеральной совокупности, из которой извлечена выборка:
варианта
|
15 |
20 |
25 |
30 |
35 |
40 |
45 |
50 |
55 |
частота
|
6 |
13 |
38 |
74 |
106 |
85 |
30 |
10 |
4 |
Решение. Вычислим выборочное среднее и выборочную дисперсию:
;
.
Далее, вычислим теоретические частоты по формуле (*):
|
|
|
|
|
|
15 |
6 |
– 19,7 |
– 2,67 |
0,0113 |
3 |
20 |
13 |
– 14,7 |
– 1,99 |
0,0551 |
14 |
25 |
38 |
– 9,7 |
– 1,31 |
0,1691 |
42 |
30 |
74 |
– 4,7 |
– 0,63 |
0,3271 |
82 |
35 |
106 |
0,3 |
0,05 |
0,3984 |
99 |
40 |
85 |
5,3 |
0,73 |
0,3056 |
76 |
45 |
30 |
10,3 |
1,41 |
0,1476 |
37 |
50 |
10 |
15,3 |
2,09 |
0,0449 |
11 |
55 |
4 |
20,3 |
2,77 |
0,0086 |
2 |
|
|
|
|
|
|
Найдём
.
Вычислим число степеней свободы,
учитывая, что число групп выборки
.
Уровень значимости примем равным 0,01.
По таблице (см. приложения) при
и
находим вероятность
;
при
вероятность
.
Используя линейную интерполяцию,
получаем приближённое значение искомой
вероятности 0,16 > 0,01.
Следовательно, данные наблюдений согласуются с гипотезой о нормальном распределении генеральной совокупности.
1
Интервал
имеет случайные концы (их называют
доверительными границами). Действительно,
в разных выборках получаются различные
значения
.
Следовательно от выборки к выборке
будут изменяться и концы доверительного
интервала, то есть доверительные границы
сами являются случайными величинами
– функциями от
.
Так как случайной величиной является
не оцениваемый параметр
,
а доверительный интервал, то более
правильно говорить не о вероятности
попадания
в доверительный интервал, а о вероятности
того, что доверительный интервал покроет
.
1 Обычно при выполнении пп. 4 – 7 используют статистику с нормальным распределением, статистику Стьюдента, Фишера.
2 То есть – с математическим ожиданием.
1 Критерий применяется аналогично и для других распределений