Критерій Пірсона
Висуваємо
гіпотезу
.
Задаємо величину рівня значущості
.
Розіб’ємо
всю множину спостережуваних даних на
інтервалів або груп
(які не перетинаються) і замість
спостережень розглядають інтервал або
групу, в яку це спостереження попало.
Множини
- це або інтервали для неперервної
випадкової величини, або групи окремих
значень дискретної випадкової величини,
які не мають спільних точок. Припустимо
спочатку, що гіпотеза
повністю визначає вид функції розподілу
і ймовірність
можна обчислити для будь-якої множини
,
на які розбита вся область зміни
випадкової величини
.
Нехай
- ймовірність того, що випадкова величина
набуває значення з множини
і
причому всі
Відповідні групові частоти у вибірці
позначимо
,
тобто
- це число значень випадкової величини
з вибірки, які попали в
.
Очевидно, що
Якщо
сформульована гіпотеза
вірна, то розподіл вибірки можна
розглядати як статистичний аналог для
теоретичного (генерального) розподілу,
який визначається функцією розподілу
або щільністю
.
Це означає, що
є частота появи події з ймовірністю
в послідовності з
спостережень.
Отже,
для будь-якої множини
відносні статистичні частоти дорівнюють
,
а теоретичні частоти – ймовірності
.
К.Пірсон запропонував за міру відхилення між розподілом вибірки і теоретичним розподілом взяти, за методом найменших квадратів, величину
,
що при
збільшенні об’єму вибірки вибірковий
розподіл величини
прямує до граничного розподілу
з
ступенями вільності, (
-число
інтервалів або груп, на які розбито всю
множину спостережуваних даних,
-
число параметрів гіпотетичного розподілу,
оцінених за вибіркою). Це випливає з
того, що якщо гіпотеза
вірна, то спільним розподілом групових
частот
є просте узагальнення біномного розподілу
і тоді випадкові величини
асимптотично нормально розподілені за
законом
а їх сума квадратів
має розподіл
з
ступенями вільності. Для перевірки
гіпотези
задамо рівень значущості
і нехай
означає критичне значення
з
ступенями вільності, яке знаходять за
таблицею
- розподілу (таблиця № 7 додатку 2).
Тоді,
якщо гіпотеза
вірна, то ймовірність
при великих
.
Визначивши
значення критерію
за даними вибірки, порівнюємо його з
табличним
.
Якщо
,
то розбіжності вибіркових даних з
припущенням про теоретичний розподіл
суттєві і гіпотезу
відхиляють. Якщо ж
,
то гіпотезу
приймають.
Для
того, щоб величина критерію мала
наближено розподіл
,
необхідно , щоб теоретичні частоти
.
Якщо
,
то спочатку потрібно об’єднати множини
так, щоб числа елементів отриманих
множин задовольняли вказаній умові
(
).
На практиці іноді критерій
застосовують, коли
Якщо
число ступенів вільності більше 30,
використовують теорему Фішера про те,
що величина
при
ступенях вільності розподілена
асимптотично нормально з параметрами
і
.
Зауважимо,
що розбиття на множини
проводиться довільно, незалежно від
функції
.
Цілком
визначений гіпотетичний розподіл
зустрічається на практиці досить рідко.
Частіше розподіл
містить деякі невідомі параметри
,
значення яких доводиться оцінювати за
вибіркою. Тоді гіпотеза
полягає в тому, що функція розподілу
спостережуваної випадкової величини
дорівнює
при деяких значеннях параметрів
.
До випадкової величини
застосовувати
теорему Пірсона не можна, оскільки
значення параметрів
невідомі. При заміні у виразі
невідомих параметрів на їх оцінки за
вибіркою величини
вже не будуть сталими, а самі стануть
випадковими величинами, тому і в цьому
випадку теорему Пірсона застосовувати
не можна.
Тому
виникає необхідність знаходження
граничного при
розподілу величини
Граничний розподіл величини
залежить
від вибраного методу оцінки параметрів.
Вперше задачу знаходження граничного
при
розподілу величини
при наявності оцінюваних за вибіркою
параметрів розглянув Фішер. Фішер
показав, що граничним при
розподілом величини
,
якщо невідомі параметри
оцінюються за вибіркою методом мінімуму
(або
методом максимальної правдоподібності),
є розподіл
з
ступенями вільності. Таким чином,
наявність оцінюваних за вибіркою
параметрів не змінює характеру граничного
розподілу величини
,
а лише зменшує число ступенів вільності
цього граничного розподілу на стільки
одиниць, на скільки параметрів оцінюється
за вибіркою. Зауважимо, що якщо невідомі
параметри оцінюються іншими методами,
то граничний при
розподіл
величини
буде,
взагалі кажучи, відмінним від розподілу
.
Сформулюємо практичне правило перевірки гіпотез про розподіл
За вибіркою обчислюють відповідні гіпотетичному розподілу теоретичні частоти
.
Зауваження 1
Контроль обчислень на даному етапі проводять за співвідношеннями:
.
2. Порівнюють теоретичні та емпіричні частоти за критерієм Пірсона.
а) складають розрахункову таблицю виду:
-
1
2
3
4
5
6
7
8
…
…
…
…
…
…
…
…
З цієї таблиці знаходять спостережуване значення критерію Пірсона:
Контроль
обчислень проводять за рівністю:
.
б)
З таблиці критичних точок розподілу
(таблиця №7 додатку 2) за рівнем значущості
і числом ступенів вільності
,
(s
– число розрядів вибірки, l-
число параметрів розподілу, оцінених
за вибіркою) знаходять критичну точку
правосторонньої критичної області.
Якщо
– немає підстав відхилити гіпотезу про
нормальний розподіл генеральної
сукупності.
Якщо
– гіпотезу відхиляють.
Зауваження
Інтервали,
емпіричні частоти яких малочисельні
,
об’єднують. При цьому відповідні частоти
додаються, а при обчисленні числа
ступенів вільності за формулою
,
де s
–
дорівнює числу інтервалів, які залишились
після об’єднання.
