6.2. Оцінка розподілу за критерієм згоди «хі - квадрат»
Для статистичної оцінки гіпотези про те, що сукупність емпіричних, або вибіркових, даних трохи відрізняється від тієї, яку можна чекати при деякому теоретичному законі розподілу, розглянемо два види випробувань на відповідність зробленій гіпотезі. Одним з параметрів, що дозволяють оцінити розходження між спостережуваними і очікуваними частотами, є величина (слід читати «хі - квадрат»). Критерій «хі - квадрат» був запропонований Пірсоном в 1903 р., хоча повністю цей метод був розроблений Фішером, що опублікував в 1924 р. відповідні таблиці критичних величин, які практично застосовуються і на даний час. Статистика визначається виразом
де — спостережувана частота для кожної групи або інтервалу;
— очікувана частота для кожної групи або інтервалу;
— передбачена теоретичним розподілом сума по всім групам або
інтервалам.
Якщо , то спостережувані і теоретично передбачені значення частот точно збігаються; якщо ж > 0, то повною збіжності немає. Чим більше величина , тим більше розбіжність між спостережуваними і очікуваними значеннями. Якщо , то необхідно порівняти розрахункові значення з табличними (наприклад, додаток В.3, [4]) для того, щоб оцінити, наскільки спостережувані значення визначаються лише випадковими причинами. Значення статистики табульовані для різних чисел ступнів свободи і різних рівнів довірчої вірогідності 1 — . При практичному використанні цієї статистики припускається так звана нульова гіпотеза Н0 про те, що між спостережуваним і очікуваним теоретичним розподілом з тими ж параметрами немає значних розбіжностей. Якщо при перевірці цієї гіпотези розрахункова величина виявляється більше критичного табличного значення (для даного рівня довірчої вірогідності і відповідного числа ступнів свободи), то можна укласти, що при даному рівні довірчої ймовірності спостережувані частоти значно відрізняються від очікуваних, і тоді слід було б відкинути гіпотезу Н0.
Застосовуючи метод перевірки гіпотез по критерію згоди , слід пам'ятати наступне:
1. Відносні значення частот або їх значення, виражені у відсотках, брати не можна; іншими словами, необхідно користуватись даними прямих спостережень або абсолютними значеннями частот.
2. Значення спостережуваних частот для кожної групи або інтервалу мають дорівнювати 5 або більш. Якщо це не так, то суміжні групи або інтервали повинні об'єднуватися.
3. Число рівнів свободи задається вираженням , де —число груп або інтервалів і — число параметрів, що визначаються дослідним шляхом або на основі вибіркових даних для обчислення очікуваних значень частот.
Розглянемо два приклади з практичного застосування критерію
ПРИКЛАД 7.1. Припустимо, що необхідно перевірити дані таблиці 7.2. на їх відповідність розподілу Пуассона при довірчому рівні 0,95. Відомо
[1, … , 3], що розподіл Пуассона виражається формулою
де — вірогідність настання подій; ;
— позитивна константа (яка одночасно є і середнім значенням, і дисперсією).
У попередньому підрозділі було визначено, що для випадку, який розглядається = 0,5577; тому гіпотеза Н0 формулюється наступним чином: немає істотних відмінностей між спостережуваними даними і даними, які виходять з розподілу Пуассона з математичним сподіванням, або середнім = 0,5577. Узявши у формулі розподілу Пуассона це значення і потім підставив послідовно n = 0, n =1, n = 2 і т. д., отримаємо дані, представлені в таблиці 7.5.
Таблиця 7.5
Розрахункові величини для табл. 7.2
п |
|
|
|
|
0 1 2 3 4 5
|
0,571 0,319 0,089 0,017 0,003 0,001 |
291 162 45 9 1 11 1 |
315 142 40 9 2 12 1 |
1,98 2,47 0,56
0,09
|
1,000 |
509 |
509 |
5,10 |
Для одержання умножимо відповідну величину на 509. Розрахункова величина = 5,10. Підшукуємо критичне значення величини з додатку В.3 [4] для довірчого рівня 0,95 і числа ступнів свободи 4 - 1 - 1 = = 2, знаходимо = 5,99. Отже, оскільки розрахункова величина менше табличного критичного значення, гіпотезу Н0 не відкидаємо. Останні три групи значень в проведеному розрахунку були об'єднані з тим, аби набути значення частоти, принаймні рівного 5 в кожній групі; таким чином, замість початкових 6 груп ми отримали 4. Так само при визначенні числа ступнів свободи, було зменшено його на одиницю тому, що для розрахунку очікуваної частоти використовувалася величина , отримана з даних спостереження.
ПРИКЛАД 7.2. Припустимо, що розглядається вибірка, одержана з генератора випадкових чисел, який видав 500 цифр, розподілених по випадковому закону. Зареєстрована частота їх появи представлена в таблиці 7.6. Якби цифри генерувалися дійсно по випадковому закону, то можна було б чекати, що кожна цифра появиться близько 50 разів. Використовуючи рівень значущості 0,99, перевіримо, наскільки отримані результати відповідають рівномірному розподілу. Хід розрахунків ілюструється таблицею 7.6.
Таблиця 7.6
Розрахунок величини за даними прикладу 7.2
|
|||||||||||
Цифра |
о |
l |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
Всього |
Частоти, що спостерігаються
|
62
|
58
|
36
|
28
|
40
|
70
|
60
|
40
|
72
|
34
|
500
|
Очікувані частоти |
50
|
50
|
50
|
50
|
50
|
50
|
50
|
50
|
50
|
50
|
500
|
|
2,88 |
1,28 |
3,92 |
9,68 |
2,00 |
8,00 |
2,00 |
2,00 |
9,68 |
5,12 |
46,56 |
Таблична величина = 21,7 для 10 - 1= 9 і = 0,01
Оскільки , гіпотеза Н0 відхиляється