22.2 Статистичне тестування, критерій хі-квадрат узгодження
При
статистичному тестуванні прийнятна
границя відхилень є ймовірністю похибки
статистичного критерію (тесту), на основі
функції (статистики) від вибіркових
значень вектора параметрів
.
Критерій дає підстави для відповіді на
питання, чи відповідає реальна
послідовність гіпотетичній властивості
істинних параметрів (так званій, гіпотезі
).
Зауважимо, що якщо параметри ідеальної РРВП ми можемо розрахувати точно, то значення параметрів реальної послідовності ми отримуємо викривленими.
Необхідні
для наших цілей гіпотези
полягають у твердженнях, що вибіркові
значення параметрів, тобто обчислені
за статистичними спостереженнями, не
протирічать істинним (теоретичним)
параметрами РРВП, а окремі відхілення
насправді є випадковими.
Будемо
далі вважати, що вірна або
,
або її доповнення
(протилежна гіпотеза), на відміну від
випадку, коли за статистичними
спостереженнями оцінюється не гіпотеза
співпадіння параметрів, а гіпотеза
належністі істинних параметрів до
деякої заданої множини.
Критерій
оцінки статистичної гіпотези
- це правило, що дозволяє висловити
обгрунтовані преференції у ділемі:
протирічать наявні дані гіпотезі, чи
ні. У цьому сенсі треба розуміти вислови
типу «відкинути, чи прийняти гіпотезу
за статистичними даними» і т.і.
Кожний
критерій визначає критичну множину
(область)
.
Якщо
належить до цієї множині, то
спростовується, і не спростовується у
іншому випадку. Належність, точніше,
ймовірність належності, до
виявляється за значенням відповідної
статистики (функції) критерія від
.
Оскільки відрізок послідовності не відображає послідовності у цілому, то можливі настіпні випадки:
а)
є
вірною і приймається згідно крітерія;
б)
не
є вірною і не приймається (відкидається)
згідно крітерія;
в)
є
вірною, але, згідно крітерія, відкидається;
г)
не
є вірною, але, згідно крітерія, приймається.
Випадок в) називається помилкою першого роду, а випадок г) - помилкою другого роду.
Нехай
- ймовірність того, що
попаде у
,
а
- ймовірність того, що
попаде у
за умови, що гіпотеза
істинна.
Ймовірність
того, що
попаде у
і при цьому
- вірна (тобто
відкидається правільно), називається
потужністю критерія відносно
.
Ймовірність
помилки першого роду
називається рівнем значимості критерія.
Ймовірність помилки першого роду не
обов’язково дорівнює ймовірності
помилки другого роду
.
Таким
чином, бажано розробляти такі критерії,
щоб
була малою коли
є вірною і щоб
була великою (тобто
- малою), якщо вірною є
.
Відповідно до задач, існує достатньо велика кількість типів статистичних тестів. Їх обгрунтування складні, а при застосуванні можуть виникати тонкощі.
Статистики
критеріїв табульовані. Таблиці містять
значення статистик для теоретичних
параметрів при різних значеннях
,
наприклад,![]()
,
,
,
.
Гіпотеза
,
частише за все, формулюється при
поясненнях до таблиці. У критеріях
оцінювання параметрів, як правило,
означає твердження, що параметри
розподілу співпадають з теоретичними.
Нажаль, застосовуються різні підходи щодо структури таблиць. Звичним недоліком є недостатні поясненя щодо застосування критерія, або рекомендацій щодо обчислення значень, що є поза межами таблиці. Таким чином, крім розуміння крітерію, необхідно розуміти правила застосування наявної таблиці.
У цьому
часто допомагає зауваження, що якщо
є вірною, але, згідно крітерія, відкидається
з ймовірністю
,
то це означає, що з ймовірністю
помилково приймається
.
Таким
чином, за таблицею можна оцінювати
ймовірність помилки прийняття гіпотези
.
Розглянемо
критерій узгодження
(хі-квадрат). У позначенні цього критерія
параметр
називаються кількістю степенів свободи,
а позначення у показнику традиційно
записується без дужок:
.
Критерій
контролює узгодженність теоретичних
(або гіпотетичних) ймовірностей
подій
,
,
з їхніми відносними частотами
зустричаємості
у вибірці з
незалежних спостережень.
Узгодженність обчислюється за допомогою статистики
![]()
.
Для
вибірки обсягу
з послідовності
подія
означає появу елемента
в окремому випробуванні, а
,
.
Розподіл
статистики
при
дуже швидко сходиться до теоретичного
розподілу
.
Асимптотика працює добре, коли
для всіх
.
Зокрема, Для псевдовипадкових
послідовностей, це означає, що обсяг
вибірки
,
оскільки, очевидно,
.
Ясно,
що
і, якщо
,
то
.
Ясно також, що чим більше від- хилення
від
,
тим більше
.
Таким чином, для «поганих с точки зору
гіпотези
послідовностей» значення статистики
є великими.
Наведемо
фрагмент таблиці для
розподілу (зазвичай замість
пишуть
).
|
|
Ймовірність
| |||
|
|
0,99 |
0,05 |
0,01 |
0,001 |
|
1 |
0,00016 |
3,841 |
6,635 |
10,827 |
|
10 |
2,558 |
18,307 |
23,209 |
29,588 |
|
25 |
11,524 |
37,652 |
44,314 |
52,620 |
У таблиці
надані значення так званих квантилей
,
де
-
рівень
значимості критерія,
-
кількість степенів свободи. Фактично,
кожний рядок, представляє окремий
критерій, що відповідає значенню
.
Пояснення.
Квантиль (ж.р.)
– це теоретичне значення статистики
для якого
-
ймовірність того, що при істинній
величини обчисленних параметрів
нададут функції
значення, менше за
.
Ішими
словами, якщо
![]()
,
то, при вірній
,
для всіх значень
ймовірність події
дорівнює
.
Таблиця
розподілу
побудована таким чином, що гіпотеза
відкидається з рівнем значимості
,
якщо
,
а при
вважається, що дані не протирічать
гіпотезі.
Нехай
і обчисленне з експерименту значення
.
У комірці
,
знаходимо
.
Оскільки
Це означає, що
послідовностей з параметрами, що
відповідають
,
мають дати менші значення статистики.
Оскільки
співпадає з імовірністю помилково
прийняти
,
то значення
показує, що можна прийняти
і при цьому помилитися лише у
випадків.
У свою
чергу, те, що якщо деякі дані не протирічать
для рівня значимості
,
означає тільки, що ми не відкинули ці
дані як такі, що не відповідають
гіпотетичному розподілу і, можливо
помилились, з ймовірністю
.
Дійсно, при
,
а
з таблиці випливає, що дані протиричать
для
і не протирічать
для
.
Оскільки
для підтвердження рівноймовірності
послідовності, необхідно підтвердити
гіпотезу
з високою ймовірністю, то для даної
таблиці слід трактувати велики значення
як ймовірність помилково прийняти
.
Дійсно,
нехай
і обчисленне з експерименту значення
.
У комірці
,
знаходимо
.
У цьому
випадку прийняття
означає зробити помилку з ймовірністю
,
тобто дані відповідають гіпотезі
з ймовірністю
.
Приклад.
Нехай
при
підкидуваннях монети герб випав у 2048
випадках. Чи є монета симетричною, тобто
чи дорівнює ймовірність
випадання герба 0,5?
Застосуємо
критерій
виберемо
.
У нас, очевидно, дві несумісні події,
тобто
і
,
,
,
а також гіпотеза, що істинні ймовірності
герба та решки однакові:
.
![]()
![]()
.
Оскільки
,
то дані не протирічать гіпотезі, точніше,
в умовах експерименту асиметричність
монети не підтверджується.
Розподіл
табульовано для значень
,
оскільки для
можна застосовувати наближення за
допомогою функції стандартного
нормального розподілу
.
Нагадаємо, що неперервна функція
розподілу
випадкової величини
задає ймовірності подій виду![]()
.
Для
стандартного нормального розподілу
- випадкова величина з математичним
сподіванням
і дісперсією
,
що задовільняє умові
.
Функція
табульована і має вид
.
Слід враховувати, що часто зустрічаються
таблиці для функції
(інтеграл імовірностей), при цьому
,
.
У
загальному випадку випадкова величина
називається розподіленою нормально з
і
,
якщо її функція розподілу має вид![]()
.
Для
випадкової величини
відомо, що
,
тобто![]()
і при
квантіль
апроксимується через квантіль
за формулою
.
Приклад.
Нехай
,
і обчисленне з експерименту значення
.
Оскільки
,
за таблицями для
знаходимо, що
і апроксимація дає
.
Оскільки
![]()
,
то гіпотезу
не можна відкинути.
Тепер
ми готові перевірити, скажимо, рівномірність
розподілу 12-бітових комбінацій, якщо
вважати комбінації за символи. Для цього
випадку
,
.
.
