Лекція 4 Статистична перевірка гіпотез
Перевірка статистичних гіпотез. Постановка задачі.
Основні поняття
Вибір між двома гіпотезами. Критерій Неймана-Пірсона
Отримані за вибіркою числові характеристики (як функції вибірки) є випадковими величинами. Вони змінюються від вибірки до вибірки в околі деякого середнього значення, яке відповідає характеристиці генеральної сукупності. Ці числові характеристики мають закон розподілу, який визначає розподіл всієї генеральної сукупності. Тому на практиці часто виникає задача статистичної перевірки гіпотез відносно значень числових характеристик або їх законів розподілу. Зокрема, такі задачі виникають при порівнянні різних методів вимірів, чи зважувань, або різних технологій виготовлення чи обробки за певними вимірюваними ознаками, наприклад, за точністю, продуктивністю, і т.д.
Отже, з інформації, отриманої при обробці вибірки з генеральної сукупності , можна зробити висновки про всю генеральну сукупність. Ці висновки називають статистичними розв’язками. Вони мають ймовірнісний характер, тому завжди можна обчислити ймовірність, що зроблений висновок буде помилковий, тобто оцінити ступінь ризику, що відповідає тому чи іншому висновку.
Зауважимо,
що результат перевірки гіпотези суттєво
залежить від вибраного рівня значущості
.
Якщо ймовірність
збільшувати, то область
-
прийому гіпотези
буде звужуватись, а критична область
збільшуватись і при інших рівних умовах
гіпотеза
буде відхилятися частіше, тобто
відхилятися і вірна гіпотеза. Якщо ж
зменшувати, то область
-
прийому гіпотези розширюється, а критична
область
звужується, і гіпотеза
відхиляється рідше, ніж в тих випадках,
коли вона не є вірною. Критерій в цьому
випадку стає малочутливим.
Рівень значущості критерію не змінює ступінь ризику, пов’язаного з прийняттям не вірної гіпотези, тобто з можливістю помилки другого роду і при даному рівні значущості можна по-різному визначити критичну область. Як, правило, її визначають так, щоб ймовірність помилки другого роду була якомога меншою, тобто:
.
Статистична перевірка гіпотез. Постановка задачі. Основні поняття
Означення
Статистичною
гіпотезою, що позначається
,
називають довільне припущення відносно
виду розподілу або параметрів розподілу
Функція розподілу досліджуваної випадкової величини, як правило, наперед не відома, і виникає необхідність її визначення за емпіричними даними. Розв’язати цю задачу в такій загальній постановці іноді досить складно, а в більшості випадків і не є необхідним.
В
багатьох випадках можна зробити
припущення про вигляд функції розподілу
.
Будь-яке таке припущення буде статистичною
гіпотезою. Множину таких статистичних
гіпотез про функцію
досліджуваної випадкової величини
позначають
,
тобто
.
Найпростішим
і в той же час найсильнішим припущенням
такого роду є припущення, що функція
розподілу
є цілком певна функція, тобто
.
Це означає, що множина
складається з одного елементу. Таку
гіпотезу називають простою.
Отже, проста гіпотеза однозначно визначає
функцію розподілу, випадкової величини
.
Якщо таке припущення про функцію
розподілу зробити не можна, то гіпотези
не повністю визначають параметри
розподілу. Такі гіпотези називають
складними.
В цьому випадку множина
містить більше одного елементу. Іноді
можна припустити, що функція розподілу
належить деякому класу функцій, які
залежать від одного або декількох
параметрів
;
тобто
.
При цьому параметри
невідомі
і їх значення необхідно отримати з
дослідних даних, тобто оцінити за
вибіркою. Можливі й інші припущення про
вид функції розподілу
,
наприклад
задає симетричний розподіл з медіаною
в даній точці і т.д. Прикладом складних
гіпотез може служити множина всіх
функцій розподілу, графіки яких проходять
через
фіксованих точок
.
Таким
чином, необхідними є критерії, котрі
дозволяли б судити узгоджуються чи ні
спостережувані значення
,
величини
з гіпотезою відносно її функції розподілу.
Такі критерії називають критеріями
згоди.
Розробка таких критеріїв одна з
найважливіших задач математичної
статистики.
Розглянемо загальну схему застосування критеріїв згоди.
Розглянемо
випадок простої гіпотези
,
тобто гіпотетична функція повністю
задана.
Нехай
-
випадкова вибірка, тобто спостережувані
значення випадкової величини
і
- емпірична функція розподілу вибірки.
Визначимо
деяку невід’ємну міру
відхилення емпіричної функції розподілу
від гіпотетичної теоретичної (за
гіпотезою
)
функції розподілу
.
Величину
можна визначити багатьма способами.
Відповідно до них отримують різні
критерії для перевірки гіпотези
.
Величини
,
що утворюють вибірку, при справедливості
висунутої гіпотези (у випадку, коли
висунута гіпотеза вірна) можна розглядати
як незалежні однаково розподілені
випадкові величини з функцією розподілу
. Тоді величина
є функцією від випадкових величин, тому
і сама є випадковою величиною.
Припустимо,
що висунута гіпотеза вірна, тобто
.
Тоді розподіл випадкової величини
можна знайти. Задамо число
настільки малим, щоб можна було вважати
практично неможливим настання події
з ймовірністю
в одиничному досліді. Якщо вважати
відомим розподіл випадкової величини
то
можна знайти таке число
,
що
(тут ми вважаємо, що розподіл випадкової
величини неперервний). Якщо
-
фактично спостережувані значення, то
за ними будують функцію
і обчислюють величину
.
Якщо отримана величина
виявиться більшою
,
то це означає, що відбулась практично
неможлива подія, тобто гіпотеза
відхиляється.
Якщо
,
то вважають, що гіпотеза узгоджується
з дослідними даними, тому її можна
прийняти.
Зауважимо,
що відхилення гіпотези при
,
не означає її логічного заперечення,
так як і підтвердження гіпотези у
випадку
не означає логічного доведення
справедливості гіпотези. Дійсно, подія
може відбутися і у випадку справедливості
гіпотези, але, якщо
досить мале, то на практиці цією можливістю
можна знехтувати. Подія
може відбутись і у випадку, коли наша
гіпотеза не вірна, тому її необхідно
перевірити за допомогою різних (по
можливості більшої кількості) критеріїв,
перш ніж вважати її підтвердженою
дослідними даними.
Число
,
вибір якого залежить від характеру
задачі, називають рівнем
значущості критерію,
а величину
,
визначену з умови
-
межею значущості.
Розподіл
величини
залежить від
і обчислення його при скінченних
значеннях
недоцільне. Замість цього обчислюють
граничний (при
)
розподіл величини
і використовуюють його як наближення
для розподілу величини
при достатньо великих значеннях n.
У випадку
складної гіпотези, коли гіпотетична
функція розподілу
містить невідомі параметри
,
які необхідно оцінити за вибіркою, також
розглядають деяку міру
відхилення емпіричної функції розподілу
від теоретичної функції розподілу
.
Остання сама є випадковою величиною,
оскільки
є функціями спостережуваних значень,
а, отже, є випадковими величинами.
Отже, загальна схема застосування критеріїв згоди така:
Висувають гіпотезу відносно закону розподілу випадкової величини .
Задають рівень значущості (як завгодно мале число ).
Вибирають міру відхилення:
.Знаходять величину
Визначають за вибіркою величину
Якщо > , то гіпотезу відхиляють, а в протилежному випадку приймають.
