архив прош.сесий / архив прош.сесий / Statistichna_gipoteza_2014
.pdf1
Статистична перевірка статистичних гіпотез. Критерій узгодженості
Пірсона
При статистичному аналізі буває необхідним перевірити припущення
(гіпотезу) щодо величини параметрів або перевірити гіпотезу стосовно зако-
ну розподілу досліджуваної генеральної сукупності (чи сукупностей). Напри-
клад, дослідник висуває гіпотезу про те, що “вибірка вилучена з нормальної
генеральної сукупності” або “генеральні середні двох досліджуваних сукуп-
ностей мають однакове значення”.
Співставлення висунутої гіпотези щодо генеральної сукупності з вибір-
ковими даними, яке супроводжується кількісною оцінкою ступеня достові-
рності отримуваного результату і здійснюється за допомогою того чи ін-
шого статистичного критерію, називається перевіркою статистичних гі-
потез.
Висунута гіпотеза називається нульовою (основною). Її позначають H 0.
По відношенню до висунутої (основної) гіпотези завжди можна сформулюва-
ти альтернативну (конкуруючу), таку що їй суперечить. Альтернативну
(конкуруючу) гіпотезу позначають H1.
Мета статистичної перевірки гіпотез полягає в тому, щоб на основі вибіркових даних прийняти рішення про справедливість основної гіпотези
H 0.
Статистичні гіпотези поділяються на параметричні і непараметричні.
Параметричні гіпотези передбачають, що вигляд закону розподілу відомий і перевірка зводиться до перевірки значень невідомих параметрів.
За своїм змістом статистичні гіпотези поділяють на декілька основних типів:
-гіпотези про вид закону розподілу досліджуваної випадкової вели-
чини;
2
-гіпотези про числові значення параметрів досліджуваної генераль-
ної сукупності;
-гіпотези про рівність числових характеристик генеральних сукуп-
ностей; тощо.
Так як перевірка статистичних гіпотез здійснюється на підставі вибіркових даних, тобто обмеженого ряду спостережень, рішення відносно нульової гі-
потези H 0 мають ймовірнісний характер. Іншими словами, таке рішення не-
минуче супроводжується деякою, хоча можливо і дуже малою, ймовірністю помилкового висновку у той чи інший бік. Так, в якійсь незначній частці ви-
падків нульова гіпотеза H 0 може виявитись відхиленою, в той час як дійс-
но в генеральній сукупності вона є справедливою. Таку помилку називають
помилкою 1-го роду, а її ймовірність – рівнем значущості і позначають .
Навпаки, в якійсь невеликій частці випадків нульова гіпотеза H 0 прийма-
ється, в той час як насправді в генеральній сукупності вона помилкова, а
справедливою є альтернативна гіпотеза H1. . Таку помилку називають помил-
кою 2-го роду. Ймовірність помилки 2-го роду позначають . Ймовірність
(1 ) називають потужністю критерію.
При фіксованому об’ємі вибірки можна вибрати на свій розсуд величину ймовірності тільки однієї з помилок чи . Збільшення ймовірності однієї з них призводить до зменшення іншої. Прийнято задавати ймовірність помил-
ки 1-го роду - рівень значущості. Як правило, користуються деякими стан-
дартними значеннями рівня значущості : 0,1; 0,05; 0,025; 0,01; 0,005; 0,001.
Тоді, очевидно, з двох критеріїв, які характеризуються однією і тією самою ймовірністю (відхилити правильну в дійсності гіпотезу H 0 ), слід прийняти той, якому відповідає менша помилка 2-го роду , тобто більша потужність.
Зниження ймовірностей обох помилок і можна досягти за рахунок збі-
льшення об’єму вибірки.
3
Правильне рішення щодо нульової гіпотези H 0 також може бути двох
видів:
-буде прийнята нульова гіпотеза H 0 , коли в генеральній сукупності правильною є нульова гіпотеза H 0 ; ймовірність такого рішення 1 -
;
-нульова гіпотеза H 0 буде відхилена на користь альтернативної H1 ,
коли в генеральній сукупності нульова гіпотеза H 0 відхиляється на користь альтернативної H1 ; ймовірність такого рішення 1- - по-
тужність критерію.
Результати рішення щодо нульової гіпотези можна проілюструвати за
допомогою наступної таблиці:
Нульова |
Результати рішення щодо нульової гіпотези H 0 |
|
гіпотеза H 0 |
|
|
|
|
|
|
Відхилена |
Прийнята |
|
|
|
|
Помилка 1-го роду, її ймовірність |
Правильне рішення, його ймовір- |
Правильна |
P H1 / H0 |
ність P H0 / H0 1 |
|
|
|
|
|
|
|
Правильне рішення, його ймовірність |
Помилка 2-го роду, її ймовірність |
Неправильна |
P H1 / H1 1 |
P H0 / H0 |
|
|
|
|
|
|
4
Перевірка статистичних гіпотез здійснюються за допомогою стати-
стичного критерію (назвемо його в загальному вигляді К), що є функцією від результатів спостереження.
Статистичний критерій – це правило (формула), за якою визнача-
ється міра розбіжності результатів вибіркового спостереження з висунутою гіпотезою H 0 .
Статистичний критерій, як і будь-яка функція від результатів спосте-
реження, є випадковою величиною і в припущенні щодо справедливості ну-
льової гіпотези H 0 підпорядкований деякому добре вивченому теоретичному закону розподілу з щільністю ймовірностей f k .
Вибір критерію для перевірки статистичних гіпотез можна здійснити на підставі різних принципів. Частіше для цього користуються принципом від-
ношення правдоподібності, який дозволяє побудувати критерій, найбільш потужний серед можливих критеріїв. Суть його зводиться до вибору такого
критерію K з відомою функцією щільності за умови справедливості гі-
потези H 0 , щоб при заданому рівні значущості можна було знайти критич-
ну точку Kкр розподілу f k , яка розділила б область значень критерію на дві частини: область допустимих значень, в якій результати вибіркового спосте-
реження виглядають найбільш правдоподібними, і критичну область, в якій результати вибіркового спостереження виглядають менш правдоподібними щодо нульової гіпотези H 0 .
Якщо такий критерій K вибраний, і відома щільність його розподілу,
то задача перевірки статистичної гіпотези зводиться до того, щоб при зада-
ному рівні значущості розрахувати за вибірковими даними спостереження значення критерію Kспост і визначити, чи є воно найбільш або найменш правдоподібним по відношенню до нульової гіпотези H 0 .
5
Перевірка кожного типу статистичних гіпотез здійснюється за допомо-
гою відповідного критерію, що є найбільш потужним у кожному конкретно-
му випадку. Наприклад, перевірку гіпотези про вигляд закону розподілу ви-
падкової величини можна здійснити за допомогою критерію згоди Пірсона
2 ; перевірка гіпотези про рівність невідомих значень дисперсій двох генера-
льних сукупностей – за допомогою критерію Фішера F ; ряд гіпотез про не-
відомі значення параметрів генеральних сукупностей перевіряються за допо-
могою критерію Z - нормально розподіленої випадкової величини та крите-
рію t - Стьюдента, тощо.
Значення критерію, що розраховується за спеціальними правилами на підставі вибіркових даних, називається спостережуваним значенням кри-
терію ( Kспост ).
Значення критерію, які розділяють сукупність значень критерію на об-
ласть допустимих значень (найбільш правдоподібних по відношенню до ну-
льової гіпотези H 0 ) та критичну область (область значень менш правдоподі-
бних по відношенню до нульової гіпотези H 0 ) і визначаються при заданому рівні значущості за таблицями розподілу випадкової величини K , вибра-
ної в якості критерію, називаються критичними точками ( Kкр ).
Областю допустимих значень (областю прийняття нульової гіпотези
H 0 ) називають сукупність значень критерію K , при яких нульова гіпотеза H 0
не відхиляється.
Критичною областю називають сукупність значень критерію K , при яких нульова гіпотеза H 0 відхиляється на користь конкуруючої H1 .
Розрізняють односторонню (правосторонню або лівосторонню) та дво-
сторонню критичні області.
6
Основний принцип перевірки статистичних гіпотез полягає в наступ-
ному:
-якщо спостережуване значення критерію ( Kспост ) належить критичній об-
ласті, то нульова гіпотеза H 0 відхиляється на користь конкуруючої H1 ;
- якщо спостережуване значення критерію ( Kспост ) належить області допус-
тимих значень, то нульова гіпотеза H 0 не відхиляється;
Можна прийняти рішення щодо нульової гіпотези H 0 шляхом порів-
няння спостережуваного ( Kспост ) та критичного значення критерію ( Kкр ).
При правосторонній конкуруючій гіпотезі:
-якщо Kспост Kкр , то нульову гіпотезу H 0 не відхиляють;
-якщо Kспост > Kкр , то нульову гіпотезу H 0 відхиляють на користь конкуру-
ючої H1 .
При лівосторонній конкуруючій гіпотезі:
- якщо Kспост Kкр , то нульову гіпотезу H 0 не відхиляють;
- якщо Kспост < Kкр , то нульову гіпотезу H 0 відхиляють на користь конкуруючої H1 .
При двосторонній конкуруючій гіпотезі:
- якщо Kкр Kспост Kкр , то нульову гіпотезу H 0 не відхиляють;
- якщо Kспост > Kкр або Kспост < Kкр , то нульову гіпотезу H 0 відхиляють на користь конкуруючої H1 .
Алгоритм перевірки статистичних гіпотез зводиться до наступного:
7
1)сформулювати нульову H 0 та альтернативну H1 гіпотези;
2)вибрати рівень значущості ;
3)у відповідності з видом висунутої нульової гіпотези H 0 обрати статис-
тичний критерій для її перевірки, тобто – спеціально підібрану випад-
кову величину К, точний або наближений розподіл якої наперед відо-
мий;
4)за таблицями розподілу випадкової величини К, обраної в якості стати-
стичного критерію, знайти критичне значення Kкр (критичну точку або точки);
5)на основі вибіркових даних за спеціальним алгоритмом обчислити спо-
стережуване значення критерію Kспост ;
6)за видом конкуруючої гіпотези H1 визначити тип критичної області;
7)визначити, в яку область (допустимих значень чи критичну) потрапляє спостережуване значення критерію Kспост , і в залежності від цього – прийняти рішення щодо нульової гіпотези H 0 .
Якщо навіть нульову гіпотезу H 0 не можна відхилити, то це ще не озна-
чає, що висловлене припущення про генеральну сукупність є єдиним підхо-
дящим, просто йому не протирічать отримані вибіркові дані; однак таку ж властивість разом з висунутою гіпотезою можуть мати й інші гіпотези.
Можна інтерпретувати результати перевірки нульової гіпотези наступним чином:
- якщо в результаті перевірки нульову гіпотезу H 0 не можна відхилити, то це означає, що отримані вибіркові дані не дозволяють з достатньою впевненістю відхилити нульову гіпотезу H 0 , ймовірність нульової гіпотези H 0 більша ,
а конкуруючої H1 - менша 1- ;
8
- якщо в результаті перевірки нульова гіпотеза H 0 відхиляється на користь
конкуруючої H1 , то отримані вибіркові дані не дозволяють з достатньою впевненістю прийняти нульову гіпотезу H 0 , ймовірність нульової гіпотези
H 0 |
менша , а конкуруючої H1 - більша 1- . |
|
|
|
|
|
|
|
|
|
|
|
||||
|
Критерій узгодженості Пірсона. Цей критерій найчастіше використо- |
|||||||||||||||
вується на практиці. Мірою розбіжності U береться величина |
2 , рівна сумі |
|||||||||||||||
квадратів відхилень частостей (статистичних ймовірностей) |
i |
від гіпотети- |
||||||||||||||
чних pi |
, які розраховані для передбачуваного розподілу, і взяті з деякими ва- |
|||||||||||||||
гами ci |
: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
m |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
U 2 ci (i pi )2 . |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
i 1 |
|
|
|
|
|
|
|
|
|
|
|
||
|
Ваги ci вводяться таким чином, щоб при одних і тих же відхиленнях |
|||||||||||||||
( p |
)2 більшу вагу мали відхилення, при яких p |
i |
мала, а меншу вагу – при |
|||||||||||||
i |
i |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
яких pi велика. Очевидно, цього вдається досягти, |
якщо взяти ci |
обернено |
||||||||||||||
пропорційними ймовірностям p |
. Взявши в якості ваг c |
|
|
n |
|
, |
можна довес- |
|||||||||
i |
|
|
||||||||||||||
|
|
i |
|
|
|
|
|
|
|
pi |
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
ти, що при n статистика U 2 n (i pi |
)2 (ni |
|
npi ) |
2 |
має 2 - |
|||||||||||
|
|
|
m |
|
|
m |
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
i 1 pi |
|
|
i 1 |
n pi |
|
|
розподіл з k m r 1 ступенями свободи, m - число інтервалів емпі-
ричного розподілу (варіаційного ряду); r - число параметрів теоретичного розподілу, обчислених за експериментальними даними.
Числа ni n wi та n pi називаються відповідно емпіричними та тео-
ретичними частотами.
Схема застосування критерію 2 :
9
1. Знайти міру розбіжності емпіричних та теоретичних частот 2 за фор-
мулою U 2 |
(ni |
npi ) |
2 |
|
|
. |
|||||
|
m |
|
|
|
|
|
i 1 |
n pi |
|
|
2.Для обраного рівня значущості за таблицею 2 - розподілу (див. до-
даток 4) знаходять критичне значення 2 ;k з числом ступенів свободи k m r 1.
3.Якщо спостережуване значення 2 більше критичного, то гіпотезу H0
відхиляють, а якщо навпаки – гіпотеза H0 не протирічить дослідним
даним.
m |
npi ) |
2 |
|
|
|
|
|
|
|||
Статистика 2 |
(ni |
|
має 2 |
- розподіл тільки n , тому |
|
|
n pi |
|
|||
i 1 |
|
|
|
||
необхідно, щоб у кожному інтервалі була |
достатня кількість спостережень, у |
крайньому випадку 5 спостережень. Якщо в якомусь інтервалі число спосте-
режень ni 5, доцільно об’єднати сусідні інтервали, щоб в об’єднаних інтер-
валах n i було не менше 5.
Приклад 1. При рівні значущості 0.025 перевірити гіпотезу про
нормальний розподіл генеральної сукупності, якщо відомі емпіричні та тео-
ретичні частоти:
niемп |
5 |
10 |
20 |
25 |
14 |
3 |
niтеор |
6 |
14 |
28 |
18 |
8 |
3 |
Розв’язування:
▼ Сформулюємо нульову та конкуруючу гіпотези згідно умові задачі.
10
H0 : X N( ; 2 ) - випадкова величина Х підкоряється нормальному закону розподілу з параметрами та 2 .
H1 : випадкова величина Х не підкоряється нормальному закону розпо-
ділу з параметрами та 2 .
В якості критерію для перевірки нульової гіпотези використаємо кри-
терій Пірсона 2 .
Знайдемо спостережуване значення ( 2 спост ):
|
|
(5 6)2 |
|
(10 14)2 |
|
(20 28)2 |
|
(25 18)2 |
|
(14 8)2 |
|
(3 3)2 |
||
2 |
спост |
|
|
|
|
|
|
|
|
|
|
|
|
|
6 |
14 |
28 |
18 |
8 |
3 |
|||||||||
|
|
|
|
|
|
|
|
|||||||
10.8175 |
|
|
|
|
|
|
|
|
|
|
|
Знайдемо критичне значення критерію ( 2 кр ) за таблицею розподілу 2
(див. додаток) за рівнем значущості та числом ступенів свободи k.
За умовою 0.025 ; число ступенів свободи знайдемо за формулою
k n l 1,
де k –кількість ступенів свободи; n – кількість груп вибірки; l- кількість невідомих параметрів передбачуваної моделі, що оцінюються за даними ви-
бірки.
За умовою задачі кількість груп вибірки n 6 , а число невідомих па-
раметрів нормального розподілу l 2 . Звідси k 6 2 1 3.
Знайдемо 2 кр за рівнем значущості 0.025 та числом ступенів сво-
боди k 3:
2 кр.( 0.025;k 3) 9.4 .