Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Конспект лекцій КМ.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
1.98 Mб
Скачать

3.4 Основні критерії перевірки випадкових спостережень а. Критерій “хі-квадрат”

Критерій “хі-квадрат” (х2-критерій), можливо найвідоміший з усіх статистичних критеріїв. Він є основним методом, що використовується в поєднанні з іншими критеріями. Перш ніж розглядати ідею в цілому, проаналізуємо приклад застосування х2-критерію до кидання гральних кубиків. Використаємо два “правильні” гральні кубики (кожен з яких незалежно допускає випадіння значень 1,2,3,4,5 або 6 з рівною імовірністю.) В наступній таблиці дана ймовірність отримання певної суми s при одному киданні гральних кубиків.

Значення 2 3 4 5 6 7 8 9 10 11 12

Ймовірність

Наприклад, величина 4 може бути отримана трьома способами: 1+3,2+2,3+1; це складає із 36 можливих результатів.

Якщо кидати гральний кубик n разів, то в середньому ми отримаємо величину s приблизно nps разів. Наприклад, при 144 киданнях величина 4 випадає біля 12 разів. В наступній таблиці показано, які результати справді отримані при 144 киданнях гральних кубиків.

Значення 2 3 4 5 6 7 8 9 10 11 12

Спостережуване число,

Ys = 2 4 10 12 22 29 21 15 14 9 6

Очікуване число, nps = 4 8 12 16 20 24 20 16 12 8 4

Відмітимо, що у всіх випадках спостережуване число відрізняється від очікуваного числа. Справді, результати випадкового кидання гральних кубиків навряд чи завжди будуть появлятись саме з правильною частотою. Існує 36144 можливих послідовностей 144 кидань, і всі вони рівно можливі. Одна з таких послідовностей складається із всіх двійок (“зміїне око”), і кожен хто викинув 144 зміїні ока підряд, буде впевнений, що кубики обтяжені. Незважаючи на це послідовність усіх двійок є такою ж ймовірною, як і будь яка друга послідовність, якщо точно визначити результат кожного кидання кожного кубика.

В наведеному вище прикладі цілком природно розглянути квадрати різностей між спостережуваними числами Ys і очікуваними числами nps. Можна скласти їх, отримавши

(3.3)

Поганий набір гральних кубиків привів би до відносно великого значення V, а для даного значення V можна сказати наступне: “Чому рівна ймовірність таких великих значень V, якщо використовувати “правильні” гральні кубики?” Якщо ця ймовірність дуже мала, наприклад , ми будемо знати що тільки біля одного разу із ста “правильні” гральні кубики,будуть давати результати настільки віддалені від очікуваних значень, що виникають певні підстави для підозри (Пам’ятаємо, що ті ж самі хороші гральні кубики будуть давати таке велике значення V приблизно в одному випадку із ста, так що передбачуваним особам прийдеться повторювати експеримент, коли більші значення V є частковими)

В статистиці V в (3.3) доданках і приписується рівна вага незважаючи на те що напевно буде більше ніж , так як 7 появляється приблизно в 7 разів частіше ніж 2. Виявляється що “правильна” статистика по крайній мірі статистика яка як доказано найбільш важлива, буде приписувати тільки ваги , і необхідно змінити (3.3) наступним чином:

(3.4)

Ця статистика називається статистикою “хі-квадрат” спостережуваних значень Y2 ,… Y12 при киданні гральних кубиків. Для даних із таблиці (2) отримуємо, що

Тепер виникає важливе запитання: “Чи буде незвичайно великим значенням для V при наших припущеннях?” Перш ніж відповісти на нього, розглянемо як застосовується метод “хі-квадрат” в загальних ситуаціях. Припустимо, що кожне спостереження може належати до одної із k категорій. Проводимо n незалежних спостережень. Це означає що результат одного спостереження абсолютно не впливає на результат іншого спостереження. Нехай ps – ймовірність того, що кожне спостереження відноситься до категорії s і нехай Ys – число спостережень, яке дійсно відноситься до категорії s. Створимо статистику:

(3.5)

В прикладі, що наведений вище, існує 11 можливих результатів кожного кидання гральних кубиків, тобто k=11

Зводячи в квадрат в (6) і враховуючи той факт, що

(3.6)

отримуємо формулу:

(3.7)

яка значно спрощує вирахування V.

Повернемось до запитання: “Чому рівне прийняте значення V?” Його можна визначити з допомогою таких таблиць, як таблиця 1, яка дає значення “х2-розподілу з υ ступенями свободи” для різних значень υ. Використовуємо рядки таблиці з υ=k-1 так як число ступенів свободи дорівнює k-1, що на одиницю менше, ніж число категорій. Тому треба рахувати, що число ступенів свободи дорівнює k-1. Ці аргументи не є строгими, але вони підтверджуються теоретично. Якщо в таблиці вибрати число х, що стоїть на υ-рядку і в стовпчику p, то “ймовірність того, що значення V в (3.7) буде менше або рівне х, приблизно рівне р, якщо n достатньо велике”.

p=1%

p=5%

p=25%

p=50%

p=75%

p=95%

p=99%

υ=1

0.0002

0.00393

0.1015

0.455

1.323

3.841

6.635

υ=2

0.0201

0.1026

0.5754

1.386

2.773

5.991

9.210

υ=3

0.1148

0.3518

1.213

2.366

4.108

7.815

11.34

υ=4

0.2971

0.7107

1.923

3.357

5.385

9.488

13.28

υ=5

0.5543

1.1455

2.675

4.351

6.626

11.07

15.09

υ=6

0.8721

1.635

3.455

5.348

7.841

12.59

16.81

υ=7

1.239

2.167

4.255

6.346

9.037

14.07

18.48

υ=8

1.646

2.733

5.071

7.344

10.22

15.51

20.09

υ=9

2.088

3.325

5.899

8.343

11.39

16.92

21.67

υ=10

2.558

3.940

6.737

9.342

12.55

18.31

23.21

υ=11

3.053

4.575

7.584

10.34

13.70

19.68

24.72

υ=12

3.571

5.226

8.438

11.34

14.85

21.03

26.22

υ=15

5.229

7.261

11.04

14.34

18.25

25.00

30.58

υ=20

8.260

10.85

15.45

19.34

23.83

31.41

37.57

υ=30

14.95

18.49

24.48

29.34

34.80

43.77

50.89

υ=50

29.71

34.76

42.94

49.33

56.33

67.50

76.15

В певній мірі добре, що для використання таблиць немає значення, чому рівні n і ймовірність ps. Тільки число υ=k-1 впливає на результат. Треба відмітити, що значення таблиці 1 це тільки наближені значення: справа в тому, що в ній наведені значення х2-розподілу, які є граничним розподілом випадкової величини V формулі (3.5). Тому табличні значення наближені до реальних тільки при великих n. Наскільки великими повинні бути n? Емпіричне правило говорить: треба взяти n настільки великим, щоб всі значення величини були більші або рівні 5. Проте краще брати набагато більше n, щоб отримати надійний критерій. В приведеному вище прикладі n=144, np2 дорівнювало тільки 4 і емпіричне правило було порушене.

Питання про правильний вибір n достатньо складне. Якщо гральні кубики дійсно не симетричні, то це буде проявлятись все більше і більше при зростанні n. Але при великих значеннях n має місце тенденція до згладжування локальної невипадкової поведінки, коли блоки чисел із строгим зміщенням ідуть за блоками чисел з протилежним зміщенням. При реальному киданні гральних кубиків згладжування локальної невипадкової поведінки можна не боятися так як одні і ті ж гральні кубики використовуються під час всього експерименту, але випадковість ймовірних чисел, що генеруються комп’ютером може досить часто демонструвати такі аномалії. Можливо x2-критерій потрібно було б застосовувати для кількох різних значень n. У будь якому випадку, значення n повинно було бути по можливості великим.