- •Работа № 5. Критерий хи-квадрат проверки гипотез
- •1. Проверка простой гипотезы о вероятностях
- •2. Проверка сложной гипотезы о вероятностях
- •3. Проверка гипотезы о типе распределения
- •4. Примеры проверки простой гипотезы о распределении
- •5. Проверка гипотезы о независимости признаков (таблица сопряженности признаков)
- •6. Проверка гипотезы об однородности выборок
- •7. Задание
4. Примеры проверки простой гипотезы о распределении
Пример 2. Проверим генератор случайных чисел. Сгенерируем выборку заданного объема с заданным в таблице 2 законом распределения, и по полученным результатам проверим гипотезу о согласии данных с этим распределением (файл с выборкой назовем, например, Chisqr). В таблице приняты обозначения для распределений: R - равномерное, N -нормальное, E - показательное, Bi - биномиальное, Po - Пуассона.
Таблица 2. Исходные данные.
№ варианта |
1 |
2 |
3 |
4 |
5 |
6 | |
Распределение Объем |
R[0,5] 130 |
N(10,22=4) 140 |
E(3) 140 |
Bi(10, 0.5) 160 |
Po(15) 130 |
beta(1,1) 140 | |
№ варианта |
7 |
8 |
9 |
10 |
11 |
12 | |
Распределение Объем |
R[0,10] 130 |
N(15,32=9) 160 |
E(5) 130 |
Bi(15,0.3) 140 |
Po(20) 150 |
beta(2,2) 160 | |
№ варианта |
13 |
14 |
15 |
| |||
Распределение Объем |
R[-1,1] 130 |
N(0,1) 140 |
E(1) 150 |
|
Выполнение в пакете STATISTICA
Выполнение аналогично предыдущему.
Отличия от предыдущего: 1) в окне Fitting Continuous Distribution нужно ввести значения параметров распределения (вместо их оценок) и, возможно, поправить параметры группировки; 2) приводимый результат для уровня значимости р не соответствует рассматриваемому случаю, так как число степеней свободы d.f. должно быть равным m -1; пакет же указывает с учетом числа оцениваемых параметров. Нужное значение для р получим в модуле Basic Statistics and Tables в Probability calculator.
Пример 3. В опытах по генетике Мендель наблюдал частоты появления различных видов семян, получаемых при скрещивании гороха с круглыми желтыми и с морщинистыми зелеными семенами [2]. Частоты приведены в таблице 3 вместе с теоретическими вероятностями.
Таблица 3. Частоты видов семян.
Семена |
Наблюдаемая частота, ni |
Теоретическая вероятность, pi |
Круглые и желтые Морщинистые и желтые Круглые и зеленые Морщинистые и зеленые |
315 101 108 32 |
9/16 3/16 3/16 1/16 |
Сумма |
n= 556 |
|
Формула (1) дает X2 = 0.47. При числе степеней свободы m-1 = 3
P{ ³0.47 } = 0.92,
так что между наблюдениями и теорией имеется очень хорошее согласие: критерий с любым уровнем значимости a£ 0.92 не отвергал бы эту гипотезу .
Выполнение в пакете STATISTICA
Выполнить самостоятельно. Воспользоваться операциями со столбцами или процедурой Observed versus expected (наблюдаемые частоты против ожидаемых).
5. Проверка гипотезы о независимости признаков (таблица сопряженности признаков)
Предположим, имеется большая совокупность объектов, каждый из которых обладает двумя признаками А и В; признак А имеет m уровней: A1, ...,Am, а признак В–k уровней:B1, ...,Bk . Пусть уровень Аi встречается с вероятностью P(Ai), а уровень Bj - c вероятностью P(Bj). Признаки А и В независимы, если
P(Ai Bj) = P(Ai)×P(Bj), i = 1, ..., m, j = 1, ..., k , (10)
т.е. вероятность встретить комбинацию Ai Bj равна произведению вероятностей. Пусть признаки определены на n объектах, случайно извлеченных из совокупности; nij - число объектов, имеющих комбинацию Ai Bj, =n. По совокупности наблюдений {nij } (таблица m´ k) требуется проверить гипотезу Н о независимости признаков А и В. Задача сводится к случаю с неизвестными параметрами; ими являются вероятности
P(Ai), i = 1, ..., m; P(Bj), j = 1, ..., k,
всего (m-1) + (k-1); их оценки:
,
(в обозначениях точка означает суммирование по соответствующему индексу), и статистика (6) принимает вид:
. (11)
Если гипотеза Н верна, то по теореме Фишера асимптотически распределена по закону хи-квадрат с числом степеней свободы
f = mk - 1 - (m - 1) - (k - 1) = (m - 1)(k - 1),
и потому, если
, (12)
то гипотезу о независимости признаков следует отклонить.
Ясно, что по (11) - (12) можно проверять независимость двух случайных величин, разбив диапазоны их значений на m и k частей.
Пример 4. Данные [2], собранные по ряду школ, относительно физических недостатков школьников (P1,P2,P3 - признак А)и дефектов речи (S1,S2,S3 - признак В) приведены в таблице 4. В таблице 5 даны частоты.
Для проверки гипотезы о независимости этих двух признаков вычислим статистику (11): = 34.88; число степеней свободы f =(3-1)´(3-1) = 4; минимальный уровень значимости
;
это значит, что при независимых признаках вероятность получить значение такое же, как в опыте или большее, меньше 0.001, и потому гипотезу о независимости следует отклонить.
Выполнение в пакете STATISTICA
Образуем таблицу с двумя столбцами (P и S) и 217 строками и назовем ее Defects.sta (это действие опускаем, если данные уже есть в компьютере). Работаем в модуле Basic Statistics and Tables:
Analysis - Tables and banners - в окне Specify Table, в поле Analysis: Crosstabulation tables - кнопка Specify Table - отбираем признаки: list 1: P, list 2: S - OK - OK - в окне Crosstabulation Tables Results (результаты таблиц сопряженности) отмечаем (потребуем определить) Expected frequencies (ожидаемые или теоретические частоты) и Pearson Chi-Square - Review Summary tables.
Таблица 4.
Дефекты речи (S) и физические недостатки (P) 217 школьников | ||||||||||||||||||
|
P |
S |
P |
S |
P |
S |
P |
S |
P |
S |
P |
S |
P |
S |
P |
S |
P |
S |
1 |
P1 |
S1 |
P1 |
S1 |
P3 |
S2 |
P2 |
S2 |
P1 |
S3 |
P1 |
S1 |
P1 |
S1 |
P2 |
S1 |
P3 |
S3 |
2 |
P2 |
S3 |
P2 |
S2 |
P1 |
S3 |
P1 |
S1 |
P2 |
S2 |
P2 |
S1 |
P2 |
S2 |
P3 |
S3 |
P1 |
S1 |
3 |
P1 |
S1 |
P2 |
S3 |
P1 |
S2 |
P1 |
S1 |
P2 |
S2 |
P2 |
S2 |
P1 |
S3 |
P3 |
S2 |
P2 |
S3 |
4 |
P1 |
S2 |
P2 |
S3 |
P3 |
S1 |
P2 |
S1 |
P2 |
S2 |
P3 |
S3 |
P1 |
S1 |
P2 |
S1 |
P1 |
S3 |
5 |
P1 |
S1 |
P2 |
S1 |
P2 |
S1 |
P1 |
S1 |
P1 |
S1 |
P2 |
S1 |
P2 |
S2 |
P2 |
S3 |
P2 |
S2 |
6 |
P3 |
S1 |
P1 |
S2 |
P3 |
S3 |
P2 |
S2 |
P1 |
S3 |
P1 |
S1 |
P2 |
S3 |
P1 |
S1 |
P2 |
S1 |
7 |
P1 |
S1 |
P2 |
S3 |
P1 |
S2 |
P2 |
S2 |
P2 |
S1 |
P1 |
S2 |
P1 |
S3 |
P2 |
S3 |
P1 |
S1 |
8 |
P1 |
S2 |
P1 |
S1 |
P2 |
S3 |
P1 |
S2 |
P2 |
S2 |
P1 |
S3 |
P2 |
S2 |
P2 |
S2 |
P3 |
S3 |
9 |
P2 |
S2 |
P2 |
S1 |
P1 |
S2 |
P1 |
S1 |
P2 |
S2 |
P2 |
S3 |
P2 |
S3 |
P1 |
S2 |
P2 |
S1 |
10 |
P2 |
S2 |
P2 |
S1 |
P2 |
S2 |
P1 |
S3 |
P3 |
S3 |
P1 |
S1 |
P1 |
S3 |
P2 |
S2 |
P2 |
S2 |
11 |
P2 |
S2 |
P2 |
S1 |
P1 |
S2 |
P1 |
S2 |
P2 |
S1 |
P1 |
S1 |
P1 |
S3 |
P1 |
S2 |
P1 |
S1 |
12 |
P1 |
S2 |
P2 |
S2 |
P1 |
S2 |
P2 |
S2 |
P1 |
S1 |
P1 |
S1 |
P1 |
S1 |
P2 |
S3 |
P2 |
S1 |
13 |
P1 |
S1 |
P3 |
S3 |
P2 |
S2 |
P2 |
S2 |
P2 |
S2 |
P2 |
S1 |
P2 |
S3 |
P2 |
S2 |
P2 |
S2 |
14 |
P2 |
S3 |
P1 |
S1 |
P2 |
S3 |
P2 |
S1 |
P2 |
S1 |
P1 |
S2 |
P2 |
S1 |
P1 |
S2 |
P3 |
S3 |
15 |
P2 |
S1 |
P1 |
S1 |
P3 |
S2 |
P2 |
S2 |
P1 |
S1 |
P2 |
S2 |
P3 |
S2 |
P2 |
S2 |
P1 |
S2 |
16 |
P2 |
S1 |
P2 |
S1 |
P1 |
S2 |
P2 |
S1 |
P2 |
S2 |
P3 |
S3 |
P2 |
S2 |
P2 |
S3 |
P3 |
S3 |
17 |
P3 |
S2 |
P1 |
S1 |
P2 |
S2 |
P3 |
S3 |
P1 |
S1 |
P2 |
S1 |
P2 |
S2 |
P1 |
S1 |
P1 |
S2 |
18 |
P1 |
S1 |
P2 |
S2 |
P1 |
S1 |
P3 |
S2 |
P3 |
S3 |
P2 |
S2 |
P1 |
S2 |
P1 |
S2 |
|
|
19 |
P1 |
S2 |
P3 |
S3 |
P2 |
S1 |
P1 |
S1 |
P1 |
S1 |
P2 |
S2 |
P1 |
S1 |
P1 |
S1 |
|
|
20 |
P3 |
S3 |
P3 |
S3 |
P1 |
S1 |
P1 |
S1 |
P3 |
S2 |
P1 |
S1 |
P1 |
S1 |
P2 |
S1 |
|
|
21 |
P2 |
S2 |
P2 |
S1 |
P2 |
S3 |
P3 |
S2 |
P2 |
S2 |
P1 |
S2 |
P2 |
S1 |
P2 |
S2 |
|
|
22 |
P1 |
S3 |
P1 |
S1 |
P2 |
S2 |
P2 |
S2 |
P3 |
S1 |
P2 |
S2 |
P2 |
S3 |
P1 |
S1 |
|
|
23 |
P2 |
S3 |
P2 |
S2 |
P3 |
S3 |
P3 |
S3 |
P1 |
S1 |
P2 |
S1 |
P1 |
S1 |
P2 |
S1 |
|
|
24 |
P3 |
S2 |
P2 |
S2 |
P2 |
S3 |
P1 |
S3 |
P2 |
S2 |
P3 |
S2 |
P2 |
S2 |
P1 |
S2 |
|
|
25 |
P3 |
S1 |
P2 |
S3 |
P2 |
S1 |
P1 |
S2 |
P2 |
S2 |
P1 |
S2 |
P2 |
S1 |
P2 |
S2 |
|
|
Таблица 5. Таблица частот.
-
S1 S2 S3
Сумма
P1
P2
P3
45 26 12
32 50 21
4 10 17
83
103
31
Сумма
81 86 50
217
Наблюдаем две таблицы: таблицу частот Summary Frequency Table и Expected Frequencies; в верхней части последней указано значение статистики (11) (Chi-square), число степеней свободы df и уровень значимости р (вероятность в (12)). Поскольку значение р мало, гипотеза о независимости речевых дефектов и физических отклоняется.
Замечание 1. Если бы исходные признаки Х, Y,... были не символьными, а числовыми, нужно было бы сначала их классифицировать: разбить диапазон значений на части, и для каждой ввести свой символ (например, х1,х2, ...,y1, y2, ...) введением дополнительных столбцов и использованием операции Recode... (кнопка Vars или Edit - Variables).
Замечание 2. Если бы исходными данными являлась таблица частот, то анализ можно было провести в модуле Log - Linear Analysis (как в п.6).