
- •Критерий хи-квадрат проверки гипотез
- •1. Проверка простой гипотезы о вероятностях
- •2. Проверка сложной гипотезы о вероятностях
- •3. Проверка гипотезы о типе распределения
- •Проверка гипотезы о независимости признаков (таблица сопряженности признаков)
- •Проверка гипотезы об однородности выборок
- •Задания
Проверка гипотезы о независимости признаков (таблица сопряженности признаков)
Предположим, имеется большая совокупность объектов, каждый из которых обладает двумя признаками АиВ; признакАимеетmуровней:A1, ...,Am, а признакВ-kуровней:B1, ...,Bk . Пусть уровеньАiвстречается с вероятностьюP(Ai), а уровеньBj - c вероятностьюP(Bj). ПризнакиАиВнезависимы, если
P(Ai Bj) = P(Ai)P(Bj), i = 1, ..., m, j = 1, ..., k , (10)
т.е. вероятность встретить комбинацию
Ai Bjравна
произведению вероятностей. Пусть
признаки определены наnобъектах,
случайно извлеченных из совокупности;ij- число объектов, имеющих комбинациюAi
Bj,=n.
По совокупности наблюдений {ij
} (таблица m
k) требуется проверить гипотезуНо независимости признаковАиВ.
Задача сводится к случаю с неизвестными
параметрами; ими являются вероятности
P(Ai), i = 1, ..., m; P(Bj), j = 1, ..., k,
всего (m-1) + (k-1); их оценки:
,
(в обозначениях точка означает суммирование по соответствующему индексу), и статистика (6) принимает вид:
.
(11)
Если гипотеза Нверна, то по теореме
Фишераасимптотически распределена по закону
хи-квадрат с числом степеней свободы
f = mk - 1 - (m - 1) - (k - 1) = (m - 1)(k - 1),
и потому, если
,
(12)
то гипотезу о независимости признаков следует отклонить.
Ясно, что по (11) - (12) можно проверять независимость двух случайных величин, разбив диапазоны их значений на mиkчастей.
Пример 4. Данные , собранные по ряду школ, относительно физических недостатков школьников (P1,P2,P3- признакА) и дефектов речи (S1,S2,S3 - признакВ) приведены в таблице 4. В таблице 5 даны частоты.
Для
проверки гипотезы о независимости этих
двух признаков вычислим статистику
(11):
= 32.8843; число степеней свободыf =
(3-1)(3-1) = 4; минимальный
уровень значимости
Р2 4 32.8843≤ 0.001
это значит, что при независимых признаках вероятность получить значение такое же, как в опыте или большее, меньше 0.001, и потому гипотезу о независимости следует отклонить.
Выполнение в пакете STATISTICA
Analysis - Tables and banners- в окнеSpecify Table, вполе Analysis: Crosstabulation tables- кнопкаSpecify Table- отбираем признаки:list 1: P, list 2:S - OK- OK- в окнеCrosstabulation Tables Results(результаты таблиц сопряженности) отмечаем (потребуем определить)Expected frequencies(ожидаемые или теоретические частоты) иPearson Chi-Square - Review Summary tables.
Таблица 4.
Дефекты речи (S) и физические недостатки (P) 217 школьников | ||||||||||||||||||
|
P |
S |
P |
S |
P |
S |
P |
S |
P |
S |
P |
S |
P |
S |
P |
S |
P |
S |
1 |
P1 |
S1 |
P1 |
S1 |
P3 |
S2 |
P2 |
S2 |
P1 |
S3 |
P1 |
S1 |
P1 |
S1 |
P2 |
S1 |
P3 |
S3 |
2 |
P2 |
S3 |
P2 |
S2 |
P1 |
S3 |
P1 |
S1 |
P2 |
S2 |
P2 |
S1 |
P2 |
S2 |
P3 |
S3 |
P1 |
S1 |
3 |
P1 |
S1 |
P2 |
S3 |
P1 |
S2 |
P1 |
S1 |
P2 |
S2 |
P2 |
S2 |
P1 |
S3 |
P3 |
S2 |
P2 |
S3 |
4 |
P1 |
S2 |
P2 |
S3 |
P3 |
S1 |
P2 |
S1 |
P2 |
S2 |
P3 |
S3 |
P1 |
S1 |
P2 |
S1 |
P1 |
S3 |
5 |
P1 |
S1 |
P2 |
S1 |
P2 |
S1 |
P1 |
S1 |
P1 |
S1 |
P2 |
S1 |
P2 |
S2 |
P2 |
S3 |
P2 |
S2 |
6 |
P3 |
S1 |
P1 |
S2 |
P3 |
S3 |
P2 |
S2 |
P1 |
S3 |
P1 |
S1 |
P2 |
S3 |
P1 |
S1 |
P2 |
S1 |
7 |
P1 |
S1 |
P2 |
S3 |
P1 |
S2 |
P2 |
S2 |
P2 |
S1 |
P1 |
S2 |
P1 |
S3 |
P2 |
S3 |
P1 |
S1 |
8 |
P1 |
S2 |
P1 |
S1 |
P2 |
S3 |
P1 |
S2 |
P2 |
S2 |
P1 |
S3 |
P2 |
S2 |
P2 |
S2 |
P3 |
S3 |
9 |
P2 |
S2 |
P2 |
S1 |
P1 |
S2 |
P1 |
S1 |
P2 |
S2 |
P2 |
S3 |
P2 |
S3 |
P1 |
S2 |
P2 |
S1 |
10 |
P2 |
S2 |
P2 |
S1 |
P2 |
S2 |
P1 |
S3 |
P3 |
S3 |
P1 |
S1 |
P1 |
S3 |
P2 |
S2 |
P2 |
S2 |
11 |
P2 |
S2 |
P2 |
S1 |
P1 |
S2 |
P1 |
S2 |
P2 |
S1 |
P1 |
S1 |
P1 |
S3 |
P1 |
S2 |
P1 |
S1 |
12 |
P1 |
S2 |
P2 |
S2 |
P1 |
S2 |
P2 |
S2 |
P1 |
S1 |
P1 |
S1 |
P1 |
S1 |
P2 |
S3 |
P2 |
S1 |
13 |
P1 |
S1 |
P3 |
S3 |
P2 |
S2 |
P2 |
S2 |
P2 |
S2 |
P2 |
S1 |
P2 |
S3 |
P2 |
S2 |
P2 |
S2 |
14 |
P2 |
S3 |
P1 |
S1 |
P2 |
S3 |
P2 |
S1 |
P2 |
S1 |
P1 |
S2 |
P2 |
S1 |
P1 |
S2 |
P3 |
S3 |
15 |
P2 |
S1 |
P1 |
S1 |
P3 |
S2 |
P2 |
S2 |
P1 |
S1 |
P2 |
S2 |
P3 |
S2 |
P2 |
S2 |
P1 |
S2 |
16 |
P2 |
S1 |
P2 |
S1 |
P1 |
S2 |
P2 |
S1 |
P2 |
S2 |
P3 |
S3 |
P2 |
S2 |
P2 |
S3 |
P3 |
S3 |
17 |
P3 |
S2 |
P1 |
S1 |
P2 |
S2 |
P3 |
S3 |
P1 |
S1 |
P2 |
S1 |
P2 |
S2 |
P1 |
S1 |
P1 |
S2 |
18 |
P1 |
S1 |
P2 |
S2 |
P1 |
S1 |
P3 |
S2 |
P3 |
S3 |
P2 |
S2 |
P1 |
S2 |
P1 |
S2 |
|
|
19 |
P1 |
S2 |
P3 |
S3 |
P2 |
S1 |
P1 |
S1 |
P1 |
S1 |
P2 |
S2 |
P1 |
S1 |
P1 |
S1 |
|
|
20 |
P3 |
S3 |
P3 |
S3 |
P1 |
S1 |
P1 |
S1 |
P3 |
S2 |
P1 |
S1 |
P1 |
S1 |
P2 |
S1 |
|
|
21 |
P2 |
S2 |
P2 |
S1 |
P2 |
S3 |
P3 |
S2 |
P2 |
S2 |
P1 |
S2 |
P2 |
S1 |
P2 |
S2 |
|
|
22 |
P1 |
S3 |
P1 |
S1 |
P2 |
S2 |
P2 |
S2 |
P3 |
S1 |
P2 |
S2 |
P2 |
S3 |
P1 |
S1 |
|
|
23 |
P2 |
S3 |
P2 |
S2 |
P3 |
S3 |
P3 |
S3 |
P1 |
S1 |
P2 |
S1 |
P1 |
S1 |
P2 |
S1 |
|
|
24 |
P3 |
S2 |
P2 |
S2 |
P2 |
S3 |
P1 |
S3 |
P2 |
S2 |
P3 |
S2 |
P2 |
S2 |
P1 |
S2 |
|
|
25 |
P3 |
S1 |
P2 |
S3 |
P2 |
S1 |
P1 |
S2 |
P2 |
S2 |
P1 |
S2 |
P2 |
S1 |
P2 |
S2 |
|
|
Наблюдаем две таблицы: таблицу частот Summary Frequency Table и Expected Frequencies; в верхней части последней указано значение статистики (11) (Chi-square), число степеней свободыdfи уровень значимостир(вероятность в (12)). Поскольку значениермало, гипотеза о независимости речевых дефектов и физических отклоняется.