- •Работа № 5. Критерий хи-квадрат проверки гипотез
- •1. Проверка простой гипотезы о вероятностях
- •2. Проверка сложной гипотезы о вероятностях
- •3. Проверка гипотезы о типе распределения
- •4. Примеры проверки простой гипотезы о распределении
- •5. Проверка гипотезы о независимости признаков (таблица сопряженности признаков)
- •6. Проверка гипотезы об однородности выборок
- •7. Задание
6. Проверка гипотезы об однородности выборок
Пусть имеется m
выборок объемами n1,...,
nm,
извлеченных из различных совокупностей.
Измеряемая величина в каждой из выборок
может иметь k
уровней B1, ...,
Bk.
Требуется проверить гипотезу о том, что
исходные совокупности распределены
одинаково. Обозначим nij
- число наблюдений в i-й
выборке, имеющих уровень Bj,
. Имеем таблицу
m´k
наблюдений налогично предыдущему пункту
5. Можно показать, что для проверки
гипотезы справедлива процедура (11) -
(12).
Пример 5. Имеются данные [3] о наличии примесей серы в углеродистой стали, выплавляемой двумя заводами (см. таблицу 6).
Таблица 6. Число плавок
-
Содержание серы, 10-2%
0¸2
2¸4
4¸6
6¸8
Сумма
Завод 1
Завод 2
82
63
535
429
1173
995
1714
1307
3504
2794
Сумма
145
964
2168
3021
Проверим гипотезу о том, что распределения содержания серы (нежелательный фактор) одинаковы на этих заводах.
По (11) находим:
= 3.39. Число степеней свободы f = (2-1)´(4-1)
= 3; квантиль уровня 0.95
h = Q(0.95, 3) = 7.8.
Полученное нами из опыта значение 3.39 лежит в области допустимых значений, и потому у нас нет оснований считать, что содержание серы в стали этих заводов имеют различные распределения.
Выполнение в пакете STATISTICA
Образуем таблицу 2 ´ 4, в которую занесем данные; столбцы назовем, например, S1 ¸ S4 (сера) , а строки - Z1, Z2 (заводы). Работаем в модуле Log - Linear Analysis:
Analysis - Startup Panel - в поле Input file: Frequencies w/out coding variables (частоты без кодирующих переменных) - Variables:Select All - OK - Specify table (спецификация таблицы): Factor Name: S, No. of levels (число уровней): 4, Factor Name: Z, No. of levels: 2 - OK - OK. - в окне Log - Linear Model Specification выполним Test all marginal.
В таблице Results of Fitting... в последней строке столбца Person Chi-Squ получаем Х2 = 3.59, число степеней свободы Degrs of Freedom f = 3, и уровень значимости Probab. p = 0.31.поскольку эта вероятность не мала (не является значимой), гипотезу об одинаковом распределении содержания серы в металле на двух заводах можно принять (вернее, наблюдения этому не противоречат).
7. Задание
1. Выполнить все описанные примеры.
2. Проверить генератор случайных чисел (пример 1 в п. 4).
3. Проверить гипотезу о типе распределения на основе сгенерированной по заданному в таблице 7 закону выборке объема n. Проверить три гипотезы: о нормальности, о равномерности и о показательности.
Таблица 7. Исходные данные
|
№ варианта |
1 |
2 |
3 |
4 |
5 | |||
|
Распределение Объем |
N[0,1] 80 |
R[-1,1] 100 |
E(3) 150 |
N(10,4) 80 |
R[0,10] 100 | |||
|
№ варианта |
6 |
7 |
8 |
9 |
10 | |||
|
Распределение Объем |
E(5) 150 |
N(15,4) 80 |
R[5,15] 100 |
E(10) 150 |
R[20,25] 80 | |||
4. Проверить гипотезу об однородности трех выборок.
Сгенерировать три выборки объемами n1= 180,n2= 100,n3= 120 для заданного в таблице 8 распределения. Провести их группирование на 8 ÷ 10 интервалах. Сделать все для 2-х вариантов:
а) параметры одинаковы;
б) параметры различны.
Таблица 8. Исходные данные.
|
N |
Тип |
вариант1 |
вариант 2 | ||
|
|
|
a1 = a2 = a3 |
a1 |
a2 |
a3 |
|
1 2 3 4 5 6 7 8 9 10 |
N(a, 1) E(a) Po(a) N(a, 2) E(a) Po(a) N(a, 3) E(a) Po(a) N(a, 4) |
10 10 10 20 20 20 30 30 30 40 |
9.8 8.0 9.5 19.5 16.0 19.0 29.4 24.0 28.0 39.0 |
10 10 10 20 20 20 30 30 30 40 |
11.2 12.0 11.5 21.5 24.0 21.0 30.6 36.0 32.0 41.0 |
выполнение в пакете STATISTICA
Группирование провести процедурой Frequency tables, и из трех таблиц сформировать одну. Гипотезу об однородности проверить аналогично п.6.
Отчет по работе должен содержать:
1) краткое описание критерия хи-квадрат;
2) постановки конкретных задач;
3) несколько значений анализируемых выборок;
сгруппированные данные;
5) результаты основных вычислений и статистические выводы.
