Лабораторные работы / Сержанов (16 вариант) / Лабораторная работа 5
.docxНациональный исследовательский университет
Московский Энергетический Университет.
Лабораторная работа №5.
Критерий хи-квадрат проверки гипотез.
Студент: Сержанов Н.
Группа: А-13-08.
Преподаватель: Тигетов Д. Г.
Москва, 2011.
Пусть A1,…,Am – m исходов некоторого опыта,
n – число независимых повторений опыта,
v1,…,vm – числа появлений исходов.
Повторяемая гипотеза H предполагает, что вероятности исходов P(Ai) являются известными функциями pi(a) k-мерного параметра a=(a1,…,ak), т.е.
H: P(Ai)= pi(a), i=1,…,m,
но значение a неизвестно.
Для проверки гипотезы H определим статистику (6)
По теореме Фишера, если H верна, то при распределение статистики асимптотически подчиняется распределению хи-квадрат с числом степеней свободы f=m-1-k, и потому отклоняем H, если
≥h, (7)
где h=Q(1-α,f) – квантиль уровня 1-α распределения хи-квадрат с числом степеней свободы f; такой порог обеспечивает выбранный уровень α вероятности P (отклонить H / h) ошибки 1-го рода. Если (7) не выполняется, делаем вывод, что наблюдения не противоречивы гипотезе. Распределению хи-квадрат с f=m-1-k степенями свободы асимптотически подчиняется также статистика (8)
где - оценка максимального правдоподобия для a, и потому в (7) может быть использована статистика (8) вместо (6). Процедура (7) может быть записана иначе: если (9)
то гипотеза H отклоняется.
Проверка гипотезы о типе распределения.
Пример 1. Проверка нормальности.
Проверим гипотезу о нормальном законе распределения размера головок заклепок, объём n=200.
Оценками для a (среднего) и σ (стандартного отклонения) являются
Результаты измерения диаметров заклёпок занесем в таблицу с одним столбцом и 200 строками:
Наблюдаем оценки параметров:
среднее Mean = 13,420952 и дисперсия Variance=0,01817852.
Наблюдаем таблицу частот, столбцы observed frequency (наблюдаемые частоты) и expected frequency (ожидаемые частоты):
Сравним графически наблюдаемые и ожидаемые частоты:
Наблюдаем некоторое различие.
Приведено значение статистики (8) Chi-Square = 12.7229,
количество степеней свободы df=3, которое получилось при объединении интервалов для выполнения условий (5): f=6-1-2=3.
Приведено значение вероятности
Последнее означает, что если гипотеза верна, вероятность получить 12,72 или больше равна 0,005 – слишком мала, чтобы поверить в нормальность. Гипотезу о нормальности отклоняем.
Если посмотреть гистограмму наблюдений
видно, что в выборке имеется одно аномальное значение 14,56.
Удалим его и снова проверим гипотезу. Удаление одного наблюдения, если оно типично, не может изменить характеристики совокупности из 200 элементов.
Получим:
Chi-Square = 10,68148,
df=17,
Видим, что наблюдения не противоречат гипотезе о нормальности.
Примеры проверки простой гипотезы о распределении.
Пример 2.
Проверим генератор случайных чисел. Сгенерируем выборку объёма 130 с законом распределения R[0,5], и полученным результатом проверим гипотезу о согласии данных с этим распределением.
Выборка:
Число групп: 12.
Наблюдаемые и ожидаемые частоты:
Сравним графически:
Chi-Square = 35,23
df=10
Приводимый результат для уровня значимости p не соответствует рассматриваемому случаю, так как число степеней свободы df должно быть равным m-1; пакет же указывает с учётом числа оцениваемых параметров.
Нужное значение
p=0,2
Тем самым, убеждаемся, что полученные результаты не противоречат гипотезе о согласии данных с равномерным распределением.
Пример 3.
В опытах по генетике Мендель наблюдал частоты появления различных видов семян, частоты (наблюдаемые и ожидаемые) и теоретическая вероятность приведены в таблице:
С помощью процедуры Observed versus expected получаем:
Chi-Square = 0.51,
при числе степеней свободы df=3,
так что между наблюдениями и теорией имеется очень хорошее согласие: критерий с любым уровнем значимости α≤0,916 не отвергал бы эту гипотезу.
Проверка гипотезы о независимости признаков (таблица сопряжённости признаков).
Пусть есть большая совокупность объектов, каждый из которых обладает двумя признаками A и B; признак A имеет m уровней: A1,…,Am, а признак B – k уровней B1,…,Bk.
Пусть признаки определены на n объектах, случайно извлечённых из совокупности; vij – число объектов, имеющих комбинацию AiBj, По совокупность наблюдений (таблица m x k) требуется проверить гипотезу H о независимости признаков A и B.
Вероятности
P(Ai), i=1,…,m; P(Bj), j=1,…,k,
всего (m-1)+(k-1); их оценки:
Статистика (6) принимает вид (11):
Если гипотеза H верна, то по теореме Фишера асимптотически распределяется по закону хи-квадрат с числом степеней свободы
f=mk-1-(m-1)-(k-1)=(m-1)(k-1),
и потому, если (12)
то гипотезу о независимости признаков следует отклонить.
Ясно, что по (11)-(12) можно проверять независимость двух случайных величин, разбив диапазоны их значений на m и k частей.
Пример 4.
Имеются данные, собранные по ряду школ, относительно школьников: P1, P2, P3 – признак A и S1, S2, S3 – признак B.
Образуем таблицу с двумя столбцами (P и S) и 217 строками:
Наблюдаем таблицу частот комбинаций признаков:
и таблицу ожидаемых частот:
Значение статистики (11) Chi-Square = 32.8843,
при числе степеней свободы df=4,
уровень значимости p (вероятность в (12))
Поскольку значение p мало, гипотеза о независимости признаков отклоняется.
Проверка гипотезы об однородности выборок.
Пусть имеется m выборок объёмами n1,…,nm, извлечённых из различных совокупностей. Измеряемая величина в каждой из выборок может иметь k уровней B1,…,Bk. Обозначим vij – число наблюдений в i-й выборке, имеющих уровень Bj, .
Пример 5.
Имеются данные о наличии примесей серы в углеродистой стали, выплавляемой двумя заводами.
Образуем таблицу 2x4:
Найдём значение Chi-Square, количество степеней свободы и уровень значимости (в последней строке):
Получаем X2=3.593,
df=3,
p=0.309.
Поскольку эта вероятность не мала (не является значимой), гипотезу об одинаковом распределении содержания серы в металле на двух заводах можно принять (вернее, наблюдения этому не противоречат).
Задание.
Проверить гипотезу о типе распределения на основе сгенерированной по закону E(5) выборке объёма n=150.
Сгенерируем выборку:
-
проверка гипотезы о нормальности.
Chi-Square = 101.0065,
df=8,
Вероятность слишком мала, гипотезу о нормальности отклоняем.
-
проверка гипотезы о равномерности.
p=0
Вероятность слишком мала, гипотезу о равномерности отклоняем.
-
проверка гипотезы о показательности
p=0
Гипотезу о показательности отклоняем.
Задание.
Проверить гипотезу об однородности трёх выборок. Сгенерировать три выборки объёмами n1=180, n2=100, n3=120 для распределения Po(a).
-
параметры одинаковы (a1=a2=a3=20).
Провели группирование:
Результаты:
X2=11,2202
df=14,
p=0,668.
Наблюдения не противоречат гипотезе об одинаковом распределении.
-
параметры различны (a1=19, a2=20, a3=21).
Провели группирование:
Результаты:
X2=30,4261,
df=14,
p=0,00668.
Наблюдения не противоречат гипотезе об одинаковом распределении.