Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Лабораторные работы / Сержанов (16 вариант) / Лабораторная работа 5

.docx
Скачиваний:
16
Добавлен:
28.06.2014
Размер:
1.41 Mб
Скачать

Национальный исследовательский университет

Московский Энергетический Университет.

Лабораторная работа №5.

Критерий хи-квадрат проверки гипотез.

Студент: Сержанов Н.

Группа: А-13-08.

Преподаватель: Тигетов Д. Г.

Москва, 2011.

Пусть A1,…,Am – m исходов некоторого опыта,

n – число независимых повторений опыта,

v1,…,vm – числа появлений исходов.

Повторяемая гипотеза H предполагает, что вероятности исходов P(Ai) являются известными функциями pi(a) k-мерного параметра a=(a1,…,ak), т.е.

H: P(Ai)= pi(a), i=1,…,m,

но значение a неизвестно.

Для проверки гипотезы H определим статистику (6)

По теореме Фишера, если H верна, то при распределение статистики асимптотически подчиняется распределению хи-квадрат с числом степеней свободы f=m-1-k, и потому отклоняем H, если

≥h, (7)

где h=Q(1-α,f) – квантиль уровня 1-α распределения хи-квадрат с числом степеней свободы f; такой порог обеспечивает выбранный уровень α вероятности P (отклонить H / h) ошибки 1-го рода. Если (7) не выполняется, делаем вывод, что наблюдения не противоречивы гипотезе. Распределению хи-квадрат с f=m-1-k степенями свободы асимптотически подчиняется также статистика (8)

где - оценка максимального правдоподобия для a, и потому в (7) может быть использована статистика (8) вместо (6). Процедура (7) может быть записана иначе: если (9)

то гипотеза H отклоняется.

Проверка гипотезы о типе распределения.

Пример 1. Проверка нормальности.

Проверим гипотезу о нормальном законе распределения размера головок заклепок, объём n=200.

Оценками для a (среднего) и σ (стандартного отклонения) являются

Результаты измерения диаметров заклёпок занесем в таблицу с одним столбцом и 200 строками:

Наблюдаем оценки параметров:

среднее Mean = 13,420952 и дисперсия Variance=0,01817852.

Наблюдаем таблицу частот, столбцы observed frequency (наблюдаемые частоты) и expected frequency (ожидаемые частоты):

Сравним графически наблюдаемые и ожидаемые частоты:

Наблюдаем некоторое различие.

Приведено значение статистики (8) Chi-Square = 12.7229,

количество степеней свободы df=3, которое получилось при объединении интервалов для выполнения условий (5): f=6-1-2=3.

Приведено значение вероятности

Последнее означает, что если гипотеза верна, вероятность получить 12,72 или больше равна 0,005 – слишком мала, чтобы поверить в нормальность. Гипотезу о нормальности отклоняем.

Если посмотреть гистограмму наблюдений

видно, что в выборке имеется одно аномальное значение 14,56.

Удалим его и снова проверим гипотезу. Удаление одного наблюдения, если оно типично, не может изменить характеристики совокупности из 200 элементов.

Получим:

Chi-Square = 10,68148,

df=17,

Видим, что наблюдения не противоречат гипотезе о нормальности.

Примеры проверки простой гипотезы о распределении.

Пример 2.

Проверим генератор случайных чисел. Сгенерируем выборку объёма 130 с законом распределения R[0,5], и полученным результатом проверим гипотезу о согласии данных с этим распределением.

Выборка:

Число групп: 12.

Наблюдаемые и ожидаемые частоты:

Сравним графически:

Chi-Square = 35,23

df=10

Приводимый результат для уровня значимости p не соответствует рассматриваемому случаю, так как число степеней свободы df должно быть равным m-1; пакет же указывает с учётом числа оцениваемых параметров.

Нужное значение

p=0,2

Тем самым, убеждаемся, что полученные результаты не противоречат гипотезе о согласии данных с равномерным распределением.

Пример 3.

В опытах по генетике Мендель наблюдал частоты появления различных видов семян, частоты (наблюдаемые и ожидаемые) и теоретическая вероятность приведены в таблице:

С помощью процедуры Observed versus expected получаем:

Chi-Square = 0.51,

при числе степеней свободы df=3,

так что между наблюдениями и теорией имеется очень хорошее согласие: критерий с любым уровнем значимости α≤0,916 не отвергал бы эту гипотезу.

Проверка гипотезы о независимости признаков (таблица сопряжённости признаков).

Пусть есть большая совокупность объектов, каждый из которых обладает двумя признаками A и B; признак A имеет m уровней: A1,…,Am, а признак B – k уровней B1,…,Bk.

Пусть признаки определены на n объектах, случайно извлечённых из совокупности; vij – число объектов, имеющих комбинацию AiBj, По совокупность наблюдений (таблица m x k) требуется проверить гипотезу H о независимости признаков A и B.

Вероятности

P(Ai), i=1,…,m; P(Bj), j=1,…,k,

всего (m-1)+(k-1); их оценки:

Статистика (6) принимает вид (11):

Если гипотеза H верна, то по теореме Фишера асимптотически распределяется по закону хи-квадрат с числом степеней свободы

f=mk-1-(m-1)-(k-1)=(m-1)(k-1),

и потому, если (12)

то гипотезу о независимости признаков следует отклонить.

Ясно, что по (11)-(12) можно проверять независимость двух случайных величин, разбив диапазоны их значений на m и k частей.

Пример 4.

Имеются данные, собранные по ряду школ, относительно школьников: P­1, P2, P3 – признак A и S1, S2, S3 – признак B.

Образуем таблицу с двумя столбцами (P и S) и 217 строками:

Наблюдаем таблицу частот комбинаций признаков:

и таблицу ожидаемых частот:

Значение статистики (11) Chi-Square = 32.8843,

при числе степеней свободы df=4,

уровень значимости p (вероятность в (12))

Поскольку значение p мало, гипотеза о независимости признаков отклоняется.

Проверка гипотезы об однородности выборок.

Пусть имеется m выборок объёмами n1,…,nm, извлечённых из различных совокупностей. Измеряемая величина в каждой из выборок может иметь k уровней B1,…,Bk. Обозначим vij – число наблюдений в i-й выборке, имеющих уровень Bj, .

Пример 5.

Имеются данные о наличии примесей серы в углеродистой стали, выплавляемой двумя заводами.

Образуем таблицу 2x4:

Найдём значение Chi-Square, количество степеней свободы и уровень значимости (в последней строке):

Получаем X2=3.593,

df=3,

p=0.309.

Поскольку эта вероятность не мала (не является значимой), гипотезу об одинаковом распределении содержания серы в металле на двух заводах можно принять (вернее, наблюдения этому не противоречат).

Задание.

Проверить гипотезу о типе распределения на основе сгенерированной по закону E(5) выборке объёма n=150.

Сгенерируем выборку:

  1. проверка гипотезы о нормальности.

Chi-Square = 101.0065,

df=8,

Вероятность слишком мала, гипотезу о нормальности отклоняем.

  1. проверка гипотезы о равномерности.

p=0

Вероятность слишком мала, гипотезу о равномерности отклоняем.

  1. проверка гипотезы о показательности

p=0

Гипотезу о показательности отклоняем.

Задание.

Проверить гипотезу об однородности трёх выборок. Сгенерировать три выборки объёмами n1=180, n2=100, n3=120 для распределения Po(a).

  1. параметры одинаковы (a1=a2=a3=20).

Провели группирование:

Результаты:

X2=11,2202

df=14,

p=0,668.

Наблюдения не противоречат гипотезе об одинаковом распределении.

  1. параметры различны (a1=19, a2=20, a3=21).

Провели группирование:

Результаты:

X2=30,4261,

df=14,

p=0,00668.

Наблюдения не противоречат гипотезе об одинаковом распределении.