Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
уд экзамен.docx
Скачиваний:
48
Добавлен:
01.06.2024
Размер:
2.54 Mб
Скачать

16. Критерий независимости хи-квадрат при тестировании гипотез. Для чего используется? Что такие таблица сопряженности?

Критерий независимости хи-квадрат используется для проверки, независимы ли две категориальные переменные. Другими словами, он проверяет, влияет ли одна переменная на распределение другой переменной.

Критерий независимости Хи-квадрат использует следующие нулевые и альтернативные гипотезы:

  • H0: (нулевая гипотеза) Две переменные независимы.

  • H1: (альтернативная гипотеза) Две переменные не являются независимыми. (т.е. они связаны)

Мы используем следующую формулу для расчета статистики критерия хи-квадрат X^2 :

Х^2 = Σ(ОЕ) 2 / Е

куда:

Σ: причудливый символ, означающий «сумма».

O: наблюдаемое значение

E: ожидаемое значение

Если p-значение, соответствующее тестовой статистике X^2 со степенями свободы (#rows-1)*(#columns-1), меньше выбранного вами уровня значимости, вы можете отклонить нулевую гипотезу.

Иногда тест независимости Хи-квадрат называют тестом Хи-квадрат на однородность вариаций, но математически они эквивалентны. Идея теста заключается в том, чтобы сравнить информацию выборки (наблюдаемые данные) со значениями, которые можно было бы ожидать, если бы две переменные были действительно независимыми. Основными свойствами теста Хи-квадрат на независимость являются:

  • Распределение статистики теста - это распределение Хи-квадрат, с (r−1)×(c−1) степенями свободы, где r - количество строк, а c - количество столбцов

  • Распределение Хи-квадрат является одним из наиболее важных распределений в статистике, наряду с нормальным распределением и F-распределением

  • Тест Хи-квадрат на независимость имеет правый хвост

Формула для статистики хи-квадрат имеет вид

Таблица сопряжённости, или таблица контингентности, факторная таблица в статистике — средство представления совместного распределения двух переменных, предназначенное для исследования связи между ними. Таблица сопряжённости является наиболее универсальным средством изучения статистических связей, так как в ней могут быть представлены переменные с любым уровнем измерения. Таблицы сопряжённости часто используются для проверки гипотезы о наличии связи между двумя признаками с использованием точного теста Фишера или критерия согласия Пирсона.

Строки таблицы сопряжённости соответствуют значениям одной переменной, столбцы — значениям другой переменной, при этом количественные шкалы предварительно должны быть сгруппированы в интервалы. Например, таблица сопряжённости может быть использована для показа зависимости музыкальных предпочтений от места проживания слушателей.

На пересечении строки и столбца указывается частота совместного появления fij соответствующих значений двух признаков xi и yj. Сумма частот по строке fi. называется маргинальной частотой строки; сумма частот по столбцу f.j — маргинальной частотой столбца.

Сумма маргинальных частот равна объёму выборки n; их распределение представляет собой одномерное распределение переменной, образующей строки или столбцы таблицы. В таблице сопряжённости могут быть представлены как абсолютные, так и относительные частоты (в долях или процентах). Относительные частоты могут рассчитываться по отношению: а) к маргинальной частоте по строке; б) к маргинальной частоте по столбцу; в) к объёму выборки.