Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Пчёлкина К.К._Анализ данных.docx
Скачиваний:
0
Добавлен:
01.03.2025
Размер:
177.9 Кб
Скачать
  1. Критерий Хи-квадрат

Формулировка и проверка статистических гипотез о взаимозависимости признаков с помощью статистики Хи-квадрат (критерий: Н0 и Н1) -критерий, используемый для проверки статистической значимости наблюдаемых связей в таблицах сопряженности признаков (есть ли значимое различие между наблюдаемыми и ожидаемыми частотами).

Проверка гипотезы.

Шаг 1. Формулируем нулевую и альтернативную гипотезы:

Н0: Нет связи между признаками

Н1: Связь статистически значима

Шаг 2. Задаем уровень значимости a = 0,05.

Шаг 3. По таблице распределения c2 с df = (r – 1)(c – 1) = 1 и α = 0,05 находим критическое значение: 3,841.

Шаг 4. Вычисляем значение статистики: 3,333.

Шаг 5. Значение статистики меньше табличного: 3,333 < 3,841.

Шаг 6. Вывод: Н0 не отвергается, связь не является статистически значимой.

Формула для коэффициента Хи-квадрат-

N – наблюдаемая частота (Observed)

T – ожидаемая частота (Expected)

Диапазон значений–от «0» до + ∞

Коэффициенты связи-измерение величины (тесноты) связи проводится с помощью коэффициентов Пирсона (P), Крамера (V) и Чупрова (T), на основе c2 .

Коэффициент сопряженности признаков Пирсона (contingencycoefficient) является мерой величины связи в таблицах сопряженности любого размера

  • равен нулю для независимых переменных

  • максимум коэффициента меньше 1

  • недостаток pпирсона - зависимость от размера таблицы

V-коэффициент Крамера (Cramer’s-V) – мера величины связи, используемая в таблицах сопряженности

  • используется для таблиц любого размера

  • для таблиц 2х2 совпадает с фи коэффициентом

  • равен нулю для независимых переменных

  • равен1 для полностью зависимых переменных

T-коэффициент Чупрова – мера величины связи, используемая в таблицах сопряженности

* в случае квадратной таблицы коэффициенты Крамера и Чупрова совпадают

Коэффициент Юла:

Один из первых коэффициентов для измерения связи в таблицах 2х2.

  • равен нулю для независимых переменных

  • изменяется от -1 до 1

  • показывает направленность связи

Фи-коэффициент(f):

  • используют для измерения величины связи переменных в таблицах 2х2

  • как и коэффициент Юла изменяется от -1 до 1

  • показывает величину связи

  • показывает направленность связи

  • равен нулю, если связь отсутствует

Уточнение связи с помощью введения третьей переменной - делается не только в Хи-квадрат; используется для проверки связи (два признака могут быть связаны с чем-то другим, а не только между собой).

2 исходные переменные:

1.Есть связь =>Вводим третью переменную

Уточняется связь между двумя переменными или нет связи между двумя исходными переменными или все остается без изменений

2.Нет связи =>Вводим третью переменную

Есть связь между двумя исходными переменными

Типы шкал при построении таблиц сопряженности- неметрические переменные, то есть переменные, относящиеся к номинальной шкале или порядковой с не очень большим количеством категорий. Восстановление зависимостей между метрическими переменными, то есть имеющими интервальную шкалу или шкалу отношений, рассматривается с помощью коэффициентов корреляции.

Ожидаемые и наблюдаемые частоты

То, что мы получили в результате исследования, называется наблюдаемыми частотами в противовес ожидаемым частотам при допущении справедливости нулевой гипотезы.

Ожидаемые частоты — это те частоты, которые должны были бы стоять в клетках той же таблицы сопряженности, если бы две интересующие нас переменные были бы независимы, т. е. расслоение наблюдений по одному признаку оставалось бы пропорциональным для разных подгрупп, выделенных по другому признаку.

Технические ограничения

Ожидаемые частоты не должны быть очень малы. Это связано с тем, что критерий c2 по своей природе проверяет вероятности в каждой ячейке; и если ожидаемые частоты в ячейках, становятся, маленькими, например, меньше 5, то эти вероятности нельзя оценить с достаточной точностью с помощью имеющихся частот.

Чтобы увеличить частоту в ячейке обычно соединят соседние столбцы или строки.

Никакой разумной интерпретации в рамках описательной статистики величина хи-квадрат не имеет. Нужна только для проверки гипотезы о статистической значимости связи между признаками.

Доказано, что критерием хи-квадрат можно пользоваться, когда ожидаемые частоты больше 5 во всех клетках.

Более «мягкое» правило: следует стремиться, чтобы число клеток с маленькими ожидаемыми частотами было небольшим.