
Проверка гипотезы о независимости признаков
Итак, мы собираемся проверить гипотезу о независимости фракционной принадлежности депутатов от их социального происхождения.
Для этого надо сравнить в целом таблицу реальных частот с таблицей ожидаемых частот (т.е. частот, соответствующих гипотезе, что два изучаемых признака независимы).
Для подсчета суммарного расхождения между таблицами по всем клеткам таблиц суммируют разности (точнее – квадраты разностей) между реальными и ожидаемыми частотами.
Если суммарное расхождение равно нулю (таблицы совпадают), нет оснований отвергнуть гипотезу о независимости признаков.
Наоборот – чем больше суммарное расхождение между таблицами, тем меньше вероятность принятия нулевой гипотезы о независимости признаков.
Иначе говоря, чем больше суммарное расхождение между реальными и ожидаемыми частотами по всем клеткам таблицы сопряженности, тем менее вероятной является эта гипотеза.
Сумма квадратов разностей реальных и ожидаемых частот по всем клеткам таблицы обозначается Хи-квадрат (X2). Распределение этой величины (как и известной нам t-статистики) хорошо изучено.
То есть, для всех значений Хи-квадрат известна вероятность p того, что такие значения могут быть получены в выборке из генеральной совокупности, в которой величина Хи-квадрат равна нулю, т.е. признаки независимы.
Значит, если вероятность p, соответствующая величине Хи-квадрат, достаточно мала, это свидетельствует о том, что гипотеза о независимости признаков должна быть отклонена, т.е. связь между ними является статистически значимой.
Как известно, в пакете Statistica по умолчанию достаточно малыми считаются значения вероятности p, меньшие 0,05 или 5%.
Коэффициенты взаимосвязи номинальных признаков
Итак, значимая величина Хи-квадрат является свидетельством связи между двумя признаками. Как же измерить силу этой связи?
Ясно, что при отсутствии связи величина Хи-квадрат равна нулю, и это значение является минимальным.
Существует ли максимальное значение для Хи-квадрат?
К сожалению, даже тогда, когда связь между признаками является максимально сильной, т.е. когда каждому значению (категории) одного признака в точности соответствует определенная категория другого признака, нельзя заранее сказать, каким будет значение X2, т.к. эта величина не имеет общего для всех таблиц сопряженности максимального значения.
Более того, так как Хи-квадрат зависит от числа степеней свободы, то невозможно сравнивать между собой значения этой величины для таблиц с разным числом строк и столбцов.
Значит необходим коэффициент, который, подобно коэффициенту корреляции, имел бы фиксированный максимум в случае максимальной связи и позволял бы сравнивать между собой разные таблицы
Коэффициент Крамера
Одним из коэффициентов, удовлетворяющих этим требованиям, является коэффициент Крамера V.
Базируясь на значении Хи-квадрат, коэффициент Крамера позволяет измерять силу связи между двумя номинальными признаками.
Коэффициент Крамера принимает значения от 0 до 1, т.е. от полного отсутствия связи до максимально сильной связи.