
- •Глава 3. Процедуры получения описательных статистик и таблиц сопряженности
- •3.1. Команды описания распределений
- •3.2 Анализ связи между неколичественными переменными. Crosstabs - таблицы сопряженности
- •Var lab w4 "Возможность удовлетворить территориториальные требования Японии".
- •Val lab w4 1 "отдать" 2 "не надо" "не знаю".
- •Cells статистики смещения частот
- •Statistics - исследование связи неколичественных перемееных
- •Измерение силы связи между номинальными переменными
- •Статистический эксперимент для оценки значимости и ее прямое вычисление
- •3.3. Сложные табличные отчеты. Таблицы для неальтернативных вопросов
- •ТипичнЫe примеРы использования Multiple Response Tables
- •Var lab m1 "Зап Сиб" m2 "Вост Сиб" m3 "Дальн Вост".
- •Var lab d1 'Жесткий вариант'
- •3.4. Множественные сравнения в таблицах для неальтернативных вопросов. Программа Typology Tables
Статистический эксперимент для оценки значимости и ее прямое вычисление
Что же делать, когда количество наблюдений не позволяет воспользоваться аппроксимацией распределения статистики CHISQ распределением хи-квадрат? В действительности нормальная аппроксимация необходима лишь для того, чтобы можно было вычислить вероятность P{CHISQтеор.>CHISQвыбороч.}. То, что CHISQтеор. имеет распределение хи-квадрат - лишь техническая подробность, связанная с упрощением и ускорением вычислений. То же касается и других статистик значимости (CTAU, BTAU). Современная вычислительная техника позволяет во многих случаях обойтись без использования аппроксимации, вычислить вероятности за счет имитации сбора данных в условиях независимости (метод Монте-Карло) или воспользовавшись непосредственным вычислением вероятности.
В многих процедурах SPSS, в том числе и в Crosstabs, реализованы метод Монте-Карло и прямое вычисление вероятностей.
В методе Монте-Карло проводятся компьютерные эксперименты, в которых многократно случайно перемешиваются данные. В каждом эксперименте вычисляется значение статистики значимости и сравнивается с наблюдаемой ее величиной. Доля случаев, когда статистика превысила наблюдаемое значение, является оценкой уровня значимости. Поскольку оценка вычисляется на основе случайных экспериментов, в дополнеие к оценке уровня значимости выдается его доверительный интервал. Число экспериментов и доверительная вероятность задается заранее.
В методе прямого вычисления рассматривается обобщение гипергеометрического распределения для таблицы сопряженности. Процедура весьма трудоемка и имеет смысл для небольших данных. Заранее задается время счета и, если программа не успела справиться с вычислениями, выдается результат, полученный на основе аппроксимаций.
В диалоговом окне Crosstabs (как, впрочем, и в окнах для других непараметрических процедур) указанные методы включаются с помощью кнопки EXACT.
Пример. Решается вопрос, как связаны "Точка зрения на иностранную помощь" и "Возможность удовлетворить территориальные требований Японии" на выборке, ограниченной жителями Дальнего Востока (276 наблюдений). Для решения используется
CROSSTABS /TABLES=v4 BY v1 /STATISTIC=CHISQ /CELLS= COUNT Row Col /METHOD=MC CIN(99) SAMPLES(10000).
Параметры последней подкоманды, "/METHOD=MC CIN(99) SAMPLES(10000)", говорят о том, что значимость оценивается методом Монте Карло (MC), будет получен 99% доверительный интервал для оценки наболюдаемой значимости (CIN(99)) с использованием 10000 экспериментов (SAMPLES(10000)).
В результате получаем таблицу 3.8, в которой размещены значимости всех исследуемых статистик. Исследуемые в статистическом эксперименте статистики включают дополнительно обобщение точного теста Фишера (Fisher's Exact Test). Статистика для этого теста имеет вид FI=-2log( P), где - константа, зависящая от итоговых частот таблицы, а P - вероятность получить наблюдаемую таблицу в условиях независимости переменных. Статистика FI также имеет асимптотическое распределение хи-квадрат (в условиях гипотезы независимости). Следует заметить, что значимость, вычисленная на основе аппроксимации, выглядит значительно оптимистичнее с точки зрения обнаружения связи, чем при прямых вычислениях, да это и не мудрено - доля клеток, в которых ожидаемая частота меньше 5 равна 56.3%, а минимальная ожидаемая частота равна 0.47.
Опыт показывает, что точный тест на основе прямого вычисления вероятности требует очень много времени. Нашей задаче оказалось недостаточным 25 мин. на персональном компьютере с процессором 200mhz.
Таблица 3.8. Хи-квадрат тесты, оценка значимости методом Монте-Карло.
|
Value |
Df |
Asymp. Sig. (2-sided) |
Monte Carlo Sig. (2-sided) | ||
|
|
|
|
Sig. |
99% Confidence Interval | |
|
|
|
|
|
Lower Bound |
Upper Bound |
Pearson Chi-Square |
21.6 |
9 |
0.010 |
0.0155 |
0.012 |
0.019 |
Likelihood Ratio |
18.9 |
9 |
0.026 |
0.0327 |
0.028 |
0.037 |
Fisher's Exact Test |
19.1 |
|
|
0.0103 |
0.008 |
0.013 |
Linear-by-Linear Association |
0.3 |
1 |
0.611 |
0.6492 |
0.637 |
0.661 |
N of Valid Cases |
276 |
|
|
|
|
|
a 9 cells (56.3%) have expected count less than 5. The minimum expected count is .47.