3.2.1.6. Коэффициенты связи между ранговыми переменными

Коэффициенты BTAU(Кендалла) иCTAU(Стюарта) служат для оценки взаимосвязи ранговых переменных.

Напомним, что ранговыми переменными называются переменные, в которых можно установить порядок между значениями. Например, ответы на вопрос, требующий ответа «плохо», «средне» или «хорошо». Количественные переменные, такие как возраст, доход также можно использовать в качестве ранговых.

Рассмотрим пары всех объектов (строк матрицы данных). Для пары объектов (i, j) рассматривается, одинаково ли упорядочиваются объекты и по переменнойXи по переменнойY. ЕслиX_i < X_jиY_i < Y_jилиX_i > X_jиY_i>Y_j_,то упорядочения одинаковы, еслиX_i < X_jиY_i>Y_jилиX_i>X_jиY_i < Y_j– упорядочения не одинаковы. Число одинаковых упорядочений для всех пар объектов поX, YобозначимР; число разных –Q. Кендалл предложил рассматривать величинуBTAU = (P –Q)/ T, гдеT– нормирующий знаменатель, такой, чтобы величина BTAU изменялась от –1 до 1. BTAU = –1 означает, что получена полная отрицательная связьXиY,BTAU = 1 – полная положительная связь.

Коэффициент CTAUнесколько отличается нормирующим знаменателем. С точки зрения использования отличие их в том, чтоBTAUпредпочтительнее использовать для квадратных таблиц сопряженности, то есть когдаr = c. Например, с помощью этих коэффициентов можно проверить гипотезу независимости переменных «степень противостояния СССР и Японии» и «степень альтруизма» против гипотезы их зависимости: одинаковой или противоположной упорядоченности, предварительно построив эти переменные на основе данных по нашей учебной анкете.

Рассчитаем коэффициенты BTAUиCTAUдля наших переменныхV1«Точка зрения на иностранную помощь» иV4«Возможность удовлетворить территориальные требований Японии». Следует заметить, что код значения «не знаю» этих переменных максимален – 4 (см. анкету в Приложении). Это нарушит порядок градаций и неясно, каким образом повлияет на результаты. Поэтому самым простым выходом будет пожертвовать данными и провести расчеты, объявив этот код кодом неопределенности:

MISSING VALUES v1 v4(4).

CROSSTABS /TABLES = v4 BY v1

/STATISTIC = CHISQ BTAU CTAU CMH(1)

/CELLS = COUNT ROW COL.

Таблица 3.7

Коэффициенты для ранговых переменных

	Value	Asymp. Std. Error	Approx. T	Approx. Sig.
Kendall's tau-b	–0,158	0,043	–3,571	0,000
Kendall's tau-c	–0,094	0,026	–3,571	0,000

N of Valid Cases 606

Поскольку BTAU = – 0,158 меньше нуля и значима, можно с уверенностью утверждать, что превалирует обратная связь между рангами: чем меньше желание отдать острова, тем больше преобладает мнение, что помощь необходима. То же самое даетCTAU.

3.2.1.7. Точные методы оценки значимости

Что же делать, когда количество наблюдений не позволяет воспользоваться аппроксимацией распределения статистики CHISQраспределением хи-квадрат (больше 20 % клеток имеютE_ij < 5)? В действительности аппроксимация необходима лишь для того, чтобы можно было вычислить наблюдаемую значимость, т. е. вероятностьP{CHISQ_.> CHISQ_{выбороч}_.}. То же касается и значимости коэффициентовCTAU, BTAU. Современная вычислительная техника позволяет во многих случаях обойтись без использования аппроксимации, вычислить вероятности за счет имитации сбора данных в условиях их независимости (метод Монте-Карло) или воспользовавшись непосредственным вычислением вероятности.

Во многих процедурах SPSS, в том числе и в CROSSTABS,реализованыметод Монте-Карлоиметод прямого вычислениявероятностей.

В методе Монте-Карлопроводятся компьютерные эксперименты, в которых многократно случайно перемешиваются данные. В каждом эксперименте вычисляется значение статистики значимости и сравнивается с ее выборочной величиной. Доля случаев, когда статистика превысила выборочное значение, является оценкой уровня значимостиP{CHISQ_.>> CHISQ_{выбороч}_.}. Поскольку здесь оценка вычисляется на основе случайных экспериментов, в дополнение к оценке уровня значимости выдается ее доверительный интервал. Число экспериментов и доверительная вероятность задается заранее.

В методе прямого вычислениярассматривается обобщение гипергеометрического распределения для таблицы сопряженности. Процедура весьма трудоемка и имеет смысл для небольших данных. Заранее задается время счета, и, если программа не успела справиться с вычислениями, выдается результат, полученный на основе аппроксимаций.

Метод Монте-Карло практически всегда позволяет получить оценку значимости за реальное время, но с определенной точностью. Метод прямого вычисления определяет вероятность точно, но расчеты требуют слишком много времени.

В диалоговом окне CROSSTABS(как, впрочем, и в окнах для других непараметрических процедур) указанные методы включаются с помощью кнопкиExact.

Пример. Решается вопрос, как связаны «Точка зрения на иностранную помощь» и «Возможность удовлетворить территориальные требований Японии» на выборке, ограниченной жителями Дальнего Востока (276 наблюдений). Для решения используется

CROSSTABS /TABLES = v4 BY v1 /STATISTIC = CHISQ /CELLS = COUNT Row Col /METHOD = MC CIN(99) SAMPLES(10000).

Параметры последней подкоманды «/METHOD = MC CIN(99) SAMPLES(10000)» говорят о том, что значимость оценивается методом Монте-Карло (MC), будет получен 99 %-й доверительный интервал для оценки наболюдаемой значимости(CIN(99))с использованием 10 000 экспериментов(SAMPLES(10000)).

В результате получаем табл. 3.8, в которой размещены значимости всех исследуемых статистик. Исследуемые в эксперименте статистики включают дополнительно обобщение точного теста Фишера (Fisher's Exact Test). Статистика для этого теста имеет вид FI = –2 log (P), где– константа, зависящая от итоговых частот таблицы, аP– вероятность получить наблюдаемую таблицу в условиях независимости переменных. СтатистикаFIтакже имеет асимптотическое распределение хи-квадрат (в условиях гипотезы независимости). Следует заметить, что значимость, вычисленная на основе аппроксимации, выглядит значительно оптимистичнее с точки зрения обнаружения связи, чем при прямых вычислениях, да это и не мудрено – доля клеток, в которых ожидаемая частота меньше 5, равна56,3%, а минимальная ожидаемая частота равна 0,47.

Опыт показывает, что точный тест на основе прямого вычисления вероятности требует больших затрат времени. Для нашей задачи оказалось недостаточно 25 мин. на персональном компьютере с процессором 200 mhz.

Таблица 3.8

Хи-квадрат тесты, оценка значимости методом Монте-Карло

	Value	Df	Asymp. Sig. (2-sided)	Monte Carlo Sig. (2-sided)
				Sig.	99 % Confidence Interval
				Sig.	Lower Bound	Upper Bound
Pearson Chi-Square	21,6	9	0,010	0,0155	0,012	0,019
Likelihood Ratio	18,9	9	0,026	0,0327	0,028	0,037
Fisher's Exact Test	19,1			0,0103	0,008	0,013
Linear-by-Linear Association	0,3	1	0,611	0,6492	0,637	0,661
N of Valid Cases	276

a 9 cells (56,3 %) have expected count less than 5. The minimum expected count is .47.

<<< < Предыдущая 14 15 16 17 18 19 20 21 22 23 24 2526 / 6926 27 28 29 30 31 32 33 34 35 36 37 38 > Следующая >>>