Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Архив WinRAR / Rost SPSS.doc
Скачиваний:
51
Добавлен:
15.05.2015
Размер:
8.1 Mб
Скачать

3.2.1.6. Коэффициенты связи между ранговыми переменными

Коэффициенты BTAU(Кендалла) иCTAU(Стюарта) служат для оценки взаимосвязи ранговых переменных.

Напомним, что ранговыми переменными называются переменные, в которых можно установить порядок между значениями. Например, ответы на вопрос, требующий ответа «плохо», «средне» или «хорошо». Количественные переменные, такие как возраст, доход также можно использовать в качестве ранговых.

Рассмотрим пары всех объектов (строк матрицы данных). Для пары объектов (i, j) рассматривается, одинаково ли упорядочиваются объекты и по переменнойXи по переменнойY. ЕслиXi < XjиYi < YjилиXi > XjиY>Yj, то упорядочения одинаковы, еслиXi < XjиYi>YjилиXi>XjиYi < Yj– упорядочения не одинаковы. Число одинаковых упорядочений для всех пар объектов поX, YобозначимР; число разных –Q. Кендалл предложил рассматривать величинуBTAU = (Q)/ T, гдеT– нормирующий знаменатель, такой, чтобы величина BTAU изменялась от –1 до 1. BTAU = –1 означает, что получена полная отрицательная связьXиY,BTAU = 1 – пол­ная положительная связь.

Коэффициент CTAUнесколько отличается нормирующим знаменателем. С точки зрения использования отличие их в том, чтоBTAUпредпочтительнее использовать для квадратных таблиц сопряженности, то есть когдаr = c. Например, с помощью этих коэффициентов можно проверить гипотезу независимости переменных «степень противостояния СССР и Японии» и «степень альтруизма» против гипотезы их зависимости: одинаковой или противоположной упорядоченности, предварительно построив эти переменные на основе данных по нашей учебной анкете.

Рассчитаем коэффициенты BTAUиCTAUдля наших переменныхV1«Точка зрения на иностранную помощь» иV4«Возможность удовлетворить территориальные требований Японии». Следует заметить, что код значения «не знаю» этих переменных максимален – 4 (см. анкету в Приложении). Это нарушит порядок градаций и неясно, каким образом повлияет на результаты. Поэтому самым простым выходом будет пожертвовать данными и провести расчеты, объявив этот код кодом неопределенности:

MISSING VALUES v1 v4(4).

CROSSTABS /TABLES = v4 BY v1

/STATISTIC = CHISQ BTAU CTAU CMH(1)

/CELLS = COUNT ROW COL.

Таблица 3.7

Коэффициенты для ранговых переменных

Value

Asymp. Std. Error

Approx. T

Approx. Sig.

Kendall's tau-b

–0,158

0,043

–3,571

0,000

Kendall's tau-c

–0,094

0,026

–3,571

0,000

N of Valid Cases 606 

Поскольку BTAU = – 0,158 меньше нуля и значима, можно с уверенностью утверждать, что превалирует обратная связь между рангами: чем меньше желание отдать острова, тем больше преобладает мнение, что помощь необходима. То же самое даетCTAU.

3.2.1.7. Точные методы оценки значимости

Что же делать, когда количество наблюдений не позволяет воспользоваться аппроксимацией распределения статистики CHISQраспределением хи-квадрат (больше 20 % клеток имеютEij < 5)? В действительности аппроксимация необходима лишь для того, чтобы можно было вычислить наблюдаемую значимость, т. е. вероятностьP{CHISQ. CHISQвыбороч.}. То же касается и значимости коэффициентовCTAU, BTAU. Современная вычислительная техника позволяет во многих случаях обойтись без использования аппроксимации, вычислить вероятности за счет имитации сбора данных в условиях их независимости (метод Монте-Карло) или воспользовавшись непосредственным вычислением вероятности.

Во многих процедурах SPSS, в том числе и в CROSSTABS,реализованыметод Монте-Карлоиметод прямого вычислениявероятностей.

В методе Монте-Карлопроводятся компьютерные эксперименты, в которых многократно случайно перемешиваются данные. В каждом эксперименте вычисляется значение статистики значимости и сравнивается с ее выборочной величиной. Доля случаев, когда статистика превысила выборочное значение, является оценкой уровня значимостиP{CHISQ.>> CHISQвыбороч.}. Поскольку здесь оценка вычисляется на основе случайных экспериментов, в дополнение к оценке уровня значимости выдается ее доверительный интервал. Число экспериментов и доверительная вероятность задается заранее.

В методе прямого вычислениярассматривается обобщение гипергеометрического распределения для таблицы сопряженности. Процедура весьма трудоемка и имеет смысл для небольших данных. Заранее задается время счета, и, если программа не успела справиться с вычислениями, выдается результат, полученный на основе аппроксимаций.

Метод Монте-Карло практически всегда позволяет получить оценку значимости за реальное время, но с определенной точностью. Метод прямого вычисления определяет вероятность точно, но расчеты требуют слишком много времени.

В диалоговом окне CROSSTABS(как, впрочем, и в окнах для других непараметрических процедур) указанные методы включаются с помощью кнопкиExact.

Пример. Решается вопрос, как связаны «Точка зрения на иностранную помощь» и «Возможность удовлетворить территориальные требований Японии» на выборке, ограниченной жителями Дальнего Востока (276 на­блюдений). Для решения используется

CROSSTABS /TABLES = v4 BY v1 /STATISTIC = CHISQ /CELLS = COUNT Row Col /METHOD = MC CIN(99) SAMPLES(10000).

Параметры последней подкоманды «/METHOD = MC CIN(99) SAMPLES(10000)» говорят о том, что значимость оценивается методом Монте-Карло (MC), будет получен 99 %-й доверительный интервал для оценки наболюдаемой значимости(CIN(99))с использованием 10 000 экспериментов(SAMPLES(10000)).

В результате получаем табл. 3.8, в которой размещены значимости всех исследуемых статистик. Исследуемые в эксперименте статистики включают дополнительно обобщение точного теста Фишера (Fisher's Exact Test). Статистика для этого теста имеет вид FI = –2 log (P), где– константа, зависящая от итоговых частот таблицы, аP– вероятность получить наблюдаемую таблицу в условиях независимости переменных. СтатистикаFIтакже имеет асимптотическое распределение хи-квадрат (в условиях гипотезы независимости). Следует заметить, что значимость, вычисленная на основе аппроксимации, выглядит значительно оптимистичнее с точки зрения обнаружения связи, чем при прямых вычислениях, да это и не мудрено – доля клеток, в которых ожидаемая частота меньше 5, равна56,3%, а минимальная ожидаемая частота равна 0,47.

Опыт показывает, что точный тест на основе прямого вычисления вероятности требует больших затрат времени. Для нашей задачи оказалось недостаточно 25 мин. на персональном компьютере с процессором 200 mhz.

Таблица 3.8 

Хи-квадрат тесты, оценка значимости методом Монте-Карло

Value

Df

Asymp. Sig. (2-sided)

Monte Carlo Sig. (2-sided)

Sig.

99 % Confidence Interval

Lower Bound

Upper Bound

Pearson Chi-Square

21,6

9

0,010

0,0155

0,012

0,019

Likelihood Ratio

18,9

9

0,026

0,0327

0,028

0,037

Fisher's Exact Test

19,1

0,0103

0,008

0,013

Linear-by-Linear Association

0,3

1

0,611

0,6492

0,637

0,661

N of Valid Cases

276

a 9 cells (56,3 %) have expected count less than 5. The minimum expected count is .47.