Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
92
Добавлен:
10.05.2014
Размер:
2.54 Mб
Скачать

Вопрос 20. Анализ связи номинальных переменных.

Предположим, что исследуемые объекты описываются двумя признаками АиВ, причемАимеетp градаций (уровней), которые мы будем обозначатьА12,…,Аp, аВ qуровнейВ12,…,Вq.

Пусть в нашем распоряжении имеется выборка из Nобъектов. Обозначим черезnijчисло (частоту) объектов, у которых признакАнаходится на уровнеАi, а признакВ– на уровнеВj. Очевидно, что число появлений уровняАiво всей выборке равно. Условимся в дальнейшем опускать знак суммирования и означать сумму точкой на месте индекса, по которому ведется суммирование, так что.

Аналогично, число появлений признака BjЯсно, что

Выборочные частоты сводятся в таблицу, которую принято называть таблицей сопряженности признаков либо просто таблицей сопряженности (табл.5).

Таблица 5

Уровни

А

Уровни В

Сумма

B1

Bj

Bq

A1

n11

n1j

n1q

n1.

Ai

ni1

nij

nil

ni.

Ap

np1

npj

npq

nk.

Сумма

n.1

n.j

n.l

n..

Введем аналогичные обозначения для вероятностей: pij=P(AiBj), P(Ai) =,. Условие независимости признаков в принятых обозначениях имеет вид

pij=pi.p.j для всех пар (i,j), i=1,…,k, j=1,…,l.(2.10)

Проверить последнее соотношение не представляется возможным, поскольку значения вероятностей не известны. Однако по таблице сопряженности можно получить выборочные значения вероятностей, тем более точные, чем больше N.

По теореме Бернулли при N→∞ :

так что соотношение (2.10) трансформируется в

для всех пар (i,j), i=1,…,k, j=1,…,l.(2.11)

Выражение, стоящее в правой части (2.11), принято называть ожидаемыми частотами, тогда как nij– наблюдаемыми. В качестве меры расхождения между ожидаемыми и наблюдаемыми частотами используется статистика

.

Согласно теореме Пирсона−Фишера для независимых признаков при неограниченном росте числа наблюдений распределение случайной величины стремится к распределениюс числом степеней свободы, равнымkl-(k-1)-(l-1)-1=(k-1)(l-1). На практике считается достаточным выполнение соотношения (ni.n.j/N)3 для всехi,j. Для зависимых признаковХ2неограниченно возрастает при увеличенииN.Таким образом, для проверки гипотезы о независимости двух признаков вычисляется статистикаи сравнивается с табличным значениемпри выбранном уровне значимости и числе степеней свободы ЧСС=(k-1)(l-1). При>гипотеза о независимости отвергается.

Если признаки зависимы, то интерес представляет численная мера связи. Достаточно просто они вводятся для дихотомических переменных. Рассмотрим таблицу сопряженности 22 (табл.6):

Таблица 6

уab

a+b

cd

c+d

a+cb+d

N=a+b+c+d

(Черта на букве соответствует противоположному значению).

Пусть, например, исследуется связь между уровнем образования (О– высшее,– отсутствие высшего образования), и уровнем дохода (Д– высокий уровень,– низкий уровень). Имеются две выборки по сто человек (N=100) с таблицами сопряженности 7 и 8.

Таблица 7

Таблица 8

22

18

40

2

38

40

8

52

60

28

32

60

30

70

100

30

70

100

В обеих таблицах доля лиц с высшим образованием составляет 30%, доля высокооплачиваемых – 40%. В первой таблице доля лиц с высшим образованием среди высокооплачиваемых составляет 55% (22/40), что больше их доли по выборке в целом (30%). Во второй таблице лишь 5% (2/40) лиц с высшим образованием получают достойный доход.

В общем случае говорят о положительной связи, если

. (2.12)

Из (2.12) с учетом того, что N=a+b+c+d, получаемad>bc. Мерапри>1 говорит о положительной связи между признаками, при<1 – об отрицательной.

Для прямоугольных таблиц используются меры связи, основанные на Х2, в частности,. Известны такжеинформационные меры связи, основанные на понятииэнтропии. Пусть случайная величинахпринимает конечное множество значенийх1,х2, …,хkс вероятностямир1,р2,…,рk.Величину

(2.13)

называют энтропиейи рассматривают как меру неопределенностих.Энтропия неотрицательна, принимает минимальное значение, равное нулю, в отсутствии неопределенности, и максимальна, когда все возможные значенияхравновероятны. Таким образом,0≤ Н(х)≤. Для двумерной случайной величины (x,y), принимающей значения (х1,y1),…,(x1,yl),…, (хk,y1), …,(хk,yl) с вероятностями, энтропия определяется аналогично:

.

Можно показать, что тогда и только тогда, когдахиунезависимы, в противном случае. Основываясь на описанных свойствах энтропии естественно ввести так называемуюинформационную мерузависимостихиу

.

Ясно, что I(x,y)≥ 0 и обращается в нуль, еслихиунезависимы.

В заключение отметим, что для многомерных таблиц с большим числом уровней переменных применяют более сложные методы анализа, в частности, логарифмически линейные модели.