Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Статистика лекции / СТ 10 - анализ таблиц взаимной спряженности

.doc
Скачиваний:
25
Добавлен:
26.03.2015
Размер:
158.21 Кб
Скачать

3

Тема 10. анализ таблиц взаимной сопряженности

Взаимосвязи между атрибутивными признаками анализируются на основании таблиц взаимной сопряженности (взаимозависимости). Как пример рассмотрим данные таблицы 10.1, в которой приведены результаты социологического опроса населения относительно намерений участвовать в торгах на рынке ценных бумаг. Тех, кто не боится рисковать, классифицировали как рискованных инвесторов, тех, кто не представляет риска без гарантий – осторожными, а кто риска избегает вообще – нерискованными.

Частоты комбинационного распределения респондентов по возрасту и склонностью к риску концентрируются вокруг диагонали от верхнего левого угла в нижний правый. Среди молодых большинство готово рисковать на рынке ценных бумаг, в средней возрастной группе готов рисковать один из пяти, а половина не представляет риска без гарантий, в третьей возрастной группе на одного осторожного приходится два нерискованных.

Таблица 10.1

Распределение респондентов по возрасту и склонностью к риску

Возраст,

х лет

Тип инвестора, у

Итого,

Рискованные

Осторожные

Нерискованные

16 – 30

24

12

4

40

31 – 50

20

50

30

100

51 и больше

6

18

36

60

Итого,

50

80

70

200

Характер распределения частот, концентрация их вдоль главной диагонали свидетельствуют о наличии стохастической связи1 между возрастом и склонностью к риску.

Оценка плотности стохастической связи основывается на отклонениях частот условного и безусловного распределений, то есть на отклонениях фактических частот от теоретических , пропорциональных к итоговым:

(10.1)

где – итоговые частоты по признаку х;

– итоговые частоты по признаку у;

– объем совокупности

(10.2)

Если бы склонность к риску не зависела от возраста, то количество рискованных среди молодежи составляло бы:

,

осторожных во второй возрастной группе

,

нерискованных в третьей возрастной группе

Абсолютную величину отклонений фактических частот , от пропорциональных характеризует квадратичная сопряженность Пирсона:

(10.3)

Если стохастическая связь отсутствует, то . Для того, чтобы сделать вывод о существенности связи, необходимо сравнить фактическое значение с уровнем значимости для заданной доверительной вероятности и числа степеней свободы , где и – соответственно количество групп по признакам и .

Критические значения для доверительной вероятности 95% и, соответственно, для уровня значимости 0,05 () приведены в таблице 10.2. В нашем примере для , критическое значение .

Таблица 10.2

Критические значения

1

2

3

4

5

6

7

8

9

10

11

12

3,84

5,99

7,81

9,49

11,07

12,59

14,07

15,51

16,92

18,31

19,68

21,03

Рассчитаем фактическое значение по нашим данным.

Фактическое значение значительно превышает критическое и, следовательно, с вероятностью 0,95 существенность связи между возрастом и склонностью к риску доказана.

Относительной мерой тесноты стохастической связи служит коэффициент взаимной сопряженности , который по содержанию идентичен коэффициенту корреляции. Если , то используют формулу Чупрова:

. (10.4)

где и – соответственно количество групп по признакам и .

Если , то предпочтение отдают коэффициенту сопряженности Крамера:

(10.5)

где – минимальное количество групп по признаку или .

Так как при отсутствии связи между признаками , то в этом случае и . При функциональной взаимосвязи коэффициент взаимной сопряженности стремится к единице.

Поскольку в нашем примере , для оценки тесноты связи используем коэффициент взаимной сопряженности Чупрова.

Такое значение коэффициента взаимной сопряженности говорит о наличии умеренной связи между признаками.

Если оба взаимосвязанных признака альтернативные, то есть , то при отсутствии связи произведения диагональных частот одинаковые: . Именно на отклонениях произведений частот основываются характеристики связи:

, (10.6)

(10.7)

В статистической литературе коэффициент для 4-х клеточной таблицы называется коэффициентом контингенции или ассоциации. Очевидно, что по содержанию он идентичен коэффициенту взаимной сопряженности, а с связан функционально: .

С помощью коэффициента контингенции оценим тесноту связи между вредной привычкой курить и болезнями легких (табл. 10.3).

Таблица 10.3

Распределение пациентов клиники по результатам легочных проб

Наличие

привычки курить

Результаты легочных проб

Итого

Аномальные

Нормальные

Курит

20

5

25

Не курит

10

15

25

Итого

30

20

50

Воспользуемся формулой 10.7:

Значение превышает критическое . Наличие связи между курением и заболеваниями легких доказана с вероятностью 0,95.

Для анализа таблиц такого типа используют также отношение перекрестных произведений – отношение шансов.

(10.7)

Отношение шансов характеризует меру относительного риска (выигрыша), связанного с фактором .

Рассчитаем отношение шансов для курящих и некурящих пациентов.

.

Таким образом, вероятность легочных заболеваний у тех, кто курит в 6 раз выше, в сравнении с теми, кто не курит.

Методы анализа таблиц взаимной сопряженности можно использовать и для количественных признаков. Любые технические препятствия отсутствуют. Однако следует помнить, что коэффициент сопряженности оценивает лишь согласованность фактического распределения с пропорциональным. Если переставить строки или столбцы значения коэффициента не изменится. Меры плотности корреляционной связи – коэффициент детерминации и корреляционное отношение оценивают не только согласованность частот, но и порядок, последовательность, в которой объединяются разные значения признаков. Следовательно, эти характеристики связи более мощные. А в целом выбор метода измерения связи и характеристик его тесноты должен основываться на теоретическом анализе сути явлений, характера взаимосвязей на основе имеющейся информации.

1 При стохастической связи причинная зависимость между факторными и результативными признаками проявляется не в каждом отдельном случае, а лишь при большом числе наблюдений, т.е. с изменением одной величины меняется распределение другой.