
Статистика лекции / СТ 10 - анализ таблиц взаимной спряженности
.doc
Тема 10. анализ таблиц взаимной сопряженности
Взаимосвязи между атрибутивными признаками анализируются на основании таблиц взаимной сопряженности (взаимозависимости). Как пример рассмотрим данные таблицы 10.1, в которой приведены результаты социологического опроса населения относительно намерений участвовать в торгах на рынке ценных бумаг. Тех, кто не боится рисковать, классифицировали как рискованных инвесторов, тех, кто не представляет риска без гарантий – осторожными, а кто риска избегает вообще – нерискованными.
Частоты комбинационного распределения респондентов по возрасту и склонностью к риску концентрируются вокруг диагонали от верхнего левого угла в нижний правый. Среди молодых большинство готово рисковать на рынке ценных бумаг, в средней возрастной группе готов рисковать один из пяти, а половина не представляет риска без гарантий, в третьей возрастной группе на одного осторожного приходится два нерискованных.
Таблица 10.1
Распределение респондентов по возрасту и склонностью к риску
Возраст, х лет |
Тип инвестора, у |
Итого,
|
||
Рискованные |
Осторожные |
Нерискованные |
||
16 – 30 |
24 |
12 |
4 |
40 |
31 – 50 |
20 |
50 |
30 |
100 |
51 и больше |
6 |
18 |
36 |
60 |
Итого,
|
50 |
80 |
70 |
200 |
Характер распределения частот, концентрация их вдоль главной диагонали свидетельствуют о наличии стохастической связи1 между возрастом и склонностью к риску.
Оценка
плотности стохастической связи
основывается на отклонениях частот
условного и безусловного распределений,
то есть на отклонениях фактических
частот
от теоретических
,
пропорциональных к итоговым:
(10.1)
где
– итоговые частоты по
признаку х;
– итоговые частоты по
признаку у;
– объем совокупности
(10.2)
Если бы склонность к риску не зависела от возраста, то количество рискованных среди молодежи составляло бы:
,
осторожных во второй возрастной группе
,
нерискованных в третьей возрастной группе
Абсолютную
величину отклонений фактических частот
,
от пропорциональных
характеризует квадратичная
сопряженность
Пирсона:
(10.3)
Если
стохастическая связь отсутствует, то
.
Для того, чтобы сделать вывод о
существенности связи, необходимо
сравнить фактическое значение
с уровнем значимости для заданной
доверительной вероятности
и числа степеней свободы
,
где
и
– соответственно количество групп по
признакам
и
.
Критические значения
для доверительной вероятности 95%
и, соответственно, для уровня значимости
0,05 (
)
приведены в таблице 10.2. В нашем примере
для
,
критическое значение
.
Таблица 10.2
Критические значения
|
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
|
3,84 |
5,99 |
7,81 |
9,49 |
11,07 |
12,59 |
14,07 |
15,51 |
16,92 |
18,31 |
19,68 |
21,03 |
Рассчитаем
фактическое значение
по нашим данным.
Фактическое значение значительно превышает критическое и, следовательно, с вероятностью 0,95 существенность связи между возрастом и склонностью к риску доказана.
Относительной
мерой тесноты стохастической связи
служит коэффициент взаимной
сопряженности
,
который по содержанию идентичен
коэффициенту корреляции. Если
,
то используют формулу Чупрова:
. (10.4)
где
и
– соответственно количество групп по
признакам
и
.
Если
,
то предпочтение отдают коэффициенту
сопряженности Крамера:
(10.5)
где
– минимальное количество групп по
признаку
или
.
Так
как при отсутствии связи между признаками
,
то в этом случае и
.
При функциональной взаимосвязи
коэффициент взаимной сопряженности
стремится к единице.
Поскольку
в нашем примере
,
для оценки тесноты связи используем
коэффициент взаимной сопряженности
Чупрова.
Такое значение коэффициента взаимной сопряженности говорит о наличии умеренной связи между признаками.
Если
оба взаимосвязанных признака
альтернативные, то есть
,
то при отсутствии связи
произведения диагональных частот
одинаковые:
.
Именно на отклонениях
произведений частот основываются
характеристики связи:
, (10.6)
(10.7)
В
статистической литературе коэффициент
для 4-х клеточной таблицы называется
коэффициентом контингенции
или ассоциации. Очевидно,
что по содержанию он идентичен коэффициенту
взаимной сопряженности, а с
связан функционально:
.
С помощью коэффициента контингенции оценим тесноту связи между вредной привычкой курить и болезнями легких (табл. 10.3).
Таблица 10.3
Распределение пациентов клиники по результатам легочных проб
Наличие привычки курить |
Результаты легочных проб |
Итого |
|
Аномальные |
Нормальные |
||
Курит |
20 |
5 |
25 |
Не курит |
10 |
15 |
25 |
Итого |
30 |
20 |
50 |
Воспользуемся формулой 10.7:
Значение
превышает критическое
.
Наличие связи между курением и
заболеваниями легких доказана с
вероятностью 0,95.
Для анализа таблиц такого типа используют также отношение перекрестных произведений – отношение шансов.
(10.7)
Отношение
шансов характеризует меру относительного
риска (выигрыша), связанного с фактором
.
Рассчитаем отношение шансов для курящих и некурящих пациентов.
.
Таким образом, вероятность легочных заболеваний у тех, кто курит в 6 раз выше, в сравнении с теми, кто не курит.
Методы
анализа таблиц взаимной сопряженности
можно использовать и для количественных
признаков. Любые технические препятствия
отсутствуют. Однако следует помнить,
что коэффициент сопряженности оценивает
лишь согласованность фактического
распределения с пропорциональным. Если
переставить строки или столбцы значения
коэффициента
не изменится. Меры плотности корреляционной
связи – коэффициент детерминации
и корреляционное отношение оценивают
не только согласованность частот, но и
порядок, последовательность, в которой
объединяются разные значения признаков.
Следовательно, эти характеристики связи
более мощные. А в целом выбор метода
измерения связи и характеристик его
тесноты должен основываться на
теоретическом анализе сути явлений,
характера взаимосвязей на основе
имеющейся информации.
1 При стохастической связи причинная зависимость между факторными и результативными признаками проявляется не в каждом отдельном случае, а лишь при большом числе наблюдений, т.е. с изменением одной величины меняется распределение другой.