
Тема 9. Аналіз таблиць взаємної спряженості( співзалежності).
9.1. Таблиці співзалежності.
9.2. Рангова кореляція.
9.1. Таблиці співзалежності.
При стохастичному зв’язку кожному значенню ознаки х відповідає певна множина значень ознаки у, які варіюють і утворюють ряд розподілу (умовний). Стохастичний зв’язок проявляється зміною умовних розподілів.
Розглянемо комбінаційну таблицю як результат комбінаційного розподілу господарств за двома ознаками одночасно (за урожайністю та продуктивністю праці у садівництві) (табл.1).
Таблиця 1
Комбінаційний розподіл господарств за урожайністю та продуктивністю праці
Групи за врожайністю, ц/га |
Кількість господарств за рівнем продуктивності праці, ц |
Разом |
|||
до 270 |
270-320 |
320-370 |
370 і більше |
||
До 70 |
5 |
1 |
- |
- |
6 |
70-140 |
- |
4 |
5 |
1 |
10 |
понад 140 |
- |
- |
- |
4 |
4 |
Разом |
5 |
5 |
5 |
5 |
20 |
Побудовану таким чином табл.1 називають таблицею співзалежності (взаємної спряженості). У ній у рядках, крім підсумкового, розміщені частоти (частки) умовних розподілів господарств за рівнем продуктивності праці при фіксованому значенні урожайності (при умові, що урожайність зафіксована - умовні розподіли). Підсумковий рядок містить частоти безумовного розподілу. Порівняння частот умовних розподілів дає можливість визначити наявність стохастичного зв’язку. У даному випадку зв’язок між ознаками стохастичний, оскільки кожному значенню (інтервалу значень) ознаки х відповідає декілька значень ознаки у, а частоти розміщені та сконцентровані по діагоналі. При відсутності стохастичного зв’язку між ознаками умовні розподіли були б однакові і збігалися б з безумовним розподілом.
Методи аналітичного групування та кореляційно-регресійного аналізу використовують основні параметри розподілу - середні та дисперсії. Тому ці методи називаються параметричними.
У статистиці широко застосовуються і непараметричні методи визначення взаємозв’язків, які ґрунтуються на кількісних значеннях ознак і не потребують обчислення параметрів їх розподілів. Крім того непараметричні методи застосовуються не тільки тоді, коли ознаки (всі, як у кореляційно-регресійному аналізі, чи результативна, як у методі аналітичного групування) – ознаки метричної шкали, а й тоді, коли є ознаки порядкової (рангової ) чи номінальної шкал. Ця перевага одночасно має й недолік – досягається менша глибина аналізу взаємозв’язку: за їх допомогою визначають лише тісноту та перевіряють істотність зв’язку.
На підставі таблиць взаємної спряженості (співзалежності) аналізуються взаємозв’язки між атрибутивними ознаками. Можна методи аналізу таблиць співзалежності використовувати і для кількісних ознак. Будь які технічні перешкоди відсутні.
Як приклад, розглянемо табл.2, в якій наведено результати соціологічного опитування населення щодо намірів прилучитися до ринку цінних паперів.
Тих, хто не боїться ризикувати, класифікували як ризикованих інвесторів; хто не уявляє ризику без гарантії – обережними; хто уникає ризику – неризикованими.
Таблиця 2
Результати соціологічного опитування про відношення до ринку цінних паперів
Вік, рокв |
Тип інвестора |
Разом |
||
ризиковий |
обережний |
неризиковий |
||
16-30 |
24 |
12 |
4 |
40 |
31-50 |
20 |
50 |
30 |
100 |
51 і більше |
6 |
18 |
36 |
60 |
Разом |
50 |
80 |
70 |
200 |
Характер розподілу частот, концентрація їх уздовж головної діагоналі свідчать про наявність стохастичного зв’язку між віком і схильністю до ризику.
Мірою тісноти стохастичного зв’язку є коефіцієнт взаємного узгодження. Його обчислення ґрунтується на розбіжностях часток умовних та безумовного розподілів і здійснюється за формулою
,
де
підсумкова частота по і–рядку
частка
j–стовпця
по і
– рядку
частка
j–стовпця
безумовного розподілу.
Для
сукупності в цілому
є
умовних
поділів.
Величину
можна обчислити, порівнюючи фактичні
частоти таблиці співзалежності
з
теоретичними частотами (за умови
незалежності ознак)
,
тобто
;
,
де
підсумкова частота по j-стовпцю.
За
відсутності стохастичного зв’язку
=0.
При цьому частки умовних і безумовного
розподілів збігаються. Збігаються також
емпіричні (фактичні) та теоретичні
частоти:
.
На основі
розподілу ймовірностей
перевіряється істотність зв”язку.
Критичні значення
для
=
0,05 і числа ступенів вільності
порівнюють із фактичним
.
Якщо
,
то істотність зв”язку між ознаками
доведено.
Відносною мірою щільності стохастичного зв’язку слугує коефіцієнт взаємної спряженої (співзалежності).
Існує
декілька варіантів його визначення. За
умови, що
,
використовують формулу Чупрова
,
де n – число елементів сукупності;
- число
груп за ознакою х
;
- число
груп за ознакою у.
Оскільки
за відсутності стохастичного зв’язку
(тобто, коли ознаки незалежні)
=0,
то і С
= 0. При функціональному зв’язку
С
1.
Стохастичний зв’язок
неявний, коли 0<C<1.
Якщо
=
,
то при функціональному зв’язку
С
= 1. При
≠
навіть при функціональному зв’язку
С
<1.
У зв’язку з цим при ≠ використовують формулу Крамера
,
де
.
Очевидно, що при = значення коефіцієнтів, обчислених за формулами Чупрова та Крамера, збігаються.
Тісноту зв’язку між двома альтернативними ознаками = =2 визначають за допомогою коефіцієнта С для чотириклітинкової таблиці, який називають коефіцієнтом асоціації або контингенції. Позначають його ще буквою А.
За змістом він ідентичний коефіціенту взаємної спряженості, а з пов’язаний функцією : =nА2. =nС2.
За допомогою коефіцієнта асоціації (контингенції) оцінимо тісноту зв’язку між шкідливою звичкою палити та хворобами легенів (табл.3).
Таблиця 3
Розподіл пацієнтів клініки за результатами легеневих проб.
Наявність звички палити |
Результати легеневих проб |
Разом |
|
аномальні |
нормальні |
||
Палить |
20 |
5 |
25 |
Не палить |
10 |
15 |
25 |
Разом |
30 |
20 |
50 |
У нашому прикладі
.
Фактичне
значення
=nС2=50*0,4082=8,32
перевищує критичне значення при
.
0,95(1)
= 3,89. Істотність зв’язку
доведена з імовірністю Р = 0,95
Корисною мірою при аналізі 4-клітинкових таблиць взаємної спряженості є відношення перехресних добутків або відношення шансів.
.
Воно характеризує міру відносного ризику. У нашому прикладі
.
Отже, ймовірність легеневих хвороб у тих, хто палить, у 6 разів вища порівняно з тими, хто не палить.