
Ранговий коефіцієнт (Спірмена)
Ранговий коефіцієнт кореляції більш придатний в порівнянні зі звичайним коефіцієнтом для характеристики кореляцій у випадках нелінійної зв'язку і для даних, розподіл яких відрізняється від нормального. Крім того, дані для розрахунку рангового коефіцієнта можуть бути представлені в напівкількісних вимірах. Обчислення коефіцієнта проводиться за формулою:
Алгоритм розрахунку коефіцієнта кореляції рангів:
1) замінюють кількісні (або напівкількісні, або якісні) ознаки ряду х і у на ранги, ранжуючи при цьому строго від меншої величини до більшої (або суворо від більшої до меншої на розсуд дослідника);
2) визначають умовні відхилення (а), тобто різницю рангів по кожному рядку;
3) зводять умовні відхилення в квадрат;
4) визначають суму квадратів умовних відхилень;
5) підставляють отримані дані у відому формулу і обчислюють коефіцієнт кореляції.
Приклад. Виміряти кореляцію між смертністю від раку молочної залози і раку матки (матеріали смертності 5 позаєвропейських країн за 1950 - 1952 рр..),
Країна |
Смертність від раку молочної залози на 100000 жінок х |
Смертність від раку матки на 100000 жінок у |
Порядкові номери (ранги) за розмірами смертності від раку |
Різниця рангів а |
Квадрат різниці рангів а 2 | |
молочної залози |
матки | |||||
Нова Зеландія |
28,6 |
14,9 |
1 |
4 |
3 |
9 |
Австралія |
23,5 |
13,4 |
2 |
5 |
3 |
9 |
ПАР |
21,1 |
16,3 |
3 |
2 |
1 |
1 |
Чилі |
5,8 |
15,3 |
4 |
3 |
1 |
1 |
Японія |
3,3 |
19,1 |
5 |
1 |
4 |
16 |
|
|
|
|
|
|
Sа 2= 36 |
Оскільки обчислення коефіцієнта кореляції рангів зазвичай проводиться на малій кількості числі спостережень (кількість пар в лавах х, у), особливого значення набуває оцінка статистичної значущості (достовірності) цього коефіцієнта. Ранговий коефіцієнт завжди менш точний, ніж парний коефіцієнт кореляції.
Оцінка достовірності коефіцієнта кореляції рангів проводиться різними методами в залежності від числа спостережень. При числі парних спостережень, меншому за число 9 (n £ 9), оцінка значимості проводиться за спеціальною таблицею. При числі спостережень від 10 і більше оцінка значимості може здійснюватися за допомогою критерію t за формулою:
.
Використовуючи таблицю значень t Стьюдента, при числі ступенів свободи без двох (n2= n-2), порівнюють обчислене значення з табличним. Коефіцієнт визнається значущим за умови, якщо розрахункове t> t0,05табличного.
Критичне значення коефіцієнтів кореляції Спірмена - r
n |
Рівні значущості |
n |
Рівні значущості | ||
5% |
1% |
5% |
1% | ||
4 |
1,000 |
|
16 |
0,425 |
0,601 |
5 |
0,900 |
1,000 |
18 |
0,399 |
0,564 |
6 |
0,829 |
0,843 |
20 |
0,377 |
0,534 |
7 |
0,714 |
0,893 |
22 |
0,359 |
0,508 |
8 |
0,643 |
0,833 |
24 |
0,343 |
0,485 |
9 |
0,600 |
0,783 |
26 |
0,329 |
0,465 |
10 |
0,564 |
0,746 |
28 |
0,317 |
0,448 |
12 |
0,506 |
0,712 |
30 |
0,306 |
0,435 |
14 |
0,456 |
0,645 |
|
|
|
Коефіцієнт кореляції визнається значущим (достовірним), якщо обчислене r £ r 0,05.
У розглянутому прикладі число спостережень менше 9 (n = 5), внаслідок чого оцінка коефіцієнта проведена за таблицею. При числі спостережень, що дорівнює 5, розраховане значення r =- 0,80 менше критичного і тому не можна з достатньою вірогідністю стверджувати, що між смертністю від раку молочної залози і раку матки існує якась залежність.
Визначення тісноти зв'язку між якісними ознаками
При вивченні залежності якісних ознак використовується коефіцієнт спряженості. Для визначення тісноти зв'язку в разі альтернативної залежності двох ознак , які співставляються (дані, як правило, представлені в таблицях з чотирма полями) коефіцієнти спряженості розраховуються за формулами:
коефіцієнт контингенции Шарльє:
коефіцієнт асоціації Юла (Q):
Алгоритм розрахунку:
1) шифрують через a, b, c, d чотири поля, в
яких розташовані вихідні дані:
;
2) обчислюють послідовно твориa * d і b * c;
3) розраховують чисельник формули;
4) визначають знаменник формули;
5) обчислюють коефіцієнт Шарльє або Юла.
Приклад. Визначити залежність між методами лікування (хірургічний і рентгенотерапія, тільки хірургічний) і результатами (одужання чи неодужання).
Метод |
Одужання |
Неодужання |
Усього хворих |
I |
14 (a) |
8 (b) |
22 (a + b) |
II |
7 (c) |
9 (d) |
16 (c + d) |
Усього: |
21 (a + c) |
17 (b + d) |
38 (a + b + c + d) = N |
.
Примітка. Коефіцієнт асоціації дає швидку, але орієнтовну оцінку зв'язку. Досить точну величину коефіцієнт Q визначає для значень r між 1,5 і 0,5.
У тих випадках, коли якісні фактори мають не альтернативне варіювання (чотири поля), а більше число угруповань, коефіцієнт спряженості обчислюється за формулою:
,
де j 2(фі-квадрат) - коефіцієнт контингенції Пірсона.
Алгоритм розрахунку:
1) встановлюють кореляційну таблицю;
2) частоти (числа спостережень) вписують зверху кожної клітини таблиці;
3) частоти зводять у квадрат і результат записують під ними;
4) квадрат частот ділять на суму числа спостережень (частот) кожної графи таблиці (див. приклад розрахунку: 625:46 = 12,7; 225:75 = 3 і т.д.);
5) результат від ділення проставляють внизу кожної клітини таблиці;
6) визначають суму результату від ділення по кожному рядку і записують у нижній частині підсумкової клітини таблиці (12,7 +3,0 +2,0 = 17,7 і т.д.);
7) зазначені суми ділять на відповідніпідсумки рядків (сума від числа спостережень за рядком): 17,7:50 = 0,35; 24,5:60 = 0,4 і т.д.;
8) обчислюють значення j 2,який є сумою отриманих вище результатів від ділення без одиниці (j2= 1,28-1 = 0,28);
9) отримане значення j 2підставляють у формулу і обчислюють коефіцієнт спряженості С.
Приклад. Обчислити коефіцієнт спряженості при вимірюванні тісноти зв'язку між житловими умовами і захворюваністю обстежуваних.
Житлові умови |
Розподіл обстежуваних за частотою захворювань |
Разом | |||
Частота хворіють |
Епізодично хворіють |
Чи не хворіють | |||
Незадовільні |
25 |
15 |
10 |
50 |
|
25 2= 625 |
225 |
100 |
|
| |
12,7 |
3 |
2 |
17,7 |
0,35 | |
Задовільні |
18 |
36 |
6 |
60 |
|
324 |
1296 |
36 |
|
| |
6,6 |
17,3 |
0,6 |
24,5 |
0,4 | |
Хороші |
6 |
24 |
40 |
70 |
|
36 |
576 |
1600 |
|
| |
0,8 |
7,7 |
28,6 |
37,1 |
0,53 | |
|
25 +18 +6 = 49 |
75 |
56 |
180 |
0,35 +0,4 +0,53 = 1,28 |
,
Звідси
.
Величина С дозволяє судити про наявність середнього кореляційного зв'язку між розглянутими факторами.