Холмская экзамен / Моделювання систем
.pdfДля великих за обсягом вибірок (п > 50) критичні значення мають розпо-
діл Стьюдента з ( п - 2 ) ступенями вільності. Статистика V n -lp s для ве-
ликих вибірок наближається до стандартного нормального розподілу.
Інший підхід використовує як міру подібності двох вибірок мініма льну кількість перестановок сусідніх об'єктів, потрібну для переведення однієї вибірки до іншої. Можна показати, що вона дорівнює кількості ін версій в однієї з рангових послідовностей у випадку, коли інша рангова послідовність впорядкована за зростанням. Нехай, наприклад, п = 4, пос лідовність Г; впорядкована за зростанням, a s; = {4, 3, 1, 2]. Інверсіями є: 4 > 3; 4 > 1; 4 > 2; 3 > 1; 3 > 2. їх кількість К = 5. Найменше можливе зна чення кількості інверсій К = 0 відповідає повному збігу рангових послідо-
вностей, а найбільше К = —-------- - їх повній протилежності. 2
Як і в попередньому випадку кількість інверсій залежить від обсягу вибірки і є незручною для застосування як показника кореляції. Для цього використовують коефіцієнт рангової кореляції Кендалла (коефіцієнт
кореляції рангів, ранговий коефіцієнт кореляції), який розраховують за
формулою:
х = 1 -
2К
(7.22)
де , s; - масиви рангів аналізованих рядів, п - кількість пар варіант у них. Вх, Ву - поправки на об'єднання рангів у відповідних рядах, які обчи слюють за формулою:
де m - кількість груп об'єднаних рангів у вибірці, п, - кількість рангів в і-й
групі.
Для коефіцієнта рангової кореляції Кендалла у випадку великих ви бірок статистика:
(7.24)
має розподіл, близький до стандартного нормального закону.
Коефіцієнт рангової кореляції Кендалла призначений для визначення сили кореляційного зв'язку між двома рядами даних за тих самих умов, що і коефіцієнт рангової кореляції Спірмена. Як і для коефіцієнта Спірмена його значення можуть змінюватися в межах від -1 до +1, при цьому -1 ві дповідає повній протилежності послідовностей рангів, а +1 - їх повному збігу. Слід зазначити, що обчислення коефіцієнта Кендалла є більш тру домістким, але з іншого боку, він має ряд переваг порівняно із коефіцієн том Спірмена. Основними з них є:
-кращий рівень вивченості його статистичних властивостей, зок рема його вибіркового розподілу;
-можливість його застосування для визначення частинної кореля-
цп;
більша зручність перерахунку при додаванні нових даних.
7.3.Кореляційний аналіз номінальних ознак
Типовою ситуацією, де зустрічається необхідність перевірки зв’язку між номінальними ознаками, є обробка результатів соціологічних дослі джень, що можуть містити такі комбінації ознак, як освіта, стать, профе сія, підтримка певної політичної партії, регіон мешкання тощо.
При дослідженні зв’язків між категоризованими ознаками вихідні дані подають у вигляді таблиці спряженості (табл. 7.2). До категоризова-
них зараховують номінальні ознаки, а також порядкові ознаки, для яких є відомим скінченний набір можливих градацій.
|
|
|
|
Таблиця 7.2 |
|
Таблиця спряженості категоризованих ознак |
|
||
Рівні |
|
Рівні ознаки 2 |
|
Разом |
ознаки 1 |
1 |
2 |
r |
|
1 |
f n |
fl2 |
fir |
Пі |
2 |
$21 |
^22 |
f2r |
n2 |
c
Разом
fol |
fC2 |
for |
nc |
m i |
m2 |
m, |
S |
Величини fjj показують скільки разів зустрічалася комбінація ознак,
за якої рівень першої має значення і, а рівень другої - значення], nij є су мами стовпців, а П; - сумами рядків. За даними таблиці можна оцінити значення імовірностей, що входять до формули (7.1):
f |
r |
n |
с |
m |
Pij=p(AiBj) = -^; Pi = p(Ai) = XPij =т-; р.і = р (в і) = Х р,і = -^ -
15 |
j=l |
15 |
i=l |
15 |
(7.25)
Звідси для незалежних ознак маємо:
(7.26)
Величини фу = njin j / S є очікуваними частотами. Нульову гіпотезу про відсутність зв’язку відхиляють, якщо різницю між ними й частотами,
що спостерігаються, не можна пояснити випадковими чинниками. Як кри терій можна використовувати величину:
|
(7.27) |
і=1 j=l |
Фу |
|
2 |
яка при достатньо великому обсязі вибірки наближається до розподілу % з
кількістю ступенів вільності (г —і)(с —і) . На практиці для можливості за
стосування критерію часто вважають достатнім, щоб усі значення fjj були не меншими ніж п’ять. При збільшенні кількості ступенів вільності міні мальні значення fij можуть бути дещо меншими.
Існує велика кількість показників ступеня тісноти статистичного
зв’язку, призначених для категоризованих змінних, які не є універсальни ми, а відображають окремі властивості такого зв’язку.
Коефіцієнт Крамера розраховують за формулою:
|
1/2 |
с = |
(7.28) |
mmin (с —1,г —і)
Він змінюється в межах від нуля до одиниці. При цьому значення С = 0 свідчить про статистичну незалежність аналізованих ознак, а зна чення С = 1 - про можливість однозначного відтворення значень однієї ознаки за відомими значеннями другої. Дисперсію оцінки коефіцієнта Крамера можна отримати з виразу:
n m in (c - l,r - l)
Її довірчий інтервал:
[ C - Ul_aa c ;C + Ul_aa c ], |
(7.30) |
де uq - q-квантиль стандартного нормального розподілу.
Поліхоричний коефіцієнт спряженості Чупрова призначений для дослідження кореляції номінальних ознак у таблиці спряженості г х с . Йо го значення розраховують за формулою:
(7.31)
Існує велика кількість коефіцієнтів, що характеризують кореляцію між ознаками у випадку, коли кожна з двох ознак може мати лише два рі вні, які найчастіше відповідають наявності та відсутності ознаки. У цьому випадку таблиця спряженості має розмір 2x2 і її елементи позначають так: а = fu , b = f12, с = f21, d = f22.
Коефіцієнт (показник подібності) Жаккара обчислюють за фор
мулою:
J = |
---- ----- . |
(7.32) |
|
a + b + c |
|
Значення цього коефіцієнта можуть змінюватися в межах від нуля до
одиниці.
Простий коефіцієнт зустрічальності (показник подібності Сока-
ла й Міченера) розраховують за формулою:
J = a + d = _ a + d _ |
(?33) |
n a + b + c + d
Як і в попередньому випадку, значення коефіцієнта можуть зміню
ватися в межах від нуля до одиниці.
Показник подібності Рассела і Рао обчислюють як:
J = —= ------ ------- |
. |
(7.34) |
n a + b + c + d |
|
|
Його значення також можуть змінюватися в межах від нуля до оди
ниці.
Коефіцієнт спряженості Бравайса (ф-коефіцієнт Пірсона, показ ник подібності Чупрова) розраховують за формулою:
С= , |
ad~ bc |
. |
(7.35) |
^(a + b)(a + c)(d + b)(d + c) |
|
|
|
Значення цього коефіцієнта може змінюватися в межах від -1 до +1.
Коефіцієнт асоціації Юла визначають із співвідношення:
Q |
ad -b c |
(7.36) |
|
|
ad + bc |
Коефіцієнт колігації Юла обчислюють як:
Він не має переваг порівняно з коефіцієнтом асоціації. Значення обох коефіцієнтів змінюються в межах від -1 до +1.
Хеммінгова відстань (метрика Хеммінга) Н = а + d також може застосовуватися для визначення кореляції, але, як і коваріація, вона не є безрозмірною величиною і може набувати будь-яких невід'ємних значень
(верхньою межею є загальна кількість спостережень п.
7.4. Кореляційний аналіз змішаних ознак
Коефіцієнт Гауера застосовують у тому випадку, коли досліджувані ознаки виміряні в різних шкалах. Обчислення елементів матриці подібно сті здійснюють за формулою:
р
(7.38)
к=1
де Sijk (i,j = |
k = l, |
...,p) - внесок ознаки у подібність об'єктів, |
- |
вагова змінна ознаки, р |
- кількість ознак, що характеризують об'єкт, |
п - |
|
кількість об'єктів.
Для дихотомічних ознак алгоритм підрахунку внеску ознаки і визна чення вагових коефіцієнтів збігається з коефіцієнтом Жаккара. Для поряд кових ознак алгоритм підрахунку внеску ознаки збігається з Хеммінговою відстанню, узагальненою на порядкові змінні, а вагові коефіцієнти беруть рівними одиниці для всіх ознак. Для кількісних ознак:
(7.39)
де xik,xjk - значення k-ї змінної для об'єктів і та j, Rk - розкид k-ї ознаки,
обчислений за всіма об'єктами.
Бісеріальний коефіцієнт кореляції призначений для дослідження кореляції в таблицях розміром 2 х п , які є дихотоміями за певною номіна льною ознакою і класифікаціями за номінальною або порядковою озна кою, яка класифікується за q класами і може бути впорядкованою або не-
впорядкованою. Вихідний розподіл має бути двовимірним нормальним.
У разі класифікації за порядковою ознакою бісеріальний коефіцієнт:
(7.40)
де Xj - середнє за першим рядком, х - загальне середнє за всією табли цею, sx - вибіркове середнє квадратичне відхилення, Пі - чисельність
першого рядка, п - загальна чисельність усіх вибірок, zk - ордината щіль ності нормального розподілу в точці к, де к - розв'язок рівняння:
l - F ( k ) = n1/n. |
(7.41) |
Похибку бісеріального коефіцієнта можна визначити за формулою:
т , = ^ . |
(7-42) |
Vп
Вона має t-розподіл з кількістю ступенів вільності (п - 2).
Бісеріальний коефіцієнт кореляції за таблицею Келлі - Вуда роз раховують за формулою:
X j - X 2 pq
гь = |
(7.43) |
де р = щ / п - частка частот у рядку, що визначається умовою р > q , q -
частка частот в іншому рядку, q - ордината в точці межі класів частот першого та другого рядків, яка визначається за таблицею Келлі - Вуда.
Похибку коефіцієнта визначають за формулою:
У випадку класифікації за номінальною ознакою обчислення бісері-
ального коефіцієнта кореляції можна здійснить за формулою:
г |
(7.45) |
де п загальна чисельність таблиці; п; - чисельність таблиці в і-му перетині; mi/s; - оцінка в перетині і, одержувана за таблицею нормального інтеграла від відносної частоти першої з двох якісних ознак; my/sy - оцінка, одержу вана за таблицею нормального інтеграла від відносної частоти першої які сної ознаки за всією таблицею.
У випадку, коли одна із змінних дихотомізована, а інша - виміряна в кількісній шкалі, обчислюють точково-бісеріальний коефіцієнт кореля ції, який визначається за формулою:
(7.46)
де хр - середнє варіант кількісної вибірки, які відповідають подіям верх
нього (першого) рівня дихотомічної вибірки, х - середнє кількісної вибі рки, sx - середнє квадратичне кількісної вибірки, пр - кількість подій у верхній (з рівнем 1) групі, nq - кількість подій у нижній (з рівнем 2) групі.
При цьому передбачається, що дихотомічна змінна може набувати лише два значення: 1 (верхній рівень) та 0 (нижній рівень). З погляду теорії точ
