Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Холмская экзамен / Моделювання систем

.pdf
Скачиваний:
87
Добавлен:
12.05.2015
Размер:
11.94 Mб
Скачать

Для великих за обсягом вибірок (п > 50) критичні значення мають розпо-

діл Стьюдента з ( п - 2 ) ступенями вільності. Статистика V n -lp s для ве-

ликих вибірок наближається до стандартного нормального розподілу.

Інший підхід використовує як міру подібності двох вибірок мініма­ льну кількість перестановок сусідніх об'єктів, потрібну для переведення однієї вибірки до іншої. Можна показати, що вона дорівнює кількості ін­ версій в однієї з рангових послідовностей у випадку, коли інша рангова послідовність впорядкована за зростанням. Нехай, наприклад, п = 4, пос­ лідовність Г; впорядкована за зростанням, a s; = {4, 3, 1, 2]. Інверсіями є: 4 > 3; 4 > 1; 4 > 2; 3 > 1; 3 > 2. їх кількість К = 5. Найменше можливе зна­ чення кількості інверсій К = 0 відповідає повному збігу рангових послідо-

вностей, а найбільше К = —-------- - їх повній протилежності. 2

Як і в попередньому випадку кількість інверсій залежить від обсягу вибірки і є незручною для застосування як показника кореляції. Для цього використовують коефіцієнт рангової кореляції Кендалла (коефіцієнт

кореляції рангів, ранговий коефіцієнт кореляції), який розраховують за

формулою:

х = 1 -

(7.22)

де , s; - масиви рангів аналізованих рядів, п - кількість пар варіант у них. Вх, Ву - поправки на об'єднання рангів у відповідних рядах, які обчи­ слюють за формулою:

де m - кількість груп об'єднаних рангів у вибірці, п, - кількість рангів в і-й

групі.

Для коефіцієнта рангової кореляції Кендалла у випадку великих ви­ бірок статистика:

(7.24)

має розподіл, близький до стандартного нормального закону.

Коефіцієнт рангової кореляції Кендалла призначений для визначення сили кореляційного зв'язку між двома рядами даних за тих самих умов, що і коефіцієнт рангової кореляції Спірмена. Як і для коефіцієнта Спірмена його значення можуть змінюватися в межах від -1 до +1, при цьому -1 ві­ дповідає повній протилежності послідовностей рангів, а +1 - їх повному збігу. Слід зазначити, що обчислення коефіцієнта Кендалла є більш тру­ домістким, але з іншого боку, він має ряд переваг порівняно із коефіцієн­ том Спірмена. Основними з них є:

-кращий рівень вивченості його статистичних властивостей, зок­ рема його вибіркового розподілу;

-можливість його застосування для визначення частинної кореля-

цп;

більша зручність перерахунку при додаванні нових даних.

7.3.Кореляційний аналіз номінальних ознак

Типовою ситуацією, де зустрічається необхідність перевірки зв’язку між номінальними ознаками, є обробка результатів соціологічних дослі­ джень, що можуть містити такі комбінації ознак, як освіта, стать, профе­ сія, підтримка певної політичної партії, регіон мешкання тощо.

При дослідженні зв’язків між категоризованими ознаками вихідні дані подають у вигляді таблиці спряженості (табл. 7.2). До категоризова-

них зараховують номінальні ознаки, а також порядкові ознаки, для яких є відомим скінченний набір можливих градацій.

 

 

 

 

Таблиця 7.2

 

Таблиця спряженості категоризованих ознак

 

Рівні

 

Рівні ознаки 2

 

Разом

ознаки 1

1

2

r

 

1

f n

fl2

fir

Пі

2

$21

^22

f2r

n2

c

Разом

fol

fC2

for

nc

m i

m2

m,

S

Величини fjj показують скільки разів зустрічалася комбінація ознак,

за якої рівень першої має значення і, а рівень другої - значення], nij є су­ мами стовпців, а П; - сумами рядків. За даними таблиці можна оцінити значення імовірностей, що входять до формули (7.1):

f

r

n

с

m

Pij=p(AiBj) = -^; Pi = p(Ai) = XPij =т-; р.і = р (в і) = Х р,і = -^ -

15

j=l

15

i=l

15

(7.25)

Звідси для незалежних ознак маємо:

(7.26)

Величини фу = njin j / S є очікуваними частотами. Нульову гіпотезу про відсутність зв’язку відхиляють, якщо різницю між ними й частотами,

що спостерігаються, не можна пояснити випадковими чинниками. Як кри­ терій можна використовувати величину:

 

(7.27)

і=1 j=l

Фу

 

2

яка при достатньо великому обсязі вибірки наближається до розподілу % з

кількістю ступенів вільності (г —і)(с —і) . На практиці для можливості за­

стосування критерію часто вважають достатнім, щоб усі значення fjj були не меншими ніж п’ять. При збільшенні кількості ступенів вільності міні­ мальні значення fij можуть бути дещо меншими.

Існує велика кількість показників ступеня тісноти статистичного

зв’язку, призначених для категоризованих змінних, які не є універсальни­ ми, а відображають окремі властивості такого зв’язку.

Коефіцієнт Крамера розраховують за формулою:

 

1/2

с =

(7.28)

mmin (с —1,г —і)

Він змінюється в межах від нуля до одиниці. При цьому значення С = 0 свідчить про статистичну незалежність аналізованих ознак, а зна­ чення С = 1 - про можливість однозначного відтворення значень однієї ознаки за відомими значеннями другої. Дисперсію оцінки коефіцієнта Крамера можна отримати з виразу:

n m in (c - l,r - l)

Її довірчий інтервал:

[ C - Ul_aa c ;C + Ul_aa c ],

(7.30)

де uq - q-квантиль стандартного нормального розподілу.

Поліхоричний коефіцієнт спряженості Чупрова призначений для дослідження кореляції номінальних ознак у таблиці спряженості г х с . Йо­ го значення розраховують за формулою:

(7.31)

Існує велика кількість коефіцієнтів, що характеризують кореляцію між ознаками у випадку, коли кожна з двох ознак може мати лише два рі­ вні, які найчастіше відповідають наявності та відсутності ознаки. У цьому випадку таблиця спряженості має розмір 2x2 і її елементи позначають так: а = fu , b = f12, с = f21, d = f22.

Коефіцієнт (показник подібності) Жаккара обчислюють за фор­

мулою:

J =

---- ----- .

(7.32)

 

a + b + c

 

Значення цього коефіцієнта можуть змінюватися в межах від нуля до

одиниці.

Простий коефіцієнт зустрічальності (показник подібності Сока-

ла й Міченера) розраховують за формулою:

J = a + d = _ a + d _

(?33)

n a + b + c + d

Як і в попередньому випадку, значення коефіцієнта можуть зміню­

ватися в межах від нуля до одиниці.

Показник подібності Рассела і Рао обчислюють як:

J = —= ------ -------

.

(7.34)

n a + b + c + d

 

 

Його значення також можуть змінюватися в межах від нуля до оди­

ниці.

Коефіцієнт спряженості Бравайса (ф-коефіцієнт Пірсона, показ­ ник подібності Чупрова) розраховують за формулою:

С= ,

ad~ bc

.

(7.35)

^(a + b)(a + c)(d + b)(d + c)

 

 

Значення цього коефіцієнта може змінюватися в межах від -1 до +1.

Коефіцієнт асоціації Юла визначають із співвідношення:

Q

ad -b c

(7.36)

 

ad + bc

Коефіцієнт колігації Юла обчислюють як:

Він не має переваг порівняно з коефіцієнтом асоціації. Значення обох коефіцієнтів змінюються в межах від -1 до +1.

Хеммінгова відстань (метрика Хеммінга) Н = а + d також може застосовуватися для визначення кореляції, але, як і коваріація, вона не є безрозмірною величиною і може набувати будь-яких невід'ємних значень

(верхньою межею є загальна кількість спостережень п.

7.4. Кореляційний аналіз змішаних ознак

Коефіцієнт Гауера застосовують у тому випадку, коли досліджувані ознаки виміряні в різних шкалах. Обчислення елементів матриці подібно­ сті здійснюють за формулою:

р

(7.38)

к=1

де Sijk (i,j =

k = l,

...,p) - внесок ознаки у подібність об'єктів,

-

вагова змінна ознаки, р

- кількість ознак, що характеризують об'єкт,

п -

кількість об'єктів.

Для дихотомічних ознак алгоритм підрахунку внеску ознаки і визна­ чення вагових коефіцієнтів збігається з коефіцієнтом Жаккара. Для поряд­ кових ознак алгоритм підрахунку внеску ознаки збігається з Хеммінговою відстанню, узагальненою на порядкові змінні, а вагові коефіцієнти беруть рівними одиниці для всіх ознак. Для кількісних ознак:

(7.39)

де xik,xjk - значення k-ї змінної для об'єктів і та j, Rk - розкид k-ї ознаки,

обчислений за всіма об'єктами.

Бісеріальний коефіцієнт кореляції призначений для дослідження кореляції в таблицях розміром 2 х п , які є дихотоміями за певною номіна­ льною ознакою і класифікаціями за номінальною або порядковою озна­ кою, яка класифікується за q класами і може бути впорядкованою або не-

впорядкованою. Вихідний розподіл має бути двовимірним нормальним.

У разі класифікації за порядковою ознакою бісеріальний коефіцієнт:

(7.40)

де Xj - середнє за першим рядком, х - загальне середнє за всією табли­ цею, sx - вибіркове середнє квадратичне відхилення, Пі - чисельність

першого рядка, п - загальна чисельність усіх вибірок, zk - ордината щіль­ ності нормального розподілу в точці к, де к - розв'язок рівняння:

l - F ( k ) = n1/n.

(7.41)

Похибку бісеріального коефіцієнта можна визначити за формулою:

т , = ^ .

(7-42)

Vп

Вона має t-розподіл з кількістю ступенів вільності (п - 2).

Бісеріальний коефіцієнт кореляції за таблицею Келлі - Вуда роз­ раховують за формулою:

X j - X 2 pq

гь =

(7.43)

де р = щ / п - частка частот у рядку, що визначається умовою р > q , q -

частка частот в іншому рядку, q - ордината в точці межі класів частот першого та другого рядків, яка визначається за таблицею Келлі - Вуда.

Похибку коефіцієнта визначають за формулою:

У випадку класифікації за номінальною ознакою обчислення бісері-

ального коефіцієнта кореляції можна здійснить за формулою:

г

(7.45)

де п загальна чисельність таблиці; п; - чисельність таблиці в і-му перетині; mi/s; - оцінка в перетині і, одержувана за таблицею нормального інтеграла від відносної частоти першої з двох якісних ознак; my/sy - оцінка, одержу­ вана за таблицею нормального інтеграла від відносної частоти першої які­ сної ознаки за всією таблицею.

У випадку, коли одна із змінних дихотомізована, а інша - виміряна в кількісній шкалі, обчислюють точково-бісеріальний коефіцієнт кореля­ ції, який визначається за формулою:

(7.46)

де хр - середнє варіант кількісної вибірки, які відповідають подіям верх­

нього (першого) рівня дихотомічної вибірки, х - середнє кількісної вибі­ рки, sx - середнє квадратичне кількісної вибірки, пр - кількість подій у верхній (з рівнем 1) групі, nq - кількість подій у нижній (з рівнем 2) групі.

При цьому передбачається, що дихотомічна змінна може набувати лише два значення: 1 (верхній рівень) та 0 (нижній рівень). З погляду теорії точ­

Соседние файлы в папке Холмская экзамен