Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Назаметдинов Анализ данных 2012

.pdf
Скачиваний:
10
Добавлен:
12.11.2022
Размер:
5.66 Mб
Скачать

Если подставить в (2.6) выражения для остатков (2.5), можно придти к выражению:

 

r12.3

 

 

r12 r13r23

 

 

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1 r132

1 r232

 

 

 

 

В общем случае ЧКК вычисляется по следующей формуле:

 

rij. X (i , j )

 

 

Rij

 

,

 

 

 

 

 

 

 

 

 

 

 

 

 

Rii

 

 

R jj

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где rij. X (i , j )

– частный коэффициент корреляции между переменны-

ми хi и хj

при фиксированных значениях всех остальных («меша-

ющих») переменных Х(ij), а Rkl

– алгебраическое дополнение эле-

мента rkl в определителе корреляционной матрицы анализи-руемых переменных. Напомним, что Rkl ( 1)k l Akl , где Akl – определи-

тель матрицы, полученной вычеркиванием k-й строки и l-го столбца исходной матрицы.

ЧКК вообще-то зависит от значений «мешающих» переменных Х(ij). Если же случайные переменные (х12, …,хn) подчиняются многомерному нормальному закону, то такая зависимость отсутствует.

Что касается статистических свойств выборочного ЧКК, то они аналогичны свойствам парного КК. Проверка осуществляется так же, как и для парного КК с единственной поправкой: объем выборки уменьшают на число «мешающих» переменных.

Рассмотрим пример. По выборке из 27 малых предприятий построена корреляционная матрица

 

 

1

0, 20

0,10

ˆ

 

0, 20

1

0, 98

 

R

 

 

 

 

 

 

 

 

0,10

0, 98

1

 

по переменным: х1 – годовой доход, х2 – численность персонала, х3

– стоимость основных средств. Коэффициенты rˆ12 0,20, rˆ13 0,10 оказались незначимыми: согласно (2.4) t p (rˆ12 ) 1,02 , t p (rˆ13 ) 0,5 , что меньше tТ [0,05; 25]=2,060.

31

Рассчитаем ЧКК:

ˆ

 

 

 

0,20 0,10 0,98

 

0,52

. Согласно (2.4)

r12.3

 

 

 

 

(1 0,102 )(1 0,982 )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0.52

 

 

 

 

 

 

 

 

 

. Сравним получен-ное значение tp c

t p

 

27

2

1 2,98

 

 

 

 

 

 

1 0.522

 

 

 

 

 

 

 

 

 

 

 

 

 

 

tТ [0,05; 24] = 2,064. Поскольку tp>tТ, ЧКК значим.

2.1.3. Множественный коэффициент корреляции

Коэффициент множественной корреляции предназначен для измерения тесноты связи между случайной переменной у и некой совокупностью переменных х12,…хn, причем последние представляются в виде линейной свертки (плоскости):

y a0 a1x1 ... an xn

(2.7)

– такой, что сумма квадратов расстояний между наблюдениями

~

 

 

yi , i 1,2,...,N и плоскостью (2.7) минимальна.

 

 

ˆ

Подставив в (2.7) значения х, получим yi , i 1,2,...N . Теперь ко-

эффициент множественной

корреляции можно определить как

обычный КК Пирсона между

~

ˆ

y и

y . Заметим, что множественный

КК (точнее его квадрат R2) вводится как мера качества модели в регрессионном анализе (см.п. 3.7).

2.2.Оценка связи качественных переменных

2.2.1.Оценка связи порядковых переменных

Рассмотрим вначале оценку связи между парой порядковых переменных (признаков) х и у. Как правило, это результаты измерений, получаемых экспертным путем, так что хi ранг (порядковое место), приписываемый i-му объекту (i=1,2,…,N) первым экспертом, а уi ранг, приписываемый этому же объекту вторым экспертом. Подобные ряды часто называют ранжировками. Если признаки х и у взаимосвязаны, то порядок, в котором следуют числа x1,x2,…,xN, будет влиять и на последовательность y1,y2,…,yN.

32

В отсутствие связи уместно выдвинуть гипотезу Н0 о случайном ранжировании, так что любая из N! перестановок из чисел 1,2,…,N представляется равновозможной.

Степень близости двух рядов чисел x1,x2,…,xN и y1,y2,…,yN отра-

N

жает сумма квадратов S (xi yi )2 . S = 0, когда обе последо-

i 1

вательности совпадают. Если последовательности противоположны (x i =1 соответствует y i =N, x j =2 – у j =N-1 и т.д.), S принимает максимальное значение, равное (N 3-N)/3. Нормируя S на максимальное значение так, чтобы получающаяся величина лежала в диапазоне от

–1 до 1, получают коэффициент ранговой корреляции Спирмена

r

1

6S

N 3 N .

ˆS

 

 

 

Наряду с rS широкую популярность получил коэффициент ранговой корреляции Кендэла. Этот коэффициент в качестве меры близости двух рядов чисел использует минимальное число перестановок соседних чисел, переводящее одно упорядочение в другое. Оказывается, число таких перестановок равняется числу ин-

версий.

Алгоритм подсчета числа инверсий следующий. Переставим объекты в порядке возрастания значений х. В итоге по первому признаку получим натуральный ряд чисел 1,2,…,N, а по второму – ряд, который обозначим z1,z2,…,zN. Будем сравнивать zi (i=1,2,…,N) c последующими значениями zi+1,zi+2,…,zN. Если окажется, что

zi>zi+k, k=1,2,…,N-i, то имеет место инверсия (нарушение порядка). Обозначим mi число инверсий, связанных с zi. Тогда полное число

инверсий составит К=m1+m2+…+mN.

Пусть, например, ряд z имеет четыре члена 3,4,1,2. Число 3 вызывает две инверсии (с 1 и 2), число 4 дает также две инверсии, 1 предшествует 2, так что инверсия здесь не имеет места. В итоге

получим четыре инверсии.

Число инверсий К лежит в диапазоне от 0 до N(N-1)/2. Нор-

мируя К, получают коэффициент ранговой корреляции Кендэла:

33

ˆK

 

4K

r

1

 

.

N (N 1)

В условиях гипотезы Н0 (случайное независимое ранжирование) любая из N! перестановок равновероятна, поэтому можно рассчитать закон распределения вероятностей rS и rK. В табл. 2.1 приводятся критические значения коэффициентов rS и rK для уровней значимости 0,05 при числе сравниваемых объектов N в диапазоне

 

 

 

ˆ S

либо

ˆ K

превзойдут

5 ≤ N ≤ 10 [1]. Если расчетные значения r

r

по модулю критические значения, то гипотеза Н0 отвергается.

 

 

 

 

 

 

 

 

Таблица 2.1

Число объектов

5

6

7

8

 

 

9

 

10

Уровень значимости

0,084

0,058

0,066

0,058

 

 

0,044

 

0,06

r S

0,900

0,829

0,750

0,714

 

 

0,700

 

0,624

кр

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Уровень значимости

0,084

0,056

0,070

0,062

 

 

0,044

 

0,046

r K

0,800

0,733

0,619

0,571

 

 

0,556

 

0,511

кр

 

 

 

 

 

 

 

 

 

Для проверки значимости коэффициента ранговой корреляции при N >10 можно воспользоваться тем фактом, что случайные величины

 

S

ˆS

 

 

 

K

ˆK

9N (N 1)

 

 

 

 

 

 

u

 

r

N 1 ,

u

 

= r

 

 

 

 

2(2N 5)

 

 

 

 

 

 

 

 

 

 

 

распределены (приближенно) по нормальному закону с нулевым математическим ожиданием и единичной дисперсией. Обозначим

u Sp , u Kp значения uS и uK для конкретного, выборочного, значения rˆS и rˆK . Если окажется, что u Sp либо u Kp превышает табличное

значение uT стандартного нормального закона при выбранном уровне значимости q (для q=0,05 uт=1,96), гипотеза Н0 отвергается.

Приведенные выше формулы для rS и rK получены в предположении, что соответствующая система с отношениями не содержит классов эквивалентности, так что каждому объекту удалось присвоить определенный, отличный от других, ранг. Наличие клас-

34

сов эквивалентности означает, что всем объектам данного класса должен быть присвоен один и тот же ранг, равный среднему значению мест, которые объекты поделили. Такие ранги называют связанными. Пусть, например, шесть объектов упорядочены как представлено в табл.2.2.

Таблица 2.2

Объекты

1

2

3

4

5

6

Места

1

1

2

3

3

3

Из таблицы видно, что объекты 1 и 2 образуют один класс эквивалентности, а объекты 4, 5 и 6 – другой. Ранги, которые должны быть приписаны в итоге, указаны в табл.2.3.

Таблица 2.3

Объекты

1

2

3

4

5

6

Ранги

1,5

1,5

3

5

5

5

При наличии связанных рангов выражение rˆ S

приобретает вид

 

 

 

 

 

 

 

 

 

 

 

 

N

 

 

 

 

 

 

 

 

 

 

 

 

1

 

(N 3

N ) (xi yi )2 T U

 

 

 

 

 

6

 

 

ˆS

 

 

 

 

 

 

 

i 1

 

 

 

 

 

,

(2.8)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

rпр

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

1

 

 

 

 

 

 

 

 

 

 

3

 

 

3

 

 

 

 

 

 

 

 

 

 

(N

 

N ) 2T

 

 

(N

 

N ) 2U

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

6

 

 

 

6

 

 

 

 

 

где

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k

 

 

 

 

 

 

 

l

 

 

 

 

 

 

T

 

1

 

ti (ti2

1),

U

1

 

ui (ui2

1);

 

12

 

 

 

i 1

 

 

 

12

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k и l – число случаев появления связанных рангов; ti и ui число

совпадающих рангов в каждом из упорядочений. Так, для данных табл. 2.3 Т =[2(22–1)+3(32–1)]/12.

35

«Правленый» коэффициент

определяется соотношением rˆпKр

ранговой корреляции Кендэла

rˆK

 

 

 

 

 

 

 

 

 

 

 

 

пр

 

 

 

ˆK

 

2(T1 U1)

 

 

 

 

 

 

 

r

N (N 1)

 

,

 

 

 

 

 

 

 

 

 

 

 

 

(1

2T1

 

)(1

2U1

 

 

 

 

 

 

 

 

 

 

 

)

 

 

 

N (N 1)

N (N 1)

 

 

 

 

 

k

 

 

l

в котором T1

1

ti (ti 1) ,

U1

1

ui (ui 1) . Смысл величин

 

 

 

2 i 1

 

2 i 1

k,l,ti,ui тот же, что и в rˆпрS .

Рассмотрим теперь меру согласия m (m>2) ранжировок. Пусть xij – ранг, приписанный i-му (i=1,2,…,N) объекту в j-м ранжирова-

нии (j=1,2,…,m). Для оценки степени связи между несколькими ранжировками используют коэффициент конкордации

ˆ

S

 

 

 

 

 

 

S

 

 

 

,

W

 

 

 

 

 

 

 

 

 

 

 

Smax

 

1

2

 

3

 

 

 

 

 

12 m

(N

 

N )

 

 

 

 

 

 

где

 

 

 

 

 

 

 

 

 

 

 

 

 

N

m

 

 

 

 

1

 

 

 

 

2

S xij

 

m(N 1)

(2.9)

 

 

i 1

j 1

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

– сумма квадратов отклонений суммы рангов, приписанных тому или иному объекту, от общего среднего; Smax максимальное значение S, получаемое в случае, когда все ранжировки совпадают.

В многомерном ранжировании возможно полное совпадение мнений у разных экспертов, однако теряется понятие «противоположного» мнения. Поэтому меру согласия вводят так, чтобы она равнялась 1 при полном совпадении ранжировок и 0 − при случайном ранжировании. Введенная мера этому условию удовлетворяет.

m

Действительно, при случайном ранжировании xij для разных i

j 1

будут близки между собой и не столь существенно отличаться от

36

 

ˆ

; при полном совпаде-

общего среднего m(N+1)/2, что дает W 0

ˆ

ˆ

 

нии ранжировок W 1. В итоге, 0

W 1 .

 

При наличии связанных рангов в формуле для ˆ знаменатель

W

m

уменьшается на величину m Tj , где Tj имеет тот же смысл, что и

j 1

Т в (2.8).

По имеющимся m ранжировкам можно подсчитать m(m-1)/2 коэффициентов rˆijS (i, j 1,2,...,m; i j) . Оказывается, среднее значе-

ние этих коэффициентов, обозначаемое как

 

 

S , и коэффициент

r

 

 

S

 

ˆ

конкордации связаны соотношением r

 

 

(mW 1) /(m 1) .

Для оценки значимости коэффициента конкордации можно воспользоваться χ2-распределением с ЧСС=N-1, которому приближенно удовлетворяет величина m ( N - 1) W при условии, что число

ˆ

2

сравниваемых объектов больше 7, т.е. N>7. При m(N 1)W кр

гипотеза о случайном ранжировании отвергается. При

N 7

проверка значимости производится с помощью табл.2.4 [1]. В ней

при уровне значимости 0,05 даны предельные значения SТ. Если вычисленное значение S (см.(2.9)) превышает SТ, т.е. S>SТ, гипо-

теза Н0

о случайном ранжировании отвергается.

 

Таблица 2.4

 

 

 

 

 

 

 

 

 

 

 

N

 

 

 

m

 

3

4

5

 

6

 

7

3

 

 

 

64,4

 

103,9

 

157,3

4

 

 

49,5

88,4

 

143,3

 

217,0

5

 

 

62,6

112,3

 

182,4

 

276,2

6

 

 

75,7

136,1

 

221,4

 

335,2

8

 

48,1

101,7

183,7

 

299,0

 

453,1

10

 

60,0

127,8

231,2

 

376,7

 

571,0

37

2.2.2. Оценка связи номинальных переменных

Предположим, что исследуемые объекты описываются двумя признаками А и В, причем А имеет k градаций (уровней), которые мы будем обозначать А12,…,Аk , а В l уровней В12,…,Вl.

Пусть в нашем распоряжении имеется выборка из N объектов. Обозначим через nij число (частоту) объектов, у которых признак А находится на уровне Аi, а признак В – на уровне Вj. Очевидно,

l

что число появлений уровня Аi во всей выборке равно nij . Усло-

j 1

вимся в дальнейшем опускать знак суммирования и означать сумму точкой на месте индекса, по которому ведется суммирование, т.е.

l

ni. nij . Аналогично, число появлений признака Bj n. j

j 1

 

 

k

l

k l

Ясно, что n.. ni. n. j nij N.

i 1

j 1

i 1 j 1

nij .

i1k

Выборочные частоты сводятся в таблицу, которую принято называть таблицей сопряженности признаков либо просто таблицей сопряженности (табл.2.5). Введем аналогичные обозначения для

 

 

 

l

 

 

k

 

 

вероятностей: pij=P(AiBj), P(Ai) = pij

pi. ,

P(Bj ) pij p. j .

 

 

 

j 1

 

 

i 1

Таблица 2.5

 

 

 

 

 

 

 

Уровни

 

 

Уровни В

 

 

 

 

Сумма

А

B1

Bj

 

Bl

 

 

A1

n11

n1j

 

 

n1q

 

n1.

 

 

Ai

ni1

nij

 

nil

 

ni.

 

 

Ak

nk1

nkj

 

nkl

 

nk.

Сумма

n.1

n.j

 

n.l

 

n..

Условие независимости признаков в принятых обозначениях имеет вид

38

p i j = p i . ∙ p . j для всех пар (i,j), i=1,…,k, j=1,…,l.

(2.10)

Проверить последнее соотношение не представляется возможным, поскольку значения вероятностей не известны. Однако по таблице сопряженности можно получить выборочные значения вероятностей, тем более точные, чем больше N.

По теореме Бернулли при N→∞ :

 

nij

 

n

n. j

 

 

 

pij ;

i.

pi.;

 

p. j ,

 

N

 

N

 

 

N

 

так что соотношение (2.10) трансформируется в

nij

ni n j

для всех пар (i,j), i=1,…,k, j=1,…,l. (2.11)

N

 

 

Выражение, стоящее в правой части (2.11), принято называть ожидаемыми частотами, тогда как nij – наблюдаемыми. В качестве меры расхождения между ожидаемыми и наблюдаемыми частотами используется статистика

 

2

k

l

 

ni.n. j

X

 

(nij

 

 

 

 

 

i 1

j 1

 

N

 

 

n

n

 

k

l

n2

 

 

2 i.

 

. j

 

 

ij

 

)

 

 

 

 

 

N

 

1 .

 

N

 

ni.n. j

 

 

 

 

i 1

j 1

 

Согласно теореме Пирсона−Фишера для независимых признаков при неограниченном росте числа наблюдений распределение

случайной величины Х 2 стремится к распределению 2 с числом степеней свободы, равным kl-(k-1)-(l-1)-1=(k-1)(l-1). На практике считается достаточным выполнение соотношения (n i . n . j / N ) 3 для всех i , j . Для зависимых признаков Х 2 неограниченно возрастает при увеличении N. Таким образом, для проверки гипотезы о

независимости двух признаков вычисляется статистика Х 2 и сравнивается с табличным значением T2 при выбранном уровне зна-

чимости и числе степеней свободы ЧСС=(k-1)(l-1). При Х 2 > Т2

гипотеза о независимости отвергается.

Если признаки зависимы, то интерес представляет численная мера связи. Достаточно просто они вводятся для дихотомических переменных. Рассмотрим таблицу сопряженности 2 2 (табл.2.6):

39

 

 

 

Таблица 2.6

 

 

 

 

 

 

х

х

 

 

у

a

b

a+b

 

y

c

d

c+d

 

 

a+c

b+d

N=a+b+c+d

 

(Черта на букве соответствует противоположному значению). Пусть, например, исследуется связь между уровнем образования

(О – высшее, О – отсутствие высшего образования), и уровнем дохода (Д – высокий уровень, Д – низкий уровень). Имеются две

выборки по сто человек (N=100) с таблицами сопряженности 2.7 и

2.8.

Таблица 2.7

 

О

О

 

 

 

 

 

Д

22

18

40

 

 

 

 

Д

8

52

60

 

 

 

 

 

30

70

100

 

 

 

 

Таблица 2.8

 

О

О

 

 

 

 

 

Д

2

38

40

 

 

 

 

Д

28

32

60

 

 

 

 

 

30

70

100

 

 

 

 

Вобеих таблицах доля лиц с высшим образованием составляет 30%, доля высокооплачиваемых – 40%. В первой таблице доля лиц

свысшим образованием среди высокооплачиваемых составляет 55% (22/40), что больше их доли по выборке в целом (30%). Во второй таблице лишь 5% (2/40) лиц с высшим образованием получают достойный доход.

Вобщем случае говорят о положительной связи, если

a

 

a c

.

(2.12)

a b

 

 

N

 

Из (2.12) с учетом того, что N=a+b+c+d, получаем ad>bc. Ме-

ра adbc при >1 говорит о положительной связи между призна-

ками, при <1 – об отрицательной.

40