Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
92
Добавлен:
10.05.2014
Размер:
2.54 Mб
Скачать

Вопрос 19. Анализ связи ранговых переменных.

Рассмотрим вначале оценку связи между парой порядковых переменных (признаков) хиу. Как правило, это результаты измерений, получаемых экспертным путем, так чтохiранг (порядковое место), приписываемый i-му объекту (i=1,2,…,N) первым экспертом, ауiранг, приписываемый этому же объекту вторым экспертом. Подобные ряды часто называютранжировками. Если признакихиу взаимосвязаны, то порядок, в котором следуют числа x1,x2,…,xN, будет влиять и на последовательностьy1,y2,…,yN.

В отсутствии связи уместно выдвинуть гипотезу Н0о случайном ранжировании, так что любая из N! перестановок из чисел 1,2,…,N представляется равновозможной.

Степень близости двух рядов чисел x1,x2,…,xN и y1,y2,…,yN отражает сумма квадратовS=0, когда обе последовательности совпадают. Если последовательности противоположны (xi=1 соответствуетyi=N, xj=2 – уj=N-1 и т.д.),Sпринимает максимальное значение, равное (N3-N)/3. НормируяSна максимальное значение так, чтобы получающаяся величина лежала в диапазоне от –1 до 1, получаемкоэффициент ранговой корреляции Спирмена

.

Наряду с rS широкую популярность получил коэффициент ранговой корреляции Кендэла. Этот коэффициент в качестве меры близости двух рядов чисел использует минимальное число перестановок соседних чисел, переводящее одно упорядочение в другое. Число таких перестановок равняется числуинверсий.

Алгоритм подсчета числа инверсий следующий. Переставим объекты в порядке возрастания значений х. В итоге по первому признаку получим натуральный ряд чисел 1,2,…,N, а по второму – ряд, который обозначимz1,z2,…,zN. Будем сравнивать zi (i=1,2,…,N) cпоследующими значениями zi+1,zi+2,…,zN. Если окажется, что zi>zi+k, k=1,2,…,N-i, то имеет место инверсия (нарушение порядка). Обозначимmi число инверсий, связанных сzi. Тогда полное число инверсий составит К=m1+m2+…+mN. Пусть, например, ряд z имеет четыре члена 3,4,1,2.Число 3 вызывает две инверсии (с 1 и 2), число 4 дает также две инверсии, 1 предшествует 2, так что инверсия здесь не имеет места. В итоге получим четыре инверсии.

Число инверсий К лежит в диапазоне от 0 до N(N-1)/2. Нормируя К, получаюткоэффициент ранговой корреляции Кендэла:

.

В условиях гипотезы Н0(случайное независимое ранжирование) любая изN! перестановок равновероятна, поэтому можно рассчитать закон распределения вероятностейrSиrK.В табл. 1 приводятся критические значения коэффициентовrSиrKдля уровней значимости0,05 при числе сравниваемых объектовNв диапазоне5≤ N≤10. Если расчетные значениялибопревзойдут по модулю критические значения, то гипотезаН0 отвергается.

Таблица 1

Число объектов

5

6

7

8

9

10

Уровень значимости

0,084

0,058

0,066

0,058

0,044

0,06

0,900

0,829

0,750

0,714

0,700

0,624

Уровень значимости

0,084

0,056

0,070

0,062

0,044

0,046

0,800

0,733

0,619

0,571

0,556

0,511

Для проверки значимости коэффициента ранговой корреляции при N>10 можно воспользоваться тем фактом, что случайные величины

,=

распределены (приближенно) по нормальному закону с нулевым математическим ожиданием и единичной дисперсией. Обозначим ,.значенияuSиuKдля конкретного, выборочного, значенияи. Если окажется, чтолибопревышает табличное значениеuT стандартного нормального закона при выбранном уровне значимостиq(дляq=0,05uт=1,96), гипотезаН0отвергается.

Приведенные выше формулы для rSиrK получены в предположении, что соответствующая система с отношениями не содержит классов эквивалентности, так что каждому объекту удалось присвоить определенный, отличный от других, ранг. Наличие классов эквивалентности означает, что всем объектам данного класса должен быть присвоен один и тот же ранг, равный среднему значению мест, которые объекты поделили. Такие ранги называютсвязанными. Пусть, например, шесть объектов упорядочены как представлено в табл.2.

Таблица 2

Объекты12

3

4

5

6

Места11

2

3

3

3

Из таблицы видно, что объекты 1 и 2 образуют один класс эквивалентности, а объекты 4 и 5 – другой. Ранги, которые должны быть приписаны в итоге, указаны в табл.3.

Таблица 3

Объекты

1

2

3

4

5

6

Ранги

1,5

1,5

3

5

5

5

При наличии связанных рангов выражение для приобретает вид

(2.8)

где

kиl – число случаев появления связанных рангов,ti иuiчисло совпадающих рангов в каждом из упорядочений. Так, для данных табл. 3Т=[2(22–1)+3(32–1)]/12.

«Правленый» коэффициент ранговой корреляции Кендэла определяется соотношением

,

в котором . Смысл величинk,l,ti,ui тот же, что и в.

Рассмотрим теперь меру согласия m(m>2) ранжировок. Пусть– ранг, приписанныйi-му (i=1,2,…,N) объекту вj-м ранжировании (j=1,2,…,m). Для оценки степени связи между несколькими ранжировками используют коэффициент конкордации

,

где

(2.9)

– сумма квадратов отклонений суммы рангов, приписанных тому или иному объекту, от общего среднего; Smaxмаксимальное значениеS, получаемое в случае, когда все ранжировки совпадают.

В многомерном ранжировании возможно полное совпадение мнений у разных экспертов, однако теряется понятие «противоположного» мнения. Поэтому меру согласия вводят так, чтобы она равнялась 1 при полном совпадении ранжировок и 0 − при случайном ранжировании. Введенная мера этому условию удовлетворяет. Действительно, при случайном ранжировании для разныхiбудут близки между собой и не столь существенно отличаться от общего среднегоm(N+1)/2, что дает ; при полном совпадении ранжировок. В итоге,.

При наличии связанных рангов в формуле для знаменатель уменьшается на величину , гдеTjимеет тот же смысл, что иТв (2.8).

По имеющимся mранжировкам можно подсчитатьm(m-1)/2 коэффициентов. Оказывается, среднее значение этих коэффициентов, обозначаемое как, и коэффициент конкордации связаны соотношением.

Для оценки значимости коэффициента конкордации можно воспользоваться χ2-распределением с ЧСС=N-1, которому приближенно удовлетворяет величинаm(N-1)W при условии, что число сравниваемых объектов не меньше 7, т.е.N>7. Пригипотеза о случайном ранжировании отвергается. Припроверка значимости производится с помощью табл.4. В ней при уровне значимости 0,05 даны предельные значенияSТ. ЕслиS(см.(2.9)) превышаетSТ, т.е.S>SТ, гипотезаН0о случайном ранжировании отвергается.

Таблица 4

mN

34

5

6

7

3

64,4

103,9

157,3

449,5

88,4

143,3

217,0

562,6

112,3

182,4

276,2

675,7

136,1

221,4

335,2

848,1101,7

183,7

299,0

453,1

1060,0127,8

231,2

376,7

571,0