Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
080000_040101_UMK_Statistika_Obschaya_teoria_st...doc
Скачиваний:
0
Добавлен:
01.04.2025
Размер:
3.52 Mб
Скачать

Корреляция рангов

Корреляция рангов применяется в тех случаях, когда стремятся дать оценку связи двух признаков приближенно, не прибегая к сложным расчетам, а также при невозможности выразить отдельные варианты признака каким – либо определенным числом, кроме балловой оценки. В основу этих «непараметрических» методов положен принцип нумерации значений статистического ряда. Балловая оценка не является такой точной, как количественная. Она в большинстве случаев приближенная.

Перед расчетом показателей тесноты связи оба ряда должны быть расположены в возрастающем или убывающем порядке (ранжированы) и определен ранг (номер) каждой единицы по тому и другому признаку.

Предварительное представление о наличии или отсутствии связи между признаками можно получить, сопоставив последовательность взаимного расположения рангов факторного и результативного признаков. Если с возрастанием величины рангов факторного признака обнаруживается тенденция к увеличению рангов результативного признака, то имеет место прямая связь. Если же при возрастании величины рангов факторного признака, ранги результативного признака имеют тенденцию к уменьшению – имеет место обратная связь.

Оценку тесноты связи в ранжированных рядах дает предложенный американским ученым К. Спирмэном коэффициент корреляции рангов. При прямой функциональной связи сумма квадратов разностей рангов обоих рядов равна нулю. При обратной функциональной связи сумма квадратов разностей рангов обоих рядов равна максимальной величине , где n – число рангов.

Если между изучаемыми рядами нет связи, то величина каждого ранга факторного признака может соответствовать величине любого из рангов результативного признака. В этом случае сумма квадратов разностей рангов может быть рассчитана по формуле:

Пользуясь изложенными положениями К. Спирмэн вывел формулу коэффициента корреляции рангов:

,

где d – разности между величинами рангов в сравниваемых рядах;

n – число единиц.

Произведем расчет коэффициента корреляции рангов по данным табл.

Районы

Потребление алкоголя на душу населения, литр/год

Осуждено за хулиганство на 100 тыс. чел. населения

Ранги

Разность рангов, d

1

3,0

85

1

2

-1

1

2

3,5

87

2

3

-1

1

3

4,0

83

3

1

+2

4

4

4,5

92

4

6

-2

4

5

5,0

100

5

8

-3

9

6

5,5

95

6

7

-1

1

7

6,0

90

7

5

-2

4

8

6,5

88

8

4

-4

16

9

7,0

105

9

9

0

0

10

7,5

108

10

10

0

Итог

40

Здесь в таблице значения факторного признака х – потребление алкоголя на душу населения проранжируем от 1 до 10, поскольку они расположены в порядке возрастания. Затем проранжируем значения результативного признака, у – уровень осужденных за хулиганство также от меньшего к большему. Ранг 1 присваиваем наименьшему значению признака у(83), ранг 2 – следующему по величине значению признака (85), ранг 3 – значению признака 87 и т. д. Затем вычисляем разность рангов (d) и возводим ее в квадрат .

Вычисляем коэффициент корреляции рангов Спирмэна:

Английский статистик М. Кендэл предложил другую меру связи между переменными х и у. Коэффициент корреляции рангов Кендэла имеет следующую формулу:

,

где s – фактическая сумма баллов,

n – число рангов.

Величина s представляет собой разность двух составляющих: , где – число рангов, превышающих номер ранга, записанного в их расчетах по результативному признаку; а – число рангов, меньших в последующих записях.

Например, покажем расчет коэффициента корреляции рангов Кендэла по данным предшествующего примера:

Районы

1

2

8

1

2

3

7

1

3

1

7

0

4

6

4

2

5

8

2

3

6

7

2

2

7

5

2

1

8

4

2

0

9

9

1

0

10

10

0

0

Итого

35

10

Здесь в таблице значения подсчитываются последовательным суммированием количества рангов превышающих номер ранга по каждой строке. Так, по первой строке (1 район) ранг равен 2, ниже расположено рангов выше 2 –8 (3,6,8,7,5,4,9,10), по второй строке (2 район) ранг равен 3, ниже расположено рангов выше 3-7 (6,8,7,5,4,9,10) и т. д. Значения подсчитываются суммированием количества рангов меньших в последующих строках. Так, по первой строке (1 район) ранг равен 2, подсчитываем количество рангов расположенных ниже, которые будут меньше 2. Их оказалось 1. По второй строке (2 район) ранг равен 3, меньше трех тоже одно значение 1, по третьей строке (3 район) ранг равен 1, меньше 1 нет рангов, тогда =0 и т. д.

Исходя из табл. подсчитаем вначале: ,

а затем коэффициент Кендэла:

Коэффициент корреляции Кендэла, как правило, меньше коэффициента Спирмэна. При достаточно большом числе наблюдений между этими показателями выявляется примерно следующее соответствие:

.

В нашем примере коэффициент Спирмэна указывает на высокую связь между уровнем осужденных за хулиганство и душевым потреблением алкоголя. Коэффициент корреляции рангов Кендэла оценивает связь между этими показателями более осторожно.

Коэффициент корреляции рангов интерпретируется так же, как и коэффициент линейной корреляции и изменяется в тех же пределах:

При этом нужно отметить, что оценка тесноты связи при помощи корреляции рангов является менее точной, чем оценка с помощью коэффициента корреляции или коэффиционного отношения, но достоинством коэффициентов ранговой корреляции является простота расчета. Поэтому они могут быть применены для быстрой оценки взаимосвязи между признаками.

Что касается техники расчета, то проще вычисления коэффициента Спирмэна, преимуществом коэффициента Кендэла является возможность его использования в многофакторном анализе.

Определение тесноты связи между атрибутивными признаками

При исследовании степени тесноты связи между качественными признаками, каждый из которых представлен в виде альтернативного признака составляется таблица «четырех полей», частоты которой обозначаются соответственно а, в, с, d.

Рассмотрим связь между полом преступников и местом их проживания.

Пол

Число лиц, совершивших преступление

городское

сельское

всего

Мужчины

240 (а)

130 (в)

370 (а+в)

Женщины

42 (с)

18 (d)

60 (с+d)

Всего

282 (а+с)

148 (в+d)

430

Для установления наличия связи между признаками, вычислим удельные веса по результативному признаку: доля преступников, проживающих в городе среди мужчин составляет 64,9% (240:370)х100, а среди женщин 70% (42:60)х100%. Результаты расчетов подтверждают наличие связи.

Степень тесноты связи между признаками можно оценить с помощью коэффициентов контингенции или ассоциации.

Коэффициент контингенции вычисляется по формуле:

.

Подставив в формулу значения частот, получим:

Величина коэффициента говорит о наличии слабой обратной связи между анализируемыми признаками.

Коэффициент ассоциации равен:

,

Коэффициент ассоциации подтверждает наличие слабой обратной связи между полом и местом проживания преступников.

Коэффициент контингенции всегда меньше коэффициента ассоциации. Сравнение этих коэффициентов исчисленных по одной и той же исходной информации, свидетельствует о том, что коэффициент контингенции дает более осторожную оценку степени тесноты связи.

В тех случаях, когда хотя бы один из четырех показателей в таблице «четырех полей» отсутствует, величина коэффициента ассоциации будет равна единице, что дает преувеличенную оценку степени тесноты связи между признаками и предпочтение следует отдать коэффициенту контингенции.

Коэффициенты ассоциации и контингенции могут принимать любые значения от –1 до 1. Когда коэффициент равен 0, связи между данными явлениями нет совершенно, когда равен -между явлениями существует функциональная связь. Словом величина коэффициента как показателя связи истолковывается так же, как и величина коэффициента корреляции.