Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Дьячков.doc
Скачиваний:
17
Добавлен:
21.09.2019
Размер:
618.5 Кб
Скачать

27. Ранговый бисериальный коэффициент корреляции

Данный КК вычисляется в случае, когда одна переменная (например, х) измерена в номинальной дихотомической шкале, а вторая (например, у) в порядковой (ранговой) шкале. Этот коэффициент был исследован Кертеном и Глассом. Гласс предложил для вычисления ранговой корреляции формулу, которая не требует подсчета совпадений и инверсии.

rrb = 2/n (y 1 – y 0) , где n – общее количество лиц; y 1 – среднее значение по переменной у для лиц, у которых переменная х = 1; y 0 – среднее значение по переменной у для лиц, у которых переменная х = 0.

Пример: пусть у нас имеются следующие исходные данные:

х (пол)

у (ранги по росту)

0

1

0

1

0

0

1

1

0

0

1

10

2

9

5

8

4

7

3

6

n = 10

y 1 = (10+9+4+7) : 4 = 7,5

y 0 = (1+2+5+8+3+6) : 6 = 4,167

rrb = 2/10 (7,5 – 4,167) = 0,67

Примечание. Если одна переменная, например, х, измерена в порядковой шкале, а вторая переменная у в количественной шкале, то в этом случае не было разработано и исследовано никакого коэффициента корреляции. В такой ситуации рекомендуется преобразовать данные для количественной переменной в порядковую шкалу, т.е. проранжировать и воспользоваться после этого КРК Спирмена или КРК Кендалла.

Таблица выбора необходимого коэффициента корреляции.

у х

Номинальная дихотомическая

Ранговая (порядковая)

Количественная

Номинальная дихотомическая

Параграф 25

Параграф 27

Параграф 26

(по у )

Ранговая (порядковая)

Параграф 27

Параграф 23 – 24

Примечание параграф 27

Количественная

Параграф 26

(по х )

Примечание параграф 27

Параграф 21 - 22

28. Анализ взаимосвязей номинальных признаков с помощью таблиц сопряженности

Иногда измерения двух исследуемых признаков производятся в номинальной шкале, т.е. в шкале классификаций. Например, учащихся можно классифицировать по полу, а также по специальности: гуманитарий или естественник. В этом случае информация может быть представлена в виде таблицы, которая получила название таблица сопряженности. Для ее построения сначала выясняем, сколько уровней содержит тот или иной признак. Пусть первый признак имеет Iуровней, а второй признак - J. В этом случае таблица сопряженности имеет следующий вид:

Признак 2

Итого по строкам

Признак 1

f11

f12

f1J

f1

f21

f22

f2J

f2

fI1

fI2

fIJ

fI

Итого по столбцам

f 1

f 2

f J

f n

В этой таблице клетки называются ячейками, а числа, стоящие в ячейках – частотами.

Предположим, что всего у нас имеется n объектов (лиц). Частота fij означает, что среди n–исходных лиц имеется fij, для которых первый признак соответствует i-ому уровню, второй - j-тому уровню. Рассмотрим классификацию 120 людей по полу и политической принадлежности:

Демократическая партия

Республиканская

Независимая

Итого по строкам

Муж.

29

36

15

80

Жен.

14

24

2

40

Итого по столбцам

43

60

17

n=120

Таблицы сопряженности используются для проверки независимости двух рассматриваемых номинальных признаков (отсутствие или наличие влияния). Для решения такой задачи воспользуемся общей схемой проверки статистической гипотезы (5 этапов).

  1. этап. Выдвигаются две гипотезы: основная нулевая Н0 о том, что два рассматриваемых признака являются независимыми и альтернативная Н1 о том, что эти два признака являются зависимыми.

2 этап. Выбираем уровень значимости .

3 этап. Вычисляем наблюдаемое значение статистики критерия по следующей формуле:

2 I J 2

набл. = n [ fij : fi fj - 1]

i=1j=1

4 этап. Находим критическое значение статистики критерия. В

2

нашем случае статистика критерия имеет - распределение с числом степеней свободы = (I – 1) (J – 1). Поэтому для нахождения критического

2 2

значения кр необходимо воспользоваться статистической таблицей -

распределения. Находим столбец, соответствующий величине 1 - (если таблицы называются квантили распределения) или величине (если таблицы называются верхние %-ные точки) и строку, соответствующую числу степеней свободы . На пересечении выбранных строки и столбца и

2

находится требуемое нам кр.

5 этап. Делаем вывод о правильности той или иной гипотезы по

2 2

следующему правилу: 1) если набл < кр, то принимается гипотеза Н0, т.е. делаем вывод о том, что два рассматриваемых признака являются независимыми или, другими словами, один признак не влияет на другой. 2)

2 2

если же набл > кр, то принимается гипотеза Н1, т.е. делаем вывод о том, что два рассматриваемых признака являются зависимыми на уровне значимости или, другими словами, один признак влияет на другой.

2

набл

Н0 Н1

2

кр

Примечание. Уровни признака не должны пересекаться, т.е. один и тот же объект в таблице сопряженности должен попадать только в какую-либо одну ячейку.

Достоверные выводы получатся, если в каждой ячейке частота не меньше 5 fij > 5.

Пример: проведем проверку независимости между политической принадлежностью и полом для исходных данных, приведенных в начале параграфа.

Решение. I = 2; n = 120

J = 3; = 0,01

2 2 2 2 2

набл = 120 [ 29 : 80 43 + 36 : 80 60 + 15 : 80 17 + 14 : 43 40 + 24 : 40 60

2

+ 2 : 40 17 – 1 ] = 4,776

= (2 – 1) (3 – 1) = 2

2

кр = 9,21 – находим из таблицы

Н0

4,776 9,21

2 2

Так как набл < кр, то делаем вывод о том, что на уровне значимости 0,01 между политической принадлежностью и полом никакой зависимости нет.

В частном случае, когда каждый из признаков имеет только два

2

уровня, т.е. I = 2 J = 2, формула для вычисления набл упрощается и имеет следующий вид:

2

набл = n (f11 f22 – f12 f21) : f1 f2 f 1 f 2

Рассмотрим пример.

Психологи

Социологи

Итого

Незачет

25

34

59

зачет

151

49

200

176

83

n = 259

2 2

набл= 259 (25 49 – 34 151) : 59 200 176 83 = 22,96

= 0,05 = (2 – 1) (2 – 1) = 1

2

Из таблицы находим кр = 3,84

3,84 22,96

2 2

Так как набл > кр, то делаем вывод о том, что сдача зачета зависит от специализации.