Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
«статистика» (1).doc
Скачиваний:
0
Добавлен:
01.04.2025
Размер:
978.95 Кб
Скачать

7.7. Непараметрические методы оценки связи

Методы корреляционного и дисперсионного анализа не универсальны: их можно применять, если все изучаемые признаки являются количественными. При использовании этих методов нельзя обойтись без вычисления основных параметров распределения (средних величин, дисперсий), поэтому они получили название параметрических методов.

Между тем в статистической практике приходится сталкиваться с задачами измерения связи между качественными признаками, к которым параметрические методы анализа в их обычном виде неприменимы. Статистической наукой разра­ботаны методы, с помощью которых можно измерить связь между явлениями, не используя при этом количественные значения признака, а значит, и параметры распределения. Такие методы получили название непараметрических.

Если изучается взаимосвязь двух качественных признаков, то используют комбинационное распределение единиц совокупности в форме так называемых таблиц взаимной сопряженности.

Рассмотрим методику анализа таблиц взаимной сопря­женности на конкретном примере социальной мобильности как процесса преодоления замкнутости отдельных социальных и профессиональных групп населения. Ниже приведены данные о распределении выпускников средних школ по сферам занятости с выделением аналогичных общественных групп их родителей.

139

4i

исло детей

, занятых

в

Занятия родителей

промыш­ленности и строи­тельстве

сельском хозяйстве

сфере обслужи­вания

сфере интел­лектуаль­ного труда

Всего

1. Промыш­ленность и строительство

2. Сельское хозяйство

3. Сфера обслуживания

4. Сфера интеллекту­ального труда

40

34 16 24

5

29 6 5

7

13 15 9

39

12 19 72

91

88 56 110

Scero

114

45

44

142

345

Распределение частот по строкам и столбцам таблицы взаимной сопряженности позволяет выявить основные закономерности социальной мобильности: 42,9 % детей родителей группы 1 («Промышленность и строительство») заняты в сфере интеллектуального труда (39 из 91); 38,9 % детей, родители которых трудятся в сельском хозяйстве, работают в промышленности (34 из 88) и т. д.

Можно заметить и явную наследственность в передаче профессий. Так, из пришедших в сельское хозяйство 29 человек, или 64,4 %, являются детьми работников сельского хозяйства;

более чем у 50 % в сфере интеллектуального труда родители относятся к той же социальной группе и т. д.

Однако важно получить обобщающий показатель, характе­ризующий тесноту связи между признаками и позволяющий сравнить проявление связи в разных совокупностях. Для этой цели исчисляют, например, коэффициенты взаимной сопряженности Пирсона (С) и Чупрова (К):

Ф2

С=

1 +ф2

Ф2

К

140

где ф2 — показатель средней квадратической сопряженности, определяемый путем вычитания единицы из суммы отношений квадратов частот каждой клетки корреляционной таблицы к произведению частот соответствующего столбца и строки:

-1 ,f,=£f„,f,=£f„;

u f,f, i

К, и Кд — число групп по каждому из признаков. Величина коэффициента взаимной сопряженности, отражающая тесноту связи между качественными признаками, колеблется в обычных для этих показателей пределах от 0 до 1.

Чис

ло дете

и, занятых

< в

Занятия родителей

промыш­ленности и строи­тельстве

сель­ском хозяй­стве

сфере обслужи­вания

сфере интел­лектуаль­ного труда

Всего

f,2 ' ^1

А

1

2

3

4

5

6

1. Промыш­ленность и строительство

40 1600 14,04

5 25 0,56

7 49 1,11

39 1521 10,71

91 26,42

0,2903

2. Сельское хозяйство

34 1156 10.14

29 841 18,69

13 169 3,84

12 144 1,01

88 33,68

0,3827

3. Сфера обслуживания

16 256 2,25

6 36 0.8

15 225 5,11

19 361 2,54

56 10,7

0,1911

4. Сфера интеллекту­ального труда

24 576 5,05

5 25 0,56

9 81 1,84

72 5184 36,51

110 43,96

0,3996

Итого (i)

114

45

44

142

345

1,264

141

Цифры в левом верхнем углу каждой клетки данной таблицы перенесены из предыдущей. Цифры в центре клеток пред­ставляют собой результат возведения частот в квадрат (f2). Путем деления f^2 на итоговые частоты соответствующих столбцов (f) получаем значения, которые записываем в нижнем правом углу каждой клетки. Например, для первой клетки первого столбца

f,2 402 1600 ——— = ——— = ————— = 14,04 . £f, 114 114

Суммы этих величин по строке записываем в итоговом столбце (5). Для первой строки

4 f,2 2 ——— = 14,04 + 0,56 +1,11 + 10,71 = 26,42 .

1=1 f,

Разделим полученные суммы на итог частот по соответ­ствующей строке. Так, для первой строки 26,42 : 91 = 0,2903.

Этот результат записываем в последний столбец (6) расчетной таблицы. Суммируя данные величины (из последнего, 6-го столбца), получим

1,264- 1 =0,2637;

f f

0,2637

С=

0,2087 = 0,457;

1 + 0,2637

0,2637

0,0879= 0,296.

l/(4-1)-(4-1)

Величина первого коэффициента свидетельствует о наличии достаточно заметной связи между изучаемыми признаками. Коэффициент Чупрова обычно дает более осторожную оценку связи.

Некоторые особенности имеет анализ взаимосвязи между двумя альтернативными признаками, который производится с помощью четырехклеточных таблиц. Рассмотрим связь между полом и характером труда — в сезонных и несезонных отраслях:

142

Пол

Численн

ость занятых в с

отраслях

сезонных

несезонных

Всего

Мужчины Женщины

187 307

265 272

•Ч52 579

Всего

494

537

1031

Для наглядности вычислим удельные веса по результа­тивному признаку: доля сезонных работников среди женщин составляет 53 % (307 / 579), а среди мужчин — 41,4 % (187 / 452). На основе этих данных можно утверждать, что связь между полом и отраслью существует.

Оценить тесноту связи между признаками можно с помощью коэффициентов взаимной сопряженности С или К. Но проще это сделать с помощью коэффициентов контингенции или ассоциации.

Введем буквенные обозначения в клетках таблицы сопряженности:

Пол

Численн

ость занятых в а

яраслях

сезонных

несезонных

Всего

Мужчины Женщины

а с

b d

а+ b с + d

Всего

а + с

b+d

п

Коэффициент контингенции вычисляется по формуле

ad - be

К_=

/(а + Ь)(с + d)(a + c)(b + d) Подставив в формулу значения частот, получаем:

(187 • 272) - (265 • 307)

= -0,116.

/452 • 579 • 494 • 537

Величина коэффициента говорит о наличии слабой обратной связи между анализируемыми альтернативными признаками. Коэффициент ассоциации

ad - be

Кд=——————.

ad + be

143

(187-272) - (265-307) 50894-81355 -30491

=-0,231. (187-272) + (265-307) 50864+81355 132219

Коэффициент контингенции всегда меньше коэффициента ассоциации. Сравнение этих коэффициентов, исчисленных по одним и тем же данным, свидетельствует о том, что коэффициент контингенции дает более осторожную оценку тесноты связи. Заметим также, что I «J = К.

В социально-экономических исследованиях нередко встречаются ситуации, когда признак не выражается коли­чественно, однако единицы совокупности можно упорядочить. Такое упорядочение единиц совокупности по значению признака называется ранжированием. Примерами могут быть ранжи­рование студентов (учеников) по способностям, любой совокупности людей по уровню образования, профессии, по способности к творчеству и т. д.

При ранжировании каждой единице совокупности присва­ивается ранг, т. е. порядковый номер. При совпадении значения признака у различных единиц им присваивается объединенный средний порядковый номер. Например, если у 5-й и 6-й единиц совокупности значения признаков одинаковы, обе получат ранг, равный (5 + 6) / 2 = 5,5.

Измерение связи между ранжированными признаками производится с помощью ранговых коэффициентов корреляции Спирмена (р) и Кендэлла (Т). Эти методы применимы не только для качественных, но и для количественных показателей, особенно при малом объеме совокупности, так как непараметрические методы ранговой корреляции не связаны ни с какими ограничениями относительно характера распределения признака.

Сущность метода Спирмена (Spearman) состоит в следующем:

1) располагают варианты факторного признака по возрас­танию — ранжируют единицы по значению признака X;

2) для каждой единицы совокупности указывают ранг с точки зрения результативного признака У.

Если связь между признаками прямая, то с увеличением ранга признака Х ранг признака У также будет возрастать; при тесной связи ранги признаков Х и У в основном совпадут. При обратной связи возрастанию рангов признака Х будет, как правило, соответствовать убывание рангов признака У. В случае отсутствия связи последовательность рангов признака У не будет обнаруживать никакого порядка возрастания или убывания.

Теснота связи между признаками оценивается ранговым коэффициентом корреляции Спирмена:

144

6£d2

р=1-—————, n^-l)

где d — разность рангов признаков Х и У;

n — число наблюдаемых единиц.

В случае отсутствия связи р = 0. При прямой связи коэффициент р — положительная правильная дробь, при обратной — отрицательная.

Кендэллом (Kendall) предложен другой показатель измерения корреляционной связи, также с использованием рангов признаков:

2Х8

Т=————— .

п(п- 1)

Упрощение расчетов коэффициента Кендэлла достигается следующим образом.

1. Ряд наблюдений располагается в возрастающем порядке по признаку Х с указанием соответствующих им рангов по признаку У.

2. Упорядоченная таким образом последовательность наблюдений берется как исходная для построения квадратной матрицы (а,) размерностью (n • n). Заметим, что для дальнейшего нам потребуются только элементы, расположенные выше главной диагонали. Для заполнения матрицы (а^) по каждой паре наблюдений (i, j) сравниваем ранги признака У:

(\, если R < R ;

(а„) = < 0, если F^ = F^ ;

I- 1, если,Р, >,Ry.

Сумма элементов матрицы (а^), расположенных выше главной диагонали, и есть искомое значение S.

3. При достаточном навыке расчет величины S можно выполнить, непосредственно сравнивая ранг Ry данного наблюдения с рангами R последующих наблюдений. Для каждого наблюдения подсчитываются Р — число случаев, когда ранг признака У у следующих наблюдений меньше, чем у данного, и Q — число случаев, когда у следующих наблюдений ранг признака У больше, чем у данного. Искомое значение

S = ZQ - SP.

(Правильность вычислений контролируется соблюдением условия £Q+£P=n(n- 1)/2).

145

4. Далее производится расчет по приведенной ранее формуле.

При достаточно больших п между значениями ранговых коэффициентов фиксируется соотношение

Р 3

Рассмотрим для примера зависимость между успева­емостью учащихся средней школы по физико-математическим и гуманитарным наукам:

Ранги успеваемс

зсти по наукам

Учащиеся

физико-математическим

("„)

гуманитарным (R,)

d=R,-R,

d2

А Б В Г

Д Е Ж 3

И

к

1

2

3 4 5 6 7 8 9 10

3 10 8 4 7 5 9 1 6 2

-2

— Я -5 0 -2 + 1 -2 +7 +3 +8

4 64 25 0 4 1 4 49 9 64

Итого

55

55

0

224

=-0,358.

Коэффициент Спирмена

6 • 224 р=1

10(102- 1)

Таким образом, между способностями учеников к физико-математическим и гуманитарным наукам имеется обратная связь, хотя и не очень сильная.

Рассчитаем по тем же данным коэффициент Кендэлла (Т). Для ученика A Q = 7 (положительные баллы), Р (отрицательные баллы) будет получено при сравнении с учениками, ранг которых по У ниже, а по Х выше. Получаем Р = 2. Всего для ученика А имеем (Q - Р) = 7 - 2 = 5. Ученика Б сравниваем со всеми следующими учениками в списке (с А сравнение уже сделано):

Q=0,P=8,Q-P=-8. Для В аналогичным образом отмечаем одного ученика с большим рангом по У и шесть учеников с меньшими рангами. Следовательно, (Q - Р) = 1 - 6 = - 5.

146

Техника вычисления баллов уже ясна, и можно привести окончательный результат:

S=£Q-£P=5-8-5+2-3+0-3+2-1=-11. Подставляя вычисленную сумму в формулу, получим -11-2 22

Т = ——————— = - ——— = - 0,244.

10(10-1) 90

Коэффициент Т, так же как и коэффициент Спирмена, свидетельствует об обратной, хотя и менее выраженной связи между признаками.

Оба ранговых коэффициента корреляции применяются для решения одних и тех же задач. Преимуществом коэффициента Т является возможность его использования в многофакторном анализе. Например, при двухфакторном анализе (X,, Хд) частный коэффициент корреляции рангов У и X, равен

Vх 1

Т Т

Vх 2 "l"^

/(1

— парные коэффициенты соответственно между УиХ^Уи^, Х/иХ,.

Что касается техники расчетов, то вычисление Т сводится к подсчету баллов и проще вычисления коэффициента Спирмена. Поскольку при расчете Т величины рангов нужны только для сравнения, то при наличии количественных признаков можно вести подсчет баллов прямо по их значениям, что избавляет от излишней работы по присвоению рангов.