
- •Статистика Конспект лекций
- •Часть I. Теория статистики
- •Глава 1. Предмет и метод статистики
- •1.1. Предмет, метод и основные категории статистики как науки
- •1.2. Органы государственной статистики Российской Федерации
- •Глава 2. Статистическое наблюдение
- •2.1. Основные этапы статистического исследования
- •2.2. Статистическое наблюдение — первый этап статистического исследования
- •2.3. Программно-методологические и организационные вопросы статистического наблюдения
- •2.4. Формы, виды и способы наблюдения
- •2.5. Понятие выборочного наблюдения, отбор единиц в выборочную совокупность
- •2.6. Определение ошибок выборки*
- •2.7. Определение численности выборки
- •2.8. Распространение выборочных результатов
- •Глава 3. Сводка и группировка данньк статистического наблюдения
- •3.1. Сводка статистических данных
- •3.2. Группировка статистических данных
- •3.3. Многомерные группировки в статистике
- •3.4. Статистические таблицы
- •3.5. Статистические графики
- •35 % 61 % 4% [Активы, свободные от риска ! Активы с минимальным риском Активы с повышенным риском
- •Глава 4. Статистические величины
- •4.1. Понятие абсолютной и относительной величины в статистике
- •4.2. Виды и взаимосвязи относительных величин
- •2. Относительная величина планового задания.
- •4.3. Средние величины. Общие принципы их применения
- •4.4. Расчет средней через показатели структуры
- •3.'Средний уровень оплаты труда (f):
- •4. Средний уровень фондоотдачи (н):
- •4.5. Расчет средних по результатам группировки. Свойства средней арифметической
- •4.6. Структурные средние
- •4.7 Показатели вариации
- •Глава 5. Изучение динамики общественных явлений
- •5.1. Ряды динамики. Классификация
- •5.2. Правила построения рядов динамики
- •5.3. Показатели анализа рядов динамики
- •5.4. Структура ряда динамики. Проверка ряда на наличие тренда
- •5.5. Анализ сезонных колебаний
- •5.6. Анализ взаимосвязанных рядов динамики
- •Глава 6. Индексы
- •6.1. Индивидуальные индексы и их применение в экономическом анализе
- •6.2. Общие индексы и их применение в анализе
- •6.3. Общие индексы как средние из индивидуальных индексов
- •6.5. Индексы при анализе структурных изменений
- •6.6. Индексы средних величин
- •6.7. Территориальные индексы
- •Глава 7. Статистическое изучение взаимосвязей
- •7.1. Основные понятия корреляционного и регрессионного анализа
- •7.2. Парная корреляция и парная линейная регрессия
- •Ireop u 1 I
- •7.3. Множественная линейная регрессия
- •7.4. Нелинейная регрессия. Коэффициенты эластичности
- •7.5. Множественная корреляция
- •7.6. Оценка значимости параметров взаимосвязи
- •7.7. Непараметрические методы оценки связи
7.7. Непараметрические методы оценки связи
Методы корреляционного и дисперсионного анализа не универсальны: их можно применять, если все изучаемые признаки являются количественными. При использовании этих методов нельзя обойтись без вычисления основных параметров распределения (средних величин, дисперсий), поэтому они получили название параметрических методов.
Между тем в статистической практике приходится сталкиваться с задачами измерения связи между качественными признаками, к которым параметрические методы анализа в их обычном виде неприменимы. Статистической наукой разработаны методы, с помощью которых можно измерить связь между явлениями, не используя при этом количественные значения признака, а значит, и параметры распределения. Такие методы получили название непараметрических.
Если изучается взаимосвязь двух качественных признаков, то используют комбинационное распределение единиц совокупности в форме так называемых таблиц взаимной сопряженности.
Рассмотрим методику анализа таблиц взаимной сопряженности на конкретном примере социальной мобильности как процесса преодоления замкнутости отдельных социальных и профессиональных групп населения. Ниже приведены данные о распределении выпускников средних школ по сферам занятости с выделением аналогичных общественных групп их родителей.
139
|
4i |
исло детей |
, занятых |
в |
|
Занятия родителей |
промышленности и строительстве |
сельском хозяйстве |
сфере обслуживания |
сфере интеллектуального труда |
Всего |
1. Промышленность и строительство 2. Сельское хозяйство 3. Сфера обслуживания 4. Сфера интеллектуального труда |
40 34 16 24 |
5 29 6 5 |
7 13 15 9 |
39 12 19 72 |
91 88 56 110 |
Scero |
114 |
45 |
44 |
142 |
345 |
Распределение частот по строкам и столбцам таблицы взаимной сопряженности позволяет выявить основные закономерности социальной мобильности: 42,9 % детей родителей группы 1 («Промышленность и строительство») заняты в сфере интеллектуального труда (39 из 91); 38,9 % детей, родители которых трудятся в сельском хозяйстве, работают в промышленности (34 из 88) и т. д.
Можно заметить и явную наследственность в передаче профессий. Так, из пришедших в сельское хозяйство 29 человек, или 64,4 %, являются детьми работников сельского хозяйства;
более чем у 50 % в сфере интеллектуального труда родители относятся к той же социальной группе и т. д.
Однако важно получить обобщающий показатель, характеризующий тесноту связи между признаками и позволяющий сравнить проявление связи в разных совокупностях. Для этой цели исчисляют, например, коэффициенты взаимной сопряженности Пирсона (С) и Чупрова (К):
Ф2
С=
1 +ф2
Ф2
К
140
где ф2 — показатель средней квадратической сопряженности, определяемый путем вычитания единицы из суммы отношений квадратов частот каждой клетки корреляционной таблицы к произведению частот соответствующего столбца и строки:
-1 ,f,=£f„,f,=£f„;
u f,f, i
К, и Кд — число групп по каждому из признаков. Величина коэффициента взаимной сопряженности, отражающая тесноту связи между качественными признаками, колеблется в обычных для этих показателей пределах от 0 до 1.
|
Чис |
ло дете |
и, занятых |
< в |
|
|
Занятия родителей |
промышленности и строительстве |
сельском хозяйстве |
сфере обслуживания |
сфере интеллектуального труда |
Всего |
f,2 ' ^1 |
А |
1 |
2 |
3 |
4 |
5 |
6 |
1. Промышленность и строительство |
40 1600 14,04 |
5 25 0,56 |
7 49 1,11 |
39 1521 10,71 |
91 26,42 |
0,2903 |
2. Сельское хозяйство |
34 1156 10.14 |
29 841 18,69 |
13 169 3,84 |
12 144 1,01 |
88 33,68 |
0,3827 |
3. Сфера обслуживания |
16 256 2,25 |
6 36 0.8 |
15 225 5,11 |
19 361 2,54 |
56 10,7 |
0,1911 |
4. Сфера интеллектуального труда |
24 576 5,05 |
5 25 0,56 |
9 81 1,84 |
72 5184 36,51 |
110 43,96 |
0,3996 |
Итого (i) |
114 |
45 |
44 |
142 |
345 |
1,264 |
141
Цифры в левом верхнем углу каждой клетки данной таблицы перенесены из предыдущей. Цифры в центре клеток представляют собой результат возведения частот в квадрат (f2). Путем деления f^2 на итоговые частоты соответствующих столбцов (f) получаем значения, которые записываем в нижнем правом углу каждой клетки. Например, для первой клетки первого столбца
f,2 402 1600 ——— = ——— = ————— = 14,04 . £f, 114 114
Суммы этих величин по строке записываем в итоговом столбце (5). Для первой строки
4 f,2 2 ——— = 14,04 + 0,56 +1,11 + 10,71 = 26,42 .
1=1 f,
Разделим полученные суммы на итог частот по соответствующей строке. Так, для первой строки 26,42 : 91 = 0,2903.
Этот результат записываем в последний столбец (6) расчетной таблицы. Суммируя данные величины (из последнего, 6-го столбца), получим
1,264- 1 =0,2637;
f f
0,2637
С=
0,2087
= 0,457;
1 + 0,2637
0,2637
0,0879= 0,296.
l/(4-1)-(4-1)
Величина первого коэффициента свидетельствует о наличии достаточно заметной связи между изучаемыми признаками. Коэффициент Чупрова обычно дает более осторожную оценку связи.
Некоторые особенности имеет анализ взаимосвязи между двумя альтернативными признаками, который производится с помощью четырехклеточных таблиц. Рассмотрим связь между полом и характером труда — в сезонных и несезонных отраслях:
142
Пол |
Численн |
ость занятых в с |
отраслях |
|
сезонных |
несезонных |
Всего |
Мужчины Женщины |
187 307 |
265 272 |
•Ч52 579 |
Всего |
494 |
537 |
1031 |
Для наглядности вычислим удельные веса по результативному признаку: доля сезонных работников среди женщин составляет 53 % (307 / 579), а среди мужчин — 41,4 % (187 / 452). На основе этих данных можно утверждать, что связь между полом и отраслью существует.
Оценить тесноту связи между признаками можно с помощью коэффициентов взаимной сопряженности С или К. Но проще это сделать с помощью коэффициентов контингенции или ассоциации.
Введем буквенные обозначения в клетках таблицы сопряженности:
Пол |
Численн |
ость занятых в а |
яраслях |
|
сезонных |
несезонных |
Всего |
Мужчины Женщины |
а с |
b d |
а+ b с + d |
Всего |
а + с |
b+d |
п |
Коэффициент контингенции вычисляется по формуле
ad - be
К_=
/(а + Ь)(с + d)(a + c)(b + d) Подставив в формулу значения частот, получаем:
(187 • 272) - (265 • 307)
= -0,116.
/452 • 579 • 494 • 537
Величина коэффициента говорит о наличии слабой обратной связи между анализируемыми альтернативными признаками. Коэффициент ассоциации
ad - be
Кд=——————.
ad + be
143
(187-272) - (265-307) 50894-81355 -30491
=-0,231. (187-272) + (265-307) 50864+81355 132219
Коэффициент контингенции всегда меньше коэффициента ассоциации. Сравнение этих коэффициентов, исчисленных по одним и тем же данным, свидетельствует о том, что коэффициент контингенции дает более осторожную оценку тесноты связи. Заметим также, что I «J = К.
В социально-экономических исследованиях нередко встречаются ситуации, когда признак не выражается количественно, однако единицы совокупности можно упорядочить. Такое упорядочение единиц совокупности по значению признака называется ранжированием. Примерами могут быть ранжирование студентов (учеников) по способностям, любой совокупности людей по уровню образования, профессии, по способности к творчеству и т. д.
При ранжировании каждой единице совокупности присваивается ранг, т. е. порядковый номер. При совпадении значения признака у различных единиц им присваивается объединенный средний порядковый номер. Например, если у 5-й и 6-й единиц совокупности значения признаков одинаковы, обе получат ранг, равный (5 + 6) / 2 = 5,5.
Измерение связи между ранжированными признаками производится с помощью ранговых коэффициентов корреляции Спирмена (р) и Кендэлла (Т). Эти методы применимы не только для качественных, но и для количественных показателей, особенно при малом объеме совокупности, так как непараметрические методы ранговой корреляции не связаны ни с какими ограничениями относительно характера распределения признака.
Сущность метода Спирмена (Spearman) состоит в следующем:
1) располагают варианты факторного признака по возрастанию — ранжируют единицы по значению признака X;
2) для каждой единицы совокупности указывают ранг с точки зрения результативного признака У.
Если связь между признаками прямая, то с увеличением ранга признака Х ранг признака У также будет возрастать; при тесной связи ранги признаков Х и У в основном совпадут. При обратной связи возрастанию рангов признака Х будет, как правило, соответствовать убывание рангов признака У. В случае отсутствия связи последовательность рангов признака У не будет обнаруживать никакого порядка возрастания или убывания.
Теснота связи между признаками оценивается ранговым коэффициентом корреляции Спирмена:
144
6£d2
р=1-—————, n^-l)
где d — разность рангов признаков Х и У;
n — число наблюдаемых единиц.
В случае отсутствия связи р = 0. При прямой связи коэффициент р — положительная правильная дробь, при обратной — отрицательная.
Кендэллом (Kendall) предложен другой показатель измерения корреляционной связи, также с использованием рангов признаков:
2Х8
Т=————— .
п(п- 1)
Упрощение расчетов коэффициента Кендэлла достигается следующим образом.
1. Ряд наблюдений располагается в возрастающем порядке по признаку Х с указанием соответствующих им рангов по признаку У.
2. Упорядоченная таким образом последовательность наблюдений берется как исходная для построения квадратной матрицы (а,) размерностью (n • n). Заметим, что для дальнейшего нам потребуются только элементы, расположенные выше главной диагонали. Для заполнения матрицы (а^) по каждой паре наблюдений (i, j) сравниваем ранги признака У:
(\, если R < R ;
(а„) = < 0, если F^ = F^ ;
I- 1, если,Р, >,Ry.
Сумма элементов матрицы (а^), расположенных выше главной диагонали, и есть искомое значение S.
3. При достаточном навыке расчет величины S можно выполнить, непосредственно сравнивая ранг Ry данного наблюдения с рангами R последующих наблюдений. Для каждого наблюдения подсчитываются Р — число случаев, когда ранг признака У у следующих наблюдений меньше, чем у данного, и Q — число случаев, когда у следующих наблюдений ранг признака У больше, чем у данного. Искомое значение
S = ZQ - SP.
(Правильность вычислений контролируется соблюдением условия £Q+£P=n(n- 1)/2).
145
4. Далее производится расчет по приведенной ранее формуле.
При достаточно больших п между значениями ранговых коэффициентов фиксируется соотношение
Р 3
Рассмотрим для примера зависимость между успеваемостью учащихся средней школы по физико-математическим и гуманитарным наукам:
|
Ранги успеваемс |
зсти по наукам |
|
|
Учащиеся |
физико-математическим ("„) |
гуманитарным (R,) |
d=R,-R, |
d2 |
А Б В Г Д Е Ж 3 И к |
1 2 3 4 5 6 7 8 9 10 |
3 10 8 4 7 5 9 1 6 2 |
-2 — Я -5 0 -2 + 1 -2 +7 +3 +8 |
4 64 25 0 4 1 4 49 9 64 |
Итого |
55 |
55 |
0 |
224 |
=-0,358.
6 • 224 р=1
10(102- 1)
Таким образом, между способностями учеников к физико-математическим и гуманитарным наукам имеется обратная связь, хотя и не очень сильная.
Рассчитаем по тем же данным коэффициент Кендэлла (Т). Для ученика A Q = 7 (положительные баллы), Р (отрицательные баллы) будет получено при сравнении с учениками, ранг которых по У ниже, а по Х выше. Получаем Р = 2. Всего для ученика А имеем (Q - Р) = 7 - 2 = 5. Ученика Б сравниваем со всеми следующими учениками в списке (с А сравнение уже сделано):
Q=0,P=8,Q-P=-8. Для В аналогичным образом отмечаем одного ученика с большим рангом по У и шесть учеников с меньшими рангами. Следовательно, (Q - Р) = 1 - 6 = - 5.
146
Техника вычисления баллов уже ясна, и можно привести окончательный результат:
S=£Q-£P=5-8-5+2-3+0-3+2-1=-11. Подставляя вычисленную сумму в формулу, получим -11-2 22
Т = ——————— = - ——— = - 0,244.
10(10-1) 90
Коэффициент Т, так же как и коэффициент Спирмена, свидетельствует об обратной, хотя и менее выраженной связи между признаками.
Оба ранговых коэффициента корреляции применяются для решения одних и тех же задач. Преимуществом коэффициента Т является возможность его использования в многофакторном анализе. Например, при двухфакторном анализе (X,, Хд) частный коэффициент корреляции рангов У и X, равен
Vх
1
Т
Т
Vх
2 "l"^
/(1
— парные коэффициенты соответственно между УиХ^Уи^, Х/иХ,.
Что касается техники расчетов, то вычисление Т сводится к подсчету баллов и проще вычисления коэффициента Спирмена. Поскольку при расчете Т величины рангов нужны только для сравнения, то при наличии количественных признаков можно вести подсчет баллов прямо по их значениям, что избавляет от излишней работы по присвоению рангов.