Макарова Н.В. Статистика в Excel-1
.pdfРАЗДЕЛ IV
Статистические методы изучения взаимосвязей явлений и процессов
ГЛАВА 13 Ковариация и корреляция
13.1.
Краткие сведения из теории статистики
В экономических исследованиях одной из важных задач явля ется анализ зависимостей между изучаемыми переменными. За висимость между переменными может быть либо функциональной,
либо стохастической {вероятностной). Для оценки тесноты и на правления связи между изучаемыми переменными при их стохас тической зависимости пользуются показателями ковариации и
корреляции.
Ковариацией cov(x, у) случайных величин ^ и У называют сред нее произведений отклонений каждой пары значений величин Xw KB исследуемых массивах данных:
1 Д
cov(x,y) = (x, -х)(у, -у)==-1(х, -х)(у^ -у).
л 1=1
Ковариация есть характеристика системы случайных величин, описывающая помимо рассеивания величин А" и К еще и линей ную связь между ними. Доказано [ 1 ], что для независимых случай ных величин Jf и К их ковариация равна нулю, а для зависимых случайных величин она отличается от нуля (хотя и не обязатель но). Поэтому ненулевое значение ковариации означает зависи мость случайных величин. Однако обращение в нуль ковариации не гарантирует независимости, бывают зависимые случайные ве-
250
личины, ковариация которых равна нулю. Из формулы определе ния ковариации видно, что ковариация характеризует не только зависимость величин, но и их рассеивание. Действительно, если, например, одна из величин >¥или Умало отличается от своего ма тематического ожидания (почти не случайна), то показатель кова риации будет мал, какой бы тесной зависимостью ни были связа ны величины Хи У. Так что обращение в нуль ковариации вели чин Zn Кявляется не достаточным условием для их независимос ти, а только необходимым.
Использование ковариации в качестве меры связи признаков не совсем удобно, так как показатель ковариации не нормирован и при переходе к другим единицам измерения (например, от мет ров к километрам) меняет значение. Поэтому в статистическом анализе показатель ковариации сам по себе используется редко; он фигурирует обычно как промежуточный элемент расчета ли нейного коэффициента корреляции г^:
соу/(х,у)
^ху
a^Gy
В 1889 г. Ф. Голтон* высказал мысль о коэффициенте, который мог бы измерить тесноту связи между двумя коррелируемыми признаками. В начале 90-х гг. ХЕХ в. Пирсон, Эджворт и Велдон получили формулу линейного коэффициента корреляции
^ху
Линейный коэффициент корреляции характеризует степень тес ноты не всякой, а только линейной зависимости. При нелиней-
*(Galton Francis) Голтон Фрэнсис (1822-1911) - английский психолог и антрополог. В математике Голтон разработал методы статистической обра ботки результатов исследований (в частности, метод исчисления корреляций между переменными); ввел коэффициент корреляции; создал так называе мую биометрическую школу.
251
ной зависимости между явлениями линейный коэффициент кор реляции теряет смысл, и для измерения тесноты связи применяют так называемое корреляционное отношение, известное также под названием «индекс корреляции» [9, 12].
Линейная вероятностная зависимость случайных величин за ключается в том, что при возрастании одной случайной величины другая имеет тенденцию возрастать (или убывать) по линейному закону Эта тенденция к линейной зависимости может быть более или менее ярко выраженной, т. е. более или менее приближаться к функциональной. Если случайные величины Jfи /связаны точ
ной |
линейной функциональной зависимостью у=адг+^, то |
г^ = |
± 1. В общем случае, когда величины Jf и Усвязаны произ |
вольной вероятностной зависимостью, линейный коэффициент корреляции принимает значение в пределах-1 < г^ < 1, тогда ка чественная оценка тесноты связи величин X^л. Уможет быть выяв лена на основе шкалы Чеддока (табл. 13.1).
|
|
|
Таблица 13.1 |
|
|
Значение коэффициента корреляции |
|||
Теснота связи |
|
при наличии: |
|
|
|
прямой связи |
обратной связи |
||
Слабая |
0,1-0,3 |
(-0,1)-(^0,3) |
||
Умеренная |
0,3 - |
0,5 |
(-0,3)-(-0,5) |
|
Заметная |
0,5 - |
0,7 |
(^0,5)-(-0,7) |
|
Высокая |
0,7 - |
0,9 |
(-0,7) - |
(-0,9) 1 |
Весьма высокая |
0,9 - |
0,99 |
(-0,9) - |
(-0,99) |
В теории разработаны и на практике применяются различные модификации формул расчета линейного коэффициента корре ляции:
(13.1)
ПЧ^Оу
252
V |
I |
; |
; |
; |
r-' |
(13.2) |
|
|
2 |
2 |
2 |
|
|
Приведенные формулы в определенных случаях имеют неко торые преимущества друг перед другом. Например, при неболь ших значениях п{п< 30) обычно употребляются формулы (13.2) и (13.3).
Необходимо обратить внимание, что формулы (13.1) - (13.3) справедливы для нахождения генерального коэффициента корре ляции. Чтобы рассчитать выборочный коэффициент корреляции, необходимо в этих формулах генеральные средние заменить на выборочные средние, а генеральные стандартные отклонения - на выборочные стандартные отклонения.
13.2.
Справочная информация по технологии работы
Режим работы «Ковариация» служит для расчета генеральной ковариации на основе выборочных данных.
Режим работы «Корреляция» предназначен для расчета гене рального и выборочного коэффициентов корреляции соответствен но на основе генеральных и выборочных данных.
В диалоговых окнах данных режимов (рис. 13.1 и 13.2) зада ются параметры, аналогичные параметрам, задаваемым в диало говом окне Ранг и персентиль {см. рис. 5.1).
Пример 13,1. Показатели уровня образования, уровня пре ступности, а также отношение числа безработных к числу вакан сий в некоторых центральных областях России в 1995 г. (по дан ным Госкомстата РФ) приведены в табл. 13.2, сформированной на рабочем листе Microsoft Excel.
253
Ковариация
В:Фдныв данные
|
|
..^^s^-^:^'..-^:^.<«:^-^-,^. |
|
|
1Ш |
Группирование: |
(^ по cTOJT^uati |
|
|
|
Г* построкам |
Р |
йетки в первой стрсже |
|
j-^ Параиетры вывода • |
|
|
<^[ С 8ьш)Днойинтер&ал; |
|
|
I ^ |
f-tobfti рабочий та\ |
|
i'/f^'^Ftoeaq р ^ ч ^ - к н и г а |
|
|
|
|
Рис. 13.1 |
Корреляция
^'Гр^пированйвг |
1 |
31 |
|
|
|
|
< по:С1Р<жам |
|
||:-:Р:.йИ'^^в ПЙреОЙ СТрОКв |
|
|
|
. .-A^ii.JSrttmrfMBMHiJI |
|
ДрПараме'гры еыаода : |
'.^f-i«*ia;»'»rjprt*i4.4tT |
.TiM |
,1 С ^5<зЬдной кйтгервая:
.o,v^№^^i^iv,v,^^v;v.-.AvVj^4sv>v.v..v^;,v-o.4,v/.v;^v.v ...у •••••[ ,
*^ Ноеьй рабочий miCT:
%:С Нов&рабо*^Ш1*<нига.
Рис. 13.2
IP
<ж и
Отиена
Справка
OIC
ll . l . ll, . ,' |
I - |
A l . , . ' . ! |
, | J . |
2S4
По выборочным данным, представленным в табл. 13.2, требу ется установить наличие взаимосвязи между указанными показа телями в центральном регионе России.
|
|
|
Таблица 13.2 |
|
|
^:::..:-:.:V.I.;: |
l:Z С, |
D |
|
|
|
|
|
|
|
|
|
Отношение |
|
mm |
Область |
Уровень |
числа |
Уровень |
образования |
безработных |
преступности |
||
|
к числу |
вакансий
ШЖ-:
^Й;.-:
'Ш
йЛ|
Брянская |
735 |
22,3 |
908 |
Владимир |
|
10,8 |
|
ская |
788 |
791 |
|
Ивановская |
779 |
52,9 |
804 |
Калужская |
795 |
2,2 |
701 |
Костром |
740 |
10,4 |
685 |
ская |
|||
г. Москва |
902 |
0,4 |
496 |
Московская |
838 |
2,4 |
536 |
Нижегород |
|
5,4 |
|
ская |
763 |
936 |
|
Орловская |
762 |
4,1 |
662 |
Рязанская |
757 |
4,1 |
671 |
Смоленская |
772 |
1,0 |
920 |
Тверская |
764 |
4,2 |
1040 |
Тульская |
764 |
2,1 |
809 |
Ярослав |
755 |
25,1 |
882 |
ская |
Примечания: 1. Уровень образования рассчитывался как численность лиц
свысшим и средним специальным образованием на 1000 жителей области.
2.Уровень преступности рассчитывался как число совершенных пре ступлений на 100 тыс. жителей области.
255
Для решения задачи используем режимы работы «Ковариация» и «Корреляция». Значения параметров, установленных в од ноименных диалоговых окнах, представлены на рис. 13.3 и 13.4, а рассчитанные в данных режимах показатели - в табл. 13.3 и 13.4.
1Ковариацня
^ i В^аздной интервал: • |
|
|
|
|
«> постолбцан |
И - |
• |
<^ по строкам |
М'^ |
Й^тки 13 пфзой строке |
|
? V Л^>а«етры,вьгвода |
/; |
|
}г\ |
- ^ ' ^ ^ д н е й интервал: |
•Ок:.. 1\
Отмена
Справка,
г\ ^^ С Новая рабочая |^нига |
|
|
|
|
|
|
Рис. 13.3 |
|
|
|
|
|
Таблица 13.3 |
|
|
|
|
D |
|
|
|
|
Отношение |
Уровень |
|
Уровень |
числа |
||
|
безработных |
преступ |
||
|
образования |
|||
|
|
|
к числу |
ности |
|
|
|
вакансий |
|
Уровень |
|
|
|
|
образова |
|
1884.88 |
|
|
ния |
|
|
|
|
Отношение |
|
|
|
|
числа без |
|
|
|
|
работных к |
|
|
|
|
числу ва |
- |
161,39 |
|
|
кансий |
207,32 |
|
||
Уровень |
|
|
|
|
преступно |
- |
4479,22 |
536,80 |
24667,63 |
сти |
256
Корреляция
|
$С$4;$Е$18 |
•••ок.-.::.^ |
|
|
|
||
I Групш^рювание; |
(^ |
постолбизн |
Отиена |
|
|||
|
^ |
построкам |
Справка |
П "Р" Метки 6 первой строке |
|
|
|
гП^аметры а?1Вода—
РВьтодной интервал Нсжый рабо^1и лист:
Нс»ая р^очая книга
1^ЖЖ^^Ж^>1М^^:
Рис. 13.4
Таблица 13.4
щщ^^fc:^,;^. •i:.<^J,:M '^^^^^ШшшшШ
|
|
Отношение |
|
|
Уровень об |
числа |
Уровень |
|
безработных |
преступнос |
|
|
разования |
к числу |
ти |
|
|
вакансий |
|
Уровень |
|
|
|
образова |
1 |
|
|
ния |
|
|
|
1Ш----Отношение: |
|
|
|
числа без |
|
|
|
работных к |
|
|
|
числу ва |
-0,26 |
1 |
|
кансий |
|
||
Уровень |
|
|
|
преступно |
0,66 |
0,24 |
1 |
сти |
257
Как видно из табл. 13.3 и 13.4, между парами всех исследуе мых показателей существуют стохастические связи. Причем ха рактер всех выявленных связей различен и состоит в следующем:
•связь «уровень образования» — «отношение числа безработ ных к числу вакансий» является слабой и обратной (г^у = -0,26),
т.е. с повышением уровня образования отношение числа безра ботных к числу вакансий уменьшается;
•связь «уровень образования» — «уровень преступности» является заметной и обратной (г^у — -0,66), т. е. с повышением уровня образования уровень преступности уменьшается;
•связь «отношение числа безработных к числу вакансий» - «уровень преступности» является слабой и прямой (г^^ = 0,24),
т.е. с увеличением отношения числа безработных к числу ва кансий увеличивается и уровень преступности.
13.3.
Статистические функции, связанные с режимами «Ковариация» и
«Корреляция»
Функция КОВАР
См. также КОРРЕЛ, ФИШЕР, ФИШЕРОБР
Синтаксис:
КОВАР (массив!; массив2)
Результат:
Рассчитывает значение ковариации, между двумя массивами данных.
уфгументы:
•массив!: первый массив данных;
•массив2\ второй массив данных.
Замечания:
•аргументы должны быть числами или массивами, содержа щими числа;
•если аргумент, который является массивом, содержит текс товые, логические значения или пустые ячейки, то такие значения игнорируются, однако ячейки с нулевыми значениями учитыва ются;
258
•если аргументы массив! и массив2 имеют различное количе ство точек данных, то функция КОВАР помещает в ячейку значе ние ошибки #Н/Д;
•если аргумент Afflccwe 7 либо Afflccwe2 пуст, то функция КОВАР помещает в ячейку значение ошибки #ДЕЛ/0!.
Математико-статистическая интерпретация:
См, подразд. 13Л.
Примечание. В отличие от режима «Коварнация» функция КОВАР рас считывает значение ковариации в предположении, что массивы данных об разуют генеральные совокупности.
• В примере 13.1 {см, табл. 13.3) функция КОВАР совместно с функцией СЧЕТ используется для расчета показателей ковариации. Например, значение в ячейке С22 рассчитывается по формуле
=КОВАР(С5:С18;С5:С18)*СЧЕТ(С5:С18)/(СЧЕТ(С5:С18)-1),
а значение в ячейке С23 — по формуле
=KOBAP(C5:C18;D5:D18)*C4ET(C5:C18)/(C4ET(C5:C18)-l).
Функция КОРРЕЛ
См. также ПИРСОН, КОВАР, ФИШЕР, ФИШЕРОБР
Синтаксис:
КОРРЕЛ (массив 1; массив2)
Результат:
Рассчитывает линейный коэффициент корреляции между массивами данных.
Аргументы:
•массив!: первый массив данных;
•массив!: второй массив данных.
Замечания:
•аргументы должны быть числами или именами, массивами или ссылками, содержащими числа;
•если аргумент, который является массивом, содержит текс товые, логические значения или пустые ячейки, то такие значения игнорируются; однако ячейки с нулевыми значениями учитыва ются;
259