Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

УМК ЧЕЛНОКОВОЙ С.В. СТАТИСТИКА

.pdf
Скачиваний:
66
Добавлен:
12.02.2015
Размер:
2.32 Mб
Скачать

ГЛАВА 10. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ВЗАИМОСВЯЗИ СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ ЯВЛЕНИЙ

Цель: ознакомиться с основными методами изучения связей между явлениями и процессами, уделить внимание корреляционно – регрессионному анализу, непараметрическим методам, дать представление о многомерных группировках.

Учебные вопросы:

10.1.Виды связей и методы их анализа в статистике.

10.2.Основные задачи и предпосылки применения корреляционнорегрессионного анализа.

10.3.Парная корреляция и регрессия.

10.4.Множественная корреляция и регрессия.

10.5.Непараметрические показатели корреляционной связи.

10.6.Особенности корреляции в динамике.

10.7.Многомерные группировки.

Изучив данную тему, студент должен:

-знать методы изучения причинно – следственных связей в зависимости от их характера.

- уметь решать конкретные социально – экономические задачи соответствующим методом и интерпретировать полученные результаты. -владеть навыками построения, решения и анализа корреляционно – регрессионных моделей.

При освоении темы необходимо:

-изучить главу 10 данного пособия; -изучить материал по данной теме из следующих источников библио-

графического списка: осн.1-4,7,8,10,11,13,15,16,18-22; доп.

32,36,39,43,46.

-выполнить тесты по изучаемой теме; -ответить на следующие контрольные вопросы:

1.Расскажите о функциональной и стохастической связи.

2.Расскажите о выборе формы уравнения регрессии.

3.Что характеризуют параметры уравнения регрессии?

4.Какой показатель используют для оценки тесноты парной линейной зависимости? В каких пределах он изменяется?

5.С какой целью и каким образом рассчитывают ошибку аппроксимации?

6.Каково назначение частной корреляции при построении модели множественной регрессии?

7.В каких пределах изменяется множественный коэффициент корре-

111

ляции?

8.Какова концепция F-критерия Фишера?

9.Как оценивается значимость параметров уравнения регрессии?

10.В каких случаях для оценки связи применяются непараметрические методы? Перечислите их.

10.1. Виды связей и методы их анализа в статистике

Между явлениями существуют причинно следственные связи,

когда, изменение одного из них – причины – ведет к изменению другого – следствия. Чем сложнее изучаемые явления, тем труднее выявить причинно – следственные связи между ними. Важно выявить главные, основные причины, абстрагируясь от второстепенных.

Первый этап статистического изучения связи – это качественный анализ изучаемого явления, базирующийся на знании экономической теории, социологии, экономики. Второй этап – построение модели связи. Он основан на методах статистики: группировках, средних величинах, таблицах и т.д. Третий последний этап – это интерпретация результатов после решения и анализа построенной модели.

Признаки по их значению для изучения взаимосвязей делятся на две группы. Признаки, обуславливающие изменение других, связанных с ними признаков, называются факторными или просто, факторами. Признаки, изменяющиеся под влиянием факторных признаков, являются результативными. Иногда один и тот же признак может в одном случае выступать как факторный, а в другом – как результативный.

Различают функциональную и стохастическую связь между признаками. Функциональной называют такую связь, при которой определенному значению факторного признака соответствует одно и только одно значение результативного признака. Такая связь проявляется для каждой отдельно взятой единицы совокупности. Функциональная связь свойственна, в основном, точным наукам, а экономическим явлениям присуща стохастическая связь, которая всякий раз проявляет себя по-разному. Стохастической называется такая зависимость, которая проявляется не в каждом отдельном случае, а, в общем, при большом числе наблюдений. Частным случаем стохастической связи является корреляционная связь, при которой изменение среднего значения результативного признака обусловлено изменением факторных признаков.

Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального характера, при которой изменение одной из случайных величин приводит к изменению математического ожидания другой. Различают парную и множественную корреляцию. Парная корреляция – это связь между двумя признаками (факторным и результативным или двумя факторными).

112

Множественная корреляция – это зависимость результативного, двух и более факторных признаков, включенных в исследование.

По направлению связи бывают прямыми и обратными. При пря- мой связи с увеличением или уменьшением факторного признака происходит соответственно увеличение или уменьшение результативного признака. При обратной связи с увеличением факторного признака результативный снижается и, наоборот, с уменьшением факторного признака результативный возрастает.

По аналитическому выражению связи бывают линейными и криво-

линейными.

Методы изучения связей зависят от целей и задач исследования: метод приведения параллельных данных, графический, индексный, аналитических группировок, корреляционно – регрессионный.

Метод приведения параллельных данных позволяет сравнить из-

менение двух или нескольких рядов сопряженных признаков и выявить наличие связи между ними.

Графически взаимосвязь двух признаков изображается с помощью поля корреляции. В системе координат на оси абсцисс откладываются значения факторного признака, а на оси ординат – результативного. Каждое пересечение линий, проводимых через эти оси, обозначается точкой. Чем сильнее связь, тем теснее будут группироваться точки вокруг определенной линии, выражающей форму связи. Если точки группируются с нижнего левого угла в правый верхний, то связь прямая, если с верхнего левого в правый нижний, то – обратная.

Индексный метод используется при наличии функциональной связи между признаками и позволяет установить непосредственное влияние индексируемых величин на изменение результативного признака.

Аналитические группировки позволяют охарактеризовать интенсивность связей между группировочным признаком и показателями сказуемого таблицы.

В последнее время наиболее широкое распространение в исследовании экономических процессов получил корреляционно-регрессионный анализ.

10.2.Основные задачи и предпосылки применения корреляционно-регрессионного анализа

Корреляционно-регрессионный анализ как общее понятие включает в себя измерение тесноты, направления связи и установление аналитического выражения связи. Корреляция и регрессия тесно связаны между собой: корреляция оценивает силу (тесноту) связи между результативным и факторным (факторными) признаками, а регрессия исследует ее форму.

113

Теснота связи оценивается с помощью показателей корреляции – парных, частных и множественных коэффициентов корреляции при линейной зависимости и индексов корреляции при криволинейной зависимости.

Показатель корреляции

Характер связи

До

 

± 0,3

 

 

 

 

 

 

 

 

практически отсутствует

 

 

 

± 0,3

 

 

 

 

 

 

 

± 0,5

 

 

 

 

слабая

 

 

 

 

 

 

 

± 0,5

 

 

 

 

± 0,7

 

 

умеренная

 

 

 

 

 

± 0,7

 

 

± 1

 

 

сильная

 

 

 

 

Парные и частные коэффициенты могут принимать отрицательное значение, а значит, указывать не только на силу, но и на обратную связь между признаками. Множественные коэффициенты и индексы корреляции принимают только положительное значение, поэтому не могут характеризовать направление связи.

Регрессионный анализ заключается в определении аналитической формы зависимости среднего значения результативного признака (Y) от факторных признаков (X1, X2,…, Xk). Регрессия бывает однофакторной (парной) и многофакторной (множественной) и в общем виде может

быть выражена функцией: Υˆ Χ = f (Χ1 , Χ 2 ...Χ k ) . Функция, отобра-

жающая связь между признаками, называется уравнением регрессии. Например, парная линейная регрессия выражается уравнением пря-

мой Υˆ Χ = а + bΧ . Задачей регрессионного анализа является опреде-

ление параметров уравнений a, b, c … и т.д. Свободный член уравнений регрессии a экономического содержания не имеет. Другие параметры уравнений регрессии, которые стоят при Х, называются коэффициента- ми чистой регрессии (или просто коэффициентами регрессии) и показывают на сколько единиц в среднем изменится результативный признак У при изменении факторного Хi на единицу собственного измерения при неизменном среднем значении других факторов.

По направлению регрессия, как и корреляция, различается на прямую (положительную) и обратную (отрицательную). Для парной зависимости положительную или отрицательную регрессию легче распознать, если использовать графическое изображение.

Для того чтобы корреляционно-регрессионная модель адекватно отражала реальное явление, она должна отвечать следующим требованиям:

1)Совокупность исследуемых исходных данных должна быть однородной.

2)Все факторные признаки должны иметь количественное (цифровое) выражение.

114

3)Объем исследуемой выборочной совокупности должен быть достаточно большой.

4)Число факторных признаков должно быть оптимальным: практикой выработано, что оно должно быть примерно в 5-8 раз меньше объема изучаемой совокупности.

5)Причинно-следственные связи между явлениями следует описывать линейной или приводимой к линейной формами зависимости, чтобы не возникали трудности в интерпретации полученных результатов.

6)Структура изучаемой совокупности должна быть постоянной по территории и времени.

10.3. Парная корреляция и регрессия

Парная регрессия характеризует связь между двумя признаками: результативным (У) и факторным (Х). Аналитическая связь между ними

ˆ

= а

+ bΧ

 

 

выражается уравнениями: прямой ΥΧ

 

 

 

ˆ

 

b

 

 

 

гиперболы ΥΧ =

а +

Χ

 

 

ˆ

 

 

 

 

 

 

 

 

2

 

параболы ΥΧ = а

+ bΧ + cΧ

и т.д.

 

Определить тип уравнения можно не только исследуя зависимость графически, но и логически. Так, если результативный и факторный признаки возрастают одинаково, примерно в арифметической прогрессии, то связь между ними – линейная, а при обратной зависимости – гиперболическая. Если факторный признак увеличивается в арифметической прогрессии, а результативный – значительно быстрее, то используется параболическая или степенная регрессия.

Определение параметров уравнения регрессии осуществляется методом наименьших квадратов (МНК), суть которого заключается в том, что отыскиваются такие значения коэффициентов регрессии, при которых сумма квадратов отклонений фактических значений результативного признака от вычисленных по уравнению регрессии будет наи-

меньшей из всех возможных: (Υ − Υˆ Χ )2 → min .

В соответствии с требованиями МНК для нахождения двух неиз-

ˆ

= à

+ bΧ необходимо

вестных параметров уравнения прямой ΥΧ

составить и решить систему из двух нормальных уравнений:

 

Υ =

+

Χ

, где n – число наблюдений.

 

 

a

 

 

 

b 2

ΥΧ =

Χ +

Χ

 

 

 

 

 

 

115

МНК могут быть оценены параметры и нелинейных уравнений.

ˆ

 

b

 

 

1

 

 

 

 

 

 

 

 

Так уравнение гиперболы ΥΧ

= а +

Χ

при замене

 

 

на другую

 

Х

 

 

 

 

 

= а + bZ .

переменную, например, Z, принимает линейный вид:

ˆ

Υz

 

Υ =

 

+

Z

 

 

 

 

 

 

a

b 2

 

 

 

 

Система уравнений составит:

 

 

 

 

 

 

 

Z +

Z

 

 

 

 

YZ =

 

 

 

 

 

 

 

 

ˆ

 

 

 

2

В случае параболической

зависимости

ΥΧ = а

 

+ bΧ + cΧ

 

 

три искомых параметра a, b, c находятся решением системы из трех нормальных уравнений:

 

y = na + bх + cх2 ;

 

 

 

2

 

3

 

 

yх = aх + bх

+ c

;

 

 

х

yх2 = aх2 + bх3 + cх4 ;

Для характеристики относительной силы влияния фактора на ре-

зультат рассчитывают средний коэффициент эластичности Э , кото-

рый показывает на сколько % изменится результативный признак У от своей средней величины при изменении фактора Х на 1% от своего среднего значения. В общем виде этот показатель представляет собой произведение первой производной функции и отношения двух средних

– фактора и результата: ЭΧΥ = f (Χ) ΥΧ . Следовательно, для наиболее распространенных типов уравнений Э рассчитывается:

 

 

 

 

 

 

 

 

 

b

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Χ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

для прямой ЭΧΥ =

;

 

 

 

 

 

 

 

 

 

 

 

 

 

a + b

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Χ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

 

 

 

b

 

;

 

 

 

 

 

 

 

 

 

 

 

 

для гиперболы ЭΧΥ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

a

 

 

 

 

+ b

 

 

 

 

 

 

 

 

 

 

Χ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

(b + 2c

 

)

 

 

 

 

 

 

 

 

для параболы 2-го порядка

 

 

 

 

Χ

Χ

 

ЭΧΥ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

a + b

Χ

+ c

Χ

 

 

 

Если

 

положительный, то связь между признаками прямая,

если

Э

отрицательный – обратная.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Следующая задача корреляционно-регрессионного анализа –

из-

мерение силы влияния Х на вариацию признака У.

 

 

 

 

 

 

 

 

 

 

 

 

116

Тесноту линейной связи оценивает коэффициент парной корреля-

 

 

 

σ Χ

 

 

 

-

 

 

 

 

ции:

 

= b

или

 

ХУ

Х

×У

, где

 

rYX

σ Υ

 

rYX =

σ Χ ×σ Υ

 

 

 

 

 

 

 

 

 

Х

;

 

 

 

 

Y

;

 

 

 

 

 

 

 

 

 

ХY

;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ХY =

 

 

 

 

 

 

 

Х =

Y =

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

n

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

∑(Ci -

 

)2

 

 

 

 

 

 

 

 

 

 

(Уi -

 

)2

.

 

 

 

 

 

 

 

 

 

C

 

 

 

 

 

 

 

 

или σ =

У

σΧ =

 

-(

 

)2

илиσ =

; σΥ

=

 

 

-(

 

)2

C2

 

U2

C

U

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

Линейный коэффициент парной корреляции может принимать значения в пределах -1 £ rΧΥ £ 1 . Если rΧΥ положительный, то связь

между признаками прямая, если отрицательный – обратная. Чем ближе rΧΥ к нулю, тем связь слабее, чем ближе к 1 или -1, тем сильнее.

Тесноту нелинейной связи оценивает индекс корреляции:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(У Уˆ Χ )2

 

 

 

(Уˆ Χ У

)2

 

ηΧΥ = 1 −

σ ост2

= 1 −

=

 

, где

σ Υ2

∑(У У

)2

 

∑(У У

)2

 

∑(У У

)2

- общая вариация результативного признака У;

(Уˆ Χ У

)2

- факторная

вариация У,

 

обусловленная влиянием

фактора Х;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(У Уˆ Χ )2

- остаточная вариация результативного признака У.

Индекс корреляции принимает только положительные значения в пределах 0 £ ηΧΥ £ 1.

Квадрат коэффициента корреляции (r 2 ΧΥ ) или индекса корреляции

(η 2 ΧΥ ) называется коэффициентом (индексом) детерминации и харак-

теризует долю вариации результативного признака, объясняемую влиянием включенного в модель фактора, в общей вариации результативного признака. Разность между 1 и коэффициентом (индексом) детерминации соответственно характеризует долю вариации результативного признака, вызванную влиянием неучтенных в модели факторов.

Оценка значимости параметров уравнения регрессии и коэффициента корреляции осуществляется с помощью t- критерия Стьюдента путем сопоставления их значений с величиной случайной ошибки:

ta =

a

tb =

b

tr

=

rΧΥ

,

μa

μb

 

 

 

ΧΥ

 

μr

 

 

 

 

 

 

ΧΥ

где случайные ошибки определяются:

117

Fфакт

 

 

 

 

 

 

 

Χ 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S

 

 

μr =

 

1 − r 2

μ

 

= S

 

 

 

 

 

 

μb

=

 

ост

 

ΧΥ

,

а

ост

nσ Χ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

σ Χ n

ΧΥ

 

n − 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(U - UΧ )

 

 

 

 

 

 

 

 

 

где Sост

=

 

 

 

 

ˆ

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

, n

число наблюдений,

m - число пара-

 

n - m -

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

метров при переменных Х.

Фактические значения t- критерия Стьюдента должны быть сравнены с табличным значением, которое определяется по таблице с учетом уровня значимости α, равным 0,1, 0,05 или 0,01 и числа степеней свободы,

равным ν = n m − 1 . Если tфакт > tтабл, то параметры уравнения регрессии и коэффициент корреляции признаются статистически значимыми,

если tфакт < tтабл, то признается случайная природа их формирования. Оценка значимости и надежности уравнения регрессии в целом и

показателя тесноты связи осуществляется расчетом и сравнением фактического значения F – критерия Фишера с его табличным значением:

 

(Уˆ Χ -У

)2 / m

 

rΧΥ2

n - m -1

Fфакт =

(У -Уˆ Χ )2

/(n - m -1)

=

 

×

 

 

1 - rΧΥ2

m

где n – число единиц совокупности, m

число параметров при пере-

менных Х.

 

 

 

 

 

 

 

 

Табличное значение F – критерия Фишера находится по таблице с учетом уровня значимости, числа наблюдений и числа факторных признаков:

Fтабл (α ; k1 ; k2 = n k1 − 1), где k1 - число факторных признаков. Если Fфакт > Fтабл , то признается статистическая значимость и надеж-

ность уравнения регрессии в целом и показателя тесноты связи, если < Fтабл , то признается их статистическая незначимость и нена-

дежность. Между F – критерием Фишера и t- критерием Стьюдента существует связь: tr = F .

Качество уравнения регрессии оценивает средняя ошибка аппрок- симации, то есть среднее отклонение расчетных значений результативного признака от фактических, выраженное в %:

 

 

 

 

 

ˆ

 

 

À

=

1

Y - YΧ

´100

 

n

Y

 

 

 

 

 

 

 

 

 

 

 

 

Качество модели признается хорошим, если А не более 8-10%, удовлетворительным, если не более 30%.

118

Пример 1. По 10 хозяйствам района определите уравнение регрессии между качеством почв и урожайностью картофеля. Найдите коэффициенты корреляции, детерминации, эластичности. Сделайте выводы.

1

2

3

4

5

6

7

8

9

10

хозяйства

 

 

 

 

 

 

 

 

 

 

Урожай-

 

 

 

 

 

 

 

 

 

 

ность

 

 

 

 

 

 

 

 

 

 

картофе-

120

125

90

93

180

200

160

175

80

145

ля с 1 га,

 

 

 

 

 

 

 

 

 

 

ц

 

 

 

 

 

 

 

 

 

 

Качество

 

 

 

 

 

 

 

 

 

 

почв,

66

68

55

58

90

86

75

70

50

80

баллы

 

 

 

 

 

 

 

 

 

 

Решение: Исходные и расчетные данные представим в таблице:

 

 

Исходные данные

Расчетные данные

№ п/п

 

Урожайность

 

Качество

 

 

 

 

 

картофеля с 1

 

почв, бал-

X 2

Y 2

YX

 

 

 

га, ц Y

 

лы

 

 

 

 

 

 

 

 

Х

 

 

 

1

 

 

120

 

66

4356

14400

7920

2

 

 

125

 

68

4624

15625

8500

3

 

 

90

 

55

3025

8100

4950

4

 

 

93

 

58

3364

8649

5394

5

 

 

180

 

90

8100

32400

16200

6

 

 

200

 

86

7396

40000

17200

7

 

 

160

 

75

5625

25600

12000

8

 

 

175

 

70

4900

30625

12250

9

 

 

80

 

50

2500

6400

4000

10

 

 

145

 

80

6400

21025

11600

Итого

 

 

1368

 

698

50290

202824

100014

В сред-

 

136,8

 

69,8

5029

20282,4

10001,4

нем

 

 

 

 

 

 

 

 

Для расчета

параметров

а и b

парной

линейной

регрессии

ˆ

+ bX

решаем систему нормальных уравнений относительно а

Y = a

и b :

119

 

 

 

10a + 698b = 1368

na + bC = U

 

 

 

UC

 

aC + bC2

=

698a + 50290b = 100014

a + 69,8b = 136,8

+ =

a 72,0b 143,3

2,2b = 6,5 b = 2,95 a = 136,8 − 69,8 * 2,95 = −69,11

ˆ

+ 2,95X

Уравнение связи принимает вид: Y = -69,11

Коэффициент эластичности сравнительной оценки силы связи фак-

тора

 

с

результатом

для

уравнения

прямой:

 

 

 

 

= 2,95

69,8

= 1,51%

 

 

 

 

 

 

= b

C

 

 

 

ЭΥХ

 

 

 

 

 

 

 

 

 

U

 

 

 

 

 

 

 

136,8

 

 

 

 

Тесноту линейной связи оценивает коэффициент парной корреляции:

 

 

 

 

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

r

=

ХУ

Х

×У

 

=

10001,4 -136,8 * 69,8

=

452,76

= 0,9147

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ΥX

 

 

σ Χ ×σ Υ

 

12,5 * 39,6

 

 

 

495

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

σ Х

 

Х 2

- (

 

 

)2 =

 

 

 

 

где

=

 

 

5029 - 69,82 =12,5

 

Х

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

σY

 

Y 2

 

- (Y

)2 =

 

 

 

=

 

20282,4 -136,82

= 39,6

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Коэффициент детерминации: rYX2 = 0,8367

Вывод: Коэффициент регрессии показывает, что при улучшении качества почв на 1 балл урожайность картофеля возрастает в среднем на 2,95 ц/га. Коэффициент эластичности показывает, что при повышении качества почв на 1 % от средней величины, урожайность картофеля возрастает на 1,51% от своего среднего уровня. Парный коэффициент корреляции показывает, что связь между признаками прямая и сильная. Коэффициент детерминации показывает, что на 83,67% вариации урожайности зависит от вариации качества почв и на 16,33% от влияния других - неучтенных факторов.

10.4. Множественная корреляция и регрессия

На практике часто возникает необходимость строить не однофакторную, а многофакторную корреляционно-регрессионную модель, в

120