Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ИСМ: Путеводитель.doc
Скачиваний:
8
Добавлен:
12.11.2018
Размер:
1.11 Mб
Скачать

6. Методы анализа взаимосвязей

Все социально-экономические явления взаимосвязаны. Связь между ними имеет причинно-следственный характер. Признаки, характеризующие причины и условия связи, называются факторными х, а признаки, которые характеризуют следствия связи, — результативными у. Между признаками х и у возникают разные по природе и характеру связи, а именно: функциональные и стохастические. При функциональной связи каждому значению признака х соответствует одно определенное значение у. Эта связь проявляется однозначно в каждом отдельном случае. При стохастической связи каждому значению признака х соответствует определенное множество значений y, образующих так называемое условное распределение. Как закон эта связь проявляется только в массе случаев и характеризуется изменением условных распределений у. Если заменить условное распределение средней величиной , то образуется разновидность стохастической связи — корреляционная. В случае корреляционной связи каждому значению признака х соответствует среднее значение результативного признака .

Примером стохастической, и в частности корреляционной, связи является распределение проданных на бирже недвижимости однокомнатных квартир по их стоимости у и размеру общей площади х (табл. 6.1).

Таблица 6.1

Размер общей площади, м2 х

Количество квартир со стоимостью тыс. усл. ден. ед.

Средняя стоимость квартиры, тыс. усл. ден. ед.

9—11

11—13

13—15

15—17

17—19

Итого

fi

До 25

26

12

2

40

10,8

25-30

4

9

12

5

30

13,2

30-35

4

6

10

4

24

15,2

35 и более

6

6

18,0

В целом

30

25

20

15

10

100

13,0

Каждой группе по факторному признаку соответствует свое распределение y, отличающееся от других групп и от безусловного итогового распределения. Следовательно, между признаками наблюдается стохастическая связь.

Условные распределения можно заменить средними значениями результативного признака, вычисляемыми как средняя арифметическая взвешенная:

Постепенное изменение средних от одной группы к другой свидетельствует о наличии корреляционной связи между признаками.

Характеристикой корреляционной связи является линии регрессии, которая рассматривается в двух моделях: аналитической группировки и регрессионного анализа. В модели аналитической группировки — это эмпирическая линия регрессии, которая образуется из групповых средних значений результативного признака для каждого значения (интервала) хо.

Эффекты, воздействия х на у определяются как отношение приростов средних групповых значений y : x, где , По данным табл. 6.1 приросты x во всех группах одинаковы — 5 м2, а средняя стоимость проданных квартир увеличивается по группам таким образом: = 13,2 - 10,8 = 2,4 тыс. усл. ден. ед.; = 2,0; = 2,8.

Следовательно, с увеличением размера общей площади квартир на 1 м2 их стоимость в среднем возрастает соответственно на: : = 2,4 : 5 == 0,48; на 0,4 и 0,56 тыс. усл. ден. ед.

Оценка тесноты связи основывается на правиле сложения дисперсий. В модели аналитической группировки мерой тесноты является отношение межгрупповой дисперсии к общей, которое называют корреляционным отношением:

где 2 — общая дисперсия, измеряющая вариацию результативного признака у, обусловленную влиянием всех возможных факторов; межгрупповая дисперсия 2 измеряет вариацию результативного признака у за счет воздействия только группировочного признака х. Корреляционное отношение колеблется в пределах от 0 до 1 (или от 0 до 100%). При функциональной связи 2 = 1, если связь отсутствует — 2 = 0. Чем ближе 2 к единице, тем теснее связь.

По данным табл. 6.1, общая дисперсия стоимости проданных квартир составляет

В табл. 6.2 представлена аналитическая группировка проданных квартир, описывающая зависимость их стоимости от общей площади. Там же показан расчет межгрупповой дисперсии.

Таблица 6.2

Общая площадь квартиры, м2

Количество квартир

Средняя стоимость квартиры, тыс. усл. ден. ед.

xi

fi

До 25

40

10,8

-2,2

193,6

25—30

30

13,2

0,2

1,2

30—35

24

15,2

2,2

116,2

35 и более

6

18,0

5,0

150,0

В целом

100

13,0

X

461,0

Корреляционное отношение составляет:

следовательно, вариация стоимости проданных квартир на 66% объясняется вариацией их общей площади и на 34% — вариацией других факторов. Таким образом, связь между признаками достаточно тесная.

Однако тесная связь может возникнуть случайно, поэтому необходимо проверить ее существенность, т. е. доказать неслучайность связи. Проверка существенности связи — это сопоставление фактического значения 2 с его критическим значением для определенного уровня существенности а и числа степеней свободы k1 = m - 1 и k2 = n – m, где m — число групп; n — объем совокупности. Если , то связь признается существенной. Критические значения корреляционного отношения для а = 0,05 приведены в прил. 4.

В нашем примере k1 = 4 - 1 == 3, k2 = 100 - 4 == 96. Из-за отсутствия в таблице критических значений k = 96 используем ближайшее (k2 = 100), тогда

20,95 (3, 100) = 0,075.

Поскольку 2 0,659 > 0,075, то связь признается существенной с вероятностью 0,95.

В модели регрессионного анализа характеристикой корреляционной связи является теоретическая линия регрессии, описываемая функцией Y = f(x), которая называется уравнением регрессии. В зависимости от характера связи используют:

линейные уравнения Y = а + bх, когда при изменении х признак у изменяется более или менее равномерно;

нелинейные уравнения, когда изменение взаимосвязанных признаков происходит неравномерно (с ускорением, замедлением или с переменным направлением связи), в частности степенное Y = axb, гиперболическое Y = а + b/х, параболическое Y = а + bх + сх2 и т. п.

Чаще применяются линейные или приведенные к линейному виду уравнения. В линейном уравнении параметр b — коэффициент регрессии — показывает, на сколько единиц в среднем изменится у при изменении х на единицу. Он имеет единицу измерения результативного признака. При прямой связи b — величина положительная, при обратной — отрицательная. Параметр а — свободный член уравнения регрессии, т. е. это значение Y при х. == 0. Если х не принимает нулевых значений, этот параметр не имеет интерпретации. Параметры функции определяются методом наименьших квадратов, согласно которому сумма квадратов отклонений эмпирических значений у от теоретических Y минимальна: (у - Y)2  min. В соответствии с условием минимизации параметры вычисляются на основе системы нормальных уравнений:

Отсюда

Пример. Расчет параметров линейного уравнения регрессии рассмотрим на примере связи между суточной стоимостью туристических путевок в одном из турагенств и продолжительностью отдыха (дней):

Таблица 6.3

Номер путевки

Продолжи­тельность отдыха, дней

Суточная стоимость путевки, усл. ден. ед.

ху

x2

Y

(y - Y)2

y2

x

y

1

5

78

390

25

91,6

185,0

6084

2

14

55

770

196

52,5

6,2

3025

3

7

95

665

49

82,9

146,4

9025

4

18

30

540

324

35,1

126,0

900

5

14

53

742

196

52,5

0,2

2809

6

20

26

520

400

26,4

0,2

676

7

7

85

595

49

82,9

4,4

7225

8

15

50

750

225

48,1

3,6

2 500

Итого

100

472

4972

1464

472,0

372,0

32244

Величины, на основании которых вычисляются параметры:

x = 100; y = 472; xy = 4972; x2 = 1464; n = 8; = 100 : 8 = 12,5; = 472 : 8 = 59. Следовательно, параметры составляют:

а = 59 - (-4,34) - 12,5 = 113,25.

Тогда уравнение регрессии имеет вид Y = 113,25 - 4,34x, т.е. с увеличением продолжительности отдыха на один день суточная стоимость туристической путевки дешевеет в среднем на 4,34 усл. ден. ед.

Коэффициент регрессии в небольших по объему совокупностях подвержен случайным колебаниям. Поэтому необходима проверка его существенности с помощью t-критерия (Стьюдента):

где b — коэффициент регрессии; b — стандартная ошибка, рассчитываемая по формуле

— остаточная дисперсия; — дисперсия факторного признака; n — объем совокупности.

По данным табл. 6.3 = 26,75, = 46,5, n = 8, тогда

что значительно выше критического значения t0,95 (6) =2,54.

Следовательно, с вероятностью 0,95 влияние продолжительности отдыха на суточную стоимость путевок признается существенным. Для коэффициента регрессии также определяются доверительные границы b ± tb. С вероятностью 0,95 доверительные границы коэффициента регрессии составляют

-4,34 ± 2,54 • 0,54, или -4,34 ± 1,37 усл. ден. ед.

Характеристикой относительного изменения у за счет х является коэффициент эластичности

который показывает, на сколько процентов в среднем изменяется результативный признак с изменением факторного на 1%. По данным табл. 6.3

следовательно, с увеличением продолжительности отдыха на 1% суточная стоимость путевок уменьшается в среднем на 0,9%.

На основании уравнения регрессии определяются теоретические значения Y, т. е. значения результативного признака при условии, что на него влияет только фактор х, а другие факторы остаются на неизменном уровне. В приведенном примере Y — это ожидаемая стоимость путевок за счет влияния только продолжительности отдыха. Так, для х = 5 дней суточная стоимость путевки составит Y = 113,25 - 4,34 • 5 = 91,6 усл. ден. ед., что несколько отклоняется от фактического значения.

Отклонения эмпирических значений у от теоретических Y называют остаточными. Они характеризуют влияние на результативный признак всех других факторов, кроме х. Средний размер этих отклонений определяет остаточная дисперсия

Вариацию у, обусловленную влиянием только фактора х, измеряет факторная дисперсия:

Доля факторной дисперсии в общей характеризует тесноту связи и называется коэффициентом, детерминации:

Он имеет такое же содержание, интерпретацию и цифровые границы, что и 2. По данным табл. 6.3

следовательно, по правилу сложения дисперсий:

= 549,5 - 46,5 = 503,

или по другой формуле

(113,25  472 - 4,34  4972) - 592 =503

Тогда R2 = 503 : 549,5 = 0,915, т.е. 91,5% вариации суточной стоимости путевок линейно связаны с вариацией продолжительности отдыха, а 8,5.% вариации приходится на остальные факторы. Следовательно, связь очень тесная.

Тесноту связи можно оценить также индексом корреляции R = , однако интерпретируется только R2. Для линейной связи используется линейный коэффициент корреляции (Пирсона) r:

который принимает значения в пределах 1, поэтому характеризует не только тесноту, на и направление связи. Положительное значение свидетельствует о прямой связи, а отрицательное — об обратной. В рассмотренном примере

где . Следовательно, связь между суточной стоимостью туристических путевок и продолжительностью отдыха является тесной и обратной. Абсолютное значение r равно индексу корреляции:

Однако для интерпретации г необходимо перейти к R2= r2.

Проверка существенности связи осуществляется таким же образом, как и в модели аналитической группировки, путем сравнения R2 и . Отличия касаются только определения k1 и k2 в которых m — число параметров уравнения регрессии. В нашем примере k1 =2 – 1 = 1, а k2 = 8 – 2 = 6, критическое значение R20,95(1,6) = 0,500 значительно меньше фактического R2 = 0,915.

Пример. По данным табл. 6.4 оценим тесноту связи между уровнем эффективности экономики и надежностью делового партнерства для семи стран Восточной Европы. Поскольку информация представлена в форме интегральных показателей (оценки в баллах), необходимо провести ранжирование стран. Наименьшему значению интегрального показателя придается ранг 1, наибольшему — ранг 7. Сумма квадратов отклонений рангов составляет

а коэффициент ранговой корреляции

Значение коэффициента ранговой корреляции свидетельствует о наличии прямой и достаточно заветной связи между указанными параметрами риска иностранного инвестирования экономики. По прил. 6 критическое значение коэффициента ранговой коррекции для а = 0-05 и n = 7 составляет 0,95(7) = 0,71, что значительно меньше фактического. Следовательно, существенность связи доказана с вероятностью 0,95.

Таблица 6.4

Страна

Интегральные показатели

Ранги показателей

Отклоне­ние рангов dj

эффективности экономики (max = 10)

надежности делового партнерства (max = 100)

Rx

Ry

d2j

А

5,9

54.9

6

7

-1

1

В

7,1

54,8

7

6

1

1

С

4,2

45,3

4

5

-1

1

D

3,4

36,9

3

4

-1

1

К

4,9

35,8

5

3

2

4

М

2,7

26,4

1

2

-1

1

Р

2,9

24,8

2

1

1

1

Итого

X

X

X

X

0

10

Анализ взаимосвязей между атрибутивными признаками проводится на основе таблиц взаимной сопряженности (взаимозависимости), описывающих комбинационные распределения совокупностей по двум признакам — факторному х и результативному у. При наличии стохастической связи условные распределения изменяются от группы к группе. Оценка тесноты стохастической связи основывается на отклонениях частот (частостей) условных распределений от безусловного, т.е. на отклонениях фактических частот fij от теоретических Fij, пропорциональных итоговым частотам безусловного распределения:

где fi0 — итоговые частоты по признаку х; f0j — итоговые частоты по признаку у, n — объем совокупности.

Очевидно, что

Абсолютную величину отклонений (fij - Fij) характеризует квадратическая сопряженность Пирсона 2:

Если стохастическая связь отсутствует, то 2 = 0. Для того, итобы сделать вывод о существенности связи, необходимо сравнить фактическое значение 2 с критическим для заданной вероятности 1 -  и числа степеней свободы k = (mx — 1)(my - 1), где mx и my — соответственно количество групп по признакам х и у. Критические значения 2 приведены в прил. 3.

Относительной мерой тесноты стохастической связи служат коэффициенты взаимной сопряженности С, которые по содержанию идентичны коэффициентам корреляции. Если mx = my, используют коэффициент сопряженности Чупрова:

если mx  my, предпочтение отдают коэффициенту сопряженности Крамера:

где mmin — минимальное количество групп по признаку х или у.

Значения коэффициента С колеблются в пределах от 0 до 1.

Пример. В табл. 6.5 приведено комбинационное распределение респондентов как потенциальных инвесторов по возрасту и склонности к риску. К группе рискующих отнесены респонденты, имеющие намерение приобрести ценные бумаги, несмотря на риск, осторожные не рискуют без гарантий, нерискующие избегают риска вообще. Концентрация частот около диагонали из верхнего левого угла в правый нижний свидетельствует о наличии стохастической связи. Фактическое значение 2 составляет

что значительно выше критического 20,95 (4) = 9,49. Следовательно, существенность связи между возрастом респондентов и склонностью их к риску доказана с вероятностью 0,95.

Таблица 6.5

Возраст, лет

Тип инвестора

Итого

рискующий

осторожный

нерискующий

До 30

24

12

4

40

30—50

20

50

30

100

50 и старше

6

18

36

60

Итого

50

80

70

200

Поскольку mx = my =3, для оценки тесноты связи используем коэффициент взаимной сопряженности Чупрова:

т.е. связь между признаками умеренная.

В случае, когда mx = my = 2, расчет коэффициента взаимной сопряженности упрощается:

В статистической литературе коэффициент С для 4-клеточной таблицы называют коэффициентом контингенции (ассоциации). Очевидно, что 2 = nС2.

Для анализа таблиц такого типа используют также отношение перекрестных произведений, или отношение шансов:

Отношение шансов характеризует меру относительного риска (выигрыша), связанного с фактором х.

Пример. По данным табл. 6.6 оценим тесноту связи между восприятием рекламы и приобретением рекламируемого товара, а также результативность рекламы.

Восприятие рекламы

Количество респондентов

Итого

приобрели товар

не приобрели товар

Запомнили рекламу

9

31

40

Не запомнили рекламу

2

38

40

Итого

11

69

80

Таблица 6.6

Коэффициент контингенции свидетельствует о наличии стохастической связи

фактическое значение 2 = nС2 = 80 • 0,2542 = 5,16, что выше критического значения 20,95(1) = 3,84. Следовательно, существенность связи доказана.

Отношение шансов составляет

т.е. шансы реализовать рекламируемый товар в 5,5 рааза выше по сравнению с нерекламируемым.

Методы анализа таблиц взаимной сопряженности можно использовать и для количественных признаков (см., например, комбинационное распределение табл. 6.1), однако следует отметить, что меры тесноты корреляционной связи – коэффициент детерминации и корреляционное отношение – более чувствительны.