Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
УМК Эконометрика.pdf
Скачиваний:
67
Добавлен:
02.04.2015
Размер:
1.69 Mб
Скачать

69

Раздел 3. Нарушения предпосылок классической регрессионной модели

Вразделе рассматриваются четыре темы:

1.Гетероскедастичность случайного возмущения.

2.Автокорреляция случайного возмущения.

3.Обобщенный метод наименьших квадратов.

4.Мультиколлинеарность.

После проработки теоретического материала раздела 3 следует выполнить практическую работу № 4.

После изучения данного раздела необходимо ответить на вопросы теста № 3. Более подробная информация по данной теме содержится в учебнике [1].

3.1. Гетероскедастичность случайного возмущения

Изучаемые вопросы:

последствия гетероскедастичности;

тест ранговой корреляции Спирмена;

тест Голдфельда-Квандта;

При работе с теоретическим материалом следует разобрать примеры решения задач и ответить на вопросы для самопроверки, приведенные в конце темы.

Последствия гетероскедастичности

Статистическая значимость коэффициентов регрессии и близкое к единице значение коэффициента детерминации R2 не гарантируют высокое качество уравнения регрессии. МНК основан на ряде предпосылок относительно свойств опытных данных. Нарушение необходимых предпосылок МНК делает неточным анализ значимости оценок.

Одной из предпосылок МНК является условие постоянства дисперсии случайного возмущения для всех наблюдений (гомоскедастичность). Невыполнимость данной предпосылки называется гетероскедастичностью.

70

Оценки, полученные по МНК, при наличии гетероскедастичности не будут эффективными (то есть они не будут иметь наименьшую дисперсию по сравнению с другими оценками параметров). А следовательно, результаты, основанные на анализе дисперсии коэффициентов – точность модели, значимость и доверительные интервалы для коэффициентов и прогнозных значений, – в случае гетероскедастичности неприменимы.

Существует несколько тестов для обнаружения гетероскедастичности. Во всех тестах делается предположение о наличии связи между дисперсией остатка и величиной объясняющей переменной или расчетным значением зависимой переменной.

Тест ранговой корреляции Спирмена

При использовании данного теста предполагается, что дисперсия возмущения будет либо увеличиваться, либо уменьшаться с увеличением значений x . Поэтому для регрессии, построенной по МНК, абсолютные величины остатков e и значения x будут коррелированы.

Тест включает следующие шаги:

1. Проводится оценка параметров модели регрессии с помощью традиционного МНК и находятся абсолютные величины остатков ei , i=1,2,…n..

2. Значения xi и ei ранжируются (упорядочиваются по величинам) и

определяются их ранги. Ранг – это порядковый номер значений переменной в ранжированном ряду.

3. Вычисляется коэффициент ранговой корреляции Спирмена по формуле

n

6di2 r =1ni3=1n ,

где di разность между рангами значений xi и ei .

71

4. Выдвигается основная гипотеза H0 : σ12 =σ22 =K=σn2 об отсутствии гетероскедастичности. Для проверки нулевой гипотезы используется статистика вида

 

 

t

 

=

 

 

rs

 

 

n 2

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1 r 2

 

 

 

 

 

 

 

 

 

 

 

 

 

s

которая при условии

справедливости гипотезы H 0 имеет распределение

Стьюдента с числом степеней свободы n 2.

5. Задается уровень значимости α – вероятность того, что будет отвергнута

правильная гипотеза

H 0 , и с помощью статистических таблиц находится

критическая точка tкр

= tкр (α; n 2)

 

 

 

 

 

 

6. Если наблюдаемое значение

критерия

 

tнабл

 

< tкрит , то принимается

 

 

основная гипотеза об отсутствии гетероскедастичности. В противном случае,

когда tнабл > tкрит , гипотеза H 0 отвергается и делается вывод о том, что имеется гетероскедастичность.

Пример 3.1.1

Исследуется зависимость между доходом (x, усл. ед.) домохозяйства и его расходом (y, усл. ед.) на продукты питания. Выборочные данные по 16 домохозяйствам представлены ниже.

x

24

26,5

27,3

29,6

 

35,6

38,6

39

39,3

 

 

 

 

 

 

 

 

 

 

 

 

y

11

11,5

12

11,1

 

13,5

10,1

12,4

14,6

 

 

 

 

 

 

 

 

 

 

 

 

x

40

41,4

42,5

44,6

 

45,5

48,3

49,5

52,3

 

 

 

 

 

 

 

 

 

 

 

 

y

12,3

13,6

11,8

21,5

 

18,5

20

18,2

20,5

 

 

 

 

 

 

 

 

 

 

 

 

Используя

тест Спирмена,

проверить

на уровне значимости

α = 0,05

линейную регрессионную модель y = a0 + a1 x + u на гетероскедастичность.

72

Решение. Для определения коэффициентов уравнения регрессии воспользуемся функцией ЛИНЕЙН Excel. В табл. 3.1.1 приведена оценка регрессии.

Таблица 3.1.1

b1 = 0,3482

b0

= 0,9596

Sb

= 0,0771

Sb

= 3,0728

1

 

0

 

R 2

= 0,5930

S = 2,5388

F = 20,39

ν =14

 

 

RSS =131,46

ESS = 90,24

 

 

 

 

Оцененное уравнение регрессии имеет вид

yˆ = 0,9596 + 0,3482x (3,07) (0,0771)

(в скобках указаны стандартные ошибки). Отклонения от линии регрессии (остатки e) и данные по x в порядке возрастания приведены в табл. 3.1.2.

Таблица 3.1.2

x

Ранг

 

ei

 

 

 

Ранг

 

di2

x

Ранг

 

 

ei

 

 

Ранг

di2

 

 

 

 

 

 

 

 

 

 

 

 

 

24

1

1,68

 

2

 

 

1

 

40

9

2,59

7

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

26,5

2

1,31

 

4

 

 

4

 

41,4

10

1,77

10

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

27,3

3

1,54

 

6

 

 

9

 

42,5

11

3,96

5

36

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

29,6

4

0,165

 

3

 

 

1

 

44,6

12

5,01

16

16

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

35,6

5

0,146

 

9

 

 

16

45,5

13

1,70

13

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

38,6

6

4,30

 

1

 

 

25

48,3

14

2,22

14

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

39

7

2,13

 

8

 

 

1

 

49,5

15

0,007

12

9

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

39,3

8

0,042

 

11

 

 

9

 

52,3

16

1,33

15

1

 

 

 

 

 

 

 

 

 

 

 

 

 

На основе этих данных вычислен коэффициент ранговой корреляции:

 

 

 

r =1

6di2

 

=1

6 132

= 0,806 .

 

 

 

 

 

 

 

 

 

n(n2 1)

 

 

 

 

 

 

 

 

 

 

 

s

16 255

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Вычисленное значение тестовой статистики равно:

 

 

 

 

 

 

 

 

 

 

 

73

 

 

t

 

=

 

rs

 

 

n

2

=

0,806 14

= 5,09 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

r 2

 

1 0,8062

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

s

 

 

 

 

Это больше, чем критическое значение tкр = 2,14 , следовательно, нулевая гипотеза об отсутствии гетероскедастичности отклоняется.

Тест Голдфельда-Квандта

При проведении проверки по этому критерию предполагается, что стандартное отклонение σ(ui ) возмущения пропорционально значению

независимой переменной

x .

Предполагается

также, что случайный

член

распределен нормально.

 

 

 

 

 

 

Все n наблюдений в выборке упорядочиваются по возрастанию

переменной x . Затем оцениваются “частные” регрессии для первых n0

и для

последних n0 наблюдений. Средние (n 2n0 ) наблюдений отбрасываются.

Нулевая гипотеза о равенстве дисперсий двух наборов по n0 наблюдений

H0 : σ12 =σ22 =K=σn2

(гипотеза об отсутствии гетероскедастичности)

проверяется с помощью критерия Фишера-Снедекора.

 

 

 

 

n0

 

 

 

 

 

ei2

 

 

Составляется статистика

F =

i =1

 

.

 

n

 

 

 

 

ei2

 

 

 

 

 

i =nn0 +1

 

 

Если верна гипотеза

H 0 об отсутствии гетероскедастичности, то F имеет

распределение Фишера с двумя параметрами ν1 =ν2 = n0 m 1, где m – число объясняющих переменных. По таблице F-распределения для уровня значимости α определяется Fкр .

Если Fфакт > Fкр , то нулевая гипотеза отвергается и делается вывод о гетероскедастичности случайного возмущения.

74

Пример 3.1.2

Проверить наличие гетероскедастичности данных из примера 3.1.1 при помощи теста Голдфельда-Квандта.

Решение. Поскольку число наблюдений в выборке n = 16, число наблюдений в “частных” регрессиях примем равным 7. Остатки двух частных регрессий вычислим с помощью функции ЛИНЕЙН Excel. Оценки регрессии по первым 7 и по последним 7 наблюдениям приведены ниже.

Таблица 3.1.3

b1 = 0,0328

b0 =10,625

b1 = 0,6334

b0 = −11,597

 

 

 

Sb0 =14,195

Sb = 0,0788

Sb0 = 2,523

Sb1 = 0,3056

1

 

 

S = 2,935

R2 = 0,0334

S =1,184

R2 = 0,46

 

 

 

ν =5

F = 0,1729

ν =5

F = 4,294

 

 

 

ESS2 = 43,079

RSS = 0,2426

ESS1 = 7,0145

RSS = 36,996

Подставив суммы квадратов остатков первой и последней “частных” регрессий, равные 7,01 и 43,08 соответственно, в тестовую статистику, получим

 

F

 

= 43,08 = 6,14 .

 

 

 

 

факт

7,01

 

 

 

 

 

 

 

 

 

По

таблице

F-распределения

с

двумя

параметрами

ν1 =ν2 = n0 m = 7 2 =5

для уровня значимости 0,05 критическое значение

равно

Fкр =5,05 . Таким образом, нулевая

гипотеза об

отсутствии

гетероскедастичности отвергается.

Если в модели регрессии имеется более одной объясняющей переменной, то проверка гипотезы может осуществляться для каждой из них отдельно.

Существует два подхода к решению проблемы гетероскедастичности: преобразование данных и применение обобщенного метода наименьших квадратов (ОМНК).

75

ВОПРОСЫ ДЛЯ САМОПРОВЕРКИ

1.В чем суть гетероскедастичности?

2.Каковы последствия гетероскедастичности?

3.Назовите способы выявления гетероскедастичности.

3.2. Автокорреляция случайного возмущения

Одной из предпосылок регрессионного анализа является независимость случайного члена в любом наблюдении от его значения во всех других наблюдениях, т. е. M (uiu j )= 0 (i j). Если данное условие не выполняется, то говорят, что случайный член подвержен автокорреляции. В этом случае коэффициенты регрессии, получаемые по МНК, оказываются неэффективными, а их стандартные ошибки занижаются.

Заметим, что необходимым условием независимости является некоррелированность случайных членов для каждых двух соседних значений,

т. е. cov(ui u j )= 0 (i j).

Поскольку значения случайных членов ui неизвестны, то проверяется статистическая некоррелированность остатков ei и ei 1 . Оценкой коэффи-

циента корреляции ρ является коэффициент автокорреляции остатков первого порядка, который при достаточно большом числе наблюдений имеет вид

rei ei1 .

ei2

Проверяется нулевая гипотеза об отсутствии корреляции первого порядка

H0 : ρ = 0 ,

H1 : ρ > 0 .

 

Для проверки нулевой гипотезы используют статистику Дарбина-Уотсона,

рассчитываемую по формуле

 

 

DW = (ei ei1 )2 2(1 r).

(3.2.1)

ei2

 

 

Поскольку коэффициент корреляции принимает значения 1 r 1, то для значений статистики DW выполняется неравенство 0 DW 4 .

76

Если автокорреляция остатков отсутствует (r = 0), то DW = 2 .

При положительной автокорреляции (r > 0) имеем 0 ≤ DW < 2, а при

отрицательной (r < 0) – 2 < DW ≤ 4.

Вычисленное значение критерия Дарбина-Уотсона сравнивается с нижней (dн) и верхней (dв) границами критического значения d y dкр dd . Границы dн

и dв выбираются из таблиц статистики Дарбина-Уотсона (см. Приложение) для заданного числа наблюдений n , числа объясняющих переменных m и уровня значимости. Множество возможных значений статистики DW (отрезок [0; 4]) разбивается на пять зон. В зависимости от того, в какую зону попадает расчетное значение критерия, принимают или отвергают соответствующую гипотезу.

 

 

 

 

 

 

 

 

DW

 

 

 

 

 

 

 

 

 

 

0

dн

dв

2

4-dв

4-dн

4

 

Область

 

Зона

Область принятия

 

Зона

Область

отклонения H0 неопределенности

гипотезы

неопределенности

отклонения H0

Рис. 3.2.1. Множество возможных значений статистики DW

Если DW<dн и DW>4-dн, то гипотеза о независимости остатков отвергается и модель признается неадекватной по критерию независимости остатков;

если dв<DW<4-dв, то гипотеза о независимости остатков принимается и модель признается адекватной по данному критерию;

если dн<DW<dв и 4-dв<DW<4-dн, то значение критерия лежит в области неопределенности и для проверки адекватности следует использовать дополнительный критерий.

Пример 3.2.1

Для данных примера 3.1.1 вычислить значение статистики ДарбинаУотсона и на ее основе проанализировать наличие автокорреляции.

Решение. Чтобы проверить возмущения регрессии на автокорреляцию, вычислим значение статистики DW по формуле (3.2.1). Знаменатель формулы

77

представляет собой сумму квадратов остатков регрессии – ESS, значение которой уже вычислено: ESS=90,24. Вычисление суммы, стоящей в числителе, представим в виде таблицы 3.2.1.

 

 

 

 

 

 

 

 

Таблица 3.2.1

 

 

 

 

 

 

 

 

 

 

 

yi

yˆi

ei

(e e

)2

yi

yˆi

ei

(ei ei1 )2

п.п.

 

 

 

i i1

п.п.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

11

9,315

1,685

 

9

12,3

14,886

-2,586

6,470

 

 

 

 

 

 

 

 

 

 

 

2

11,5

10,186

1,314

0,137

 

10

13,6

15,373

-1,773

0,660

 

 

 

 

 

 

 

 

 

 

 

3

12

10,464

1,536

0,049

 

11

11,8

15,756

-3,956

4,765

 

 

 

 

 

 

 

 

 

 

 

4

11,1

11,265

-0,165

2,893

 

12

21,5

16,487

5,013

80,440

 

 

 

 

 

 

 

 

 

 

 

5

13,5

13,354

0,146

0,097

 

13

18,5

16,800

1,7

10,978

 

 

 

 

 

 

 

 

 

 

6

10,1

14,398

-4,298

19,753

14

20

17,775

2,225

0,276

 

 

 

 

 

 

 

 

 

 

 

7

12,4

14,538

-2,138

4,669

 

15

18,2

18,193

0,007

4,919

 

 

 

 

 

 

 

 

 

 

 

8

14,6

14,642

-0,042

4,391

 

16

20,5

19,168

1,332

1,756

 

 

 

 

 

 

 

 

 

 

 

Вычисленное значение статистики Дарбина-Уотсона:

 

 

16 (ei ei1 )2

 

DW =

i=2

 

=

90,24

0,634.

 

 

 

 

 

1`6

142,25

 

 

 

ei2

 

 

 

i=1

 

 

 

 

Значения границ

критического

значения статистики для n=16, m=1,

α = 0,05: dн= 1,106,

dв=1,371. Поскольку DW<dн – значение статистики

попадает в первую зону, что означает наличие автокорреляции в возмущениях.

ВОПРОСЫ ДЛЯ САМОПРОВЕРКИ

1.В чем суть автокорреляции?

2.Каковы последствия и причины автокорреляции?

3.Как проводится проверка уравнения на автокорреляцию?

4.Каковы ограничения на применение теста Дарбина-Уотсона?

78

3.3. Обобщенный метод наименьших квадратов

Обобщенный метод наименьших квадратов (ОМНК) применяется в том случае, если нарушены предпосылки 2 и 3 классической линейной модели регрессии, т. е. случайные возмущения не имеют постоянной дисперсии или коррелированы между собой. В этом случае имеет место обобщенная линейная модель множественной регрессии.

Обобщенная регрессионная модель имеет следующую спецификацию:

 

 

Y = XA +U .

 

 

 

 

(3.3.1)

Здесь переменные и параметры определены так же, как в п. 2.1.

Относительно случайных возмущений регрессии принимаются следующие

предпосылки:

 

 

 

 

 

 

 

 

M (U )= 0;

 

 

 

 

 

 

 

 

 

 

 

σ 2

c

Kc

 

 

 

 

 

 

1

12

1n

 

 

C

= cov(U ,U )= M

(UU T )=σ 2C

 

 

2

Kc2n

 

 

0

= c21

σ2

,

 

U

 

 

M

M

M M

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

cn1

cn2 K σn

 

где UU T

– векторное произведение векторов;

T

знак

транспонирования

матрицы,

σ 2

– неизвестная

положительная константа;

C0 – некоторая

симметричная положительно определенная (корреляционная) матрица, которая полагается известной.

Таким образом, обобщенная модель отличается от классической только видом ковариационной матрицы возмущений CU . В классической модели предполагается, что матрица C0 равна единичной матрице. В обобщенной модели допускается, что ковариации остатков могут быть произвольными, т. е. C0 может содержать произвольные значения.

Если применить к системе уравнений наблюдений (3.3.1) обычный МНК, то полученная МНК-оценка вектора коэффициентов

B = (X T X )1 X T Y

79

и в условиях обобщенной модели остается состоятельной и несмещенной. Однако данные оценки будут неэффективными. Для преодоления этих последствий используется обобщенный МНК, применение которого основано на следующей теореме.

Теорема Айткена. В классе линейных несмещенных оценок вектора параметров обобщенной регрессионной модели оценка

B* = (X T C01 X )1 X T C01 Y (3.3.2)

является эффективной, т. е. имеет наименьшую ковариационную матрицу. Ковариационная матрица МНК-оценок параметров регрессии (которая

используется для определения дисперсий и стандартных ошибок оценок параметров) рассчитывается по формуле

CB =σu2 (X T Co1 X )1.

Для применения ОМНК необходимо знать ковариационную матрицу случайных возмущений Cu , которая, как правило, неизвестна. Поэтому для практической реализации метода необходимо ввести дополнительные условия на структуру матрицы Cu , оценить каким-либо образом матрицу, а затем использовать эту оценку в формуле (3.3.2) вместо C0 . Данный подход составляет суть доступного обобщенного метода наименьших квадратов.

Линейная модель с гетероскедастичным возмущением является частным случаем ОЛММР. В этом случае на структуру матрицы Cu наиболее часто накладывается следующее условие: среднее квадратическое отклонение возмущения пропорционально одной из факторных переменных xi = λ σui . В

этом случае ковариационная матрица имеет вид

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xi

 

0 K 0

 

 

 

 

 

 

 

 

 

λ2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

2

0 K0

 

 

 

 

 

x2

 

 

 

 

 

 

i

2

 

 

 

0

 

i

K 0

 

 

1

 

0

xi

K0

.

 

 

 

CU =

 

 

 

λ2

 

 

=

 

 

 

 

 

 

 

 

 

 

 

λ2

 

 

 

 

 

 

M M M M

 

 

 

K K KK

 

 

 

 

 

 

 

2

 

 

 

 

0

 

0

K x2

 

 

0

0K

xi

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

λ2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

80

При наличии автокорреляции возмущений при сохранении свойства гомоскедастичности делают предположение о том, что случайные

составляющие

связаны

автокорреляционной зависимостью

1-го порядка:

ui = ρ ui1 + wi ,

где ρ

некоторая постоянная,

 

ρ

 

<1; wi

– случайные

 

 

величины, удовлетворяющие требованиям, предъявляемым к возмущениям классической модели. Ковариационная матрица в этом случае имеет вид

 

 

 

 

 

1

 

ρ ρ2

Kρn1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

σ 2

ρ 1 ρ

 

K ρn2

 

C

=

 

 

u

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

 

 

 

 

 

U

1

ρ2

 

 

 

 

 

 

 

 

 

 

K

K K

K

 

 

 

 

 

 

 

 

ρ

n1

ρ

n2

ρ

n3

K 1

 

 

 

 

 

 

 

 

 

 

 

 

 

ВОПРОСЫ ДЛЯ САМОПРОВЕРКИ

1.Каковы условия применения обобщенного метода наименьших квадратов?

2.Сформулируйте теорему Айткена.

3.4. Мультиколлинеарность

Изучаемые вопросы:

последствия и признаки мультиколлинеарности;

парные (линейные) и частные коэффициенты корреляции;

множественный коэффициент корреляции и коэффициент детерминации;

пошаговая регрессия.

После проработки теоретического материала следует ответить на вопросы для самопроверки, приведенные в конце темы. Затем следует выполнить практическую работу № 4 в соответствии со своим вариантом, ознакомившись предварительно с приведенным решением контрольного примера.

81

Последствия и признаки мультиколлинеарности

При построении уравнения множественной регрессии может возникнуть проблема мультиколлинеарности факторов. Мультиколлинеарностью называется линейная взаимосвязь двух или нескольких объясняющих переменных, которая может проявляться в функциональной (явной) или стохастической (скрытой) форме.

Выявление связи между отобранными признаками и количественная оценка тесноты связи осуществляются с использованием методов корреляционного анализа. Для решения этих задач сначала оценивается матрица парных коэффициентов корреляции, затем на ее основе определяются частные и множественные коэффициенты корреляции и детерминации, проверяется их значимость. Конечной целью корреляционного анализа является отбор факторных признаков x1, x2 ,K, xm для дальнейшего построения уравнения регрессии.

Если факторные переменные связаны строгой функциональной зависимостью, то говорят о полной мультиколлинеарности. В этом случае среди столбцов матрицы факторных переменных Х имеются линейно зависимые столбцы, и, по свойству определителей матрицы,

det(X T X )= 0 ,

т. е. матрица (X T X ) вырождена, а значит, не существует обратной матрицы.

Матрица (X T X )1 используется в построении МНК-оценок (см. формулу

(2.1.11). Таким образом, полная мультиколлинеарность не позволяет однозначно оценить параметры исходной модели регрессии.

Вид мультиколлинеарности, при котором факторные переменные связаны некоторой стохастической зависимостью, называется частичной. Если между факторными переменными имеется высокая степень корреляции, то матрица

(X T X )близка к вырожденной, т. е.

det(X T X )0 .

стандартные отклонения

 

82

Матрица (X T X )1

будет плохо обусловленной, что приводит к

неустойчивости МНК-оценок. Частичная мультиколлинеарность приводит к следующим последствиям:

увеличение дисперсий оценок параметров расширяет интервальные оценки и ухудшает их точность;

уменьшение t-статистик коэффициентов приводит к неверным выводам о значимости факторов;

неустойчивость МНК-оценок и их дисперсий.

Точных количественных критериев для обнаружения частичной мультиколлинеарности не существует. О наличии мультиколлинеарности может свидетельствовать близость к нулю определителя матрицы (X T X ).

Также исследуют значения парных коэффициентов корреляции.

Парные (линейные) и частные коэффициенты корреляции

Тесноту связи, например между переменными x и y по выборке значений

(xi , yi ), i =1, n , оценивает линейный коэффициент парной корреляции:

 

 

 

1

n

(x

 

 

)(y

 

 

)

 

 

 

 

 

x

 

y

 

 

 

 

 

i

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

r = rxy =

 

 

 

n i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n (x

 

)2

 

 

1 n

 

(y

 

 

 

)2

1

 

 

 

 

 

 

x

 

 

y

 

 

 

 

 

i

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

n i=1

 

 

 

 

 

 

n i=1

 

 

 

 

 

 

=

 

 

 

 

,

 

xy

x

y

(3.4.1)

 

Sx Sy

 

где x и y средние значения, S x и S y

соответствующих выборок.

Парный коэффициент корреляции изменяется в пределах от –1 до +1. Чем ближе он по абсолютной величине к единице, тем ближе статистическая зависимость между x и y к линейной функциональной. Положительное значение коэффициента свидетельствует о том, что связь между признаками прямая (с ростом x увеличивается значение y ), отрицательное значение – связь обратная (с ростом x значение y уменьшается).

83

Можно дать следующую качественную интерпретацию возможных

значений коэффициента корреляции: если

 

r

 

< 0,3 связь практически

 

 

отсутствует; 0,3

 

r

 

< 0,7 - связь

средняя;

0,7

 

r

 

< 0,9 связь сильная;

 

 

 

 

0,9

 

r

 

< 0,99 связь весьма сильная.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Для оценки мультиколлинеарности факторов используют матрицу парных коэффициентов корреляции зависимого (результативного) признака y с

факторными признаками x1, x2 ,Kxm , которая позволяет оценить степень влияния каждого показателя-фактора x j на зависимую переменную y , а также

тесноту взаимосвязей факторов между собой. Корреляционная матрица в общем случае имеет вид

1

ryx

 

 

ryx

K ryx

 

 

 

 

1

 

 

 

2

 

 

m

rx y 1

 

rx x

2

K rx x

 

 

 

1

 

 

 

1

 

 

 

1

m .

K K K K K

 

 

 

r

xm y

r

xmx1

r

xmx2

K

1

 

 

 

 

 

 

 

 

Матрица симметрична, на ее диагонали стоят единицы. Если в матрице есть межфакторный коэффициент корреляции rx j xi > 0,7, то в данной модели

множественной регрессии существует мультиколлинеарность.

Поскольку исходные данные, по которым устанавливается взаимосвязь признаков, являются выборкой из некой генеральной совокупности, вычисленные по этим данным коэффициенты корреляции будут выборочными, т. е. они лишь оценивают связь. Необходима проверка значимости, которая отвечает на вопрос: случайны или нет полученные результаты расчетов.

Значимость парных коэффициентов корреляции проверяют по t-критерию Стьюдента. Выдвигается гипотеза о равенстве нулю генерального коэффициента корреляции: H0 : ρ = 0 . Затем задаются параметры: уровень значимости α и число степеней свободы ν = n 2 . Используя эти параметры,

84

по таблице критических точек распределения Стьюдента находят tкр , а по

имеющимся данным вычисляют наблюдаемое значение критерия:

 

tнабл =

r

n 2 ,

(3.4.2)

1r 2

 

 

 

где r – парный коэффициент корреляции, рассчитанный по отобранным для исследования данным. Парный коэффициент корреляции считается значимым (гипотеза о равенстве коэффициента нулю отвергается) с доверительной вероятностью γ =1α , если tнабл по модулю будет больше, чем tкр .

Если переменные коррелируют друг с другом, то на значении коэффициента корреляции частично сказывается влияние других переменных.

Частный коэффициент корреляции характеризует тесноту линейной зависимости между результатом и соответствующим фактором при устранении влияния других факторов. Если вычисляется, например, ryx1 x2 (частный

коэффициент корреляции между y и x1 при фиксированном влиянии x2 ), это означает, что определяется количественная мера линейной зависимости между y и x1, которая будет иметь место, если устранить влияние x2 на эти признаки.

Если исключают влияние только одного фактора, получают частный коэффициент корреляции первого порядка.

Сравнение значений парного и частного коэффициентов корреляции показывает направление воздействия фиксируемого фактора. Если частный

коэффициент корреляции

ryx

 

x

2

получится меньше, чем

соответствующий

 

 

1

 

 

 

 

парный коэффициент ryx1 , значит, взаимосвязь признаков y

и x1 в некоторой

степени обусловлена воздействием на них фиксируемой переменной x2 . И

наоборот, большее значение частного коэффициента по сравнению с парным свидетельствует о том, что фиксируемая переменная x2 ослабляет своим воздействием связь y и x1.

85

Частный коэффициент корреляции между двумя переменными ( y и x2 )

при исключении влияния одного фактора ( x1 ) можно вычислить по следующей формуле:

 

 

 

ryx ryx

rx x

 

 

 

 

ryx2

 

x1 =

2

1

2

1

 

 

.

(3.4.3)

 

(1ryx

2 )(1rx x

2 )

 

 

 

 

 

1

 

 

1

2

 

 

 

Для других переменных формулы строятся аналогичным образом. При фиксированном x2

 

 

 

 

 

 

ryx

ryx

rx x

 

 

 

 

ryx1

 

 

 

x2 =

1

 

2

2

1

 

 

 

;

 

 

 

(1 ryx

2 )(1 rx x

2 )

 

 

при фиксированном x3

 

2

 

 

1

2

 

 

ryx

ryx

rx x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ryx1

 

 

x3 =

 

1

 

3

3 1

 

 

.

 

 

 

(1 ryx

2 )(1 rx x

2 )

 

 

 

 

 

 

 

 

3

 

 

1

3

 

 

Значимость частных коэффициентов корреляции проверяется аналогично случаю парных коэффициентов корреляции. Единственным отличием является число степеней свободы, которое следует брать равным ν = n l 2 , где l – число фиксируемых факторов.

На основании частных коэффициентов можно сделать вывод об обоснованности включения переменных в регрессионную модель. Если значение коэффициента мало или он незначим, то это означает, что связь между данным фактором и результативной переменной либо очень слаба, либо вовсе отсутствует, поэтому фактор можно исключить из модели.

Множественный коэффициент корреляции и коэффициент детерминации

Множественный коэффициент корреляции характеризует тесноту линейной связи между одной переменной и совокупностью других рассматриваемых переменных.

Особое значение имеет расчет множественного коэффициента корреляции

результативного признака y с факторными x1, x2 ,K, xm , формула для

86

определения которого в общем случае имеет вид

Ry

 

x x

Kx

m

=

1

r

,

(3.4.4)

 

 

 

 

1 2

 

 

11

 

 

 

 

 

 

 

 

 

11 – алгебраическое

где r – определитель корреляционной

матрицы;

дополнение элемента ryy корреляционной матрицы.

Если рассматриваются лишь два факторных признака, то для вычисления множественного коэффициента корреляции можно использовать следующую формулу:

 

 

 

 

rx y 2

+ rx

 

y

2 2rx x

 

rx y rx

 

y

 

 

Ry

x x

 

=

1

 

2

 

 

1

2

 

1

2

 

.

(3.4.5)

 

1

2

 

 

 

1

rx x

2

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

Построение множественного

коэффициента

корреляции

целесообразно

только в том случае, когда частные коэффициенты корреляции оказались значимыми, и связь между результативным признаком и факторами, включенными в модель, действительно существует.

Квадрат множественного коэффициента корреляции R2 y

 

x x

Kx

m

R2

 

 

 

1 2

 

 

называется множественным коэффициентом детерминации; он показывает,

какая доля дисперсии результативного признака y объясняется влиянием факторных признаков x1, x2 ,K, xm . Заметим, что формула для вычисления коэффициента детерминации через соотношение остаточной и общей дисперсии результативного признака даст тот же результат.

Множественный коэффициент корреляции и коэффициент детерминации изменяются в пределах от 0 до 1. Чем ближе к 1, тем связь сильнее и, соответственно, тем точнее уравнение регрессии, построенное в дальнейшем, будет описывать зависимость y от x1, x2 ,K, xm . Если значение множественного коэффициента корреляции невелико (меньше 0,3), это означает, что выбранный набор факторных признаков в недостаточной мере описывает вариацию результативного признака либо связь между факторными и результативной переменными является нелинейной. Вопрос о проверке значимости коэффициента детерминации рассмотрен выше (см. п. 2.4).

rx j xi

87

Пошаговая регрессия

Отбор факторов x1, x2 ,K, xm , включаемых в модель множественной регрессии, является одним из важнейших этапов эконометрического моделирования. Метод последовательного (пошагового) включения (или исключения) факторов в модель позволяет выбрать из возможного набора переменных именно те, которые усилят качество модели.

При реализации метода на первом шаге рассчитывается корреляционная матрица. На основе парных коэффициентов корреляции выявляется наличие коллинеарных факторов. Факторы xi и x j признаются коллинеарными, если

> 0,7 . В модель включают лишь один из взаимосвязанных факторов. Если

среди факторов отсутствуют коллинеарные, то в модель могут быть включены любые факторы, оказывающие существенное влияние на y.

На втором шаге строится уравнение регрессии с одной переменной, имеющей максимальный по абсолютной величине парный коэффициент корреляции с результативным признаком.

На третьем шаге в модель вводится новая переменная, имеющая наибольшее по абсолютной величине значение частного коэффициента корреляции с зависимой переменной при фиксированном влиянии ранее введенной переменной.

При введении в модель дополнительного фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться. Если этого не происходит, т. е. коэффициент множественной детерминации увеличивается незначительно, то ввод нового фактора признается нецелесообразным.

ВОПРОСЫ ДЛЯ САМОПРОВЕРКИ

1.Что такое мультиколлинеарность? В чем различие между полной и частичной мультиколлинеарностью?

2.Каковы последствия мультиколлинеарности?

3.Как можно обнаружить мультиколлинеарность?