Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
UMKEkonometrikaNOVAYAVERSIYA.doc
Скачиваний:
122
Добавлен:
10.04.2015
Размер:
4.38 Mб
Скачать
  1. Модель множественной регрессии

    1. Оценка параметров модели уравнения множественной регрессии

В реальных ситуациях поведение зависимой переменной невозможно объяснить только с помощью одной зависимой переменной. Лучшее объяснение обычно дают несколько независимых переменных. Регрессионная модель, включающая несколько независимых переменных, называется множественной регрессией. Идея вывода коэффициентов множественной регрессии сходна с парной, но обычное алгебраическое их представление и вывод становятся весьма громоздкими. Для современных вычислительных алгоритмов и наглядного представления действий с уравнением множественной регрессии используется матричная алгебра. Матричная алгебра делает возможным представление операций над матрицами аналогичным операциям над отдельными числами и, тем самым определяет свойства регрессии в ясных и сжатых терминах.

Пусть имеется набор из n наблюдений с зависимой переменной Y, k объясняющими переменными X1, X2,..., Xk . Можно записать уравнение множественной регрессии следующим образом:

(3.1)

В терминах массива исходных данных это выглядит так:

= (3.2).

Коэффициенты и параметры распределения  неизвестны. Наша задача состоит в получении этих неизвестных. Уравнения, входящие в (3.2), в матричной форме имеют вид:

Y = X + , (3.3)

где Y – вектор вида (y1,y2, … ,yn)t

X – матрица, первый столбец которой составляют n единиц, а последующие k столбцов xij, i = 1,n;

 - вектор коэффициентов множественной регрессии;

 - вектор случайной составляющей.

Чтобы продвинуться к цели оценивания вектора коэффициентов , необходимо принять несколько предположений относительно того, как генерируются наблюдения, содержащиеся в (3.1):

E ( ) = 0 ; (3.а)

E ( ) = 2 In ; (3.б)

X – множество фиксированных чисел; (3.в)

 ( X ) = k < n. (3.г)

Первая гипотеза означает, что E (i ) = 0 для всех i, то есть переменные i имеют нулевую среднюю. Предположение (3.б) – компактная запись второй очень важной гипотезы. Так как – вектор-столбец размерности n1, а  – вектор-строка, произведение  – симметрическая матрица порядка n и

E() E(12) ... E(1n) 2 0 ... 0

E() = E(21) E() ... E(2n) = 0 2 ... 0

E(n1) E(n2) ... E() 0 0 ...2

Элементы, стоящие на главной диагонали, свидетельствуют о том, что E(i2) = 2 для всех i. Это означает, что все i имеют постоянную дисперсию 2 свойство, в связи с которым говорят о гомоскедастичности. Элементы, не стоящие на главной диагонали, дают нам E(tt+s) = 0 для s  0, так что значения i попарно некоррелированы. Гипотеза (3.в), в силу которой матрица X образована из фиксированных (неслучайных) чисел, означает, что в повторяющихся выборочных наблюдениях единственным источником случайных возмущений вектора Y являются случайные возмущения вектора , и поэтому свойства наших оценок и критериев обусловлены матрицей наблюдений X. Последнее предположение относительно матрицы X, ранг которой принимается равным k, означает, что число наблюдений превышает число параметров (иначе невозможна оценка этих параметров), и что не существует строгой зависимости между объясняющими переменными. Это соглашение простирается на все переменные Xj, включая переменную X0, значение которой всегда равно единице, что соответствует первому столбцу матрицы X.

Оценка регрессионной модели с коэффициентами b0, b1,…,bk , которые являются оценками неизвестных параметров 0, 1,…,k и наблюдаемыми ошибками e, которые являются оценками ненаблюдаемых , может быть записана в матричной форме следующим образом

(3.4).

При использовании правил матричного сложения и умноженияотношения между возможно большими массивами чисел могут быть записаны несколькими символами. Используя правило транспонирования:A = транспонированной A, мы можем представить ряд других результатов. Система нормальных уравнений (для регрессии с любым числом переменных и наблюдений) в матричном формате записывается так:

ХХb = ХY (3.5).

Используя правило получения обратной матрицы: A-1 = инверсия A, мы можем решить систему нормальных уравнений путем перемножения каждой стороны уравнения (3.5) с матрицей Х)-1:

Х)-1Х)b = (ХХ)-1XY

Ib = (ХХ)-1XY

Где I – матрица идентификации (единичная матрица), являющаяся результатом умножения матрицы на обратную. Поскольку Ib=b, мы получаем решение нормальных уравнений в терминах метода наименьших квадратов для оценки вектора b:

b = (ХХ)-1XY (3.6).

Отсюда, для любого числа переменных и значений данных, мы получаем вектор параметров оценки, транспонирование которых есть b0, b1,…,bk,, как результат матричных операций над уравнением (3.6).

Представим теперь и другие результаты. Предсказанное значение Y, которое мы обозначаем как , корреспондирует с наблюдаемыми значениями Y как:(3.7).

Поскольку b = (ХХ)-1XY, то мы можем записать подогнанные значения в терминах трансформации наблюдаемых значений:

(3.8).

Обозначив , можем записать.

Все матричные вычисления осуществляются в пакетах программ по регрессионному анализу.

Матрица ковариации коэффициентов оценки b задана как:

, это следует из того, что

Поскольку неизвестно и оценивается МНК, то мы имеем оценку ковариации матрицыb как: (3.9).

Если мы обозначим матрицу С как , то оценка стандартной ошибки каждогоbi есть

(3.10),

где Сii – диагональ матрицы.

    1. Спецификация модели. Ошибки спецификации

Журнал «Quarterly Review of Economics and Business» приводит данные о вариации дохода кредитных организаций США за период 25 лет в зависимости от изменений годовой ставки по сберегательным депозитам и числа кредитных учреждений. Логично предположить, что, при прочих равных условиях, предельный доход будет положительно связан с процентной ставкой по депозиту и отрицательно с числом кредитных учреждений. Построим модель следующего вида:

,

где

–прибыль кредитных организаций (в процентах);

–чистый доход на один доллар депозита;

–число кредитных учреждений.

Исходные данные для модели:

Годы

1

1

3,92

7298

0,75

2

2

3,61

6855

0,71

3

3

3,32

6636

0,66

4

4

3,07

6506

0,61

5

5

3,06

6450

0,70

6

6

3,11

6402

0,72

7

7

3,21

6368

0,77

8

8

3,26

6340

0,74

9

9

3,42

6349

0,90

10

10

3,42

6352

0,82

11

11

3,45

6361

0,75

12

12

3,58

6369

0,77

13

13

3,66

6546

0,78

14

14

3,78

6672

0,84

15

15

3,82

6890

0,79

16

16

3,97

7115

0,70

17

17

4,07

7327

0,68

18

18

4,25

7546

0,72

19

19

4,41

7931

0,55

20

20

4,49

8097

0,63

21

21

4,70

8468

0,56

22

22

4,58

8717

0,41

23

23

4,69

8991

0,51

24

24

4,71

9179

0,47

25

25

4,78

9318

0,32

Анализ данных начинаем с расчета дескриптивных статистик:

Таблица 3.1. Дескриптивныестатистики

y

x1

x2

Объём выборки

25

25

25

Средняя арифметическая

0,67

3,85

7243,32

Среднее квадратическое (стандартное) отклонение

0,14

0,58

1003,21

Коэффициент вариации

20,61

15,02

13,85

Асимметрия

-0,92

0,28

0,94

Эксцесс

0,58

-1,31

-1,28

Сравнивая значения средних величин и стандартных отклонений, находим коэффициент вариации, значения которого свидетельствуют о том, что уровень варьирования признаков находится в допустимых пределах (< 0,35). Значения коэффициентов асимметрии и эксцесса указывают на отсутствие значимой скошенности и остро-(плоско-) вершинности фактического распределения признаков по сравнению с их нормальным распределением. По результатам анализа дескриптивных статистик можно сделать вывод, что совокупность признаков – однородна и для её изучения можно использовать метод наименьших квадратов (МНК) и вероятностные методы оценки статистических гипотез.

Перед построением модели множественной регрессии рассчитаем значения линейных коэффициентов парной корреляции. Они представлены в матрице парных коэффициентов (таблица 3.2) и определяют тесноту парных зависимостей анализируемыми между переменными.

Таблица 3.2. Коэффициенты парной линейной корреляции Пирсона

1,0000

(0,0)

-0,7039

(0,0001)

-0,8682

(0,0001)

-0,7039

(0,0001)

1,0000

(0,0)

0,9410

(0,0001)

-0,8682

(0,0001)

0,9410

(0,0001)

1,0000

(0,0)

В скобках: Prob > |R| under Ho: Rho=0 / N = 25

Коэффициент корреляции между исвидетельствует о значительной и статистически существенной обратной связи между прибылью кредитных учреждений, годовой ставкой по депозитам и числом кредитных учреждений. Знак коэффициента корреляции между прибылью и ставкой по депозиту имеет отрицательный знак, что противоречит нашим первоначальным предположениям, связь между годовой ставкой по депозитам и числом кредитных учреждений – положительная и высокая.

Если мы обратимся к исходным данным, то увидим, что в течение исследуемого периода число кредитных учреждений возрастало, что могло привести к росту конкуренции и увеличению предельной ставки до такого уровня, который и повлек за собой снижение прибыли.

Приведенные в таблице 3.3 линейные коэффициенты частной корреляции оценивают тесноту связи значений двух переменных, исключая влияние всех других переменных, представленных в уравнении множественной регрессии.

Таблица 3.3. Коэффициенты частной корреляции

1,0000

(0,0)

0,9265

(0,0003)

0,0790

(0,8399)

0,9265

(0,0003)

1,0000

(0,0)

0,0834

(0,8311)

0,0790

(0,8399)

0,0834

(0,8311)

1,0000

(0,0)

В скобках: Prob > |R| under Ho: Rho=0 / N = 10

Коэффициенты частной корреляции дают более точную характеристику тесноты зависимости двух признаков, чем коэффициенты парной корреляции, так как «очищают» парную зависимость от взаимодействия данной пары переменных с другими переменными, представленными в модели. Наиболее тесно связаны и,. Другие взаимосвязи существенно слабее. При сравнении коэффициентов парной и частной корреляции видно, что из-за влияния межфакторной зависимости междуипроисходит некоторое завышение оценки тесноты связи между переменными.

Результаты построения уравнения множественной регрессии представлены в таблице 3.4.

Таблица 3.4. Результаты построения модели множественной регрессии

Независимые переменные

Коэффициенты

Стандартные ошибки

t - статистики

Вероятность случайного значения

Константа

1,5645

0,0794

19,705

0,0001

x1

0,2372

0,0556

4,269

0,0003

x2

-0,0002

0,00003

-7,772

0,0001

R2 = 0,87

R2adj=0,85

F = 70,66

Prob > F = 0,0001

Уравнение имеет вид:

y = 1,5645+ 0,2372x1 - 0,00021x2.

Интерпретация коэффициентов регрессии следующая:

оценивает агрегированное влияние прочих (кроме учтенных в модели х1 и х2) факторов на результат y;

и указывают на сколько единиц изменитсяy при изменении х1 и х2 на единицу их значений. Для заданного числа кредитных учреждений, увеличение на 1% годовой ставки по депозитам ведет к ожидаемому увеличению на 0,237% в годовом доходе этих учреждений. При заданном уровне годового дохода на один доллар депозита, каждое новое кредитное учреждение снижает норму прибыли для всех на 0,0002%.

Значения стандартной ошибки параметров представлены в графе 3 таблицы 3.4: Они показывают, какое значение данной характеристики сформировалось под влиянием случайных факторов. Их значения используются для расчетаt-критерия Стьюдента (графа 4)

19,705; =4,269;=-7,772.

Если значения t-критерия больше 2, то можно сделать вывод о существенности влияния данного значения параметра, которое формируется под влиянием неслучайных причин.

Зачастую интерпретация результатов регрессии более наглядна, если произведен расчет частных коэффициентов эластичности. Частные коэффициенты эластичности показывают, на сколько процентов от значения своей среднейизменяется результат при изменении фактораxj на 1% от своей средней и при фиксированном воздействии наy прочих факторов, включенных в уравнение регрессии. Для линейной зависимости , гдекоэффициент регрессии прив уравнении множественной регрессии. Здесь

Нескорректированный множественный коэффициент детерминации оценивает долю вариации результата за счет представленных в уравнении факторов в общей вариации результата. В нашем примере эта доля составляет 86,53% и указывает на весьма высокую степень обусловленности вариации результата вариацией факторов. Иными словами, на весьма тесную связь факторов с результатом.

Скорректированный (гдеn – число наблюдений, m – число переменных) определяет тесноту связи с учетом степеней свободы общей и остаточной дисперсий. Он дает такую оценку тесноты связи, которая не зависит от числа факторов в модели и поэтому может сравниваться по разныммоделям с разным числом факторов. Оба коэффициента указывают на весьма высокую детерминированность результата y в модели факторами x1 и x2.

Для проведения дисперсионного анализа и расчета фактического значения F-критерия заполним таблицу результатов дисперсионного анализа, общий вид которой:

Колеблемость результативного признака

Сумма квадратов

Число степеней свободы

Дисперсия

F-критерий

За счет регрессии

Сфакт.

(SSR)

K

(MSR)

Остаточная

Сост.

(SSE)

n-(k+1)

(MSE)

Общая

Собщ.

(SST)

n-1

Таблица 3.5. Дисперсионный анализ модели множественной регрессии

Колеблемость результативного признака

Сумма квадратов

Число степеней свободы

Дисперсия

F-критерий

За счет регрессии

0,40151

2

0,20076

70,661

Остаточная

0,06250

22

0,00284

Общая

0,46402

24

Оценку надежности уравнения регрессии в целом, его параметров и показателя тесноты связи даетF-критерий Фишера:

Вероятность случайного значения F - критерия составляет 0,0001, что значительно меньше 0,05. Следовательно, полученное значение неслучайно, оно сформировалось под влиянием существенных факторов. То есть подтверждается статистическая значимость всего уравнения, его параметров и показателя тесноты связи – коэффициента множественной корреляции.

Прогноз по модели множественной регрессии осуществляется по тому же принципу, что и для парной регрессии. Для получения прогнозных значений мы подставляем значения хi в уравнение для получения значения. Предположим, что мы хотим узнать ожидаемую норму прибыли, при условии, что годовая ставка депозита составила 3,97%, а число кредитных учреждений – 7115:

.

Качество прогноза – неплохое, поскольку в исходных данных таким значениям независимых переменных соответствует значение равное 0,70. Мы так же можем вычислить интервал прогноза как- доверительный интервал для ожидаемого значенияпри заданных значениях независимых переменных:

,

где MSE – остаточная дисперсия, а стандартная ошибка для случая нескольких независимых переменных имеет достаточно сложное выражение, которое мы здесь не приводим.доверительный интервал для значенияпри средних значениях независимых переменных имеет вид:

Большинство пакетов программ рассчитывают доверительные интервалы.

    1. Гетероскедакстичность

Один из основных методов проверки качества подгонки линии регрессии по отношению к эмпирическим данным – анализ остатков модели.

Остатки или оценка ошибки регрессии могут быть определены как разница между наблюдаемыми yi и предсказанными значениями yi зависимой переменной для заданных значений xi, то есть . При построении регрессионной модели мы предполагаем, что остатки её - некоррелированные случайные величины, подчиняющиеся нормальному распределению со средней равной нулю и постоянной дисперсией .

Анализ остатков позволяет выяснить:

1. Подтверждается или нет предположение о нормальности?

2. Является ли дисперсия остатков постоянной величиной?

3. Является ли распределение данных вокруг линии регрессии равномерным?

Кроме того, важным моментом анализа, является проверка того - есть ли в модели пропущенные переменные, которые должны быть включены в модель.

Для данных, упорядоченных во времени, анализ остатков может обнаружить имеет ли факт упорядочения влияние на модель, если да, то переменная, задающая временной порядок должна быть добавлена в модель.

И окончательно, анализ остатков обнаруживает верность предположения о некоррелированности остатков.

Самый простой способ анализа остатков – графический. В этом случае на оси Y откладываются значения остатков. Обычно используются, так называемые, стандартизованные (стандартные) остатки:

, (3.11),

где ,

а

В пакетах прикладных программ всегда предусмотрена процедура расчета и тестирования остатков и печати графиков остатков. Рассмотрим наиболее простые из них.

Предположение о гомоскедастичности можно проверить с помощью графика, на оси ординат которого откладывают значения стандартизованных остатков, а на оси абсцисс – значения Х. Рассмотрим гипотетический пример:

Модель с гетероскедастичностью Модель с гомоскедастичностью

Мы видим, что с увеличением значений Х увеличивается вариация остатков, то есть мы наблюдаем эффект гетероскедастичности, дефицит гомогенности (однородности) в вариации Y для каждого уровня. На графике определяем возрастают или убывают Х или Y при возрастании или убывании остатков. Если график не обнаруживает зависимости между и Х, то условие гомоскедастичности выполняется.

Если условие гомоскедастичности не выполняется, то модель не годится для прогноза. Надо использовать взвешенный метод наименьших квадратов или ряд других методов, которые освещаются в более продвинутых курсах статистики и эконометрики, или преобразовывать данные.

График остатков может помочь и определить есть ли в модели пропущенные переменные. Например, мы собрали данные о потреблении мяса за 20 лет - Y и оцениваем зависимость этого потребления от душевых доходов населения Х1 и региона проживания Х2. Данные упорядочены во времени. После того как построена модель, полезно построить график остатков относительно временных периодов.

Если график обнаруживает наличие тенденции в распределении остатков во времени, то в модель необходимо включить объясняющую переменную t. в дополнение к Х1 и Х2. Это же относится и к любым другим переменным. Если есть тренд в графике остатков, то и переменная должна быть включена в модель наряду с другими уже включенными переменными.

График остатков позволяет определить отклонения от линейности в модели. Если взаимосвязь между Х и Y носит нелинейный характер, то параметры уравнения регрессии будут указывать на плохое качество подгонки. В таком случае остатки будут вначале большими и отрицательными, затем уменьшатся, а потом станут положительными и случайными. Они указывают на криволинейность и график остатков будет иметь вид:

Ситуация может быть исправлена добавлением в модель Х2.

Предположение о нормальности так же может быть проверено с помощью анализа остатков. Для этого по значениям стандартных остатков строится гистограмм частот. Если линия, проведенная через вершины многоугольника, напоминает кривую нормального распределения, то предположение о нормальности подтверждается.

    1. Мультиколлинеарность, способы оценки и устранения

Для того, чтобы множественный регрессионный анализ, основанный на МНК, давал наилучшие результаты мы предполагаем, что значения Х-ов не являются случайными величинами и чтоxiв модели множественной регрессии не коррелированны. То есть каждая переменная содержит уникальную информацию оY, которая не содержится в другихxi. Когда такая идеальная ситуация имеет место, то мультиколлинеарность отсутствует. Полная коллинеарность появляется в случае, если одна изХможет быть точно выражена в терминах другой переменнойХдля всех элементов набора данных. На практике большинство ситуаций находится между этими двумя крайними случаями. Как правило, существует некоторая степень коллинеарности между независимыми переменными. Мера коллинеарности между двумя переменными есть корреляция между ними.

Оставим в стороне предположение о том, что xiне случайные величины и измерим корреляцию между ними. Когда две независимые переменные связаны высокой корреляцией, то мы говорим об эффекте мультиколлинеарности в процедуре регрессионной оценки параметров. В случае очень высокой коллинеарности процедура регрессионного анализа становится неэффективной, большинство пакетов ППП в этом случае выдают предупреждение или прекращают процедуру. Даже, если мы получим в таком ситуации оценки регрессионных коэффициентов, то их вариация (стандартная ошибка) будут очень малы.

Простое объяснение мультиколлинеарности можно дать в матричных терминах. В случае полной мультиколлинеарности, колонки матрицы х-ов – линейно зависимы. Полная мультиколлинеарность означает, что по крайней мере две из переменных хi зависят друг от друга. Из уравнения () видно, что это означает, что колонки матрицы зависимы. Следовательно, матрица так же мультиколлинеарна и не может быть инвертирована (её детерминант равен нулю), то есть мы не можем вычислитьи не можем получить вектор параметров оценкиb. В случае, когда мультиколлинеарность присутствует, но не полная, то матрица – обращаемая, но не стабильная.

Причинами мультиколлинеарности могут быть:

1) Способ сбора данных и отбора переменных в модель без учета их смысла и природы (учета возможных взаимосвязей между ними). Например, с помощью регрессии мы оцениваем влияние на размер жилья Y доходов семьи Х1 и размера семьи Х2. Если мы соберем данные только среди семей большого размера и высокими доходами и не включим в выборку семьи малого размера и с небольшими доходами, то в результате получим модель с эффектом мультиколлинеарности. Решением проблемы в этом случае будет улучшение схемы выборки.

В случае, если переменные взаимодополняют друг друга, подгонка выборки не поможет. Решением проблемы здесь может быть исключение одной из переменных модели.

2) Другая причина мультиколлинеарности может состоять в высокой мощности Xi. Например, для линеаризации модели мы вводим дополнительный термин X2 в модель, которая содержит Xi. Если разброс значений Х незначителен, то мы получим высокую мультиколлинеарность.

Каким бы ни был источник мультиколлинеарности, важно избежать его появления.

Мы уже говорили, что компьютерные пакеты обычно выдают предупреждение о мультиколлинеарности или даже останавливают вычисления. В случае не столь высокой коллинеарности компьютер выдаст нам регрессионное уравнение. Но вариация оценок будет близка к нулю. Существуют два основных метода, доступных во всех пакетах, которые помогут нам решить эту проблему.

  1. Вычисление матрицы коэффициентов корреляции для всех независимых переменных. Например, матрица коэффициентов корреляции между переменными в примере из параграфа 3.2 (таблица 3.2) указывает на то, что коэффициент корреляции между х1 и х2 очень велик, то есть эти переменные содержат много идентичной информации о y и, следовательно, коллинеарны.

Надо заметить, что не существует единого правила, согласно которому есть некоторое пороговое значение коэффициента корреляции, после которого высокая корреляция может оказать отрицательный эффект на качество регрессии.

  1. Мультиколлинеарность может иметь причиной более сложные взаимосвязи между переменными нежели парные корреляции между независимыми переменными. Это влечет за собой использование второго метода определения мультиколлинеарности, который называется “фактор инфляции вариации”.

Степень мультиколлинеарности, представляемая в регрессии переменной , когда переменные,,…,включены в регрессию, есть функция множественной корреляции междуи другими переменными,,…,. Предположим, что мы рассчитаем регрессию не поy, а по , как зависимой переменной, и оставшимисякак независимыми. Из этой регрессии мы получимR2 , значение которого – мера мультиколлинеарности привносимой переменной . Повторим, что основная проблема мультиколлинеарности – обесценивание дисперсии оценок коэффициентов регрессии. Для измерения эффекта мультиколлинеарности используется показатель VIF “variation inflation factor”, ассоциируемый с переменной:

(3.12),

где – значение коэффициента множественной корреляции, полученное для регрессоракак зависимой переменной и остальных переменных.

Можно показать, что VIF переменной равен отношению дисперсии коэффициентаbh в регрессии с y как зависимой переменной и дисперсией оценки bh в регрессии где не коррелированна с другими переменными. VIF – это фактор инфляции дисперсии оценки по сравнению с той вариацией, которая была бы, если быне имел коллинеарности с другими x переменными в регрессии. Графически это можно изобразить так:

VIF

0,9 1 R2

Рис.7

Как видно из рисунка 7, когда R2 от увеличивается по отношению к другим переменным от 0,9 до 1 VIF становится очень большим. Значение VIF, например, равное 6 означает, что дисперсия регрессионных коэфиициентовbh в 6 раз больше той, что должна была бы быть при полном отсутствии коллинеарности. Исследователи используют VIF = 10 как критическое правило для определения является ли корреляция между независимыми переменными слишком большой. В примере из параграфа 3.2 значение VIF = 8,732.

Как еще можно обнаружить эффект мультиколлинеарности без расчета корреляционной матрицы и VIF.

  1. Стандартная ошибка в регрессионных коэффициентах близка к нулю.

  2. Мощность коэффициента регрессии не та, что Вы ожидали.

  3. Знаки коэффициентов регрессии противоположны ожидаемым.

  4. Добавление или удаление наблюдений в модель сильно изменяет значения оценок.

  5. В некоторых ситуациях получается, что F – cущественно, а t – нет.

Насколько отрицательно сказывается эффект мультиколлинеарности на качестве модели? В дейсвительности проблема не столь страшна как кажется. Если мы используем уравнение для прогноза. То интерполяция результатов даст вполне надежные результаты. Эксторополяция приведет к значительным ошибкам. Здесь необходимы другие методы корректировки. Если мы хотим измерить влияние некоторых определенных перменных на Y, то здесь так же могут возникнуть проблемы.

Для решения проблемы мультиколлинеарности можно предпринять следующее:

  • Удалить коллинеарные переменные. Это не всегда возможно в эконометрических моделях. В этом случае необходимо использовать другие методы оценки (обобщенный метод наименьших квадратов).

  • Исправить выборку.

  • Изменить переменные.

  • Использовать гребневую регрессию.

    1. Гетероскедастичность, способы выявления и устранения

Если остатки модели имеют постоянную дисперсию, они называются гомоскедастичными, но если они непостоянны, то гетероскедастичными.

Если условие гомоскедастичности не выполняется, то надо использовать взвешенный метод наименьших квадратов или ряд других методов, которые освещаются в более продвинутых курсах статистики и эконометрики, или преобразовывать данные.

Например, нас интересуют факторы, влияющие на выпуск продукции на предприятиях определенной отрасли. Мы собрали данные о величине фактического выпуска, численности работников и стоимости основных фондов (основного капитала) предприятий. Предприятия различаются по величине и мы вправе ожидать, что для тех из них, объем выпускаемой продукции в которых выше, термин ошибки в рамках постулируемой модели будет так же в среднем больше, чем для малых предприятий. Следовательно, вариация ошибки не будет одинаковой для всех предприятий, она, скорее всего, будет возрастающей функцией от размера предприятия. В такой модели оценки не будут эффективными. Обычные процедуры построения доверительных интервалов, проверки гипотез для этих коэффициентов не будут надежными. Поэтому важно знать приемы определения гетероскедастичности.

Влияние гетероскедастичности на оценку интервала прогнозирования и проверку гипотезы заключается в том, что хотя коэффициенты не смещены, дисперсии и, следовательно, стандартные ошибки этих коэффициентов будут смещены. Если смещение отрицательно, то стандартные ошибки оценки будут меньше, чем они должны быть, а критерий проверки будет больше, чем в реальности. Таким образом, мы можем сделать вывод, что коэффициент значим, когда он таковым не является. И наоборот, если смещение положительно, то стандартные ошибки оценки будут больше, чем они должны быть, а критерии проверки – меньше. Значит, мы можем принять нулевую гипотезу о значимости коэффициента регрессии, в то время как она должна быть отклонена.

Обсудим формальную процедуру определения гетероскедастичности, когда условие постоянства дисперсии нарушено.

Предположим, что регрессионная модель связывает зависимую переменную и с k незавввисимыми переменными в наборе из n наблюдений. Пусть - набор коэффициентов, полученных МНК и теоретическое значение переменной есть, остатки модели:. Нуль-гипотеза состоит в том. что остатки имеют одинаковую дисперсию. Альтернативная гипотеза состоит в том, что их дисперсия зависит от ожидаемых значений:. Для проверки гипотезы проводим оценку линейной регрессии. в которой зависимая переменная есть квадрат ошибки, то есть, а независимая переменная – теоретическое значение. Пусть- коэффициент детерминации в этой вспомогательной дисперсии. Тогда для заданного уровня значимости нуль-гипотеза отклоняется, если больше чем, гдеесть критическое значение СВс уровнем значимости и одной степенью свободы.

В случае, если мы подтвердим гипотезу о том, что дисперсия ошибки регрессии не является постоянной величиной, то метод наименьших квадратов не приводит к наилучшей подгонке. Могут быть использованы различные способы подгонки, выбор альтернатив зависит от того, как дисперсия ошибки ведет себя с другими переменными. Чтобы решить проблему гетероскедастичности, нужно исследовать взаимосвязь между значением ошибки и переменными и трансформировать регрессионную модель так, чтобы она отражала эту взаимосвязь. Это может быть достигнуто посредством регрессии значений ошибок по различным формам функций переменной, которая приводит к гетероскедастичности.

Одна из возможностей устранения гетероскедастичности состоит в следующем. Предположим, что вероятность ошибки прямо пропорциональна квадрату ожидаемого значения зависимой переменной при заданных значениях независимой, так что

В этом случае можно использовать простую двухшаговую процедуру оценки параметров модели. На первом шаге модель оценивается при помощи МНК обычным способом и формируется набор значений . На втором шаге оценивается регрессионное уравнение следующего вида:

, где - ошибка дисперсии, которая будет постоянной. Это уравнение будет представлять регрессионную модель, к которой зависимая переменная -, а независимые -. Затем коэффициенты оцениваются МНК.

Появление гетероскедастичности часто вызывается тем, что оценивается линейная регрессия, в то время как необходимо оценивать лог-линейную регрессию. Если обнаружена гетероскедастичность, то можно попытаться переоценить модель в логарифмической форме, особенно если содержательный аспект модели не противоречит этому. Особенно важно использование логарифмической формы, когда ощущается влияние наблюдений с большими значениями. Этот подход весьма полезен, в случае если изучаемые данные – временные ряды таких экономических переменных, как потребление, доходы, деньги, которые имеют тенденцию к экспоненциональному распределению во времени.

Рассмотрим другой подход, например, , где Xi – независимая переменная (или какая-либо функция независимой переменной), которая предположительно является причиной гетероскедастичности, а Н отражает степень взаимосвязи между ошибками и данной переменной, например, Х2 или Х1/n и т.д. Следовательно, дисперсия коэффициентов запишется: . Отсюда, если H=1, то мы трансформируем регрессионную модель к виду: . Если Н=2, то есть дисперсия увеличивается в пропорции к квадрату рассматриваемой переменой Х, трансформация приобретает вид: .

Разберем пример с проверкой гетероскедастичности в модели, построенной по данным примера из параграфа 3.2. Для визуального контроля гетероскедастичности построим график остатков и предсказанных значений .

Рис.8. График распределения остатков модели, построенной по данным примера

На первый взгляд график не обнаруживает наличия зависимости между значениями остатков модели и . Для более точной проверки рассчитаем регрессию, в которой остатки модели, возведенные в квадрат, - зависимая переменная, а- независимая:. Значение стандартной ошибки оценки равно 0,00408,=0,027, отсюда=250,027=0,625. Табличное значение =2,71. Таким образом, нуль-гипотеза, о том, что ошибка регрессионного уравнения имеет постоянную дисперсию, не отклоняется на 10% уровне значимости.

В современных компьютерных пакетах по регрессионному анализу предусмотрены специальные процедуры диагностики гетераскедастичности и её устранения.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]