
магистры Эконометр мод-е / из эконометрики / Лекция3-мультиколлинеарность
.pdf1
ЛЕКЦИЯ 6 Мультиколлинеарность. Фиктивные переменные.
1.Мультиколлинеарность.
2.Фиктивные переменные.
Âпредыдущих лекциях были рассмотрены основные теоретико-статистические вопросы многомерных регрессионных моделей. Далее рассмотрим некоторые вопросы и проблемы, часто возникающие при практическом использовании. Они связаны с ограничениями МНК. Факторы, включаемые в уравнение регрессии, должны отвечать следующим требованиям:
²они должны быть количественно измеримы (если необходимо учесть качественный фактор, то для него надо ввести некоторую шкалу измерений);
²факторы не должны быть коррелированы между собой (и тем более находится в точной функциональной связи).
1 Мультиколлинеарность.
На практике исследователю нередко приходится сталкиваться с ситуацией, когда полученная им регрессия является "плохой", т.е. t-статистики большинства оценок малы, что свиде-
тельствует о незначительности соответствующих независимых переменных (регрессоров). В то же время F -статистика может быть достаточно большой, что говорит о значимости регрессии
в целом. Одна из возможных причин такого явления носит название мультиколлинеарности и возникает при наличии высокой корреляции между регрессорами.
Одним из условий классической регрессионной модели является предположение о линейной независимости объясняющих переменных, что означает линейную независимость столбцов матрицы регрессоров X или (эквивалентно), что матрица (XT X)¡1 имеет полный ранг m. Ïðè
нарушении этого условия, т.е. когда один из столбцов матрицы X есть линейная комбинация остальных столбцов, говорят, что имеет место полная коллинеарность. В этой ситуации нельзя построить MHK-оценку параметра ¯ (определитель матрицы XT X равен 0, т.е. невозможно
решить нормальное уравнение) МНК в этой ситуации не пригоден.
Рассмотрим следующий простой пример регрессии: C=¯1+¯2S+¯3N+¯4T +", ãäå C потребление, S зарплата, N доход, получаемый вне работы, T полный доход. Поскольку
выполнено равенство T =S+N, то для произвольного числа h исходную регрессию можно пере-
писать в следующем виде: C=¯1+¯20 S+¯30 N+¯40 T +", ãäå ¯20 =¯2+h, ¯30 =¯3+h, ¯40 =¯4¡h. Таким образом, одни и те же наблюдения могут быть объяснены различными наборами коэффициентов ¯. Эта есть собственно проблема идентифицируемости модели. Кроме того, если с уч¼том
равенства T =S+N переписать исходную систему в виде C=¯1+(¯2+¯4)S+(¯3+¯4)N+", то становится ясно, что оценить можно лишь три параметра ¯1, (¯2+¯4) è (¯3+¯4), а не четыре
исходных. T
В общем случае можно показать, что если rang(X X)=l<m, то оценить можно только l
линейных комбинаций исходных козффициентов. Если есть полная коллинеарность, то можно выделить в матрице X максимальную линейно независимую систему столбцов и, удалив остальные столбцы, провести новую регрессию.
На практике полная коллинеарность встречается исключительно редко. Гораздо чаще приходится сталкиваться с ситуацией, когда матрица X имеет полный ранг, но между регрессорами имеется высокая степень корреляции, т.е. когда матрица XT X, говоря нестрого, близка
к вырожденной. Тогда говорят о наличии мультиколлинеарности. В этом случае MHK-оценка формально существует, но обладает "плохими"свойствами (очень неустойчива).
Мультиколлинеарность может возникать в силу разных причин. Например, несколько независимых переменных могут иметь общий временной тренд, относительно которого они совершают малые колебания, кроме того, к подобному эффекту часто приводит модель, содержащая лагированные переменные.
Выделим некоторые наиболее характерные признаки мультиколлинеарности.
2
1.Небольшое изменение исходных данных (например, добавление новых наблюдений) приводит к существенному изменению оценок коэффициентов модели.
2.Оценки имеют большие стандартные ошибки, малую значимость, в то время как модель в целом является значимой (высокое значение коэффициента детерминации R2 и соответ-
ствующей F -статистики).
3. Оценки коэффициентов имеют неправильные с точки зрения теории знаки или неоправ- |
||||||
данно большие значения. |
|
|
|
|
|
|
Для более серьезного изучения мультиколинеарности используют матрицу межфакторных |
||||||
парных корреляций (матрицу коэффициентов линейных корреляций нулевого порядка между |
||||||
факторами): |
1 |
rx1x2 |
: : : rx1xm |
1: |
||
|
||||||
r = |
0rx1x2 |
|
1 : : : rx2xm |
|||
|
Br. . . . . |
r |
x2xm |
: : : |
1 |
C |
|
B x1xm |
|
|
|
C |
|
|
@ |
|
|
|
|
A |
На основании высокого коэффициента корреляции между факторами xi è xj можно судить о
степени мультиколинеарности. Однако, уже при числе факторов более двух этого недостаточ- но. Более общая проверка предполагает исследование детерминанта матрицы r ¢r. Значения
¢r лежат в пределах от 0 до 1. Значение 0 соотвествует предельному случаю, когда между
какими-либо факторами наблюдается полная линейная зависимость. Например, факторы x1 è
x2 связаны функциональной зависимостью, тогда коэффициенты rx1x2 =rx2x1 =1, а коэффициен-
òû rx1x3 , rx1x4 и т.д. полностью совпадают с соответствующими rx2x3 , rx2x4 и т.д., т.е. в матрице r есть совпадающие строки и ее определитель будет 0. Случай равенства определителя 1 является другим предельным случаем, когда между всеми факторами в модели полностью отсутствует связь, тогда матрица r=Em (равна единичной) и ¢r=1.
Хотя на значение ¢r и влияет дисперсия факторов (см. формулу для расчета парного ли-
нейного коэффициента корреляции), этот показатель можно считать лучшей точечной мерой тесноты мультиколлинеарной зависимости.
Однако, ни один из изложенных методов не позволяет сделать вывод о "серьезности" мультиколлинеарности, т.е дать четкий ответ: что считать приемлемой степенью связи между факторами, что обычной, а что "мешающей". Однако, исследователю, занимающемуся прикладным эконометрическим анализом, эти исследования дают достаточно ясное представление о том, насколько можно полагаться на результаты этого исследования.
Что же делать, если по всем признакам имеется мультиколлинеарность? Насколько плохо ее присутствие? Однозначного ответа на этот вопрос нет, у эконометристов есть разные мнения на этот сч¼т.
Существует даже такая школа, представители которой считают, что и не нужно ничего делать, поскольку "так устроен мир". Некоторые исследователи считают, что корреляционной зависимостью между факторами можно пренебречь, если она не очень сильна (велика, но не характеризует полную детерминацию), модель используется для получения прогнозов и не предполагается расчета надежных оценок параметров модели. В этом случае прогноз будет достаточно достоверным, но опять же дисперсия такого прогноза может быть велика (как и дисперсия отдельных факторов).
Однако, исследование МНК-оценок модели с выраженной мультиколлинеарностью может представлять значительные проблемы, т.к. в следствии высокой дисперсии этих оценок мы можем получать расчетные значения сильно отличающиеся от реальных, т.е. делать неправильный вывод о силе влияния факторов на результат. Т.о. практическое использование моделей с мультиколлинеарностью сильно ограничено.
К сожалению, единого и эффективного средства борьбы с этой проблемой нет.
У неискуш¼нного исследователя при столкновении с проблемой мультиколлинеарности может возникнуть естественное желание отбросить "лишние" независимые переменные, которые, возможно, служат е¼ причиной. Однако следует помнить, что при этом могут возникнуть новые
3
трудности. Во-первых, далеко не всегда ясно, какие переменные являются лишними в указанном смысле. Во-вторых, во многих ситуациях удаление каких-либо независимых переменных может значительно отразиться на содержательном смысле модели. Наконец, известен то факт, что отбрасывание так называемых существенных переменных (независимых переменных, которые реально влияют на изучаемую зависимую переменную) приводит к смещ¼нности MHKоценок.
В рамках данной лекции не ставится цель дать достаточно полное описание методов борьбы с мультиколлинеарностью. Вот только несколько советов.
1. В некоторых работах рекомендуется при включении факторов в модель проводить анализ частных коэффициентов корреляции и не учитывать влияние тех факторов, у которых взаимодействие с другими факторами сильно, а "чистое" влияние на результативный признак мало существенно, несмотря на высокий коэффицент парной корреляции.
2. Другой подход базируется на предположениях о "плохой" статистической информации. Ясно, что вопрос о мультиколлинеарности факторов часто обусловлен несколько ущербным характером статистической информации, которой располагает исследователь. Можно попытаться получить новые данные. Если все же придется иметь дело с прежними данными или новые данные дают ту же картину мультиколлинеарности, можно попробовать уменьшить объем информации.
3. Может помочь предварительное преобразование данных, например, пересчет в относительные показатели, или приведение значений к базовому периоду (особенно это касается цен) и т.д.
4. Если же имеется дополнительная статистическая информация, можно перенести тот фактор, что обуславливает наибольшую мультиколлинеарность, из правой части уравнения в левую, т.е. отнести его к зависимым переменным (как бы "встроить" ее значения в значения зависимой переменной). Можно на основании априорной информации использовать соотношения между факторами, чтобы исключить некоторые из них, например, считать, что сумма двух переменных есть постоянная величина или соотношение между ними постоянное. Например, если производственную функцию вида yi=¯1x¯i22 x¯i33 "i не удается оценить в следствии
коллинеарности (y объем выпускаемой продукции, x1 объем трудовых затрат, x2 затра- ты капитала), то можно наложить ограничения на факторы, если положить равным ¯2+¯1=1
(предположить, что затраты капитала и труда взаимозаменяемы, т.е. предполагаем, что при увеличении масштабов производства происходит сохранение прежней эффективности за счет уменьшения затрат труда). Тогда производственную функцию можно записать следующим об-
разом: yi=¯1(xi2x¡i31)¯2 xi3"i èëè yi=xi3=¯1(xi2=xi3)¯2 "i.
5. В частности, если прослеживается взаимосвязь между некоторыми факторами, но о ней нет априорной информации, можно ввести в модель еще одно уравнение, описывающее эту предполагаемую зависимость, т.е. заменить одно уравнения системой эконометрических уравнений.
6. Если уравнение содержить лаговые переменные, использовать специальные методы рас- чета. T
7. Чтобы не обращать матрицу X X, близкую к вырожденной, использовать рекуррентный МНК (РМНК).
2 Фиктивные переменные.
Как правило, независимые переменные в регрессионных моделях имеют "непрерывные" области изменения (национальный доход, уровень безработицы, размер зарплаты и т.п.). Однако теория не накладывает никаких ограничений на характер регрессоров, в частности, некоторые переменные могут принимать всего два значения или, в более общей ситуации, дискретное множество значений. Необходимость рассматривать такие переменные возникает довольно часто в тех случаях, когда требуется принимать во внимание какой-либо качественный признак. Например, при исследовании зависимости зарплаты от различных факторов может возникнуть вопрос, влияет ли на е¼ размер наличие у работника высшего образования и, если да, то в ка-
4
кой степени. Также можно задать вопрос, существует ли дискриминация в оплате труда между мужчинами и женщинами. В принципе можно оценивать соответствующие уравнения внутри каждой категории, а затем изучать различия между ними, но введение дискретных переменных позволяет оценивать одно уравнение сразу по всем категориям.
Покажем, как это можно сделать в примере с зарплатой. Пусть
значений объясняющих (независимых) переменных, т.е. первоначальная модель описывается |
|||
уравнениями |
yi = xi1 |
¯1 |
+ ¢ ¢ ¢ + xim¯m + "i = XiT ¯ + "i; i = 1; :::; n; |
|
ãäå yi размер зарплаты i-го работника. Теперь мы хотим включить в рассмотрение такой
фактор, как наличие или отсутствие высшего образования. Введем новую, бинарную, переменную d, полагая di=1, åñëè â i-м наблюдении индивидуум имеет высшее образование, и di=0 â
противном случае, и рассмотрим новую модель
yi = xi1¯1 + ¢ ¢ ¢ + xim¯m + di± + "i = ZiT ° + "i; i = 1; : : : ; n; |
(1) |
ãäå Z=(X1; :::; Xm; d)=(X; d), °=(¯1; : : : ; ¯m; ±)T . Иными словами, принимая эту модель, мы счи- таем, что средняя зарплата есть XT ¯ при отсутствии высшего образования и XT ¯+± ïðè åãî
наличии. Таким образом, величина ± интерпретируется как среднее изменение зарплаты при
переходе из одной категории (без высшего образования) в другую (с высшим образованием) при неизменных значениях остальных параметров. К уравнению (1) можно применить МНК и получить оценки соответствующих коэффициентов. Легко понять, что, тестируя гипотезу ±=0,
мы проверяем предположение о несущественном различии в зарплате между категориями. Примечание. В литературе по эконометрике переменные указанного выше типа называются "фиктивные переменные". С формальной точки зрения фиктивные переменные ничем не отли- чаются от других регрессоров. Наиболее сложный и интересный вопрос, возникающий при их использовании, это правильная интерпретация получаемых оценок. Фиктивные переменные иногда называют "структурными переменными".
Качественное различие можно формализовать с помощью любой переменной, принимающей дискретные значения, а не обязательно значения 0 или 1. Однако в эконометрической практике почти всегда используют лишь фиктивные переменные типа "0 1", поскольку в этом слу- чае интерпретация выглядит наиболее просто. Если включаемый в рассмотрение качественный признак имеет не два, а несколько значений, то в принципе можно было бы ввести дискретную переменную, принимающую такое же количество значений. Но этого фактически никогда не делают, так как тогда трудно дать содержательную интерпретацию соответствующему коэффициенту. В этих случаях целесообразнее использовать несколько бинарных переменных.
Типичным примером подобной ситуации является исследование сезонных колебаний. Пусть, например, yt объем потребления некоторого продукта в месяц t, и есть все основания считать,
что потребление зависит от времени года. Для выявления влияния сезонности можно ввести три бинарные переменные d1, d2, d3:
d1=1, если месяц является зимним, d1=0 в остальных случаях; d2=1, если месяц является весенним, d2=0 в остальных случаях; d3=1, если месяц является летним, d3=0 в остальных случаях,
и оценивать уравнение
yi = ¯0 + ¯1di1 + ¯2di2 + ¯3di3 + "i:
Очевидно, среднемесячный объ¼м потребления есть ¯0 для осенних месяцев, ¯0+¯1 äëÿ зимних, ¯0+¯2 для весенних и ¯0+¯3 для летних. Таким образом, оценки коэффициентов ¯i, i=1; 2; 3, показывают средние сезонные отклонения в объ¼ме потребления по отношению к
осенним месяцам. Тестируя, например, стандартную гипотезу ¯3=0, мы проверяем предполо-
жение о несущественном различии в объ¼ме потребления между летним и осенним сезоном, гипотеза ¯1=¯2 эквивалентна предположению об отсутствии различия в потреблении между
зимой и весной и т.д.
5
Отметим, что мы не вводим четв¼ртую бинарную переменную d4, относящуюся к осени, ина-
че тогда для любого месяца i выполнялось бы тождество di1+di2+di3+di4=1, что означало бы
линейную зависимость регрессоров и, как следствие, невозможность получения MHK-оценок. Можно предложить следующее правило для качественного признака, принимающего l значе-
ний: для его описания потребуется l¡1 фиктивных переменных di, принимающих значения 1 если наблюдается i-ое значение признака и 0 если не наблюдается. При этом одно из значений
признака всегда "кодируется" нулевыми значениями фиктивных переменных.
Фиктивные переменные, несмотря на свою внешнюю простоту, являются весьма гибким инструментом при исследовании влияния качественных признаков. Рассмотрим ещ¼ один пример. В предыдущей модели мы интересовались сезонными различиями лишь для среднемесячного объ¼ма потребления. Модифицируем е¼, введя новую независимую переменную I доход, ис-
пользуемый на потребление. Как известно, в регрессии
yt = ¯0 + ¯1It + "t
коэффициент ¯1 носит название "склонность к потреблению". Поэтому естественно поставить
задачу исследовать влияние сезона на склонность к потреблению. Для этого можно рассмотреть модель
yt = ¯0 + ¯1dt1 + ¯2dt2 + ¯3dt3 + ¯4dt1It + ¯5dt2It + ¯6dt3It + ¯7It + "t
согласно которой склонность к потреблению зимой, весной, летом и осенью есть ¯4+¯7, ¯5+¯7, ¯6+¯7, ¯7 соответственно. Как и в предыдущей модели, можно тестировать гипотезы об отсут-
ствии сезонных влияний на склонность к потреблению.
Фиктивные переменные позволяют строить и оценивать так называемые кусочно-линейные модели, которые можно применять для исследования структурных изменений. Продемонстрируем это на примере.
Пусть yt объем продукции некоторого предприятия, выпущенной за период t, и для простоты предположим зависимость только от одного фактора xt размера основного фонда этого предприятия за тот же период. Также предположим, что x è y представлены в виде временных
рядов (xt; yt), t=1; :::; n. Из некоторых априорных соображений исследователь считает, что в момент t0 произошла структурная перестройка и линия регрессии будет отличаться от той, что была до момента t0, но общая линия остается непрерывной (см. рис. 1).
Ðèñ. 1.
Чтобы оценить такую модель, введем бинарную переменную R, полагая Rt=0, åñëè t·t0 è Rt=1, åñëè t>t0, и запишем следующее регрессионное уравнение:
yt = ¯1 + ¯2xt + ¯3(xt ¡ xt0 )Rt + "t:
Нетрудно проверить, что регрессионная линия, соответствующая этому уравнению, имеет коэффициент наклона ¯2 äëÿ t·t0 è ¯2 + ¯3 äëÿ t>t0, и разрыва в точке xt, не происходит.
Таким образом, тестируя гипотезу ¯3=0 , мы проверяем предположение о том, что фактически
структурного изменения не произошло.
Этот подход легко обобщается на случай нескольких структурных изменений в пределах одного временного интервала.
В заключение отметим, что с помощью фиктивных переменных можно исследовать влияние разных качественных признаков (например, уровень образования и наличие или отсутствие детей), а также их взаимное влияние. Следует только быть внимательным, чтобы при включе- нии нескольких бинарных переменных не нарушить линейную независимость регрессоров (см. выше пример с сезонными колебаниями).