Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ПРИКЛАДНАЯ ЭКОНОМЕТРИКА В ПРЕДПРИНИМАТЕЛЬСТВЕ.docx
Скачиваний:
17
Добавлен:
30.04.2019
Размер:
1.94 Mб
Скачать

3.4 . Мультиколлинеарность

В предыдущем разделе при рассмотрении модели с двумя объясняющими переменными мы заметили, что чем выше корреляция между объясняющими переменными, тем больше теоретические дисперсии распределений их коэф­фициентов и тем больше риск получить неточные оценки коэффициентов. Если корреляция делает модель неудовлетворительной с данной точки зрения, то говорят о проблеме мультиколлинеарности.

Высокая коррелированность не всегда ведет к плохим оценкам. Если все остальные факторы, определяющие дисперсии коэффициентов регрессии благоприятствуют оцениванию, т.е. если число наблюдений и среднее значение квадратов отклонений объясняющих переменных велики, и дисперсия случайного члена мала, то вы можете получить, тем не менее, хорошие оценки. Итак, мультиколлинеарность должна быть вызвана сочетанием высокой коррелированности и одного или нескольких других неблагоприятных условий. И это — вопрос степени выраженности проблемы, а не ее сущности. Любая регрессия будет страдать от нее в определенной степени, если только все независимые переменные не будут абсолютно некоррелированными. Обсуждение же этого вопроса начинается только тогда, когда это серьезно влияет на результаты оценивания регрессии.

Эта проблема является обычной для регрессий на основе временных рядов, т.е. когда данные состоят из ряда наблюдений в течение какого-то периода времени. Если две или более независимые переменные имеют сильный времен­ной тренд, то они будут высоко коррелированны, и это может привести к мультиколлинеарности. Заметим, что наличие мультиколлинеарности не означает: что модель неверно специфицирована. Соответственно, коэффициенты регрессии остаются несмещенными, и стандартные ошибки рассчитывают корректно. При этом стандартные ошибки оказываются большими, чем они были бы при отсутствии мультиколлинеарности, предупреждая о меньшей надежности полученных оценок коэффициентов регрессии.

Вначале мы рассмотрим случай совершенной мультиколлинеарности, когда объясняющие переменные полностью коррелированны. Предположим, что истинная зависимость имеет вид

(3.38)

Предположим также, что между Х2 и Х3 существует приблизительная линейная зависимость:

X3 = 2X2 -1 (3.39)

и допустим, что величина Х2 увеличивается на одну единицу в каждом наблю­дении. Тогда Х3 увеличится на две единицы, a Y— на пять единиц, как показано, например, в табл. 3.6.

При рассмотрении этих данных можно прийти к любому из следующих выводов:

  1. величина Y определяется уравнением (3.38) (правильное утверждение);

  2. величина Х3 не имеет отношения к данному случаю, и величина Y определяется зависимостью

Y= 1 + 5Х2 + u (3.40)

3) величина Х2 не имеет отношения к данному случаю, и величина Y определяется зависимостью

Y = 3,5 + 2,5X3 + u (3.41)

Таблица 3.6

X2

X3

Y

Изменение X2

Изменение X3

Приблизительное изменение Y

10

19

51 + u1

1

2

5

11

21

56 + u2

1

2

5

12

23

61 + u3

1

2

5

13

25

66 + u4

1

2

5

14

27

71 + u5

1

2

5

15

29

76 + u6

1

2

5

В действительности этими возможностями дело не ограничивается. Любое соотношение, которое является средним взвешенным условий (3.40) и (3.41), также будет соответствовать описанным данным. Например, условие (3.38) можно рассматривать как среднее взвешенное условий (3.40) и (3.41) с коэф­фициентом соответственно 0,6 или 0,4.

В подобной ситуации ни для регрессионного анализа, ни для каких-либо других методов невозможно провести грань между этими возможностями. Вы не смогли бы даже рассчитать коэффициенты регрессии, поскольку и числи­тель, и знаменатель Y этих коэффициентов обращаются в нуль. Мы покажем это для общего случая с двумя объясняющими переменными. Предположим, что

(3.42)

и

(3.43)

Сначала заметим, что, зная (3.43),

(3.44)

Следовательно,

(3.45)

(3.46)

(3.47)

Произведя подстановку для X3 в (3.11), получаем

= (3.48)

Наличие строгой взаимосвязи между объясняющими переменными в регрессии, конечно, нетипично. Если это происходит, то обычно вследствие ло­гической ошибки в спецификации. Пример этого приведен в упражнении 3.15. Тем не менее, нередко имеют место приблизительные взаимосвязи.

Например, при построении зависимости заработка от времени обучения в школе и опыта работы очень часто разумно предположить, что эффект опыта работы имеет убывающую отдачу. Стандартная спецификация, которая предусматривает это,

EARNINGS= β1 + β2S + β3EXP + β4EXPSQ + u (3.49)

где EXPSQквадрат ЕХР. Согласно гипотезе об убывающей отдаче β4 должна быть отрицательным. В табл. 3.7 показаны результаты оценивания такой ре­грессии с использованием набора данных EAEF 21.

Результат оценивания регрессии показывает, что каждый дополнительный год учебы увеличивает часовой заработок на 2,75 долл. Результат очень похож на полученный в спецификации без EXPSQ, показанной в табл. 3.1. Стандартная ошибка также мало изменилась, и коэффициент остался высокозначимым.

Однако результаты оценивания влияния опыта работы в модели отличаются от приведенных выше. Высокий коэффициент корреляции между ЕХР и EXPSQ, равный 0,9812, ведет к возникновению проблемы мультиколлинеарности. Одно из ее последствий заключается в том, что коэффициенты затронутых переменных становятся неустойчивыми, отражая трудность в отделении изме­нения (эффекта) одной переменной от эффекта другой переменной. В этом случае коэффициент при переменной ЕХР, который, как ожидалось, был по­ложительным и высокозначимым до введения EXPSQ, в действительности оказался отрицательным. Второе последствие состоит в увеличении стандартных ошибок, что сигнализирует о возможной нестабильности получаемых оценок. В этом случае стандартная ошибка коэффициента ЕХР увеличилась с 0,1285 до 0,6652. И ЕХР, и EXPSQ имеют низкие значения t-статистик: мы не можем сказать, действительно ли EXPSQ должна включаться в спецификацию модели.

Таблица 3.7

Мультиколлинеарность в моделях более чем с двумя объясняющими переменными

Предшествующее обсуждение мультиколлинеарности было ограничено случаем двух объясняющих переменных. В моделях с большим числом объяс­няющих переменных мультиколлинеарность также может быть вызвана при­близительно линейной взаимосвязью между ними. Может оказаться затрудни­тельным различить воздействие одной переменной и линейной комбинации остальных переменных. В модели с двумя объясняющими переменными при­мерно линейная зависимость автоматически означает высокую корреляцию, но если их три или больше, то это не обязательно так. Линейная взаимосвязь не связана неизбежно с высокой коррелированностью любой пары из этих пе­ременных. Последствия мультиколлинеарности здесь те же, что и в случае двух объясняющих переменных, и так же, как и в случае двух объясняющих пере­менных, данная проблема не будет серьезной, если теоретическая дисперсия случайного члена мала, число наблюдений велико и велики средние квадраты отклонений объясняющих переменных.

Что можно предпринять в случае мультиколлинеарности?

Различные методы, которые могут быть использованы для смягчения муль­тиколлинеарности, делятся на две категории: прямые попытки улучшить че­тыре условия, ответственные за надежность регрессионных оценок, и косвен­ные методы.

Во-первых, можно попытаться уменьшить ơ2u. Случайный член отражает воздействие на переменную Y всех влияющих на нее переменных, не включен­ных непосредственно в уравнение регрессии. Если вы можете найти важную переменную, которая не включена в модель и, следовательно, вносит свои вклад в значение и, то вы уменьшите теоретическую дисперсию случайного: члена, добавив эту переменную в уравнение регрессии.

Для иллюстрации мы возьмем функцию заработка, обсужденную в преды­дущем разделе, где сильная корреляция между ЕХР, опытом работы и его квадратом EXPSQ. Мы теперь добавляем две новые переменные, которые часто считают важными факторами, влияющими на величину заработка: MALE, пол респондента; и ASVABC, составная переменная, основанная на тестах способ­ности к познанию, разработанных для проверки профессиональной пригод­ности в вооруженных силах США. MALE является качественной переменной и методы работы с такими переменными будут обсуждены в гл. 5.

Результаты расширенной спецификации модели показаны в табл. 3.8. Все эти новые переменные имеют высокие значения t-статистик, и вследствие это­го оценка а2и уменьшается с 166,51 до 155,53 (в верхней правой четверти распе­чатки результатов приведен ее расчет как частного от деления суммы квадратов остатков на число степеней свободы). Однако общий вклад новых переменных в объясняющую способность модели невелик, несмотря на их высокую значи­мость, и, как следствие, проблема мультиколлинеарности остается. Коэффи­циент при ЕХР все еще отрицателен, снижение стандартных ошибок коэффи­циентов ЕХР и EXPSQ мало. Заметим также, что стандартная ошибка коэффи­циента при S в действительности увеличилась. Это объясняется существенной корреляцией (коэффициент 0,58) между S и ASVABC. Это общая проблема для данного подхода при попытке уменьшить проблему мультиколлинеарности. Если новые переменные линейно связаны с одной или несколькими перемен­ными, уже входящими в уравнение регрессии, то их включение может даже усилить проблему мультиколлинеарности.

Следующий фактор для рассмотрения — число наблюдений п. Если вы ра­ботаете с данными перекрестной выборки (индивиды, домохозяйства, пред­приятия и т.д.) и готовитесь провести выборочный опрос, то можно увеличить размер выборки, затратив на это дополнительные средства. Можно сделать больше и при фиксированном бюджете, если

Таблица 3.8

применить метод группировки. Вначале вы делите страну на географические части. Например, в США в опросе NLSY, из которого были взяты данные EAEF, страна была поделена на графства, отдельные города и стандартные столичные статистические зоны. Вы выбираете ряд географических частей случайным образом, возможно, ис­пользуя внутригрупповые случайные выборки, чтобы обеспечить должное представительство столичных, прочих городских и сельских регионов. Далее вы проводите статистический опрос в выбранных зонах. Это сокращает затра­ты времени на поездки сотрудников, позволяя им опросить большее число респондентов.

Если вы работаете с данными временных рядов, то может оказаться возмож­ным увеличить выборку, перейдя к данным для более коротких временных ин­тервалов, например к квартальным или даже месячным данным вместо годо­вых. Это настолько очевидная и простая вещь, что большинство исследовате­лей, работающих с временными рядами, почти автоматически используют квартальные данные, если они имеются, вместо годовых данных (даже если проблема мультиколлинеарности не стоит) просто для того, чтобы минимизи­ровать теоретические дисперсии коэффициентов регрессии. Здесь, однако, есть потенциальные проблемы. Вы можете внести или усилить автокорреляцию (см. гл. 12), но это можно нейтрализовать. Вы можете также внести или усилить сме­щение, вызванное ошибками измерения (см. гл. 8), если квартальные данные измерены менее аккуратно, чем соответствующие годовые данные. Эту пробле­му не так просто решить, но она может быть и не столь серьезной.

В табл. 3.9 представлен результат оценивания регрессии по всем 2714 на­блюдениям совокупности данных EAEF. Сравнив этот результат с полученным по набору данных EAEF 21, мы видим, что стандартные ошибки здесь, как и ожидалось, оказались значительно меньше. Вследствие этого t-статистики S и новых переменных здесь значительно выше.

Однако корреляция между ЕХР и EXPSQтакая же высокая, как и в более малой выборке: увеличение размера выборки не было достаточно большим, чтобы оказать хоть какое-то влияние на проблему мультиколлинеарности. Ко­эффициенты при ЕХР и EXPSQ по-прежнему имеют не те знаки, которые мы ожидаем, потому что логично было думать, что коэффициент при ЕХР должен быть положительным, а коэффициент при EXPSQотрицательным, отражая убывающую отдачу. Коэффициент при EXPSQ имеет большую t-статистику, что должно нас беспокоить. Можно предположить, что это произошло случай­но. Однако это может быть знаком того, что модель имеет неправильную спе­цификацию. Как мы увидим в последующих главах, существуют веские причи­ны предполагать, что зависимая переменная в функции заработка должна быть скорее логарифмом заработка, чем его линейной формой.

Таблица 3.9

Третий возможный путь смягчения проблемы мультиколлинеарности со­стоит в увеличении среднеквадратического отклонения объясняющих пере­менных. Это возможно лишь на стадии проектирования проводимого опроса. Например, при планировании проведения опроса домохозяйств для выясне­ния вопроса о влиянии уровня их дохода на структуру расходов необходимо путем группирования выборки обеспечить присутствие в ней относительно богатых и относительно бедных домохозяйств наряду с домохозяйствами со средним уровнем дохода. (Для ознакомления с теорией и методами построения выборок см., например, работы К. Мозера и Г. Калтона (Moser, Kalton, 1985 или Ф. Фоулера (Fowler, 1993)).

Четвертый прямой метод является самым непосредственным из всех. Если вы еще находитесь на стадии планирования опроса, нужно приложить все усилия для получения такой выборки, в которой объясняющие переменные были бы как можно меньше связаны между собой (что, конечно, проще сказать, чем сделать).

Далее, существуют также косвенные методы. Если коррелированные переменные связаны между собой концептуально, то может быть разумным объединить их в единый совокупный индекс. Это как раз то, что было сделано с тремя переменными уровня способностей ASVAB. Переменная ASVABC была рассчитана как взвешенное среднее переменных ASVAB02 (арифметические рассуждения), ASVAB03 (словарный запас), ASVAB04 (понимание смысла выражений). Три составляющие ASVABC высоко коррелированны между собой, комбинируя их, вместо использования по отдельности, нам удастся избежать появления возможной проблемы мультиколлинеарности. ASVAB02 имеет в два раза больший вес, чем две другие составляющие, поэтому численные и словесные элементы представлены в равных количествах, но такое решение является просто субъективным мнением о том, что кажется разумным предположить.

Еще одно возможное решение проблемы мультиколлинеарности состоит в том, чтобы убрать некоторые из коррелированных переменных, если их коэф­фициенты незначимы. Однако всегда есть опасность, что такие переменные на самом деле нужны в модели и что мультиколлинеарность вызывает незначимость их коэффициентов. Невключение переменных, которые должны быть в модели, может вызвать проблему смещения оценок при пропуске объясняющих переменных (см. гл. 6).

Следующий способ смягчения проблемы мультиколлинеарности состоит в том, чтобы использовать внешнюю информацию, если она имеется, относительно коэффициента одной из переменных. Например, предположим, что известно, что совокупный спрос по одной из категорий расходов потребителя Y связан с совокупным располагаемым личным доходом Х и индексом цен для данной категории Р:

Y= β1 + β2X + β3P + u (3.50)

Чтобы оценить модель этого вида, нужно использовать данные временного ряда. Если Х и Р имеют сильные временные тренды и поэтому высоко коррелированны, что часто имеет место с переменными, представляющими временные ряды, то мультиколлинеарность, вероятно, будет проблемой. Предположим, однако, что у нас есть также данные перекрестной выборки для Y и X, получен­ные из отдельного опроса домохозяйств. Эти переменные мы обозначим Yи Х’, чтобы показать, что представленные ими данные — не совокупные, а отно­сятся к домохозяйствам. Предположив, что все домохозяйства в выборке пла­тили примерно одну и ту же цену за данный товар, построим парную регрес­сию

(3.51)

Теперь подставим b'2 вместо β2 в модели с временными рядами

(3.52)

вычтем b2X из обеих частей

(3.53)

и построим регрессионную зависимость величины Z= Y- b2X от цены. Это — парная регрессия, так что мультиколлинеарность была устранена.

Имеются две возможные проблемы с использованием этого метода, кото­рые нужно иметь в виду. Во-первых, оценка β3 в (3.53) зависит от точности оценки b'2, которая, конечно, включает ошибку выборки. Во-вторых, вы пред­полагаете, что коэффициент переменной дохода имеет один и тот же смысл для временного ряда и перекрестной выборки, что может быть не так. Для мно­гих предметов потребления краткосрочные и долгосрочные последствия изме­нений дохода могут различаться весьма заметно. Одна из причин — стандарты потребительских расходов подвержены инерции, которая может доминиро­вать над эффектом изменения дохода в краткосрочном периоде. Другой фак­тор — то, что изменение дохода может затрагивать расходы как непосред­ственно, изменяя бюджетное ограничение, так и косвенно, через изменения в образе жизни, и косвенное влияние происходит намного медленнее, чем пря­мое. Как первое приближение, обычно считается, что регрессии на основе вре­менных радов, особенно с короткими периодами выборки, оценивают крат­косрочные воздействия, в то время как регрессии на основе перекрестных вы­борок оценивают воздействия долгосрочные. Для обсуждения этой и связанных с ней проблем см. работу Э. Ку и Дж. Мейера (Kuh, Meyer, 1957).

Наконец, еще один важный подход состоит в использовании теоретическо­го ограничения, которое определяется как гипотетическое соотношение между параметрами модели регрессии. Это будет объяснено на примере модели про­должительности обучения. Предположим, мы выдвигаем гипотезу о том, что число завершенных лет обучения S зависит от ASVABC и от числа полных лет обучения матери и отца респондента (SM и SFсоответственно):

(3.54)

Оценив параметры модели на основе набора данных EAEF 21, получаем распечатку, представленную в табл. 3.10.

Коэффициенты регрессии показывают, что S увеличивается на 0,13 года на каждый пункт увеличения ASVABC, на 0,05 года в расчете на каждый дополни­тельный завершенный год учебы матери и на 0,11 года в расчете на каждые дополнительный завершенный год учебы отца. Образование матери обычно считается, по крайней мере, столь же важным, если не более, чем образованна отца с точки зрения продолжительности обучения детей, так что относительно малое значение коэффициента при SM выглядит неожиданным. Также удивля­ет, что этот коэффициент незначим (даже на уровне значимости 5%) при ис­пользовании одностороннего теста. Однако формирование супружеских пар с близким уровнем образования ведет к высокой корреляции между SM и SF, и регрессия, очевидно, страдает от мультиколлинеарности.

Предположим, что мы выдвигаем гипотезу о том, что образование матери и отца одинаково важны. Мы можем тогда наложить ограничение β3 = β4. Это позволяет нам записать уравнение как

(3.55)

При определении SР как суммы SM и SFуравнение может быть переписано с ASVABC и SP как объясняющими переменными:

(3.56)

Оценив параметры модели на основе набора данных EAEF21, получаем рас­печатку, представленную в табл. 3.11. Оценка β3 теперь равна 0,083. Неудиви­тельно, что это значение — компромисс между коэффициентами при SM и SF, в предыдущей спецификации. Стандартная ошибка SP намного меньше, чем стандартные ошибки SM и SF, и это указывает на то, что использование ограничения привело к выигрышу в эффективности, и, как следствие этого,

Таблица 3.10

t-статистика очень высока. Таким образом, проблема мультиколлинеарности была здесь ограничена. Однако данное ограничение могло оказаться незначимым. Его нуж­но проверить с помощью теста. Мы увидим, как можно это сделать, в гл. 6.

Таблица 3.11

SP = SM

+ SF

S ASVABC SP

Source

SS

df

MS

Number of obs =

540

Model

1177.98338

2

588.991689

F(2, 537)

Prob > F

156.04 0.0000

Residual

2026.99996

537

3.77467403

R-squared = Adj R-squared =

0.3675 0.3652

Total

3204.98333

539

5.94616574

Root MSE

1.9429

S

Coef.

Std. Err.

t

P>|t|

[95% Conf.

Interval]

ASVABC

.1253106

.0098434

12.73

0.000

.1059743

.1446469

SP

.0828368

.0164247

5.04

0.000

.0505722

.1151014

_cons

5.29617

.4817972

10.99

0.000

4.349731

6.242608