Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

эконометрика для очно-заочного 4 курс 2024-2025 год / 04-УП Базовый курс эконометрики (Писарева О.М., Черников Г.В.) 2024

.pdf
Скачиваний:
10
Добавлен:
19.01.2025
Размер:
1.65 Mб
Скачать

F

(Q2

 

Q2 ) v

,

 

com

 

1

ˆ

 

 

 

 

 

Q2

v

 

 

 

 

 

2

 

где v1 и v2 соответствующие числа степеней свободы.

Если, например, все регрессии оценивают как функции одинакового вида, включающие m объясняющих факторов и свободный член, то число степеней свободы будет следующим v1 (m 1) и v2 (n 2m 2) . В предположении справедливости гипотезы H0, F-статистика подчиняется закону распределения Фишера с v1 степенями свободы для числителя и v2 степенями свободы для знаменателя, при заданном уровне значимости α.

Значение статистики сравнивается с табличным значением F-

распределения Фишера

F (v1; v2 ) . Если

F F (v1; v2 ) , то это означает, что

 

kp

ˆ

kp

уменьшение необъясненной вариации (с учетом степеней свободы) при разделении выборки для построения регрессии, превышает оставшуюся при этом необъясненной вариацию (с учетом степеней свободы), и указывает на нецелесообразность объединения подвыборок.

Дополнительной возможностью исследования исходных выборок с неоднородными характеристиками является использование при моделировании

фиктивных переменных (dummy variable) или как их еще именуют переменных-манекенов. С их помощью строятся так называемые модели с переменной структурой. Изменчивость структуры как раз и является отражением факта разнородности поведения объясняемых переменных в зависимости от объясняющих факторов при некоторых специальных условиях.

Можно привести следующий пример. Допустим, исследователь хочет оценить параметры функции спроса на сельскохозяйственную продукцию (y) в зависимости от среднедушевого дохода населения за некоторый период времени (x). Не трудно догадаться, что имело бы смысл построить не одну регрессионную модель, а две. Первая для городских жителей, а вторая для потребителей, проживающих в сельской местности. Однако удовлетворительно решить проблему создания модели можно и в рамках единой конструкции,

введя в состав объясняющих переменных специальную переменную (обозначим ее h), учитывающую место проживания потребителя.

Например, значение переменной равно 0 для жителей города и 1 - для проживающих вне его. Тогда регрессионная модель, которую следует оценить, имеет следующий вид:

y(x, h) a0 a1 x bh ,

где a0;a1 - параметры регрессионной модели, соответствующие свободному члену и переменной величины среднедушевого дохода;

b – параметр модели, стоящий при переменной-манекене;

h–фиктивная переменная (признак проживания);

- случайная составляющая модели.

Далее оценка и анализ параметров этой модели осуществляется в соответствии обычными ранее изложенными правилами идентификации и верификации ЛММР. Те же принципы построения моделей регрессии с переменной структурой работают, если на вход модели подается информация о более чем двух качественных состояниях моделируемой системы. При этом необходимое количество фиктивных переменных системы будет на единицу меньше, чем число ее качественных состояний. Следовательно, это приводит к формированию матрицы экзогенных переменных-манекенов - Н.

Таким образом, общий вид модели с переменной структурой будет: y(X , h) a0 a X bH ,

0

где H (hs ) 1, s 1, S 1,

S – количество моделируемых состояний объекта исследования.

4.4. НАРУШЕНИЯ ПРЕДПОСЫЛОК КЛАССИЧЕСКОЙ МОДЕЛИ МНОГОФАКТОРНОЙ

РЕГРЕССИИ

4.4.1. Мультиколлинеарность: признаки и причины, способы устранения

Понятие мультиколлинеарность (multicollinearity) выражает наличие полной или частичной линейной связи между экзогенными переменными факторной регрессионной модели, т.е. столбцами матрицы X ( Z ).

В экономике мультиколлинеарность весьма характерное явление, многие экономические показатели связаны друг с другом. В этой связи в масштабных практических исследованиях её трудно избежать, а соответствующий эффект может практически быть не заметен. Она проявляет своё негативное влияние на модель тогда, когда коррелированность между переменным становиться слишком высокой. Например, строя модель зависимости дохода наёмного работника только от его личностных свойств (например, стажа работы, уровня заработной платы на последнем месте работы, возраста, пола, семейного положения и т.д.), стоит ожидать высокую коллинеарность между переменной «стаж» и «возраст». Если мы не обладаем обширными статистическими наблюдениями по большому диапазону вариабельности возраста и стажа, в этом случае может возникнуть трудность идентификации индивидуального воздействия соответствующего фактора на переменную отклика. Оба фактора могут показать себя как незначимые, что вряд ли соответствует действительности. Ознакомимся с практикой идентификации проблемы и рекомендациям по её преодолению.

Принято различать полную и частичную мультиколлинеарность переменных модели линейной регрессии.

Полная мультиколлинеарность (иногда говорят: строгая, совершенная, perfect multicollinearity) обнаруживается в случае нарушения ограничения на ранг матрицы Z , то есть если оказывается, что: rang Z (m 1) .

Данное неравенство означает, что не все столбцы матрицы Z являются линейно независимыми, т.е. между ними обнаруживается линейная функциональная связь: значения, по крайней мере, одного из них могут быть выражены в виде линейной комбинации значений других столбцов. При этом

матрица Z T Z

оказывается

вырожденной, а, следовательно, необратимой, ее

определитель

равен нулю,

что не позволяет оценить параметры регрессии

МНК. Наличие свойства полной мультиколлинеарности данных достаточно легко выявляется и корректируется на стадии предшествующей оцениванию параметров модели в ходе формирования массивов исходных данных, т.е. его нетрудно избежать.

Специальным случаем полной мультиколлинеарности является наличие в факторной модели, так называемой доминирующей переменной. На её основе возможно полностью определить значение эндогенной переменной без какойлибо дополнительной информации27. Она не должна входить в состав регрессоров модели.

Частичная мультиколлинеарность (реальная, imperfect multicollinearity) – наличие между объясняющими переменными факторной регрессионной модели тесных линейных статистических связей между отдельными регрессорами. Это свойство может проявлять себя через:

высокую коррелированность двух независимых переменных модели;

высокую коррелированность линейной комбинации части независимых переменных с другой объясняющей переменной;

высокую коррелированность линейной комбинации части независимых переменных с линейной комбинацией набора других независимых переменных модели.

Непосредственным результатом этого явления может быть

неустойчивость полученных результатов оценивания, как к объемам исходных массивов данных, так и к компьютерным алгоритмам обработки такого рода массивов, неоднозначность истолкования полученных результатов. Все это, как правило, может проявить себя через следующие внешние признаки построенной модели [1-5, 10, 11, 14-17]:

оценки параметров регрессии aj остаются несмещенными;

27Примером может выступать объём наличия любого дефицитного сырья, включаемого как фактор в производственную функцию – выпуск будет определяться в соответствии с нормативами технологических затрат и полностью задаётся исходным объёмом дефицита. Решение экономической проблемы, связанной с возможностью предельного выпуска выбудет лежать не в плоскости эконометрического моделирования. Специфицировать производственную функцию придётся, например, не как степенную, линейную, CES, а как производственную функцию Леонтьева.

незначительные изменения объемов исходных статистических массивов приводят к значительным изменениям оценок коэффициентов модели, вплоть до изменения их знака;

дисперсии оценок коэффициентов могут возрастать;

статистическое тестирование ненулевых оценок параметров регрессии фиксирует их статистическую незначимость, в то время как R 2 и тестировании с помощью F-критерия показывают, что модель в целом является значимой;

высокие значения частных коэффициентов корреляции между переменными модели на всем массиве исходной статистики.

Степень мультиколлинеарности может зависеть как от спецификации модели, так и от выборки наблюдений, на которых её строили. Выявление факта мультиколлинеарности объясняющих переменных модели регрессии строится обычно, на использовании некоторых эвристических правил. Приведем некоторые из них.

1.Анализ матрицы выборочных парных коэффициентов корреляции R,

 

1

r12

r1m

 

 

 

 

 

1

r2m

 

 

 

r21

 

,

(4.39)

R

 

 

 

 

 

 

 

 

r

r

1

 

 

 

 

m1

m2

 

 

 

 

 

 

 

(X i

 

 

i ) ( X j

 

 

 

j )

 

где rij r(X i , X j )

X

X

,

(X i

 

i ) ( X i

 

 

i ) (X j

 

 

j ) ( X j

 

j )

X

X

X

X

X i (X i(1) , X i(2) , , X i(n) ) – вектор наблюдений i-й объясняющей переменной – i-й вектор-столбец матрицы Х;

X i (X i , X i , , X i ) n-мерный вектор-столбец, состоящий из выборочных средних значений соответствующего фактора.

Считается, что мультиколлинеарность объясняющих переменных может присутствовать, если значения соответствующих коэффициентов корреляции превосходят по абсолютной величине 0,75-0,80 [1, 5]. Более точно можно

ответить на этот вопрос после проверки соответствующего парного коэффициента на значимость.

2. Выявление ситуаций, когда при высоких значениях коэффициента детерминации модели ( R 2 ) имеются незначимые параметры уравнения

регрессии. В отношении этих «подозреваемых» параметров следует провести дополнительные исследования. Например, проанализировать значения выборочных коэффициентов детерминации R2j каждой из объясняющих переменных Xj по всем остальным объясняющим переменным X ( j) X1 , ..., X j 1 , X j 1 , ..., Xm T , следовательно, обратиться к VIF-коэффициенту.

3. Степень наличия свойства мультиколлинеарности у j -го фактора модели может измеряться с помощью так называемого VIF-коэффициента (Variance Inflation Factor), рассчитываемого по формуле

VIFj 1 1R2j ,

где R2j - коэффициент детерминации регрессии j-ой независимой переменной по оставшимся (m 1) -ой переменной.

Очевидно, что в ситуации двухфакторной линейной регрессионной зависимости в знаменателе дроби будет стоять парный коэффициент корреляции факторов модели.

Из определения VIF-коэффициента следует, что в случае наличия полной статистической независимости исследуемой переменной от всех оставшихся он будет стремиться к единице (мультиколлинеарность отсутствует). Чем выше значение этого коэффициента (чем более он отличается от единицы), тем с большей вероятностью мультиколлинеарность присутствует.

4.Анализ матрицы ZT Z .

Если значение определителя матрицы ZT Z близко к нулю, то это может говорить о наличии мультиколлинеарности. Близость к нулю определителя называется также слабой обусловленностью матрицы. Эта ситуация возникает в случае существования тесных линейных статистических связей между

столбцами матрицы Z (то есть между соответствующими факторами регрессионной модели).

5.Анализ собственных значений матрицы ZT Z .

Вывод о присутствии мультиколлинеарности делается в случае, если

близко к нулю минимальное собственное значение матрицы ZT Z , то есть минимальный характеристический корень уравнения det(ZT Z Em 1 ) 0 .

Из близости к нулю минимального собственного значения матрицы следует близость к нулю ее определителя, и наоборот. Но, кроме того, среднеквадратическая ошибка оценки параметра регрессии аj, полученная с помощью МНК, обратно пропорциональна величине минимального собственного значения матрицы ZT Z , соответственно это собственное значение может характеризовать среднеквадратическую ошибку.

Следует помнить, что применение специальных процедур устранения эффекта мультиколлинеарности с учетом их вычислительной сложности не всегда оправдано. Так специалисты считают, что при достаточно высоких показателях общей надежности построенной модели (например, по критерию R 2 ) на ее прогностических свойствах эффект мультиколлинеарности практически не сказывается [2, с. 81]. Это явление носит случайный характер и может исчезнуть при изменении набора исходной статистики без изменения спецификации модели. «Бороться» с этим эффектом стоит только в действительно очевидных ситуациях практически функциональных зависимостей факторов.

Начальным моментом, направленным на недопущение или исключение эффекта мультиколлинеарности в факторах регрессионной модели, является тщательный логико-смысловой анализ исходных данных. Не следует рассматривать в качестве объясняющих факторов модели переменные, связанные друг с другом расчетно. Иногда говорят о необходимости аддитивной независимости факторов модели. В общем случае всю

совокупность частично или полностью формализованных методов и процедур устранения мультиколлинеарности можно разделить на две большие группы.

Первую составляют специальные методы оценивания параметров линейной регрессии, гарантирующие недопущение мультиколлинеарности в процессе ее построения. К ним относят так называемые смещенные методы оценивания [1, 12, 14], например, на основе ридж-регрессии. В этом случае восстановление параметров модели производится в соответствии с уравнением,

aˆ ZT Z Im 1 1 ZT Y (эмпирически установлено, что, как правило

(0,1 ; 0, 4) ).

Полезно предварительное использование процедур сокращения факторного пространства на основе методов факторного анализа, главных компонент и др. на предмодельной стадии исследования.

Вторая группа представляет собой совокупность эвристических методов и процедур «очистки» от эффекта мультиколлинеарности в рамках уже выбранного метода, например, МНК. Процедуру отбора существенных переменных следует рассматривать как общую процедуру выбора размерности линейной модели с учётом изменения интегрального показателя качества модели. Решение этой задачи возможно несколькими способами. Наиболее распространенными считаются варианты: «Все возможные регрессии», «Пошаговый отбор переменных» [1-3, 7, 15].

Положительный эффект на снижение мультиколлинеарности может оказывать расширение объемов выборки, изменение спецификации модели: изменения ее формы, добавления значимого фактора в число объясняющих переменных, а также специальные методы преобразования исходных данных модели (переход от абсолютных значений переменных в приращения; нормирование переменных и др.). Не трудно показать, что включение в модель большого количества дихотомических фиктивных переменных также способствует явлению полной мультиколлинеарности. В этой связи следует грамотно вводить переменные манекены в модель.

4.4.2. Важнейшие спецификационные тесты

Непременным инструментом исследования разнообразных свойств выборочной статистической информации в рамках эконометрического моделирования, являются процедуры тестирования. Арсенал их весьма велик и подлежит подробному рассмотрению в специальных разделах курса теории вероятностей и математической статистики28. В основе большинства процедур тестирования лежит предположение о возможности нахождения неизвестных параметров распределений на основе метода максимального правдоподобия. На его базе можно простроить большое количество тестов, как правило, основанных на одном из трёх принципов тестирования: Вальда (на его версии построены критерии Стьюдента и Фишера и др.), отношения правдоподобия и множителей Лагранжа (Джарка-Бера на нормальность, тест Бреуша-Пагана на гетероскедастичность, Бреуша-Годфри и др.).

Потребность в статистическом оценивании возникает по целому ряду практических причин. Для дальнейшего изложения специально остановимся, во-первых, на критериях проверки выборочных наблюдений на стохастическую независимость в целом. К этой группе можно отнести разнообразные критерии серий. Наиболее известные среди них: критерий серий, основанный на медиане выборки, «восходящих» и «нисходящих» серий, тесты Аббе, Фостера-Стюарта и ряд других. Во-вторых, это критерии оценки специальных выборочных свойств: однородности средних и дисперсий, проверки выборок на нормальность распределения и прочее.

Для общего описания проверочных и расчетных статистик введем следующие общие обозначения. Пусть, 2 - математическое ожидание и дисперсия случайной величины х в

генеральной совокупности, N( , 2 );

0 - заданная постоянная величина;

N ( 1 , 12 )

x , s 2 - выборочные средняя и дисперсия;

- число степеней свободы; ni – величина i-й выборки;

- принятый уровень значимости (вероятность ошибочного отклонения основной тестовой гипотезы);

H 0 – формулировка основной тестовой гипотезы;

H1 – формулировка альтернативной тестовой гипотезы.

Проверка однородности дисперсий двух выборок на основе F-критерия Фишера

Пусть для двух независимых случайных величин x1 и x2, распределенных соответственно по законам и N ( 2 , 22 ) , сформулированы нулевая и альтернативная гипотезы:

H 0 : 12 22 ;

H1 : 12 22 .

Стратегия проверки гипотез зависит от величины объемов выборочных данных.

1). В условиях больших и очень больших объемов выборок (n1,n2>100)

расчетная статистика F-критерия ˆ имеет вид:

F

ˆ

 

 

s2

s1

 

 

 

 

 

 

 

 

 

 

F

 

s2

 

s2

 

 

 

1

2

 

 

 

2n

2n

 

 

 

 

 

 

 

1

 

2

 

2). В условиях малых и средних выборок:

ˆ

2

2

,

F s1

s2

где s12 - значение большей выборочной дисперсии.

3). В условиях средних и больших выборок рекомендуется вычислять значения F-критерия по формуле

28 Подробное описание этих тестов можно найти, например, в следующих источниках [1, 2, 5-11 и др.].