эконометрика для очно-заочного 4 курс 2024-2025 год / 04-УП Базовый курс эконометрики (Писарева О.М., Черников Г.В.) 2024
.pdf
t / 2 n m 1 , |
где t / 2 n m 1 |
- 100 / 2 %-я процентиль распределения |
t- |
|||||||
|
|
|
|
|
|
|
n m 1 |
24 |
|
|
статистики Стьюдента с |
|
|
|
|
||||||
|
|
степенями свободы . |
|
|||||||
Если |
|
t j |
|
t /2 n m 1 , то гипотеза о равенстве нулю коэффициента |
||||||
|
|
|||||||||
регрессии |
отвергается |
с вероятностью (1 )100% , в противном случае |
– |
|||||||
гипотеза принимается, то есть соответствующий параметр признается незначимым.
Фрагменты таблиц распределения Стьюдента можно найти в Приложении.
С целью обнаружения моделей регрессии с наилучшими информационными и прогностическими характеристиками исключение незначимых переменных из модели осуществляют пошагово с перестройкой параметров модели на соответствующих итерациях. Как правило, при этом рекомендуется использовать две хорошо известные стратегии поиска оптимальной структуры ЛММР: сверху вниз либо снизу вверх (соответственно
Backward Selection и Forward Selection). Их изложение приводится, например, в работах [1; 4; 6; 7, 14 и др.].
Специальная процедура оценки качества модельных построений может быть предложена в том случае, если у исследователя есть возможность повторения экспериментов по получению множества откликов модели при фиксированных уровнях объясняющих факторов, либо аналитик работает с панелями данных. В этом случае допустима проверка модели регрессии на
адекватность.
Модель называется адекватной, если предсказанные на ней значения отклика эндогенной переменной y согласуется с результатами наблюдений.
24 Большинство компьютерных пакетов, реализующих методы аналитической обработки статистической информации, в отчетах по разделу «Регрессионный анализ данных», наряду со значениями t-статистики для каждого j-го коэффициента ЛММР, рассчитывают так называемое значение «P-value» или фактический уровень значимости. Оно представляет собой вероятность достижения уровня |tj| не меньшего, чем его соответствующее расчетное значение, если на самом деле соответствующий параметр aj эквивалентен нулю. Следовательно, чем меньше значение P-value, тем больше наши основания утверждать, что соответствующий параметр статистически значимо отличен от нуля (в этом случае > P - value).
Пусть y ( yi ) - матрица отклика; i 1, n .
x (xi ) - матрица векторов независимых переменных.
ri - число независимых повторов получения отклика при использовании вектора xi на входе модели y Xa .
Пусть для всех векторов независимых переменных или их части имеется несколько повторов - ri , иначе говорят - что имеется план эксперимента (или
поле эксперимента), т.е. матрица
Px1 ... xi ... xnr1 ... ri ... rn .
После проведения экспериментов получим матрицу отклика:
|
x1 |
x2 |
... |
xi |
... |
xn |
|||
D |
r |
r |
|
... |
r |
... |
r |
|
|
|
1 |
2 |
... |
i |
... |
n |
|
||
|
y |
y |
2 |
y |
y |
|
|
||
|
1 |
|
|
i |
|
|
n |
||
В |
точке x xi |
производится |
ri наблюдений, |
порождающих вектор |
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n |
отклика: |
yi ( y1i , y2i ,..., yrii ) . Очевидно, что объем выборки равен N ri . |
|||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
i 1 |
Введём обозначения: |
|
( yi ) - |
вектор выборочных средних значений |
|||||||||||
Y |
||||||||||||||
|
|
|
|
|
|
|
|
|
1 |
x |
|
|
|
|
отклика при i-ой серии экспериментов, где yi |
|
|
i yij |
, yˆi yˆ(xi ) . |
||||||||||
|
|
|||||||||||||
|
|
|
|
|
|
|
|
|
ri j 1 |
|
|
|||
Если модель адекватна, то величины yi |
и |
yˆi |
практически не различимы, |
|||||||||||
|
|
|
|
|
|
n |
|
|
|
|
ˆ |
|
|
|
т.е. yi yˆi , следовательно, сумму Q |
|
ri ( yi |
|
|
|
2 |
можно рассматривать |
|||||||
|
|
|
y(xi )) |
|
||||||||||
|
|
|
|
|
|
i 1 |
|
|
|
|
|
|
|
|
как меру неадекватности модели. |
|
|
|
|
|
|
|
|
|
|
||||
Сформулируем нулевую гипотезу H0 : yi |
yˆi |
или ( My yˆ ). |
||||||||||||
Альтернатива - |
H1 : yi yˆi . |
|
|
|
|
|
|
|
|
|
|
|||
Проверка гипотез осуществляется с помощью критерия Фишера, для чего строим следующие статистики:
|
n |
|
|
|
|
|
|
|
|
|
|
||
Q1 ri ( yi yˆ(xi ))2 . |
|
|
|||||||||||
|
i 1 |
|
|
|
|
|
|
|
|
|
|
||
Тогда sy2ˆ |
Q1 |
|
|
- несмещённая оценка 2 , |
v1 (n m) . |
||||||||
(n m) |
|||||||||||||
|
|
|
|
|
|
|
|
|
|||||
|
n |
ri |
|
|
|
|
|
|
|
|
|||
Q2 ( yij yi )2 . |
|
|
|||||||||||
|
i 1 |
j 1 |
|
|
|
|
|
|
|
|
|||
s2 |
|
|
Q2 |
|
|
- |
несмещённая оценка |
остаточной дисперсии, она не |
|||||
(ri |
1) |
||||||||||||
y |
|||||||||||||
n |
|
|
|
|
|
|
|
|
|
|
|||
|
i 1 |
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
n |
|
|
|
связана с ошибкой в выборе модели, v2 (ri 1) . |
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
i 1 |
|
|
|
Далее расчётное значение F-статистики: |
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
n |
|
|
||
|
sy2ˆ |
|
|
Q |
|
|
(ri 1) |
|
|
||||
F s2 |
(n m) |
Q |
|
|
|||||||||
ˆ |
|
|
|
|
1 |
|
|
|
i 1 |
|
|
|
|
|
y |
|
|
|
|
|
|
2 |
|
|
|
||
сравнивается |
с |
её |
критическим уровнем |
для |
соответствующих степеней |
||||||||
|
|
|
|
|
|
|
|
|
n |
|
|
||
свободы, т.е. |
F кр((n m), (ri 1)) . |
|
|
||||||||||
|
|
|
|
|
|
|
|
|
i 1 |
|
|
||
|
ˆ |
|
|
|
|
|
|
n |
|
|
|||
Если |
|
|
кр |
m), (ri 1)) , то нулевая гипотеза принимается на уровне |
|||||||||
F |
< F ((n |
||||||||||||
|
|
|
|
|
|
|
|
|
i 1 |
|
|
||
значимости , и следовательно, построенная модель может быть признана адекватной, т.е. она гарантирует с заданной вероятностью (1 ) получение ожидаемого результата.
4.3.2. Проблемы спецификации факторной регрессионной модели
Результаты любого оригинального эконометрического исследования зависят, прежде всего, от того насколько грамотно экономическая проблема (задача) поставлена перед аналитиком-эконометристом, сможет ли он удачно трансформировать экономическую и/или управленческую задачу в задачу эконометрического моделирования и предложить практикам управления аналитику, существенно влияющую на результаты их деятельности [9].
Бесспорно, методика эконометрического исследования – методы, модели и технологии их реализации, существенно определяют результативность этой деятельности, и в процессе овладения эконометрикой как учебной дисциплиной «техническая» часть превалирует. Это понятно и объяснимо. Однако любой успешный практик знает, что «специфичность» методики эконометрического анализа, практически предопределена объёмом и качеством доступного фактографического материала (или его отсутствием). В этой связи эконометрическое моделирование это, как правило, многоэтапный, интерактивный процесс и процедура спецификации модели начинается с замысла исследования, его планирования и заканчивается, иногда, в ходе «полевых пуско-наладочных» работ. Сам термин «спецификация модели» будет пониматься нами в широком и узком смысле.
Под спецификацией эконометрической модели в «узком» понимании (на канонических схемах процедур эконометрического моделирования именуется «этапом (стадией) спецификации», см. блок IV, рисунок 3.2) мы будем иметь в виду набор работ, предшествующий этапу первоначальной оценки эконометрической модели, здесь предполагается:
выявление набора зависимых и независимых переменных модели;
определение общего вида (функциональной формы) ожидаемых зависимостей между изучаемыми переменными;
формулировка базовых допущений относительно стохастической природы случайной составляющей (спецификация случайной составляющей) изучаемых процессов и явлений.
На начальном этапе эконометрического моделирования исследователь обязан обосновать целостный набор разумных априорных представлений о содержательном существе модели и её желаемых вероятностно-статистических свойствах. Результативность этой деятельности определяется как профессиональными компетенциями специалиста в области экономикоматематического моделирования, так и его знаниями и представлениями об объекте и предмете исследования, а также предшествующим опытом ведения работ в области эконометрических исследований в управлении экономикой.
В широком смысле «спецификация модели» подразумевает комплекс работ по формированию финального концептуального представления модели на всех стадиях эконометрического моделирования. Тем не менее, здесь можно выделить следующие содержательно обусловленные задачи спецификации:
априорная спецификация (спецификация в «узком» смысле), её цель - выбор приемлемой базовой модели до начала работы с исходными данными;
упрощение исходной базовой модели с учётом специфики свойств исходных массивов данных («спецификация на основе данных»);
коррекция эконометрической модели в ходе её идентификации, цель - упрощение сложных моделей в процессе их оценки, а также поиск ошибок спецификации и их возможно полная нивелировка, направленная на повышение качества модели;
«доводка» модели в ходе её «эксплуатации», цель – сделать модель максимально прагматичной в когнитивном и технологическом смысле, т.е. модель должна давать информацию, направленную на решение проблем, обозначенных общими целями экономического исследования и быть полезной на достаточно продолжительном периоде времени.
Традиционные ошибки спецификации ЛММР, как правило, сводятся к
следующему перечню (ошибки спецификации в широком смысле):
игнорирование существенной переменной регрессионной модели;
включение в модель незначимой переменной, не влияющей на значение результирующего признака в выбранном варианте описания взаимосвязей модели;
использование несоответствующих математических форм зависимостей, а также оценивание ложной регрессии;
нарушение базовых гипотез Гаусса-Маркова относительно случайной составляющей , приводящих к гетероскедастичности и/или автокорреляции остатков модели, в том числе мультиколлинеарность автономных переменных модели.
Отметим, что часто к ошибкам спецификации относят только первые
три типа нарушений, которые связаны только с выбором состава объясняющих переменных модели и её структурой.
В целом наличие ошибок спецификации в эконометрической модели обычно приводит к нарушению стандартного набора требований к удовлетворительным параметрам КММР, и проявляется через наличие у них свойств смещённости, несостоятельности и неэффективности, а также к ухудшению обобщающих критериев качества моделирования.
Общие рекомендации по обнаружению ошибок спецификации связаны с активным использованием следующих исследовательских подходов:
системно-логический анализ на априорной стадии спецификации модели («априорная спецификация»);
оценка и анализ статистических характеристик в процессе корреляционного анализа переменных, вошедших в круг интересов исследователя («спецификация на основе данных»);
анализ оценочных статистических характеристик базовой модели в процессе дисперсионного анализа («поиск ошибок спецификации»);
специальные, в том числе графические, исследования остатков модели («поиск ошибок спецификации», «доводка» модели»);
проведение статистических тестов с целью проверки разнообразных гипотез («поиск ошибок спецификации»).
Корректировка ошибок спецификации – непременное условие повышения априорных информационных и прогностических свойств эконометрической модели, построенной на основе МНК. В этой связи чрезвычайно важно полно и грамотно осуществить селекцию исходной базовой модели, что существенно сократит время поиска лучшего (приемлемого, возможного и т.д.) варианта, а следовательно, повысит общую результативность и эффективность аналитической работы.
Обоснование отбора регрессоров в ходе первоначальной «настройки» модели из множества подходящих по каким-либо разумным соображениям (например, в соответствии с теорией, опытом эксперта, спецификой данных и т.п.) может производиться формально на основании критериев оценки качества аппроксимирующей гиперплоскости. Перечень часто используемых критериев представлен в таблице 4.2 (подготовлена с использованием информации из [15, p.420]). Из неё видно, что в их основе всегда лежит величина кумулятивного квадрата остаточной компоненты модели (ESS, Error Sum of Squares), т.е.
n
ESS Q2 ( yˆi yi )2 .
i 1
Обычно отбор организуется в режиме так называемой пошаговой регрессии (stepwise regression metod) с использованием либо стратегии
«наращивания» факторов модели (forward selection) или их «отсечения»
(backward selection).
Стратегия наращивания начинает работу с расчета матрицы парных корреляций между эндогенной переменной и исходной совокупностью
экзогенных. |
Преимущество включения в модель имеет фактор xj с самым |
||||||||
высоким уровнем значимой корреляции с переменной отклика модели - rxy . |
|||||||||
Таблица 4.2 - Варианты критериев отбора регрессоров факторной модели |
|||||||||
|
№п/п |
|
Наименование критерия |
Расчётная формула и направление |
|
||||
|
|
|
улучшения критерия |
|
|||||
|
|
|
|
|
|
|
|
||
|
1. |
|
|
|
2 |
Q2j |
|
min *; |
|
|
Тейла, R |
(n mj ) |
|
||||||
|
|
|
|
j |
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
R |
2 max |
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
j |
j |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2. |
|
Хоккингса, S |
|
|
|
Q2j |
|
|
|
|
|
|
|
|
|
|
min |
|
|||||
|
|
p |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
j |
|
|
|
||||||
|
|
|
|
|
|
|
|
|
(n mj )(n mj 1) |
|
|
|
|
|||||||||||
|
3. |
|
Маллоу, C |
p |
|
|
|
(Q2 |
2m s2 ) min |
|
|
|
|
|||||||||||
|
|
|
|
|
|
|
|
j |
|
|
j m |
|
|
j |
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
4. |
|
Амемия, PС |
|
|
|
Q2j |
(n mj ) |
|
|
|
|
|
min |
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
j |
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
(n mj ) |
|
|
|
|
|
||||||
|
5. |
|
Акаике, AIC |
|
|
|
AIC Q |
j |
exp(2m |
j |
/ n) min |
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
j |
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
k j |
Q |
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
6. |
|
Шварца, BIC |
|
|
|
|
|
|
|
|
|
|
j |
|
|
|
|
|
|
|
|
||
|
|
|
|
|
BIC n |
n |
|
min |
|
|
|
|||||||||||||
|
|
|
|
|
|
|
|
|
|
|||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n |
|
j |
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
* Здесь |
n - количество наблюдений; m |
j |
- количество регрессоров в модели; |
s2 |
- оценка |
|||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
m |
|
|
|
дисперсии случайной.
Важно проверить степень коррелированности данного фактора с другими регрессорами. В идеальном случае эти связи должны быть незначимы. В противном случае – проанализировав смысловое значение объясняющих переменных, попадающих в группу коррелированных переменных можно рекомендовать поступить следующим образом: провести смысловой анализ тесно связанных показателей и если удаётся обосновать их функциональную (расчётную) зависимость, то включать в модель только те, на наличии которых настаивает заказчик исследования (т.е. он считает присутствие данной смысловой переменной необходимым).
Дальнейшие действия очевидны. При включении в модель в соответствии с величиной rxy каждого последующего регрессора, отслеживается изменение выбранных аналитиком критериев качества модели (см.табл. 3). Как правило, останавливаются не более чем на паре критериев, чаще всего это критерий Тейла ( R 2 ) и один из информационных критериев (AIC или BIC). Ввод новых регрессоров прекращается, когда добавление в модель очередного фактора даёт ничтожный, с точки зрения эксперта прирост эффективности модели25.
25 Более детальное и информативное исследование, можно провести, изучив предварительно факторное пространство объясняющих признаков, например, с помощью метода главных компонент или факторного анализа.
Работа стратегии отсечения начинается с построения регрессии сразу на всём множестве регрессоров. Далее они исключаются из модели в зависимости от своей индивидуальной для неё значимости, т.е. в соответствии с модулем t- статистики. Допустимые значения критериев качества отслеживают, также как и был выше описано.
Очевидно, что обе схемы исследования носят весьма механистичный характер, но ещё раз подчеркнем, что любое исследование должно начинаться с экспертной оценки факторов, присутствие которых в модели весьма желательно (необходимо) и тех, которые не интересны в управленческой практике заказчику исследования. Всё это делает селекцию набора регрессоров не слишком трудоёмкой процедурой (стоит заметить, что в современном специализированном программном обеспечении данные стратегии отбора и их гибриды предусмотрены разработчиками и входят в базовую комплектацию интеллектуальных аналитических пакетов обработки данных).
Оценку целесообразности расширения факторной регрессионной модели возможно провести и на основе формальных статистических тестов, например
общего теста Лагранжа (Lagrange Multiplier test) [16, p.280-282].
Проиллюстрируем его процедуру. Пусть оценивается модель вида:
(4.28)
Ставится вопрос о целесообразности ее расширения ее за счет включения дополнительных q регрессоров (или части из них). Тогда новая модель будет иметь вид:
y 0 1x1 2 x2 ... k q xk q ... k xk UR . |
(4.29) |
Таким образом, для решения о расширении модели (4.28) («усеченная модель») до структуры модели (4.29) («полная» или «неусечённая» модель) следует проверить нулевую гипотезу: H0 : k q i 0 , где i 1, q .
Для проверки используется тест Лагранжа (Lagrange Multiplier test) [1, 2, 16]. Процедура тестирования организуется в виде следующей цепочки шагов:
1)Оценивается вектор остатков усеченной модели (4.28):
ˆR y ˆ0 ˆ1x1 ˆ2 x2 ... ˆk q xk q .
2)Предположим, что на остатках ˆR можно построить регрессию по всем
объясняющим переменным, включенным в уравнение неусечённой модели (4.29). Её вид, следующий:
ˆR 0 1x1 2 x2 ... k xk |
(4.30) |
LM -тест непосредственно проверяет гипотезу, |
о том, что каждая из q |
переменных, не входящих в усеченную модель (4.28), имеет при себе 0-й коэффициент в модели (4.30), т.е. необходимо провести оценку модели (4.30). Если какие-либо из новых переменных «неуместны», то соответствующие коэффициенты, добавленные при переходе от усеченной модели к ее полному виду, будут равны 0. Однако, если часть их них существенно влияют на y , то коэффициенты при этих же дополнительных переменных будут существенны и в для модели (4.29).
Вывод о целесообразности включения в модель дополнительной совокупности данных из q переменных делается, исходя из расчетного значения LM -статистики, которая имеет распределение 2 с числом степеней свободы q . Она строится с использованием результатов оценки модели (4.30), а именно:
LM nR2 ,
где R2 - коэффициент детерминации уравнения (4.30); n - объем выборки данных.
Если LM 2 (q) , то нулевая гипотеза о пригодности усеченной модели отвергается. Следует вывод о том, что некоторые из q дополнительных переменных следует включить в регрессионную модель (4.28) для лучшего объяснения y . Уточнение выбора дополнительных регрессоров можно сделать, исходя из анализа значений t-статистик модели (4.30).
