
- •Эконометрика и экономико-математические методы и модели
- •Часть 1
- •212000, Г. Могилев, пр. Мира, 43
- •1 Парная регрессия и корреляция
- •1.1 Расчетные формулы
- •1.2 Задание
- •2 Модели множественной регрессии
- •2.1 Расчетные формулы
- •2.2 Задание
- •3 Эконометрический анализ при нарушении классических
- •3.1 Теоретические положения
- •3.2 Задание
- •4 Методы и модели анализа временных рядов
- •4.1 Теоретические положения
- •4.2 Задание
- •Список литературы
2.2 Задание
По данным таблицы 2.1 необходимо построить уравнения линейной и логарифмической множественных регрессий, отражающих зависимость стоимости подержанных автомобилей МАЗ-6422 от срока эксплуатации (лет) и пробега.
Таблица 2.1 – Исходные данные
Срок эксплуатации, лет |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
Пробег, тыс. км |
10 |
55 |
90 |
120 |
180 |
220 |
280 |
350 |
420 |
440 |
Стоимость подержанных автомобилей МАЗ–7259, тыс. у. е. |
=83+N |
=81+N |
=80+N |
=75+N |
=69+N |
=65+N |
=58+N |
=46+N |
=43+N |
=41+N |
Примечание – N – число по указанию преподавателя, соответствующее номеру варианта
Для этого необходимо выполнить следующее.
1 Построить уравнения линейной и логарифмической множественных регрессий с помощью режима Регрессия модуля Анализ данных и функции ЛГРФПРИБЛ().
2 По значениям характеристик выбрать наилучшее из двух уравнений регрессии.
Необходимо уметь объяснять все определенные автоматически характеристики линейной и логарифмической множественных регрессий.
Отчет о лабораторной работе должен содержать описание задания и анализ результатов лабораторной работы.
Контрольные вопросы
1 Что представляет собой множественная регрессия?
2 Какие задачи решаются при построении уравнения регрессии?
3 Какие задачи решаются при спецификации модели? Какие требования предъявляются к факторам, включаемым в уравнение регрессии?
4 Как выбрать наилучшее уравнение множественной регрессии?
3 Эконометрический анализ при нарушении классических
модельных предположений
Цель: изучение явления мультиколлинеарности и методов ее устранения.
3.1 Теоретические положения
Мультиколлинеарность – это сильная линейная зависимость между двумя и более объясняющими переменными х [1–5].
Мультиколлинеарность
не позволяет разделить вклады объясняющих
переменных х1
и х2
в их влиянии на зависимую переменную у
и делает
оценки коэффициентов множественной
регрессии
ненадежными, а стандартные ошибки
и
большими.
Мультиколлинеарность может возникать в силу разных причин:
– из-за неправильной спецификации модели;
– из-за небрежного проведения сбора статистических данных (использование повторных наблюдений, использование идентичных данных среди наблюдаемых значений независимых переменных);
– если две переменные используются для представления третьей переменной в виде суммы последних двух;
– если несколько независимых переменных могут иметь одинаковый временной тренд, относительно которого они совершают малые колебания.
Последствия мультиколлинеарности [1, с. 273]:
1) большие дисперсии (стандартные ошибки оценок коэффициентов), что затрудняет нахождение истинных значений определяемых величин и ухудшает их точность;
2) уменьшаются t-статистики коэффициентов, что может привести к неоправданному выводу о существенности влияния соответствующего фак-
тора
на у;
3) оценки коэффициентов по МНК и их стандартные ошибки становятся очень чувствительными к малейшим изменениям данных, т. е. они становятся неустойчивыми;
4) затрудняется определение вклада каждого из факторов в объясняемую уравнением регрессии дисперсию зависимой переменной у.
Признаки мультиколлинеарности:
1) коэффициент детерминации R2 достаточно высок, но некоторые из коэффициентов регрессии статистически незначимы, т. е. они имеют низкие t-статистики;
2) парная корреляция между малозначимыми факторами достаточно высока. Данный признак будет надежным лишь в случае двух факторов х. При большем их количестве более целесообразным является использование частных коэффициентов корреляции;
3) высокие значения
коэффициентов парной корреляции, а
именно,
> 0,8
[4, с. 55];
4) определитель матрицы коэффициентов парной корреляции между факторами близок к нулю.
В ряде случаев мультиколлинеарность не является таким уж серьезным «злом», чтобы прилагать существенные усилия по ее выявлению и устранению. Все зависит от целей исследования.
Если задача модели – прогноз будущих значений зависимой переменной, то при достаточно большом значения коэффициента детерминации R2 (≥ 0,9) наличие мультиколлинеарности обычно не сказывается на прогнозных качествах модели.
Если задачей исследования является определение влияния каждой из объясняющих переменных на зависимую, то наличие мультиколлинеарности, приводящее к увеличению стандартных ошибок, скорее всего исказит истинные зависимости между переменными и будет являться проблемой.
Единого метода устранения мультиколлинеарности, годного в любом случае, нет, т. к. причины и последствия мультиколлинеарности неоднозначны и во многом зависят от результатов выборки.
Методы устранения мультиколлинеарности:
1) исключение из модели одной или ряда коррелированных переменных;
2) получение дополнительных данных или новой выборки. Если ряды данных сформированы из небольшого количества наблюдений (п < 10). то рекомендуется включение дополнительных членов до числа (п > 15) так, чтобы случайные аналогии, по возможности, были исключены;
3) изменение спецификации модели: либо изменяется форма модели, либо добавляются объясняющие переменные, не учтенные в первоначаль-
ной модели, но существенно влияющие на зависимую переменную.
Рассмотрим более подробно первый метод. Отсев факторов можно проводить, например, по t-критерию Стьюдента для коэффициентов регрессии: из уравнения исключаются факторы с величиной t-критерия меньше табличного.
Наиболее широко в процедуре отсева используется матрица парных корреляций между факторами.
Коэффициенты парной корреляции между объясняющими переменными используются для выявления дублирующих факторов. Линейная зависимость между объясняющими переменными xi и xj считается установленной, если выполняется условие > 0,8, а сами факторы называются явно коллинеарными. Один из факторов должен быть исключен из модели. Предпочтение при этом отдается тому фактору, который при достаточно тесной связи с результатом у имеет наименьшую тесноту связи с другими факторами х.
Наряду с парной коллинеарностью, может иметь место линейная зависимость между более чем двумя переменными. Для оценки мультиколлинеарности факторов в этом случае может использоваться величина определителя матрицы парных коэффициентов корреляции между факторами либо ее минимального собственного значения. Чем ближе к нулю определитель матрицы парных коэффициентов корреляции, тем сильнее мультиколлинеарность между факторами и ненадежнее результаты множественной регрессии.
Пример –
По данным n
= 20 сельскохозяйственных предприятий
требуется построить линейную множественную
регрессионную модель урожайности на
основе показателей, представленных на
рисунке 3.1, где приняты следующие
обозначения: у
– урожайность зерновых культур, ц/га;
– число
колесных тракторов на 100 га;
– число прицепных орудий тракторов на
100 га почвы;
–
количество химических средств оздоровления
растений, расходуемых на 1 га;
– количество удобрений на 1 га.
Необходимо устранить
мультиколлинеарность в случае ее
наличия.
С целью анализа взаимосвязи показателей построена матрица парных коэффициентов корреляции, для чего выполнена команда Сервис – Анализ данных – Корреляция (рисунок 3.1).
Анализ матрицы
парных
коэффициентов
корреляции (рисунок 3.2) показывает, что
зависимый признак у
наиболее тесно связан с показателем
–
количеством удобрений на 1 га (
).
В то же время связь
между факторами достаточно тесная. Так,
существует практически функциональная
связь между
и
–
.
О наличии мультиколлинеарности
свидетельствуют также коэффициенты
и
.
Рисунок 3.1 – Исходные данные к расчету и заполнение диалогового окна Корреляция
Рисунок 3.2 – Матрица парных коэффициентов корреляции
Определитель матрицы парных коэффициентов корреляции между факторами можно рассчитать с помощью функции МОПРЕД(), при этом в ячейку вводится формула = МОПРЕД(B24:F28). Близость определителя к нулю (0,00648), а также проведенный выше анализ позволяют сделать вывод о наличии мультиколлинеарности.
Далее необходимо построить регрессионное уравнение с использованием надстройки «Пакет анализа» (пункты меню Сервис – Анализ данных – Регрессия).
Анализ вывода итогов (рисунок 3.3) свидетельствует о том, что полученные стандартные ошибки больше самих расчетных коэффициентов.
Табличное значение t-критерия Стьюдента (k = 15, α = 0,05) составляет 2,13. Таким образом, «нулевая» гипотеза о статистической незначимости коэффициентов регрессии принимается для всех коэффициентов регрессии, кроме коэффициента при переменной .
В то же время
сравнение расчетного значения F-критерия
с табличным
= 3,06
(
,
,
α = 0,05) позволяет
сделать вывод о статистической значимости
рассматриваемой модели.
Рисунок 3.3 – Вывод итогов
Таким образом, одной из причин противоречивости результатов модели является мультиколлинеарность.
С учетом того, что в уравнение должна войти только одна из тесно связанных переменных , и и переменная является ведущей, в уравнение регрессии войдут факторы и . На рисунке 3.4 представлен вывод итогов для полученной регрессии.
После исключения мультиколлинеарных факторов значения стандартных ошибок не превышают значений коэффициентов регрессии.
Так как табличное
значение t-критерия
Стьюдента
(k = 17,
α = 0,05)
составляет 2,11,
то коэффициенты регрессии будут
статистически значимыми. Коэффициент
при переменной
следует признать значимым из экономических
соображений, при этом
= 2,087 отличается незначительно от
= 2,11.
Сравнение расчетного
значения F-критерия
с табличным
= 3,59
(
,
,
α = 0,05) позволяет
сделать вывод о статистической значимости
и надежности полученного уравнения
регрессии.
Анализ вновь полученной матрицы парных коэффициентов корреляции (рисунок 3.5) показывает, что в матрице отсутствуют высокие значения коэффициентов парной корреляции (свыше 0,8). Определитель данной матрицы равен 0,524.
Рисунок 3.4 – Вывод итогов
Рисунок 3.5 – Матрица парных коэффициентов корреляции