Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
УМП_ЭММ_Чегерова.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
2.88 Mб
Скачать

1.2. Построение множественной линейной регрессионной модели.

Пусть требуется построить линейную модель зависимости некоторого выходного экономического показателя , называемого объясняемой переменной от набора входных показателей , называемых объясняющими переменными.

Пусть - наблюдений объясняемой переменной, а - наблюдений объясняющих переменных. Задача состоит в построении по данной выборке линейной модели зависимости объясняемой переменной от вектора объясняющих переменных. Теоретическое линейное уравнение регрессии имеет вид:

.

Здесь – коэффициенты модели, - ошибка измерения модели.

Для адекватной работы метода наименьших квадратов требуется выполнение следующих гипотез:

  1. . (спецификация модели).

  2. -детерминированные величины, причем в матрице

столбцы линейно независимые, т.е. ранг этой матрицы равен .

  1. - случайная величина, удовлетворяющая условиям

    1. , математическое ожидание ошибки равно нулю;

    2. , дисперсия ошибки не зависит от номера наблюдения;

    3. , т.е. ошибки разных наблюдений не зависят друг от друга.

Истинные значения параметров по выборке получить невозможно. В этом случае вместо теоретического уравнения регрессии оценивается так называемое эмпирическое уравнение регрессии:

В результате применения метода наименьших квадратов находятся оценки коэффициентов модели . После получения оценок необходимо определить, все ли из них значимо отличаются от нуля, так как, если коэффициент равен нулю, это означает, что соответствующая объясняющая переменная не участвует в модели. Коэффициент значим, если гипотезу его равенства нулю надо отвергнуть. Соответственно значимостью коэффициента называется вероятность того, что его знак совпадает со знаком его оценки.

Для полученной модели необходимо уметь определять, можно ли отбросить несколько входящих в нее объясняющих переменных или добавить переменные, не входящие в модель. С этой целью проводят тест для определения какая модель лучше – «длинная» или «короткая». Также необходимо проверять однородность модели для разных наборов переменных. Для этого предназначен тест Чоу. Для оценки адекватности модели надо проверять тесты на выполнение условий теоремы Гаусса-Маркова.

Построение линейной регрессии в Excel проиллюстрируем на следующем примере:

Пример 1. Задача состоит в построении модели зависимости объясняемой переменной «накопления» ( ) от объясняющих переменных «дохода» ( ) и «имущества» ( ). Данные приведены на рис.1.

В общем случае есть следующие статистические данные - наблюдений объясняемой переменной, а - наблюдений объясняющих переменных. Запишем их в виде таблицы EXCEL, как это сделано на рис.1.12.

Рисунок 1.12. Ввод исходных данных

Надо найти оценки коэффициентов модели

.

Для получения отчета по построению модели в среде в меню Сервис выбираем строку Анализ данных, как в примере для парной регрессии.

Вид отчета о результатах регрессионного анализа представлен на рис.1.13.

Рисунок 1.13. Вывод итогов регрессионного анализа

Множественный R – это , где – коэффициент детерминации.

R-квадрат - это . свидетельствует о том, что изменения зависимой переменной (накопления) в основном можно объяснить изменениями включенных в модель объясняющих переменных – дохода и имущества .

Нормированный R-квадрат – скорректированный (адаптированный, поправленный (adjusted) ) коэффициент детерминации.

где – число наблюдений, – число объясняющих переменных.

Недостатком коэффициента детерминации является то, что он увеличивается при добавлении новых объясняющих переменных, хотя это и не обязательно означает улучшение качества регрессионной модели. В этом смысле предпочтительнее использовать . В отличие от скорректированный коэффициент может уменьшаться при введении в модель новых объясняющих переменных, не оказывающих существенное влияние на зависимую переменную.

Стандартная ошибка регрессии , где – необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).

Отчет приведен в таблицах 1.1 и 1.2.

Таблица 1.1 - Отчет дисперсионного анализа.

df

SS

MS

F

Значи-мость F

Регрессия

2

12.02

6.01

= 42.753

0.0228

Остаток

2

0.28

0.14

Итого

4

12.30

Таблица 1.2 - Отчет регрессионного анализа.

Коэффи-циенты

Стандарт-ная ошибка

t-стати-стика

P-Значение

Нижние 95%

Верхние 95%

0.279

0.894

0.312

0.785

-3.570 4.127

0.123

0.018

6.692

0.022

0.044 0.202

-0.03

0.007

-4.37

0.050

-0.059 0.000

Таким образом, получена следующая модель:

где df – degrees of freedom – число степеней свободы связано с числом единиц совокупности и с числом определяемых по ней констант

F и Значимость F позволяют проверить значимость уравнения регрессии, т.е. установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной. По эмпирическому значению статистики F проверяется гипотеза равенства нулю одновременно всех коэффициентов модели. При этом формулируются гипотезы:

(уравнение не значимо)

(уравнение значимо

Уравнение регрессии значимо на уровне , если , где - табличное значение F-критерия Фишера ( .

На уровне значимости гипотеза отвергается,

если Значимость , и принимается, если Значимость .

– стандартные ошибки коэффициентов.

t-статистика соответствующего коэффициента .

– критическая точка распределения Стьюдента, .

Если , то коэффициент считается статистически значимым.

Если , то коэффициент считается статистически незначимым. Это означает, что фактор линейно не связан с зависимой переменной . Его наличие среди объясняющих переменных не оправдано со статистической точки зрения. Поэтому после установления того факта, что коэффициент незначим, рекомендуется исключить из уравнения регрессии переменную . Это не приведет к существенной потере качества модели, но сделает ее более корректной.

P-Значение – вероятность, позволяющая определить значимость коэффициента регрессии .

Для уровня значимости :

Если P-Значение , то коэффициент незначим, следовательно, гипотеза принимается.

Если P-Значение , то коэффициент значим, следовательно, гипотеза отвергается.

Нижние 95% - Верхние 95% - доверительный интервал для параметра .

, т.е. с надежностью 0.95 этот коэффициент лежит в данном интервале. Поскольку коэффициент регрессии в эконометрических исследованиях имеют четкую экономическую интерпретацию, то границы доверительного интервала для коэффициента регрессии не должны содержать противоречивых результатов, например, . Такого рода запись указывает, что истинное значение коэффициента регрессии одновременно содержит положительные и отрицательные величины и даже ноль, чего не может быть.

Интерпретация коэффициентов модели: При нулевых значениях «дохода» и «имущества» накопление будет равно 0.279. Так как P-значение этого коэффициента равно 0.785, то он незначимо отличается от нуля.

То, что коэффициент 0.123 , означает, что при увеличении дохода на 1$ накопления возрастают на 0.123$, а то, что коэффициент -0.029, означает, что увеличение имущества на 1$ приводит к уменьшению накоплений на 0.029$. Анализ P-значений показывает, что оба коэффициента значимы.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]