Множественная регрессионная модель
Классическая линейная модель множественной регрессии
Экономические явления, как правило, определяются большим числом одновременно и совокупно действующих факторов. В связи с этим часто возникает задача исследования зависимости одной зависимой переменной у от нескольких объясняющих переменных. Эта задача решается с помощью множественного регрессионного анализа.
Модель множественной линейной регрессии можно представить в виде:
yi = β0+ β1xi1 +β2xi2+ … +βpxip + ɛi (1)
где yi – значения результирующей переменной; xi1 , xi2 ,… , xip – значения 1-го, 2-го, …, р-го регрессора в i-том наблюдении (i=1,2, … , n); β0, β1, β2, …, βp – числовые коэффициенты; ɛi – случайные (стохастические) составляющие или ошибки (возмущения), удовлетворяющие необходимым предпосылкам […].
Оценкой модели (1) по выборке при i=1,2, … , n является уравнение
ŷi=а0+а1xi1 + а2xi2 + … + арxip
где ŷi - аппроксимирующие значения зависимой переменной; а0,а1,а2, … , ар - выборочные оценки соответствующих коэффициентов. Они находятся также с помощью метода МНК.
Коэффициент регрессии показывает, на сколько изменится в среднем зависимая переменная у при увеличении только j-той объясняющей переменной на единицу собственного измерения.
Множественный коэффициент детерминации (R2) характеризует, какая доля вариации результативного признака обусловлена изменением факторных признаков, входящих в многофакторную регрессионную модель.
Частный коэффициент детерминации показывает, на сколько процентов вариация результативного признака объясняется вариацией j-того признака, входящего в регрессионную модель.
На практике часто бывает необходимо сравнение влияния на зависимую переменную различных объясняющих переменных, когда последние выражаются разными единицами измерения. В этом случае используют стандартизированные коэффициенты регрессии:
= аj
Стандартизованный коэффициент регрессии показывает, на сколько величин sy изменится в среднем зависимая переменная у при увеличении только j-той объясняющей переменной на .
Оценка значимости коэффициентов регрессии β0, β1, β2, …, βp проводится аналогично как и для парной линейной регрессии. Но tкр = tкр (α; к=n-р-2).
Для оценки значимости уравнения регрессии естественно использовать аналогичную величину
F== (n-р-1),
ибо в уравнении множественной регрессии вместе со свободным членом оценивается m=p+1 параметров.
Следовательно, нулевая гипотеза о не значимости уравнения регрессии в целом (об одновременном равенстве нулю всех коэффициентов при факторных переменных) составляет Н0: β1= β2=…= βp=0. Альтернативная гипотеза H1 : хотя бы одно βj≠0, j=1,2, … , p.
Критическая точка Fкр= Fкр (α; к1=р, к2=n-р-1).
Если известен коэффициент детерминации R2 , то критерий значимости уравнения регрессии может быть записан в виде:
F=
В случае парной регрессии проверка нулевой гипотезы для t-статистики коэффициента регрессии равносильна проверке нулевой гипотезы для F- статистики. Самостоятельную значимость R2 имеет для множественной регрессии. Он используется для анализа общего качества оцененной линейной регрессии (в случае парной регрессии это квадрат коэффициента корреляции переменных х и у).
Множественный коэффициент детерминации может быть вычислен по формуле:
Он характеризует долю вариации (разброса) зависимой переменной, объясненной с помощью данного уравнения (см. рис. ….).
Из рис. видно, что с добавлением еще одной переменной R2 обычно увеличивается. Однако если объясняющие переменные х1 и х2 сильно коррелируют между собой, то они объясняют одну и ту же часть разброса переменной у, и в этом случае трудно идентифицировать вклад каждой переменной в объяснение поведения у.
Для определения статистической значимости коэффициента детерминации R2 проверяется нулевая гипотеза F-статистики (см….).
Проблема размерности регрессионной модели
Следует отметить, что включенные в регрессионную модель объясняющие переменные не должны противоречить теоретическим положениям соответствующей предметной области моделируемого явления. Меняя состав переменных, получаются новые уравнения регрессии. При этом в пользу добавления в модель (исключения из модели) каждой переменной могут свидетельствовать: значимость (незначимость коэффициента регрессии), возрастание скорректированного? коэффициента детерминации, значительное (незначительное) изменение других коэффициентов регрессии.
Наиболее приемлемым способом отбора факторных признаков является пошаговая регрессия. Сущность этого метода заключается в последовательном включении факторов в уравнение регрессии и последующей проверке их значимости. При проверке значимости введенного фактора определяется, насколько уменьшается сумма квадратов остатков и увеличивается величина множественного коэффициента корреляции. Одновременно можно исключать факторы, ставшие незначимыми на основе t-критерия Стьюдента. Фактор является незначимым, если его включение в уравнение регрессии только изменяет значение коэффициентов регрессии, не уменьшая суммы квадратов остатков и не увеличивая их значения. Если при включении в модель соответствующего факторного признака величина множественного коэффициента корреляции увеличивается, а коэффициент регрессии не изменяется (или меняется несущественно), то данный признак существенный.
Если же при включении в модель факторного признака коэффициенты регрессии меняют не только величину, но и знаки, а множественный коэффициент корреляции не возрастает, то данный признак нецелесообразно включать в модель.
Проблема размерности регрессионной модели, т.е. определение оптимального числа факторных признаков, является одной из основных проблем построения множественного уравнения регрессии. С одной стороны, чем больше факторных признаков включено в уравнение, тем оно лучше описывает явление. Однако при большом их количестве регрессионная сложна в реализации. Сокращение размерности модели может привести к тому, она будет недостаточно адекватна исследуемым процессам и явлениям.
Пусть рассматриваются два уравнения регрессии:
у=a0 + а1х1 (1)
у= a0 + а1х1 + а2х2 (2)
Во втором уравнении коэффициент а1 регрессии позволяет оценить прирост зависимой переменной у при изменении на единицу объясняющей переменной х1 в чистом виде, независимо от х2. В случае парной регрессии а1 учитывает воздействие на у не только переменной х1, но и косвенно связанной с ней переменной от х2.
Адекватность уравнения регрессии [Шмойлова]
При анализе адекватности уравнения регрессии исследуемому процессу возможны следующие варианты:
Построенная модель на основе ее проверки по F-критерию Фишера в целом адекватна, и все коэффициенты регрессии значимы. Такая модель может быть использована для принятия решений и осуществления прогнозов.
Модель по F-критерию Фишера адекватна, но часть коэффициентов регрессии незначима. В этом случае модель пригодна для принятия некоторых решения, но не для прогнозов.
Модель по F-критерию Фишера адекватна, но все коэффициенты регрессии незначимы. В этом случае модель полностью считается неадекватной. На ее основе не принимаются решения, и не осуществляются прогнозы.