
- •6. Множественная линейная регрессия 6.1. Определение параметров уравнения регрессии
- •6.2. Расчет коэффициентов множественной линейной регрессии
- •6.3. Дисперсии и стандартные ошибки коэффициентов
- •6.4. Интервальные оценки коэффициентов теоретического уравнения регрессии
- •6.5. Анализ качества эмпирического уравнения множественной линейной регрессии
- •6.6. Проверка статистической значимости коэффициентов уравнения регрессии
- •6.7. Проверка общего качества уравнения регрессии
- •6.8. Проверка выполнимости предпосылок мнк. Статистика Дарбина-Уотсона
6. Множественная линейная регрессия 6.1. Определение параметров уравнения регрессии
На любой экономический показатель практически всегда оказывает влияние не один, а несколько факторов. Например, спрос на некоторое благо определяется не только ценой данного блага, но и ценами на замещающие и дополняющие блага, доходом потребителей и многими другими факторами. В этом случае вместо парной регрессии M(Y | х) = f(x) рассматривается множественная регрессия
M(Y | хь х2, ..., xm) = f(xb x2, ..., xm). (6.1)
Задача оценки статистической взаимосвязи переменных Y и Хь Х2, ..., Хт формулируется аналогично случаю парной регрессии. Уравнение множественной регрессии может быть представлено в виде
Y = f(P, X) + б, (6.2)
где X = (Хь Х2, ..., Хт) - вектор независимых (объясняющих) переменных; Р - вектор параметров (подлежащих определению); е - случайная ошибка (отклонение); Y - зависимая (объясняемая) переменная. Предполагается, что для данной генеральной совокупности именно функция f связывает исследуемую переменную Y с вектором независимых переменных X.
Рассмотрим самую употребляемую и наиболее простую из моделей множественной регрессии - модель множественной линейной регрессии.
Теоретическое линейное уравнение регрессии имеет вид:
Y = Ро + PiXj + р2Х2 + ... + pmXm + б (6.3)
или для индивидуальных наблюдений i, i = 1, 2, ..., n:
У! = Ро + PlXij + Р2ХЙ + ... + PmXim + 6i. (6.4)
Здесь p = (Po, Pi,..., pm) - вектор размерности (m + 1) неизвестных параметров. PJ5 j = 1, 2, ..., m, называется j-м теоретическим коэффициентом регрессии (частичным коэффициентом регрессии). Он характеризует чувствительность величины Y к изменению Xj. Другими словами, он отражает влияние на условное математическое ожидание M(Y|xi, х2, ..., хт) зависимой переменной Y объясняющей переменной Xj при условии, что все другие объясняющие переменные модели остаются постоянными. р0 - свободный член, определяющий значение Y, в случае, когда все объясняющие переменные X, равны нулю.
141
После выбора линейной функции в качестве модели зависимости необходимо оценить параметры регрессии.
Пусть имеется п наблюдений вектора объясняющих переменных X = (Хь Х2, ..., Хт) и зависимой переменной Y:
(xib xi2, ..., xim, yO, i = 1, 2, ..., п.
Для того чтобы однозначно можно было бы решить задачу отыскания параметров р0, Рь •■> Рт(т. е. найти некоторый наилучший вектор Р), должно выполняться неравенство n > m + 1. Если это неравенство не будет выполняться, то существует бесконечно много различных векторов параметров, при которых линейная формула связи между X и Y будет абсолютно точно соответствовать имеющимся наблюдениям. При этом, если n = m + 1, то оценки коэффициентов вектора Р рассчитываются единственным образом - путем решения системы m + 1 линейного уравнения:
У1 = ро+р1Х11 + р2Х12+...+ pmxim , i=l,2,...,m+l. (6.5)
Например, для однозначного определения оценок параметров уравнения регрессии Y = р0 + PiXi + р2Х2 достаточно иметь выборку из трех наблюдений (х ibx i2, xi3, yi), i = 1, 2, 3. Но в этом случае найденные значения параметров р0, Рь р2 определяют такую плоскость Y = Ро + PiXi + p2X в трехмерном пространстве, которая пройдет именно через имеющиеся три точки. С другой стороны, добавление в выборку к имеющимся трем наблюдениям еще одного приведет к тому, что четвертая точка (x4i,x42, х4з, У4) практически наверняка будет лежать вне построенной плоскости (и, возможно, достаточно далеко). Это потребует определенной переоценки параметров. Таким образом, вполне логичен следующий вывод:
если число наблюдений больше минимально необходимого, т. е. п > т+1, то уже нельзя подобрать линейную форму, в точности удовлетворяющую всем наблюдениям, и возникает необходимость оптимизации, т. е. оценивания параметров а0, аь ..., ат, при которых формула дает наилучшее приближение для имеющихся наблюдений.
В данном случае число v = n - m - 1 называется числом степеней свободы. Нетрудно заметить, что если число степеней свободы невелико, то статистическая надежность оцениваемой формулы невысока. Например, вероятность верного вывода (получения более точных оценок) по трем наблюдениям существенно ниже, чем по тридцати. Считается, что при оценивании множественной линейной регрес-
142
сии для обеспечения статистической надежности требуется, чтобы число наблюдений, по крайней мере, в 3 раза превосходило число оцениваемых параметров.
Самым распространенным методом оценки параметров уравнения множественной линейной регрессии является метод наименьших квадратов (МНК). Напомним, что его суть состоит в минимизации суммы квадратов отклонений наблюдаемых значений зависимой переменной Y от ее значений Y, получаемых по уравнению регрессии.
Прежде чем перейти к описанию алгоритма нахождения оценок коэффициентов регрессии, напомним о желательности выполнимости ряда предпосылок МНК, которые позволят проводить анализ в рамках классической линейной регрессионной модели. Эти предпосылки подробно обсуждались в разделе 5.1. Напомним ряд из них.
Предпосылки МНК
1°. Математическое ожидание случайного отклонения нравно нулю: M(si) = 0 для всех наблюдений.
2°. Гомоскедастичность (постоянство дисперсии отклонений). Дисперсия случайных отклонений 8i постоянна: D(8i) = D(8j) = а2 для любых наблюдений i и j.
3°. Отсутствие автокорреляции.
Случайные отклонения 8i и 8j являются независимыми друг от друга для всех i ф j.
О, если i Ф j; [у2, если i = j.
4°. Случайное отклонение должно быть независимо от объясняющих переменных.
Уе;Х;=0-
ех
е}х}
°
5°. Модель является линейной относительно параметров.
Для случая множественной линейной регрессии существенной является еще одна предпосылка.
б°. Отсутствие мультиколлинеарности.
Между объясняющими переменными отсутствует строгая (сильная) линейная зависимость.
7°. Ошибки Si имеют нормальное распределение (£t ~N(0, a)).
143
Выполнимость данной предпосылки важна для проверки статистических гипотез и построения интервальных оценок.
Как и в случае парной регрессии, истинные значения параметров Pj по выборке получить невозможно. В этом случае вместо теоретического уравнения регрессии (6.3) оценивается так называемое эмпирическое уравнение регрессии. Эмпирическое уравнение регрессии представим в виде:
Y = bo + biX1+b2X2 + ...+bmXm + e. (6.6)
Здесь bo, bi, ..., bm - оценки теоретических значений рь р2, ..., рт коэффициентов регрессии {эмпирические коэффициенты регрессии); е - оценка отклонения е. Для индивидуальных наблюдений имеем:
yi = Ьо + biXii + ... + ЬщХпп + еь (6.7)
Оцененное уравнение в первую очередь должно описывать общий тренд (направление) изменения зависимой переменной Y. При этом необходимо иметь возможность рассчитать отклонения от этого тренда.
По данным выборки объема n: (xib хй,... , xim, y{), i = 1, 2, ... , п требуется оценить значения параметров Pj вектора р, т. е. провести параметризацию выбранной модели (здесь хц, j = 1, 2, ... , m - значение переменной X,- в i-м наблюдении).
При выполнении предпосылок МНК относительно ошибок 8i оценки bo, bi, ..., bm параметров рь р2, ..., рт множественной линейной регрессии по МНК являются несмещенными, эффективными и состоятельными (т. е. BLUE-оценками).
На основании (6.7) отклонение ei значения у^ зависимой переменной Y от модельного значения у{, соответствующего уравнению регрессии в i-м наблюдении (i = 1, 2, ..., п), рассчитывается по формуле:
ei = yi - bo - biXii - ... - ЬщХпп. (6.8)
Тогда по МНК для нахождения оценок Ьо, Ьь ..., bm минимизируется следующая функция:
п „ n m o
'а))2- (6-9)
Данная функция является квадратичной относительно неизвестных величин bj, j = 0, 1, ..., m. Она ограничена снизу, следовательно, имеет минимум. Необходимым условием минимума функции Q явля-
144
ется равенство нулю всех ее частных производных по Ь,. Частные производные квадратичной функции (6.9) являются линейными функциями
m
S
b0
dQ
д
Ь;
; -(b0 +
m
ij, j = 1,2,...,m.
(6.10)
Приравнивая их к нулю, мы получаем систему (т + 1) линейного уравнения с (т + 1) неизвестным:
m
Kyi-(b0 +
ij =0, j = 1,2,...,m.
(6.11)
Такая система имеет обычно единственное решение. В исключительных случаях, когда столбцы системы линейных уравнений линейно зависимы, она имеет бесконечно много решений или не имеет решения вовсе. Однако данные реальных статистических наблюдений к таким исключительным случаям практически никогда не приводят. Система (6.11) называется системой нормальных уравнений. Ее решение в явном виде наиболее наглядно представимо в векторно-матричной форме.