Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
регрессия.docx
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
117.26 Кб
Скачать

6. Множественная линейная регрессия 6.1. Определение параметров уравнения регрессии

На любой экономический показатель практически всегда оказы­вает влияние не один, а несколько факторов. Например, спрос на не­которое благо определяется не только ценой данного блага, но и це­нами на замещающие и дополняющие блага, доходом потребителей и многими другими факторами. В этом случае вместо парной регрессии M(Y | х) = f(x) рассматривается множественная регрессия

M(Y | хь х2, ..., xm) = f(xb x2, ..., xm). (6.1)

Задача оценки статистической взаимосвязи переменных Y и Хь Х2, ..., Хт формулируется аналогично случаю парной регрессии. Урав­нение множественной регрессии может быть представлено в виде

Y = f(P, X) + б, (6.2)

где X = (Хь Х2, ..., Хт) - вектор независимых (объясняющих) перемен­ных; Р - вектор параметров (подлежащих определению); е - случай­ная ошибка (отклонение); Y - зависимая (объясняемая) переменная. Предполагается, что для данной генеральной совокупности именно функция f связывает исследуемую переменную Y с вектором незави­симых переменных X.

Рассмотрим самую употребляемую и наиболее простую из моде­лей множественной регрессии - модель множественной линейной ре­грессии.

Теоретическое линейное уравнение регрессии имеет вид:

Y = Ро + PiXj + р2Х2 + ... + pmXm + б (6.3)

или для индивидуальных наблюдений i, i = 1, 2, ..., n:

У! = Ро + PlXij + Р2ХЙ + ... + PmXim + 6i. (6.4)

Здесь p = (Po, Pi,..., pm) - вектор размерности (m + 1) неизвестных параметров. PJ5 j = 1, 2, ..., m, называется j-м теоретическим коэффи­циентом регрессии (частичным коэффициентом регрессии). Он ха­рактеризует чувствительность величины Y к изменению Xj. Другими словами, он отражает влияние на условное математическое ожидание M(Y|xi, х2, ..., хт) зависимой переменной Y объясняющей перемен­ной Xj при условии, что все другие объясняющие переменные модели остаются постоянными. р0 - свободный член, определяющий значение Y, в случае, когда все объясняющие переменные X, равны нулю.

141

После выбора линейной функции в качестве модели зависимости необходимо оценить параметры регрессии.

Пусть имеется п наблюдений вектора объясняющих переменных X = (Хь Х2, ..., Хт) и зависимой переменной Y:

(xib xi2, ..., xim, yO, i = 1, 2, ..., п.

Для того чтобы однозначно можно было бы решить задачу оты­скания параметров р0, Рь •■> Рт(т. е. найти некоторый наилучший век­тор Р), должно выполняться неравенство n > m + 1. Если это неравен­ство не будет выполняться, то существует бесконечно много различ­ных векторов параметров, при которых линейная формула связи меж­ду X и Y будет абсолютно точно соответствовать имеющимся наблю­дениям. При этом, если n = m + 1, то оценки коэффициентов вектора Р рассчитываются единственным образом - путем решения системы m + 1 линейного уравнения:

У1 = ро+р1Х11 + р2Х12+...+ pmxim , i=l,2,...,m+l. (6.5)

Например, для однозначного определения оценок параметров уравнения регрессии Y = р0 + PiXi + р2Х2 достаточно иметь выборку из трех наблюдений (х ibx i2, xi3, yi), i = 1, 2, 3. Но в этом случае най­денные значения параметров р0, Рь р2 определяют такую плоскость Y = Ро + PiXi + p2X в трехмерном пространстве, которая пройдет именно через имеющиеся три точки. С другой стороны, добавление в выборку к имеющимся трем наблюдениям еще одного приведет к то­му, что четвертая точка (x4i,x42, х4з, У4) практически наверняка будет лежать вне построенной плоскости (и, возможно, достаточно далеко). Это потребует определенной переоценки параметров. Таким образом, вполне логичен следующий вывод:

если число наблюдений больше минимально необходимого, т. е. п > т+1, то уже нельзя подобрать линейную форму, в точности удов­летворяющую всем наблюдениям, и возникает необходимость опти­мизации, т. е. оценивания параметров а0, аь ..., ат, при которых фор­мула дает наилучшее приближение для имеющихся наблюдений.

В данном случае число v = n - m - 1 называется числом степе­ней свободы. Нетрудно заметить, что если число степеней свободы невелико, то статистическая надежность оцениваемой формулы невы­сока. Например, вероятность верного вывода (получения более точ­ных оценок) по трем наблюдениям существенно ниже, чем по тридца­ти. Считается, что при оценивании множественной линейной регрес-

142

сии для обеспечения статистической надежности требуется, чтобы число наблюдений, по крайней мере, в 3 раза превосходило число оцениваемых параметров.

Самым распространенным методом оценки параметров уравне­ния множественной линейной регрессии является метод наименьших квадратов (МНК). Напомним, что его суть состоит в минимизации суммы квадратов отклонений наблюдаемых значений зависимой пе­ременной Y от ее значений Y, получаемых по уравнению регрессии.

Прежде чем перейти к описанию алгоритма нахождения оценок коэффициентов регрессии, напомним о желательности выполнимости ряда предпосылок МНК, которые позволят проводить анализ в рамках классической линейной регрессионной модели. Эти предпосылки подробно обсуждались в разделе 5.1. Напомним ряд из них.

Предпосылки МНК

1°. Математическое ожидание случайного отклонения нравно нулю: M(si) = 0 для всех наблюдений.

2°. Гомоскедастичность (постоянство дисперсии отклонений). Дисперсия случайных отклонений 8i постоянна: D(8i) = D(8j) = а2 для любых наблюдений i и j.

3°. Отсутствие автокорреляции.

Случайные отклонения 8i и 8j являются независимыми друг от друга для всех i ф j.

О, если i Ф j; [у2, если i = j.

4°. Случайное отклонение должно быть независимо от объясняющих переменных.

Уе;Х;=0-

ех

е}х}

°

5°. Модель является линейной относительно параметров.

Для случая множественной линейной регрессии существенной яв­ляется еще одна предпосылка.

б°. Отсутствие мультиколлинеарности.

Между объясняющими переменными отсутствует строгая (силь­ная) линейная зависимость.

7°. Ошибки Si имеют нормальное распределение t ~N(0, a)).

143

Выполнимость данной предпосылки важна для проверки стати­стических гипотез и построения интервальных оценок.

Как и в случае парной регрессии, истинные значения параметров Pj по выборке получить невозможно. В этом случае вместо теоретиче­ского уравнения регрессии (6.3) оценивается так называемое эмпири­ческое уравнение регрессии. Эмпирическое уравнение регрессии пред­ставим в виде:

Y = bo + biX1+b2X2 + ...+bmXm + e. (6.6)

Здесь bo, bi, ..., bm - оценки теоретических значений рь р2, ..., рт коэффициентов регрессии {эмпирические коэффициенты регрессии); е - оценка отклонения е. Для индивидуальных наблюдений имеем:

yi = Ьо + biXii + ... + ЬщХпп + еь (6.7)

Оцененное уравнение в первую очередь должно описывать об­щий тренд (направление) изменения зависимой переменной Y. При этом необходимо иметь возможность рассчитать отклонения от этого тренда.

По данным выборки объема n: (xib хй,... , xim, y{), i = 1, 2, ... , п требуется оценить значения параметров Pj вектора р, т. е. провести параметризацию выбранной модели (здесь хц, j = 1, 2, ... , m - значе­ние переменной X,- в i-м наблюдении).

При выполнении предпосылок МНК относительно ошибок 8i оценки bo, bi, ..., bm параметров рь р2, ..., рт множественной линейной регрессии по МНК являются несмещенными, эффективными и со­стоятельными (т. е. BLUE-оценками).

На основании (6.7) отклонение ei значения у^ зависимой пере­менной Y от модельного значения у{, соответствующего уравнению регрессии в i-м наблюдении (i = 1, 2, ..., п), рассчитывается по форму­ле:

ei = yi - bo - biXii - ... - ЬщХпп. (6.8)

Тогда по МНК для нахождения оценок Ьо, Ьь ..., bm минимизиру­ется следующая функция:

п „ n m o

'а))2- (6-9)

Данная функция является квадратичной относительно неизвест­ных величин bj, j = 0, 1, ..., m. Она ограничена снизу, следовательно, имеет минимум. Необходимым условием минимума функции Q явля-

144

ется равенство нулю всех ее частных производных по Ь,. Частные производные квадратичной функции (6.9) являются линейными функ­циями

m

S b0

dQ

д Ь;

; -(b0 +

m

ij, j = 1,2,...,m.

(6.10)

Приравнивая их к нулю, мы получаем систему (т + 1) линейного уравнения с (т + 1) неизвестным:

m

Kyi-(b0 +

ij =0, j = 1,2,...,m.

(6.11)

Такая система имеет обычно единственное решение. В исключи­тельных случаях, когда столбцы системы линейных уравнений линей­но зависимы, она имеет бесконечно много решений или не имеет ре­шения вовсе. Однако данные реальных статистических наблюдений к таким исключительным случаям практически никогда не приводят. Система (6.11) называется системой нормальных уравнений. Ее реше­ние в явном виде наиболее наглядно представимо в векторно-матричной форме.