Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ПРИКЛАДНАЯ ЭКОНОМЕТРИКА В ПРЕДПРИНИМАТЕЛЬСТВЕ.docx
Скачиваний:
17
Добавлен:
30.04.2019
Размер:
1.94 Mб
Скачать

3.3. Свойства коэффициентов множественной регрессии

Как и в случае парного регрессионного анализа, коэффициенты регрессии должны рассматриваться как случайные переменные специального вида, слу­чайные компоненты которых обусловлены наличием в модели случайного чле­на. Каждый коэффициент регрессии вычисляется как функция значений У и независимых переменных в выборке, а Y, в свою очередь, определяется незави­симыми переменными и случайным членом. Отсюда следует, что коэффици­енты регрессии действительно определяются значениями независимых пере­менных и случайным членом, а их свойства существенно зависят от свойств последнего.

Мы продолжаем работать в рамках модели А, где независимые переменные являются нестохастическими. Введем следующие шесть предположений, ко­торые являются переформулированными предпосылками из гл. 2 в терминах. соответствующих модели множественной регрессии.

А1. Модель линейна по параметрам и имеет верную спецификацию.

Y=β1+β2Х2+...+ βkХk+u (3.21)

Предположение то же, что и раньше, за исключением наличия нескольких независимых переменных.

А.2. Нет точной линейной связи между регрессорами в выборке.

Это единственное предположение, нуждающееся в пояснении. Оно будет рассмотрено в разделе 3.4, где речь пойдет о мультиколлинеарности.

Предположения А.3—А.6 — точно такие же, как и раньше.

А.З. Математическое ожидание случайного члена равно нулю.

E(ui) - О для всех i (3.2)

А.4. Случайный член гомоскедастичен.

для всех I (3.23)

А. 5. Значения случайного члена распределены независимо друг от друга.

ui распределено независимо от и. для всех j не равных (3.24)

А.6. Случайный член имеет нормальное распределение.

Несмещенность

Как мы видели ранее, в случае модели парной регрессии

b2=β2+ (3.25)

где

(3.26)

Похожие соотношения верны и в случае множественной регрессии. Коэф­фициент при Xj может быть представлен в виде

bj = βj + (2.27)

где члены . — функции зависимости данных от объясняющих переменных в модели. Разница состоит в том, что члены сложнее, чем ai в модели парной регрессии, и поэтому доказательство их разложения также сложнее. Если пе­рейти к матричной алгебре, то результаты могут быть получены легко. Мы примем их без доказательства. Предположив, что (3.27) верно, можно легко установить несмещенность:

E(bj) = βj + E { }= βj + βj (2.28)

Эффективность

Теорема Гаусса—Маркова утверждает, что во множественном регрессион­ном анализе, как и для парной регрессии, обычный метод наименьших квадра­тов (МНК) дает наиболее эффективные линейные оценки в том смысле, что при выполнении предположений модели регрессии невозможно найти другие несмещенные оценки с меньшими дисперсиями на основе данной выборки. Мы не будем приводить доказательство этой теоремы, поскольку для этого была бы необходима матричная алгебра.

Точность коэффициентов множественной регрессии

Далее мы рассмотрим факторы, определяющие ожидаемую точность коэф­фициентов регрессии для случая двух объясняющих переменных. Аналогич­ные рассуждения применимы и в более общем случае, но при более чем двух переменных необходим переход к матричной алгебре. Если истинная зависи­мость имеет вид:

Yi= β1 + β2 X2i + β3 X3i+ui (3.29)

и вы оценили уравнение регрессии

Yi= b1 + b2 X2i + b3 X3i (3.30)

использовав необходимые данные, то — теоретическая дисперсия вероят­ностного распределения для b2 — будет описываться выражением:

(3.31)

где — теоретическая дисперсия величины u ; — коэффициент корреля­ции между Х1 и Х2 . Аналогичное выражение можно получить и для теоретической дисперсии величины b3 заменив на Записав (3.31) в виде:

(3.32)

где MSD(X2) — среднее квадратическое отклонение Х2, определяемое формулой , мы можем увидеть, что так же, как и в случае парного регрессионного анализа, желательно, чтобы п и MSD(X2) были большими, а -малым. Однако теперь присутствует еще и член . Очевидно, что желательно иметь слабую корреляцию между Х2 и Х3.

Этому легко дать интуитивное объяснение. Чем выше корреляция, там сложнее определить влияние каждой из объясняющих переменных на Yи тем менее точными будут оценки коэффициентов регрессии. Это может стать серь­езной проблемой, которую мы будем обсуждать в следующем подразделе.

Стандартное отклонение распределения b2 представляет собой квадратный корень из дисперсии. Как и в случае парной регрессии, стандартная ошибки b2 — оценка стандартного отклонения. Оценим . Выборочное среднее квадратов отклонений дает смещенную оценку

(3.33)

где к — число параметров в уравнении регрессии. Тем не менее, мы можем получить несмещенную оценку , разделив на п-к, вместо п, таким образ ликвидировав смещение:

(3.34)

Стандартная ошибка представлена выражением

(3.35)

Факторы, определяющие стандартную ошибку, будут проиллюстрирован» путем сравнения их для функций заработка, оцененных для двух подмножеств респондентов в наборе данных EAEF 21, — тех, кто сообщил, что уровень ю заработной платы был установлен на основе переговоров о заключении коллективного трудового договора, и остальных. Результаты оценивания регрессии для этих двух подмножеств респондентов показаны в табл. 3.3 и 3.4. В про­грамме Stata подмножества наблюдений могут быть определены путем добав­ления выражения «if» к соответствующей команде. Переменная COLLBARG для нашего набора данных равна единице для респондентов с коллективным дого­вором и нулю — для остальных. Отметим, что при проверке выполнения равенства в программе Stata требуется повторить дважды знак равенства «=».

Стандартная ошибка коэффициента при S в первой регрессии равна 0,5493 что в два раза больше, чем во второй регрессии, — 0,2604. Далее мы рассмотрим причины этой разницы. Выражение (3.35) удобно переписать таким обра­зом, чтобы был выделен вклад в него различных факторов:

(3.36)

Первый из необходимых нам элементов (su) может быть получен непосред­ственно из распечатки результатов оценивания регрессии. Величина равна сумме квадратов остатков, деленной на (п - к), т.е. здесь — на (n - 3)

(3.37)

(Заметим, что равняется нулю, что было доказано во Вставке 1.2 в гл. 1, и это доказательство легко можно обобщить.) Величина RSS приведена в верх­ней левой четверти распечатки результатов оценивания регрессии как часть разложения общей суммы квадратов отклонений на объясненную сумму квад­ратов отклонений (в распечатке программы Stata она обозначена как сумма квадратов отклонений модели {model sum of squares)) и остаточную сумму квад­ратов.

Таблица 3.3

EARNINGS S EXP

Source

SS

df

MS

Number of obs = F(2,537) =

101

Model

3076.31726

2

1538.15863

F(2,98) =

9.72

Residual

15501.9762

98

158.18343

Prob > F =

R-squared = Adj R-squared = Root MSE =

0.0001

0.1656

Total

18578.2934

100

185.782934

Adj R-squared = Root MSE =

0.1486

12.577

EARNINGS

Coef.

Std. Err.

t

P>|t|

[95% Conf.

Interval]

S

2.333846

.5492604

4.25

0.000

1.243857

3.423836

EXP

.2235095

.3389455

0.66

0.511

-.4491169

.8961358

_cons

-15.12427

11.38141

-1.33

0.187

-37.71031

-7.461779

Таблица 3.4

EARNINGS S EXP

Source

SS

df

MS

Number of obs = F(2,537) =

439

Model

19540.1761

2

9770.08805

F(2,98) =

57.77

Residual

73741.593

436

296.132094

Prob > F =

R-squared = Adj R-squared = Root MSE =

0.0000

0.2095

Total

93281.7691

436

212.972076

Adj R-squared = Root MSE =

0.2058

13.005

EARNINGS

Coef.

Std. Err.

t

P>|t|

[95% Conf.

Interval]

S

2.721698

.2604411

10.45

0.000

1.243857

3.233574

EXP

.6077342

.1400846

4.34

0.511

-.4491169

.8830592

_cons

-28.00805

4.643211

-6.03

0.187

-37.71031

-18.88219

Величина п - к дана справа от RSS, и отношение RSS/(n - к) — еще правее. Квадратный корень (su) обозначен как Root MSE («корень среднеквадтической ошибки») в верхней правой четверти распечатки результатов, это 12,577 — для регрессии по подвыборке с коллективным договором и 13,005 -для регрессии по подвыборке без коллективного договора.

Число наблюдений — 101 для первой регрессии и 439 для второй — также приведено в верхней правой четверти распечатки результатов. Дисперсии S равные 6,2325 и 5,6, рассчитаны как квадраты стандартных отклонений, полученные при помощи команды «sum» в программе Stata, умноженные на (п - 1)/n. Коэффициенты корреляции между S и ASVABC, равные -0,4087 и -0,1784 соответственно, были рассчитаны с помощью команды «cor» программы Stata. На основе этого были рассчитаны множители из выражения для стандартной ошибки (3.36), которые показаны в нижней половине табл. 3.5.

Можно заметить, что причина того, что стандартная ошибка коэффициента при 5 для подвыборки СВ относительно велика, состоит в том, что число наблюдений в этом подмножестве относительно мало. Больший коэффициент корреляции между S и ЕХР увеличивает разницу в результатах; в то время как меньшее значение su и большее значение MSD(S) уменьшает ее, но это достаточно незначительные множители.

Таблица 3.5. Разложение стандартной ошибки коэффициента при S на составляющие

su n MSD(S) rS,EXP со.

Составляющая

Коллективный договор 12,577 101 6,2325 -0,4087 0,5493

Нет коллективного договора 13,005 439 5,8666 -0,1784 0,2604

Множитель

Коллективный договор 12,577 0,0995 0,4006 1,0957 0,5493

Нет коллективного договора 13,005 0,0477 0,4129 1,0163 0,2603

t-тесты и доверительные интервалы

t-тесты для коэффициентов множественной регрессии выполняются Tai же, как это делается в парном регрессионном анализе. Отметим, что крити­ческий уровень t при любом уровне значимости зависит от числа степеней свободы, которое равно п-к: число наблюдений минус число оцененных па­раметров. Доверительные интервалы определяются точно так же, как и в пар­ном регрессионном анализе, в соответствии с указанным примечанием отно­сительно числа степеней свободы. Как можно видеть по распечатке результатов, Stata автоматически рассчитывает доверительные интервалы для коэффициентов (95% по умолчанию; при желании могут быть заданы и другие значения), но это не является стандартным свойством регрессионных пакетов.