Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Артамонов - Введение в эконометрику

.pdf
Скачиваний:
527
Добавлен:
02.06.2015
Размер:
2.19 Mб
Скачать

откуда zγ = 1.96. Доверительный интервал для z( ) равен

1.96

1.96

 

0.8291 −

p

 

; 0.8291 +

p

 

= (0.6301 ; 1.0281).

100 − 3

100 − 3

Применив обратное преобразование Фишера получаем доверительный интервал для коэффициента корреляции

P(0.5581 < < 0.7732) = 0.95

(0.5581 = z−1(0.6301) и 0.7732 = z−1(1.0281)).

Проверим значимость коэффициента корреляции, т.е. проверим нулевую гипотезу о независимости доходностей обоих биржевых ин-

дексов (в предположении их нормальной распределенности!). Так как ноль не принадлежит доверительному интервалу, то нулевая гипотеза отвергается при уровне значимости = 1 − 0.95 = 0.05.

1.2.Подгонка прямой. Метод наименьших квадратов

Рассмотрим следующую вспомогательную задачу. Пусть на координатной плоскости заданы n точек с координатами (xi, yi)ni=1. Требуется найти прямую, меньше всего отклоняющуюся от заданных точек . Так как прямая задается уравнением

y = f(x) = β0 + β1x,

зависящим от двух параметров β0 и β1, то необходимо по заданным значениям {xi} и {yi} найти значения этих параметров оптимальной прямой. Основной вопрос: что понимать под наименьшим отклонением прямой от точек и, более общо, как определить меру отклонения прямой от точек ? Приведем несколько возможных подходов к определению меры µ отклонения прямой от заданных точек:

1. сумма модулей отклонений в каждой точке xi:

n

n

 

X

Xi

|yi − (β0 + β1xi)|

µ =

|yi − f(xi)| =

i=1

=1

 

21

2. сумма квадратов отклонений в каждой точке xi:

n

n

Xi

X

µ =

(yi − f(xi))2 = (yi − (β0 + β1xi))2

=1

i=1

3.сумма отклонений в каждой точке xi с заданной весовой функцией !(·) > 0:

n

%

&

n

&

Xi

X %

µ =

! yi − f(xi) =

! yi − (β0 + β1xi)

 

=1

 

 

i=1

 

С вероятностной точки зрения, в случае нормального распределения выборочных данных наилучшими вероятностными и статистическими свойствами обладают оценки параметров прямой, полученным минимизацией суммы квадратов отклонений (второй случай). Этот метод получения оценок параметров оптимальной прямой называется Мето-

дом Наименьших Квадратов (сокращенно МНК) или Ordinary Least Squares (сокращенно OLS), а полученные оценки параметров называются МНКили OLS-оценками.

Итак, в качестве меры отклонений прямой от заданных на плоскости точек (xi, yi)n1 возьмем сумму квадратов отклонений в каждой

точке6:

Xn

S = S(β0, β1) = (yi − (β0 + β1xi))2.

i=1

Тогда параметры прямой, для которой эта мера отклонения минимальна, находятся как решение экстремальной задачи без ограничений:

S(β0, β1) = Xn %yi − (β0 + β1xi)&2 −! min .

i=1

Согласно необходимым условиям существования экстремума, параметры оптимальной прямой находятся как решение системы уравнений

(

@S

=

 

n

2(yi

− β0 − β1xi) · (−1) = 0

0

P

i=1

@S

 

n

 

− −

· −

 

=

Pi=1

2(yi

β0

β1xi) ( xi) = 0

1

6Очевидно, S(β0, β1) есть многочлен второго порядка от параметров β0 и β1

22

После простых преобразований приходим к системе линейных уравне-

ний

 

 

P

 

P

 

 

 

0 + β1

in=1 xi =

in=1 yi

in=1 xiyi

(1.2)

 

(β0

in=1 xi + β1

in=1 xi2 =

 

P

 

P

 

P

 

 

называемой системой нормальных уравнений. Найдем явные формулы для решения этой системы. Для удобства разделим каждое из уравнение в системе (1.2) на n:

(

β0 + β1x¯ = y¯

β0x¯ + β1x2 = xy

Выразим β0 из первого уравнения

 

 

 

 

 

 

 

 

 

 

β0 = y¯ − β1

 

 

 

и подставим во второе уравнение:

 

 

=

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(¯y − β1x¯)¯x + β1

x2

 

 

 

 

 

 

 

 

 

 

xy.

 

 

 

После преобразования получаем (формально)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

cov(

 

 

 

 

 

ud

 

b

 

 

 

 

 

 

 

 

d

t

 

 

d

 

βˆ1 =

xy

− x¯

· y¯

=

 

x, y) = corr(x, y)vVar(y)

= corr(x, y)

σy

и

 

 

x2

 

(¯x)2

 

d

ˆ

ˆ

 

 

 

d

 

b

 

 

 

 

 

Var(x)

 

 

uVar(x)

 

σx

 

 

иq

 

 

 

 

q

β0 = y¯ − β1x¯.

 

 

 

нения

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

b

 

 

 

d

 

 

b

 

 

d

 

 

 

 

 

 

 

 

 

 

 

где σx = Var(x) и σy =

 

Var(y) – выборочные стандартные откло-

 

x

 

y соответственно.

 

 

 

 

 

 

 

 

 

 

 

 

 

Несложно показать, что функция S(β0, β1) выпукла. Следовательно, решение системы нормальных уравнений (1.2) будет глобальным минимумом функции S(β0, β1). Таким образом, оптимальная прямая

задается уравнением

 

ˆ

ˆ

yˆ = β0

+ β1x

Замечание. Из первого уравнения системы (1.2) следует, что

ˆ

ˆ

y¯ = β0

+ β1x,¯

т.е. оптимальная прямая проходит через точку с координатами (¯x, y¯).

23

Замечание. Несложно заметить, что система нормальных уравнений

(1.2) имеет единственное тогда и только тогда, когда d 6 , т.е.

Var(x) = 0

когда не все значения xi совпадают.

Замечание. Метод наименьших квадратов может быть применен для нахождения параметров любой функции, меньше всего отклоняющейся от заданных точек. Эта задача корректно разрешима в случае ко-

гда неизвестные параметры входят в функцию линейно. В этом случае система нормальных уравнений будет системой линейных уравнений и в общем случае будет иметь единственное решение.

1.3.Парная линейная модель регрессии

Перейдем теперь к задаче количественного описания зависимости между двумя экономическими факторами y и x, например y – уровень зарплаты индивидуума, а x – уровень образования (в годах). Естественно ожидать, что значение фактора y не всегда однозначно определяется значением фактора x. Так, уровень зарплаты зависит не только от уровня образования, но и от множества других факторов (стажа работы, возраста, индивидуальных способностей, места работы и проч.). Кроме того, учесть все факторы, влияющие на y помимо x просто не представляется возможным в силу недостаточного количества информации или невозможности ее получения (например, как оценить или измерить индивидуальные способности индивидуума, несомненно влияющие на уровень зарплаты?). Также для одного значения фактора x могут наблюдаться различные значения фактора y.

Обычно для описания ситуаций с недостаточной информацией используют различные вероятностные математические модели. Рассмотрим подробно модель зависимости между факторами, описываемую уравнением

yi = β0 + β1xi + "i, i = 1, . . . , n

(1.3)

где yi и "i суть случайные величины, а xi – неслучайная (детерминированная) величина, i – номер наблюдения. Фактор y называется

зависимой переменной (dependent variable), а фактор x называется

регрессором или объясняющей переменной (explanatory variable). Па-

раметр β1 называется параметром наклона прямой (slope), а β0 – кон-

стантой, свободным членом или параметром сдвига (intercept).

24

Уравнение (1.3) называется уравнение регрессии или регрессион-

ным уравнением, а случайные величины "i называются ошибками регрессии. Ошибки регрессии удобно представлять себе как неучтенные факторы , влияющие на y помимо фактора x. Таким образом, уравнение (1.3) отражает наши представления о характере зависимости между факторами.

Относительно ошибок регрессии будем предполагать выполнения следующих условий, называемых иногда условиями Гаусса – Маркова:

1.M"i = 0, i = 1, . . . , n (ошибки регрессии несистематические);

2.Var("i) = σ2 не зависит от i.

3.cov("i, "j) = 0 при i 6= j (некоррелируемость ошибок для разных наблюдений).

4."i N (0, σ2), i = 1, . . . , n (нормальная распределенность ошибок регрессии).

Из условия M"i = 0 следует, что

Myi = β0 + β1xi,

т.е. среднее значение фактора y при заданном значении xi равно β0 + β1xi и не зависит от ошибок регрессии. Отсюда термин: несистематические ошибки.

Очевидно Var(yi) = Var("i) (т.к. xi детерминированны). Следовательно, условие постоянства дисперсий ошибок регрессии влечет за собой постоянство дисперсий случайных величин yi. Следует напомнить, что дисперсию Var(yi) можно рассматривать как меру разброса значений случайной yi величины относительно своего среднего значения (математического ожидания) Myi = β0 + β1xi. Если смотреть на ошибки регрессии как на неучтенные факторы , условие постоянства дисперсий можно описательно трактовать следующим образом: степень влияния невключенных в модель факторы в разных наблюдениях постоянна. Условие постоянства дисперсий ошибок называется гомоскедастичностью (homoskedasticity) и говорят, что ошибки модели регрессии гомоскедастичны или однородны. При нарушении условия постоянства дисперсий ошибок регрессии говорят, что ошибки гете-

роскедастичны или неоднородны.

25

Условие некоррелируемости (независимости в случае нормального распределения) ошибок для разных наблюдения можно трактовать как локальность их влияния: невключенные в модель факторы, которые моделируются ошибками регрессии, влияют только на свое наблюдение и не влияют на другие. В случае пространственных выборок (cross-sectional data) это условие обычно считается выполненным. Оно как правило нарушается в случае построения регрессионных моделей для временных рядов.

1.3.1.Теорема Гаусса – Маркова

Итак, мы предполагаем, что зависимость между факторами y и x описывается уравнением регрессии (1.3), но параметры уравнения β0, β1 и σ2 нам неизвестны.

Основная задача – получить наилучшие оценки параметров регрессии на основе выборочных данных. Ограничимся рассмотрением только оценок параметров, линейных относительно yi. Под наилучшими будем подразумевать несмещенные оценки с минимальной дисперсией7. Такие оценки называются BLUE–оценками (BLUE = Best Linear Unbiased Estimators) или эффективными оценками.

Основным результатом является следующая теорема

Теорема (Гаусс – Марков). Пусть для линейной модели парной регрессии

yi = β0 + β1xi + "i, i = 1, . . . , n

выполнены условия 1. – 3. на ошибки регрессии "i. Тогда OLS-оценки

ˆ

ˆ

параметров β0 и β1

являются BLUE–оценками, т.е. среди

β0

и β1

несмещенных линейных (относительно yi) оценок имеют наименьшую дисперсию.

Доказательство. Докажем несмещенность OLS-оценок. Рассмотрим сначала оценку параметра β1. Для нее имеем следующее выражение

 

=

 

 

− x¯ · y¯

=

in=1(xi − x¯)(yi

− y¯)

 

in=1(xi − x¯)yi

.

βˆ

xy

=

 

 

1

 

 

x2

(¯x)2

 

 

(¯x)2

 

 

P

x¯)2

 

 

 

 

 

 

 

P n x2

 

 

 

P in=1(xi

 

7напомним, что оценка параметров вероятностной модели в математической статистике рассматривается как случайная величина

26

Так как величины xi

неслучайны и Myi

 

= β0 + β1xi

(условие 1. на

ошибки регрессии), то

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x x¯)My

 

 

(x

 

 

x¯)(β + β x

)

 

 

 

 

 

ˆ1 =

P( (ixi

 

x¯)2 i

=

P

 

i (xi

0x¯)2

1 i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

P

 

 

 

 

 

=P

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

β

 

 

(xi

 

 

 

x¯) + β

 

 

(xi

x¯)xi

= β .

 

 

 

 

 

 

 

 

 

 

P

 

 

P

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

0 P(xi

x¯)2

 

1 P(xi

x¯)xi

При выводе мы воспользовались равенствами

 

 

 

 

 

 

 

X(xi − x¯) = 0,

X(xi − x¯)2 = X(xi − x¯)xi.

 

Далее, так как

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

n

1

n

 

 

 

1

 

 

n

 

 

 

 

 

 

 

 

 

Xi

 

 

 

X

 

 

 

 

 

X

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

M (¯y) = M n =1 yi! = n i=1 Myi = n i=1 0 + β1xi) = β0 + β1x,¯

 

 

 

 

 

 

ˆ

в уравнении регрессии получаем

 

то для оценки константы β0

 

βˆ0 = y¯ − βˆ1x¯ =) M βˆ0 = M (¯y) − M βˆ1x¯ =

 

 

 

 

 

ˆ

ˆ

 

 

β0 + β1x¯ − x¯ · M βˆ1 = β0 + β1x¯ − β1x¯ = β0

Итак, β0

и β1 – несмещенные (unbiased) оценки параметров β0 и β1

уравнения регрессии.

 

 

 

 

 

 

 

 

ˆ

ˆ

 

 

 

 

 

Вычислим теперь дисперсии оценок

 

 

 

 

 

β0

и β1. Для этого воспользу-

емся тем фактом, что из условий 2. и 3. на ошибки регрессии следует, что Var(yi) = σ2 и cov(yi, yj) = 0 при i 6= j. Следовательно, используя

свойства дисперсии, для оценки ˆ получаем:

β1

ˆ

Var β1

 

 

 

 

 

x

x¯)y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

= Var

P((xii

x¯)2i

=

 

 

 

 

 

=

 

 

 

 

 

 

Pi

 

=

 

 

 

 

 

 

 

 

 

Var (

 

 

n

(xix¯)yi)

 

(xi

 

 

x¯)2 Var(yi)

 

 

 

 

 

 

 

 

=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(

P(xi

 

x¯)2)2

 

 

P( (xi

x¯)2)2

 

 

 

 

 

 

P

 

 

(xi x¯)2σ2

 

 

2 P

 

(xi x¯)2

 

 

σ2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

P

 

 

 

P

 

 

=

P

(xi

x¯)2 .

 

 

 

(P (xix¯)2)2 = σ

( P(xi

x¯)2)2

 

 

27

Для нахождения дисперсии оценки

ˆ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

β0 сначала перепишем ее в виде

 

 

 

n

1

 

 

 

 

 

 

 

n

 

 

 

 

 

x

 

 

 

 

yi

 

 

 

 

 

 

 

 

 

 

 

 

 

 

βˆ0

= y¯ βˆ1x¯ = i=1

 

 

 

 

yi

− x¯ i=1

P

(xi ix¯)2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

X X

 

 

 

 

n

 

 

1

 

 

 

x¯(xi

 

x¯)

 

yi.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

 

 

 

 

 

 

 

x¯)2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i=1

 

n

 

 

(xi

Следовательно,

 

X

 

 

 

 

 

 

 

 

 

 

 

 

X

 

 

 

 

 

 

 

P

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

yi! =

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

1

 

 

 

 

x¯(x

 

 

 

x¯)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Var βˆ0 = Var

 

i=1

 

 

 

 

i

x¯)2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

(xi

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

1

 

 

 

 

P i

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

X

 

 

 

 

 

 

 

 

 

 

 

 

Var(yi) =

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x¯(x

 

 

x¯)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

P

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

i=1 n

 

(xi x¯)2

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

¯(x x¯)

 

 

 

 

(¯x)2 (x x¯)2

 

 

 

 

 

 

 

 

 

 

 

Xi

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

σ2

 

n2 − 2n (xi i

 

x¯)2 + ( (xi

 

i x¯)2)2 ! =

 

 

 

 

 

 

 

=1

 

 

 

 

 

 

 

 

 

 

 

 

nP(x x¯)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n 1

 

 

 

 

 

 

2¯x

 

 

 

(¯x)2

 

 

 

 

n (x x¯)2

 

 

 

 

 

 

 

 

 

X

 

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

P

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

σ2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

+

 

 

 

P

 

 

 

 

 

 

 

 

=

 

 

 

 

 

 

n2

n (xi

 

 

x¯)2

 

 

 

 

 

( (xi

 

 

x¯)2)2

 

!

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

P

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

P

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

P (¯x)2

 

 

 

! =

 

 

σ2

P

 

x2

 

 

 

 

 

 

σ2

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

·

x2

 

σ2

 

 

 

 

+

 

 

 

 

 

 

 

 

 

 

 

 

i

=

P

 

 

 

x¯)2

.

 

 

n

 

 

 

(xi

 

x¯)2

n (xi

x¯)2

(xi

 

 

 

 

 

 

 

 

 

 

 

 

 

 

P

 

 

 

 

 

 

 

 

 

P

 

 

 

 

 

 

 

 

 

 

 

 

Покажем теперь, что любая другая линейна несмещенная оценка имеет

большую´

дисперсию. Пусть β1 =

ciyi – произвольная линейная (по

yi

 

 

 

 

параметра наклона β1. Представим ее коэф-

 

) несмещенная оценка

 

e

ˆ P

 

 

 

 

 

 

2

 

фициенты ci

как ci = !i+ i, где

β1 =

 

!iyi (!i = (xi

 

x¯)/

(xi

 

x¯)

).

 

 

e

= Mβˆ1 = β1

, то

 

 

 

P

 

P

 

 

Так как Mβ1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0 = Mβ

 

ˆ

β

 

ˆ

 

 

 

 

 

 

 

 

 

 

e1

− Mβ1 = M

=eM1

 

1

iyi

 

= iMyi

 

 

 

 

 

 

 

 

 

 

 

X

 

X

 

 

 

 

 

 

X X X

= i0 + β1xi) = β0 i + β1 ixi.

Так как это равенство должно быть выполнено для произвольных значений β0 и β1, то получаем, что

XX

i = 0

ixi = 0.

28

Далее,

 

 

 

 

X

 

 

 

 

 

 

X

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ciyi

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Var

β

1

= Var

 

=

 

 

2

c2

Var(y

)

 

 

2

 

 

 

 

 

 

 

2

 

 

 

 

2

 

 

 

 

 

i

 

2

 

 

i

 

 

 

 

 

 

X

 

X

 

e

 

 

X

(!i + i) = σ

X

 

 

 

 

 

 

 

 

 

 

 

= σ

i

 

 

 

 

!i + 2 !i i + i .

По условию !i = (xi − x¯)/(

 

 

(xi − x¯)2), откуда

 

 

 

 

 

 

 

 

 

 

 

X X

 

 

 

i

 

 

 

 

 

P

 

(xi − xP

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x¯ )

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(xP

 

 

 

 

 

 

 

 

i

 

i

 

 

 

 

 

!i i =

 

 

 

 

i i

 

 

 

i2

=

 

 

 

 

i

 

 

 

 

 

 

= 0.

 

 

 

 

2

 

 

 

P2

 

 

 

 

 

P

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x¯)

 

 

 

 

 

 

 

 

 

 

¯)

 

 

 

 

Так как Var βˆ1

 

 

 

 

 

(x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

= σ P!i ,

то окончательно получаем

 

Var β1

= σ

2

X

!

2

 

 

 

 

 

2

= σ

2

 

 

 

 

 

2

 

2

 

 

2

 

 

 

 

+ X i

 

X!i

 

+ σ2

X 2i

 

 

e

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

X

 

 

 

 

 

e

 

 

 

 

 

= Var

 

βˆ1

 

 

+ σ

 

 

i

> Var

βˆ1 .

Аналогично

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таким образом,

Var

β1

 

 

> Var

 

 

ˆ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

β1 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

e

 

 

можно показать, что для произвольной несмещенной

оценки

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

e

 

> Var βˆ0

. Теорема доказана.

β0 параметра β0 всегда Var β0

Замечание. Из доказательства видно, что для несмещенности OLS-

оценок достаточно только условия 1. на ошибки регрессии.

 

Замечание. Можно показать, что

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

cov βˆ0, βˆ1

 

 

 

 

 

 

 

 

σ2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

= −

P

 

 

− x¯)2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(xi

 

 

 

 

 

 

Замечание. Из теоремы Гаусса – Маркова следует, что среди линейных по y несмещенных оценок параметров β0 и β1 наилучшими (т.е. с минимальной дисперсией) будут OLS-оценки. Однако могут существовать и нелинейные оценки параметров β0 и β1 с дисперсией меньшей, чем у OLS-оценок.

Найдем теперь оценку третьего параметра уравнения регрессии – дисперсии ошибок σ2. Обозначим через

ˆ

ˆ

ybi = β0

+ β1xi

29

прогноз фактора y при заданном значении xi. Значения ybi также назы-

ваются подогнанными (fitted value) или предсказанными значениями зависимой переменной.

Определение. Остатки (residual) модели регрессии определяются равенством ei = yi − ybi.

Важно в модели регрессии различать ошибки "i и остатки ei. Остатки также являются случайными величинами, но в отличие от ошибок (имеющих теоретический характер), они наблюдаемы. Кроме того, для остатков всегда выполнено соотношение Pni=1 ei = 0, следующее из первого уравнения системы (1.2), т.е. остатки всегда зависимы, в отличие от ошибок регрессии "i. Но, тем не менее, можно считать, что остатки в некотором смысле моделируют ошибки регрессии инаследуют их свойства. На этом основаны методы исследования отклонений выборочных данных от предположений теоремы Гаусса – Маркова.

Введем следующее обозначение:

n

n

X

Xi

RSS = ei2 =

(yi − yi)2 .

 

b

i=1

=1

Величина RSS называется остаточной суммой квадратов (residual sum of squares) в модели регрессии. Можно показать, что

M(RSS) = (n − 2)σ2.

Следовательно, статистика

 

 

 

n

 

 

 

Xi

s2 =

RSS

=

1

 

ei2

n 2

n

2

 

 

=1

является несмещенной оценкой дисперсии ошибок регрессии. Выбороч-

ная стандартная ошибка регрессии SER (Standard Error of Regression)

определяется как

 

 

= r

RSS

SER = s = ps2

 

.

n − 2

30