Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

эконометрика с косяками

.pdf
Скачиваний:
8
Добавлен:
03.05.2015
Размер:
1.55 Mб
Скачать

Средним квадратическим отклонением (стандартным отклонением) х случайной величины X называется корень квадратный из ее дисперсии:

x D( X ) (0.11)

Свойства дисперсии случайной величины:

1)D(C) = 0, где С — постоянная величина;

2)D(X+C)=DX;

3)D(k X) = k2 D(X);

4)D(X + Y) = D(X) + D(Y)+2cov(X,Y)

где

cov(X ,Y ) M (X MX )(Y MY )

(0.12)

ковариация сл.в. X и Y

Для независимых случайных величин ковариация равна нулю.

(Справедливо ли обратное?)

Нормальное распределение

Нормальный закон распределения имеет плотность вероятности вида

 

 

1

 

 

 

( x m)2

 

f (x)

 

 

e

2 2

 

 

 

 

 

 

 

 

 

2

 

(0.13)

где -стандартное отклонение,

а m – математическое ожидание..

11

График плотности нормального распределения имеет следующий вид (рис. 10):

f(x)

m

x

Рис. 0.5 Нормальный закон распределения

Параметр m равен математическому ожиданию нормальной случайной величины, а параметр – среднему квадратическому отклонению. При m 0 и

1 нормальное распределение называют стандартным .

Нормальное распределение играет исключительно важную роль в теории вероятностей. Это наиболее часто встречающееся в практике распределение.

Можно доказать (ЦПТ), что если случайная величина представима в виде суммы большого числа независимых случайных величин и вклад каждого слагаемого в сумму мал, то эта случайная величина будет иметь распределение близкое к нормальному.

12

Оценка тесноты связи двух случайных величин

Коэффициент корреляции:

r cov( X ,Y )

 

XY

DX * DY

(0.14)

 

Здесь cov(X ,Y ) M (X MX )(Y MY )

ковариация двух сл.в. X и Y.

Свойства коэффициента корреляции

1.1 rXY 1

2.Если сл.в. X и Y независимы, то rXY 0

Замечание 1: обратное утверждениеневерно;

Замечание 2: если (X,Y)- имеет нормальное распределение, то обратное утверждение справедливо.

3.а) Если Y = kX + b, то

1, _ если _ k 0 rXY 1, _ если _ k 0 .

б) Если коэффициент корреляции по модулю равен единице, то Y = kX + b

13

Функция регрессии.

Функцией регрессии (теоретической)

называется условное математическое ожидание

M (Y / X x) (x) (0.15)

Если двумерная случайная величина (X,Y) имеет нормальное распределение, то функция регрессии—линейная функция.

Если мы знаем функцию регрессии, то мы по значению сл.в. X можем прогнозировать Y. Для построения функции регрессии (теоретической) нужно знать двумерное распределение (X,Y) - в действительности мы его не знаем.

Однако нам может быть известна последовательность парных значений сл.в. (X,Y)- т.е. выборка:

X

x

x

 

x

 

 

: 1

2

 

... n

Y

 

y1 y2

yn

Можно попытаться на основе этой выборки построить аппроксимацию теоретической функции регрессии- выборочную функцию регрессии.

14

Вид функции регрессии нам, как правило неизвестен и по этому поводу мы можем делать различные предположения. В приложениях, как правило, опираются на вид «облака точек» с координатами (корреляционное поле).

Например

Рис. 0.6. Корреляционное поле и линейная выборочная функция регрессии

Этот рисунок позволяет нам сделать предположение о линейности неизвестной нам теоретической функции регрессии.

При выборе вида функции регрессии может быть полезен известный из теории вероятностей факт: если двумерная сл.в. имеет нормальное распределение, то теоретическая функция регрессии линейна.

15

Линейная выборочная функция регрессии. Метод наименьших квадратов.

Пусть мы предположили, что теоретическая функция регрессии (0.15)

(x) 0 1x

линейна, и мы ищем выборочную функцию регрессии в следующем виде:

y b0 b1x . (0.16)

Классический подход к оцениванию параметров линейной регрессии основан на методе наименьших квадратов (МНК).

МНК позволяет получить такие оценки bi

параметров i , при которых сумма квадратов рассогласований минимальна:

n

n

F (b0 ,b1 ) ei2 ( yi yi )2

i 1

i 1

n

 

 

( yi b0 b1xi

)2 min

 

i 1

bi

 

 

 

 

 

 

(рассогласование- это отклонение по вертикали точки корреляционного поля от линии регрессии).

16

y

 

 

 

yi

 

 

ei

 

y

 

 

x

xi

x

Рис. 0.7 Метод наименьших квадратов

 

 

 

F (b ,b )

n

 

 

( yi b0

0

0 1

b0

 

 

i 1

 

 

 

F (b0 ,b1 )

n

 

0

 

( yi b0

 

 

 

b1

i 1

 

 

 

 

 

n

 

n

 

nb0 ( xi )b1

 

 

i 1

 

i 1

 

 

n

n

 

 

 

 

 

 

2

)b1

 

( xi )b0

( xi

 

 

i 1

i 1

 

b1xi )

b1xi )xi

yi

xi yi

i1n

Решая эту систему, получим:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

b r

 

 

S

2

 

 

 

 

Y

,

 

 

 

 

 

 

 

 

 

 

1 XY

S 2

 

 

 

 

 

 

X

17

b0 y b1x

Таким образом, мы нашли выборочную линейную функцию регрессии (0.14)

 

Здесь

 

x, y -выборочные

средние

 

 

 

1

 

n

 

 

 

 

 

x

x

 

 

 

 

 

 

,

 

 

 

 

 

n i 1

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S

X2 ,

SY2 -выборочные дисперсии,

 

 

 

 

 

 

1

n

 

 

 

 

S 2

(xi x)2

 

 

 

 

,

 

 

 

 

 

 

n 1 i 1

 

 

 

 

 

 

 

 

 

 

rXY -выборочный коэффициент

корреляции

 

 

 

 

 

v( X ,Y )

 

 

 

 

r

co

 

 

 

 

XY

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

SX SY

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

v( X ,Y ) XiYi

 

 

 

где

 

 

co

XY

 

 

 

 

 

 

 

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Качество подгонки модели (насколько хорошо точки укладываются на линию регрессии) можно оценить с помощью остаточной дисперсии:

 

 

1

n

SY2/ X x

 

( yi b0 b1xi )2

 

 

 

n i 1

(иногда в этой формуле в знаменателе вместо n пишут n-2)

18

Для оценки качества подбора линейной функции регрессии чаще используется квадрат линейного коэффициента корреляции, называемый коэффициентом детерминации .

Коэффициент детерминации характеризует долю объясненной дисперсии , в общей дисперсии по Y :

R2 S2

 

 

/ S2 1 S2

/ S2

 

об

 

 

Y

 

Y / X x

 

 

Y

 

 

 

 

 

N

 

 

 

 

 

N

 

 

 

 

 

 

( yˆt

 

0 )2

 

 

( y yˆt )2

 

 

y

 

R 2

 

t 1

 

 

 

1

t 1

 

 

 

 

 

 

 

N

 

 

 

N

 

 

 

 

 

 

( yt

y

0 )2

 

 

( yt

 

y

t )2

 

 

t 1

 

 

 

 

 

t 1

 

 

 

 

0 R 2 1

 

 

 

 

 

 

 

 

 

или

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0% R 2

100%

 

 

 

 

 

 

 

 

 

Здесь

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

n

 

 

 

1

n

 

 

 

 

Sоб2

 

( yi y)2

(b0 b1xi y)2

 

 

 

 

 

 

 

 

n i 1

 

 

 

n i 1

- объясненная дисперсия.

 

 

 

 

 

 

 

 

 

 

S 2 S 2

S 2

 

 

 

 

(равенство Y

об

 

 

Y / X x легко

проверить)

19

Разложение выборочной дисперсии по переменной Y имеет следующий вид

N

 

 

 

 

 

N

 

 

 

 

 

 

 

 

 

 

 

 

(Yi Y )2 (Yi Yi

Yi

Y )2

 

 

 

 

i 1

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

N

 

 

 

 

 

N

 

 

 

 

 

N

 

 

 

(Yi

Yi )2

 

2 (Yi Yi )(Yi Y ) (Yi Y )2

i 1

 

 

 

 

 

 

i 1

 

 

 

 

 

 

i 1

 

 

 

I

 

 

 

 

 

 

II

 

 

 

 

 

 

 

 

III

В этой сумме II = 0, если в уравнении есть свободный

коэффициент

 

 

 

 

 

 

 

 

 

 

 

 

 

N

 

 

 

 

 

 

N

 

N

 

 

 

 

 

 

(Yi

 

 

)2 (Yi Yi )2 (Yi

 

 

 

Y

Y

)2

i 1

 

 

 

 

 

i 1

 

i 1

 

 

 

 

 

 

TSS

 

 

 

 

 

 

ESS

 

 

 

RSS

TSS – total sum of squares – вся дисперсия Y, характеризует степень случайного разброса значений функции регрессии около среднего значения Y

ESS – error sum of squares – есть сумма квадратов остатков регрессии, та величина, которую мы минимизируем при построении прямой, часть дисперсии, которая нашим уравнением не объясняется

RSS – regression sum of squares – объясненная часть общей дисперсии )

20