эконометрика с косяками
.pdfСредним квадратическим отклонением (стандартным отклонением) х случайной величины X называется корень квадратный из ее дисперсии:
x D( X ) (0.11)
Свойства дисперсии случайной величины:
1)D(C) = 0, где С — постоянная величина;
2)D(X+C)=DX;
3)D(k X) = k2 D(X);
4)D(X + Y) = D(X) + D(Y)+2cov(X,Y)
где
cov(X ,Y ) M (X MX )(Y MY )
(0.12)
ковариация сл.в. X и Y
Для независимых случайных величин ковариация равна нулю.
(Справедливо ли обратное?)
Нормальное распределение
Нормальный закон распределения имеет плотность вероятности вида
|
|
1 |
|
|
|
( x m)2 |
|
f (x) |
|
|
e |
2 2 |
|||
|
|
|
|||||
|
|
|
|
|
|
||
2 |
|
(0.13) |
где -стандартное отклонение,
а m – математическое ожидание..
11
График плотности нормального распределения имеет следующий вид (рис. 10):
f(x)
m |
x |
Рис. 0.5 Нормальный закон распределения
Параметр m равен математическому ожиданию нормальной случайной величины, а параметр – среднему квадратическому отклонению. При m 0 и
1 нормальное распределение называют стандартным .
Нормальное распределение играет исключительно важную роль в теории вероятностей. Это наиболее часто встречающееся в практике распределение.
Можно доказать (ЦПТ), что если случайная величина представима в виде суммы большого числа независимых случайных величин и вклад каждого слагаемого в сумму мал, то эта случайная величина будет иметь распределение близкое к нормальному.
12
Оценка тесноты связи двух случайных величин
Коэффициент корреляции:
r cov( X ,Y ) |
|
|
XY |
DX * DY |
(0.14) |
|
Здесь cov(X ,Y ) M (X MX )(Y MY )
ковариация двух сл.в. X и Y.
Свойства коэффициента корреляции
1.1 rXY 1
2.Если сл.в. X и Y независимы, то rXY 0
Замечание 1: обратное утверждениеневерно;
Замечание 2: если (X,Y)- имеет нормальное распределение, то обратное утверждение справедливо.
3.а) Если Y = kX + b, то
1, _ если _ k 0 rXY 1, _ если _ k 0 .
б) Если коэффициент корреляции по модулю равен единице, то Y = kX + b
13
Функция регрессии.
Функцией регрессии (теоретической)
называется условное математическое ожидание
M (Y / X x) (x) (0.15)
Если двумерная случайная величина (X,Y) имеет нормальное распределение, то функция регрессии—линейная функция.
Если мы знаем функцию регрессии, то мы по значению сл.в. X можем прогнозировать Y. Для построения функции регрессии (теоретической) нужно знать двумерное распределение (X,Y) - в действительности мы его не знаем.
Однако нам может быть известна последовательность парных значений сл.в. (X,Y)- т.е. выборка:
X |
x |
x |
|
x |
|
|
|
: 1 |
2 |
|
... n |
Y |
|
y1 y2 |
yn |
Можно попытаться на основе этой выборки построить аппроксимацию теоретической функции регрессии- выборочную функцию регрессии.
14
Вид функции регрессии нам, как правило неизвестен и по этому поводу мы можем делать различные предположения. В приложениях, как правило, опираются на вид «облака точек» с координатами (корреляционное поле).
Например
Рис. 0.6. Корреляционное поле и линейная выборочная функция регрессии
Этот рисунок позволяет нам сделать предположение о линейности неизвестной нам теоретической функции регрессии.
При выборе вида функции регрессии может быть полезен известный из теории вероятностей факт: если двумерная сл.в. имеет нормальное распределение, то теоретическая функция регрессии линейна.
15
Линейная выборочная функция регрессии. Метод наименьших квадратов.
Пусть мы предположили, что теоретическая функция регрессии (0.15)
(x) 0 1x
линейна, и мы ищем выборочную функцию регрессии в следующем виде:
y b0 b1x . (0.16)
Классический подход к оцениванию параметров линейной регрессии основан на методе наименьших квадратов (МНК).
МНК позволяет получить такие оценки bi
параметров i , при которых сумма квадратов рассогласований минимальна:
n |
n |
|
F (b0 ,b1 ) ei2 ( yi yi )2 |
||
i 1 |
i 1 |
|
n |
|
|
( yi b0 b1xi |
)2 min |
|
i 1 |
bi |
|
|
|
|
|
|
|
(рассогласование- это отклонение по вертикали точки корреляционного поля от линии регрессии).
16
y |
|
|
|
yi |
|
|
ei |
|
y |
|
|
x |
xi |
x |
Рис. 0.7 Метод наименьших квадратов |
|
|
|
F (b ,b ) |
n |
|
|
|
( yi b0 |
||||
0 |
0 1 |
||||
b0 |
|||||
|
|
i 1 |
|
||
|
|
F (b0 ,b1 ) |
n |
|
|
0 |
|
||||
( yi b0 |
|||||
|
|||||
|
|
b1 |
i 1 |
|
|
|
|
|
|||
|
n |
|
n |
||
|
nb0 ( xi )b1 |
||||
|
|
i 1 |
|
i 1 |
|
|
|
n |
n |
|
|
|
|
|
|||
|
|
2 |
)b1 |
||
|
( xi )b0 |
( xi |
|||
|
|
i 1 |
i 1 |
|
b1xi )
b1xi )xi
yi
xi yi
i1n
Решая эту систему, получим:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
b r |
|
|
S |
2 |
|
|
||
|
|
Y |
, |
|
||||
|
|
|
|
|||||
|
|
|
|
|
||||
1 XY |
S 2 |
|||||||
|
|
|||||||
|
|
|
|
X |
17
b0 y b1x
Таким образом, мы нашли выборочную линейную функцию регрессии (0.14)
|
Здесь |
|
x, y -выборочные |
средние |
||||||||
|
|
|
1 |
|
n |
|
|
|
|
|||
|
x |
x |
|
|
|
|||||||
|
|
|
, |
|
|
|||||||
|
|
|
n i 1 |
i |
|
|
||||||
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
||||
|
|
S |
X2 , |
SY2 -выборочные дисперсии, |
|
|||||||
|
|
|
|
|
1 |
n |
|
|
|
|||
|
S 2 |
(xi x)2 |
|
|
||||||||
|
|
, |
|
|||||||||
|
|
|
|
|
n 1 i 1 |
|
|
|||||
|
|
|
|
|
|
|
|
rXY -выборочный коэффициент
корреляции
|
|
|
|
|
v( X ,Y ) |
|
|
|
|
||||||||
r |
co |
|
|
|
|
||||||||||||
XY |
|
|
|
|
|
|
|
|
|
|
|
|
|
. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
2 2 |
|
|
|
|
|
||||||||||||
|
|
|
|
|
|
||||||||||||
|
|
|
|
|
|
|
|
SX SY |
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
n |
|
||||
|
|
|
|
|
|
v( X ,Y ) XiYi |
|
|
|
||||||||
где |
|
|
co |
XY |
|||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
i 1 |
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Качество подгонки модели (насколько хорошо точки укладываются на линию регрессии) можно оценить с помощью остаточной дисперсии:
|
|
1 |
n |
|
SY2/ X x |
|
( yi b0 b1xi )2 |
||
|
||||
|
|
n i 1 |
(иногда в этой формуле в знаменателе вместо n пишут n-2)
18
Для оценки качества подбора линейной функции регрессии чаще используется квадрат линейного коэффициента корреляции, называемый коэффициентом детерминации .
Коэффициент детерминации характеризует долю объясненной дисперсии , в общей дисперсии по Y :
R2 S2 |
|
|
/ S2 1 S2 |
/ S2 |
|
||||||||||||
об |
|
|
Y |
|
Y / X x |
|
|
Y |
|
||||||||
|
|
|
|
N |
|
|
|
|
|
N |
|
|
|
|
|||
|
|
( yˆt |
|
0 )2 |
|
|
( y yˆt )2 |
||||||||||
|
|
y |
|
||||||||||||||
R 2 |
|
t 1 |
|
|
|
1 |
t 1 |
|
|
|
|
||||||
|
|
|
N |
|
|
|
N |
|
|
|
|
||||||
|
|
( yt |
y |
0 )2 |
|
|
( yt |
|
y |
t )2 |
|||||||
|
|
t 1 |
|
|
|
|
|
t 1 |
|
|
|
|
|||||
0 R 2 1 |
|
|
|
|
|
|
|
|
|
||||||||
или |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0% R 2 |
100% |
|
|
|
|
|
|
|
|
|
|||||||
Здесь |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
|
n |
|
|
|
1 |
n |
|
|
|
|
||||
Sоб2 |
|
( yi y)2 |
(b0 b1xi y)2 |
||||||||||||||
|
|
|
|
|
|||||||||||||
|
|
|
n i 1 |
|
|
|
n i 1 |
||||||||||
- объясненная дисперсия. |
|
|
|
|
|||||||||||||
|
|
|
|
|
|
S 2 S 2 |
S 2 |
|
|
|
|
||||||
(равенство Y |
об |
|
|
Y / X x легко |
проверить)
19
Разложение выборочной дисперсии по переменной Y имеет следующий вид
N |
|
|
|
|
|
N |
|
|
|
|
|
|
|
|
|
|
|
|
(Yi Y )2 (Yi Yi |
Yi |
Y )2 |
|
|
|
|
||||||||||||
i 1 |
|
|
|
|
|
i 1 |
|
|
|
|
|
|
|
|
|
|
|
|
N |
|
|
|
|
|
N |
|
|
|
|
|
N |
|
|
|
|||
(Yi |
Yi )2 |
|
2 (Yi Yi )(Yi Y ) (Yi Y )2 |
|||||||||||||||
i 1 |
|
|
|
|
|
|
i 1 |
|
|
|
|
|
|
i 1 |
|
|
|
|
I |
|
|
|
|
|
|
II |
|
|
|
|
|
|
|
|
III |
||
В этой сумме II = 0, если в уравнении есть свободный |
||||||||||||||||||
коэффициент |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
N |
|
|
|
|
|
|
N |
|
N |
|
|
|
|
|
|
|||
(Yi |
|
|
)2 (Yi Yi )2 (Yi |
|
|
|
||||||||||||
Y |
Y |
)2 |
||||||||||||||||
i 1 |
|
|
|
|
|
i 1 |
|
i 1 |
|
|
|
|
|
|
||||
TSS |
|
|
|
|
|
|
ESS |
|
|
|
RSS |
•TSS – total sum of squares – вся дисперсия Y, характеризует степень случайного разброса значений функции регрессии около среднего значения Y
•ESS – error sum of squares – есть сумма квадратов остатков регрессии, та величина, которую мы минимизируем при построении прямой, часть дисперсии, которая нашим уравнением не объясняется
•RSS – regression sum of squares – объясненная часть общей дисперсии )
20