Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Назаметдинов Анализ данных 2012

.pdf
Скачиваний:
10
Добавлен:
12.11.2022
Размер:
5.66 Mб
Скачать

Заметим, что в качестве базисной функции f0 (x) обычно выступает тождественная единица, т.е. f0 (x) 1. Коэффициент a0 при такой базисной функции называют свободным членом.

Примеры регрессионных моделей:

~

a0 a1x1 ... an xn u – линейная (по параметрам и пе-

y

ременным) модель;

 

~

 

2

– линейная по парамет-

y

a0 a1x1

a2 sin x2 a3 cos(x1 x2 ) u

рам и нелинейная по переменным модель;

~

a1

a2

u – нелинейная регрессия.

 

y

a0 x1

x2

 

2. Входные переменные x являются неслучайными и измеряются с высокой точностью.

3. Матрица значений базисных функций F является матрицей полного ранга, т.е. ее ранг rank = min ( N, (k+1)).

4. Случайная компонента является центрированной, т.е.

M u i = 0 для любых i, или в векторной записи Mu = 0. 5. Возмущения в отдельных точках наблюдений являются не-

коррелированными, т.е.

cov(u i , u j ) 0 при i j;

(а)

дисперсия возмущений одинакова в любой точке наблюде-

 

ний, т.е.

 

2( u i ) = const для любых i.

(б)

Предпосылка 5 означает, что ковариационная матрица возмущений имеет вид:

 

2

0

 

0

 

 

 

 

 

 

 

 

 

2

 

0

2

 

0

 

cov u = M[uu′] = σ

I =

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

0

0

 

N N

Матрицу подобной структуры называют скалярной, а возмуще-

ния со скалярной ковариационной матрицей – гомоскедастичны-

ми.

51

Обсуждение предпосылок

Предпосылка 1 специфицирует модель объекта исследования,

точнее результаты наблюдения за объектом, в виде

 

~

Fa u .

(3.1')

y

При этом конкретное наблюдение есть совместное проявление детерминированной, «истинной», зависимости и случайной составляющей. Заметим, что ни детерминированная составляющая, ни случайный компонент по отдельности не наблюдаемы.

Предпосылка 2 говорит, что входные переменные могут быть измерены точно, обеспечивая тем самым возможность (часто потенциальную) воспроизводить наблюдения.

Предположение 3 обеспечивает применимость и единственность оценки по методу наименьших квадратов.

Предположение 4 означает, что появление случайного компонента обусловлено действием неучтенных, малозначимых факторов, а также ошибками измерения, при этом их влияние на выходную переменную не приводит к систематическим ошибкам.

Предположение 5(б) говорит о том, что разброс выходной переменной возле «истинного» значения при повторных наблюдениях одинаков во всей области изменения входных переменных (гипотеза о гомоскедастичности возмущений).

3.2. Оценивание коэффициентов регрессии по методу наименьших квадратов

Для оценивания коэффициентов регрессии необходимы резуль-

таты N наблюдений, в ходе которых одновременно фиксируются

~

значения входных и выходной переменных (матрица Х и вектор y

соответственно). По матрице Х вычисляют матрицу F значений базисных функций в точках наблюдений.

Обозначим а вектор оценок коэффициентов, полученных тем или иным способом из результатов наблюдений. Вектор значений выходной переменной, полученных по уравнения регрессии, есть

 

 

 

ˆ

ˆ

 

 

 

y

= F a .

ˆ

~

ˆ

вектор невязок, или вектор остатков.

Введем u

y

y

52

Наиболее известный способ оценивания коэффициентов – метод наименьших квадратов (МНК). В этом методе ищут такую оценку a , которая обеспечивает минимум суммы квадратов остатков:

N

~i

ˆi

 

min.

 

2

SR = ( y

y )

 

i1

Ввекторных обозначениях имеем:

 

 

~

 

 

~

yˆ)

~

 

 

~

Faˆ) =

 

SR = uˆ uˆ = ( y

yˆ)'( y

= ( y

Faˆ)'( y

~

ˆ

ˆ

ˆ

=

~ ~ ~

ˆ

ˆ

~

 

ˆ

ˆ

( y' a' F')(y Fa)

y' y y' Fa a' F' y

a' F' Fa =

 

 

~ ~

 

ˆ

~

ˆ

ˆ

 

 

 

 

 

 

= y' y

2a' Fy a' F' Fa .

 

 

 

 

Для поиска минимума требуется найти стационарные точки

квадратичной по a формы SR . Возьмем производную по вектору

 

 

 

 

 

 

SR

~

 

 

 

 

aˆ

2F y 2F F

и приравниваем ее нулю. Получаем систему

нормальных уравнений

 

~

 

 

 

ˆ

 

(3.2)

 

 

F' Fa F' y .

Согласно предпосылке 3 F F имеет обратную матрицу. Тогда

 

 

aˆ (F F)

1

~

(3.3)

 

 

 

F y

– вектор оценок коэффициентов регрессии, полученных по методу наименьших квадратов (МНК-оценки).

Проиллюстрируем полученные соотношения применительно к

парной регрессии, описываемой моделью

~i

a0 a1x

i

i

.

Для

y

 

u

нее

 

 

 

 

 

 

 

 

 

 

 

N

 

1

x1

N

 

xi

 

 

 

 

 

 

i 1

 

F

,

F ' F

 

 

 

,

N

 

N

 

 

 

 

 

 

 

 

1

x N

 

 

xi

 

(xi )2

 

 

 

i 1

 

i 1

 

 

~

F ' y

 

 

N

~i

 

 

 

 

y

 

 

 

 

i 1

 

 

 

 

 

 

 

,

N

i ~i

 

 

 

 

 

 

x y

 

 

 

 

 

 

 

 

i 1

 

 

 

aa0 .a1

Система нормальных уравнений (3.2) примет вид:

 

 

ˆ

 

 

 

 

i

 

 

~i

 

 

 

a0 N a1

x

y

i ~i .

 

ˆ

 

i

ˆ

 

i 2

 

 

 

x

a1

 

(x )

 

 

x y

a0

 

 

 

 

 

Поделив первое уравнение системы на N, получим

53

ˆ

ˆ

~

,

(3.3а)

a0

a1 x y

где

~

− средние значения наблюденных переменных («центр тя-

x, y

жести облака (диаграммы) рассеяния»). Поскольку y yˆ (см.

(3.28)),

~

 

 

 

 

 

 

 

 

 

 

 

получаем, что точка ( x, y ) удовлетворяет уравнению

 

 

 

 

ˆ ˆ

ˆ

 

 

 

(3.3б)

 

y a0

a1x .

 

 

 

Вычитая (3.3а) из (3.3б) и учитывая, что y

 

y

(см. (3.28)),

y

 

 

 

 

 

ˆ

 

 

 

 

 

 

 

 

 

 

 

 

 

ˆ

 

ˆ

 

 

 

приходим к уравнению регрессии «в отклонениях»

 

(x x) ,

y y a1

не содержащему свободного члена. Полученный результат легко обобщается на случай n переменных либо k базисных функций.

Для уравнения в отклонениях из (3.3) получаем, что

 

 

(x

i

 

 

~i

y)

 

(x

i

 

~i

y)

 

~i

y)

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ˆ

 

 

x)( y

 

 

x)( y

 

( y

 

 

ˆ

sy

. (3.4)

a1

 

 

 

i

x)

2

 

 

 

 

 

 

 

 

2

 

 

 

 

 

r

 

 

 

(x

 

 

 

 

i

 

2

 

~i

 

 

2

 

sx

 

 

 

 

 

 

 

 

 

(x x)

 

 

 

 

( y y)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

В последней формуле через sy , sx обозначены средние квадратиче-

ские отклонения. По найденной оценке aˆ1 из (3.3а) находят aˆ0 . Рассмотрим численный пример. Наблюдается объект, между

выходом и входом которого имеется связь вида

 

y y u 5 3x1 x1x2 u .

(3.5)

Исследователю модель (3.5) неизвестна, однако он располагает результатами четырех наблюдений над объектом (табл.3.1).

 

 

 

 

Таблица 3.1

i

x1i

x2i

y i

уi

1

2

3

4

5

1

-1

-1

9

10

2

1

0

2

0

3

-1

1

7

7

4

1

2

4

5

Если бы случайные возмущения отсутствовали, то результатом наблюдений был бы столбец 4 (уi). Полагая, что модель специ-

54

фицирована в виде

~

a0

a1x1 a2 x1x2 u , найдем значения

y

коэффициентов для этого случая:

 

 

 

 

 

 

 

 

 

 

1

 

 

1

 

 

 

1

f (x)

 

 

 

 

 

 

x1 ,

 

F

 

 

 

 

 

 

1

 

 

 

 

 

 

x1x2

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

20

4

(F ' F )

1

 

1

 

 

4

20

 

64

 

 

 

 

 

 

 

8

 

 

 

 

 

8

 

 

 

 

 

 

 

 

1

1

 

4

 

2

 

 

 

0

1

0

,

F ' F 0

4

2 ,

1

1

 

 

 

 

 

 

2

2

6

 

 

 

 

 

1

2

 

 

 

 

8

22

 

 

 

 

5

 

 

 

 

10

 

ˆ

1

 

 

 

8 , F ' y

, a (F ' F )

 

F ' y

3 .

16

 

 

10

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

Итак, в отсутствие возмущений МНК восстановил точные

значения

 

коэффициентов

 

модели

(3.5).

Однако

реально

 

 

 

 

 

 

~

 

 

 

 

 

 

 

 

наблюдались значения столбца 5 ( y ), так что

 

 

 

 

 

 

 

 

1 10 1 0 1 7 1 5

 

 

 

22

 

 

 

 

 

 

4,5

 

~

 

 

 

 

 

 

 

ˆ ~

(F ' F )

1

~

 

 

 

F ' y

1 10 1 0 1 7 1 5

 

12 ,

a( y)

 

F ' y

 

4 .

 

 

1 10 0 0 1 7 2 5

 

 

 

13

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Вычисление оценок МНК не требует введения каких-либо дополнительных гипотез. Сам метод часто рассматривают как способ «разумного» выравнивания эмпирических данных. Однако судить об адекватности модели, о степени близости полученных оценок истинным значениям, об ее прогностической способности удается лишь за счет введения априорных сведений, зафиксированных в предпосылках классической регрессии.

3.3. Статистический анализ уравнения регрессии

Оценки МНК являются статистикой, величинами случайными.

~ -

Один и тот же набор Х приводит к разным значениям y из за слу-

чайных возмущений и, как следствие, к разным значениям оценки a .

С учетом введенных предпосылок рассмотрим вначале статистические свойства оценок коэффициентов регрессии.

55

3.3.1. Несмещенность оценок коэффициентов регрессии

Оценка называется несмещенной, если ее математическое ожидание равняется истинному значению. С учетом (3.1') следующая цепочка равенств является очевидной:

aˆ (F F)

1

~

(F F)

1

F (Fa u) a (F F)

1

F u .

(3.6)

 

F y

 

 

Математическое ожидание от крайних членов (3.6) есть

 

Maˆ M[a (F F) 1 F u] a (F F) 1 F M[u] a .

(3.7)

Обратим внимание на то, что вектор истинных значений коэффициентов регрессии а, присутствующих в модели, является неслучайным. Неслучайными являются также и значения базисных функций в точках наблюдений в силу неслучайности Х, так что F можно выносить за знак математического ожидания. Таким образом, Maˆ a , что доказывает несмещенность оценки.

3.3.2. Ковариационная матрица оценок коэффициентов регрессии

По определению covaˆ M[ aˆ Maˆ aˆ Maˆ ] . С учетом несмещенности a получаем covaˆ M[(aˆ a)(aˆ a)']. Из (3.6) видно,

что aˆ a = (F F) 1 F u . Следовательно,

covaˆ M[(F' F) 1 F u ((F' F) 1 F'u)'] M[(F F) 1 F uu F (F F) 1](F F) 1 F M[uu ]F (F F) 1 (F F) 1 F cov(u)F (F F) 1

(F F) 1 F 2IF (F F) 1 2 (F F) 1.

Итак,

 

cov aˆ 2 (F F) 1 .

(3.8)

Матрицу С= (F F ) 1 называют дисперсионной, поскольку ее диагональные элементы пропорциональны дисперсиям оценок ко-

эффициентов регрессии.

 

 

 

 

 

 

Если значение 2 известно,

то можно определить дисперсии

оценок отдельных коэффициентов:

 

 

 

 

2

ˆ

 

2

cii ,

(3.9)

 

( ai ) =

 

56

где cii − диагональный элемент дисперсионной матрицы (F F ) 1 .

3.3.3. Оценка дисперсии случайной компоненты по уравнению регрессии

Оценка случайного компонента содержится, надо ожидать, в векторе невязок. Действительно,

 

~

~

 

~

F(F F)

1

~

Fa u F(F F)

1

F (Fa u)

uˆ y yˆ y

Faˆ y

 

F y

 

 

Fa u Fa F(F F) 1 F u (IN F(F F) 1 F )u ,

где IN − единичная матрица с N единицами по диагонали.

 

Выходит, uˆ

 

есть линейная комбинация “истинных”, ненаблюда-

емых, возмущений u.

 

 

 

 

 

 

Обозначим G IN F(F F) 1 F . Легко показать, что

G G G ,

так что матрица G является идемпотентной. Отсюда остаточная

сумма квадратов SR есть:

 

 

 

 

 

 

N

~i

yˆ

 

 

 

~

~

uˆ uˆ

(Gu) (Gu) u G Gu u Gu .

 

i

)

2

SR ( y

 

 

( y yˆ) ( y yˆ)

i 1

 

 

 

 

 

 

 

 

 

 

 

SR

– квадратичная форма относительно u и может быть записа-

 

 

N

 

 

 

 

 

 

 

 

 

 

на как SR gijuiu j , где gij – элементы матрицы G.

 

 

 

 

i, j

 

 

 

 

 

 

 

 

 

 

SR

– величина случайная с математическим ожиданием

 

 

 

 

 

 

 

N

 

 

N

 

 

 

 

 

 

M[SR ] M[ gi juiu j ] gi j M[uiu j ] .

 

 

 

 

 

 

 

 

 

i, j

 

 

i, j

 

 

М[uiuj] есть ковариация между возмущениями в точках i и j и согласно предпосылке 5 (п.3.1) равняется 0 при i j и 2 при i=j. Следовательно, под знаком суммы останутся лишь диагональные элементы gii матрицы G, т.е. ее след (обозначается Sp либо tr):

M SR 2tr G 2tr (IN F(F F) 1 F ) 2 (tr IN tr (F(F F) 1 F )).

Поскольку IN – единичная матрица, то tr(IN ) N . Известно, что tr(AB) = tr(BA). Обозначая A F(F F) 1 и B F , получим:

57

tr (F(F F) 1 F ) tr (F F(F F) 1) tr I

(k 1)

k 1 .

 

 

В итоге, М[ SR ] = σ2(N – (k+1)). Выходит, величина

s2 SR /(N (k 1))

 

(3.10)

является несмещенной оценкой σ2. Величину [N-(k+1)] называют

числом степеней свободы (ЧСС).

Оценка дисперсии

ˆ

 

 

 

 

 

ai равняется (см.(3.9)):

(3.11)

 

s

 

(ai ) s

cii .

 

 

2

ˆ

2

 

 

3.3.4. Состоятельность

Важным свойством оценки является ее состоятельность (сходимость). Оценка состоятельна, если ее точность повышается при

увеличении числа наблюдений; иными словами, статистика a N

состоятельно оценивает a (индекс N здесь и далее указывает на то, что оценка получена на основе первых N наблюдений), если при N разброс около истинного значения стремится к нулю. Различают несколько видов состоятельности. Наиболее употребительные из них просто состоятельность и состоятельность в среднем квадратичном.

Просто состоятельность опирается на понятие сходимости по вероятности:

 

 

 

P[

 

ˆ

 

] 0 при N

 

 

 

 

 

 

 

 

 

 

 

 

aN a

 

(записывается plim aN a ).

 

 

Оценка aˆN

состоятельна

в

среднеквадратичном,

если

 

2

ˆ

 

 

ˆ

a)

2

] 0

 

 

ˆ

 

 

(aN ) M[(aN

 

при N (записывается l.i.m. aN a ).

 

 

Из

состоятельности в

среднем квадратичном следует

просто

состоятельность. Можно

показать

ˆ

 

[4], что l.i.m. aN a тогда и

только тогда, когда cov aˆN M[(aˆN a)(aˆN a) ] 0 .

 

 

 

Для оценки МНК состоятельность в среднем квадратичном

означает, что covaˆN 2 (F F) 1

0

при N .

 

При справедливости предпосылок 1–5 необходимые и достаточные условия состоятельности в среднем квадратичном обеспечи-

58

ваются при выполнении условия Эйкера – минимальное характери-

 

N

N

 

 

:

стическое число матрицы F

F

стремится к

.

min

N

N

 

 

 

(F F )

 

при N

 

min (FN FN ) есть квадрат минимальной длины вектора, являю-

щегося линейной комбинацией столбцов F, и служит мерой линей-

ной зависимости (мультиколлинеарности) векторов – столбцов матрицы F (см. п.4.2).

Отметим, что иногда проще показать, что FN ' FN 1 0.

3.4. Теорема Гаусса−Маркова

Теорема Гаусса−Маркова утверждает, что при выполнении

предпосылок 1-5 классической регрессии оценка МНК является

~ )

несмещенной и эффективной в классе линейных (по y несмещен-

ных оценок.

Доказательство. Несмещенность была доказана выше. Докажем эффективность. Для скалярной несмещенной оценки мерой эффективности является ее дисперсия. Для двух векторных оценок

ˆ

и

ˆ

 

ˆ

ˆ

 

a

b

с ковариационными матрицами cov a

и cov b

оценка a счи-

тается более эффективной, если матрица

 

 

 

 

 

 

ˆ

ˆ

 

 

 

 

 

Е = cov b cov

a

 

 

неотрицательно определена. Напомним, что матрица считается неотрицательно определенной, если для любого z ( z ) квадратичная

форма z Ez неотрицательна, т.е.

z E z 0 .

 

Перейдем к доказательству. Пусть

 

 

a – другая несмещенная

 

~

 

~

, где Н − некоторая детер-

оценка а, линейная по y . Тогда

a

Hy

 

 

 

 

 

 

минированная матрица. Из условия несмещенности a

, т.е. Ma a ,

 

~

 

 

 

 

следует Ma

М[Hy] M[H (Fa u)] HFa HMu HFa a , отку-

да HF I(k 1) .

Рассмотрим разность между новой оценкой и истинным значе-

нием коэффициентов:

 

~

a H (Fa u) a HFa Hu a a Hu a Hu .

a

a Hy

 

 

59

Введем матрицу

C H (F F) 1 F .

Легко видеть, что матричное произведение СF=0:

СF = (Н– (F ' F )-1F ' ) F = HF– (F ' F )-1F ' F = I k 1 I k 1 = 0.

 

 

 

 

 

 

:

 

Найдем матрицу ковариации для a

 

 

 

 

 

 

 

 

 

cov a

= M[(a– a )(a– a )'] = M[H u ( H u )′] = M[Huu′H′] =

=H M[uu′]H΄ = 2HH′ = 2[(C+ (F F ) 1 F′)(C+ (F F ) 1 F′)′] =

 

=2[(C+ (F F ) 1 F′) (C′+F (F F ) 1 )] =

=2[CC′+ (F F ) 1 F′C′+ CF (F F) 1 + (F F ) 1 (F F ) 1 ]=

 

2

 

' F )

-1

 

2

 

 

= [CC′+(F

 

] =

CC΄+cov a .

Матрицы вида CC΄ являются неотрицательно определенными и,

 

 

 

 

 

 

положительно определен-

следовательно, разность сov a

- cov a

ная матрица. Выходит, a

более эффективная оценка в сравнении с

a . Заметим, что матрица С по построению содержит в некоторой (i-й) строке хотя бы один ненулевой элемент, i-й диагональный элемент матрицы СС’ положителен, а следовательно, дисперсия i

компоненты вектора a будет больше.

3.5. Свойства оценок МНК при нормальных случайных возмущениях

В условиях нормальной гипотезы u ~ N (0, 2 I ) :

а) оценка МНК распределена по нормальному закону с математическим ожиданием a и матрицей ковариации 2 (F F) 1

 

 

 

aˆ ~ N(a, 2 (F F) 1) ;

(3.12)

б) статистика

SR

 

(N (k 1))s2

распределена по закону

2 с

2

2

 

 

 

 

(N-(k+1)) степенями свободы, т.е.

SR

~ 2 (N (k 1)) ;

(3.13)

2

 

 

в) оценки aˆ и s2 − независимы.

60