Назаметдинов Анализ данных 2012
.pdfЗаметим, что в качестве базисной функции f0 (x) обычно выступает тождественная единица, т.е. f0 (x) 1. Коэффициент a0 при такой базисной функции называют свободным членом.
Примеры регрессионных моделей:
~ |
a0 a1x1 ... an xn u – линейная (по параметрам и пе- |
|||
y |
||||
ременным) модель; |
|
|||
~ |
|
2 |
– линейная по парамет- |
|
y |
a0 a1x1 |
a2 sin x2 a3 cos(x1 x2 ) u |
||
рам и нелинейная по переменным модель; |
||||
~ |
a1 |
a2 |
u – нелинейная регрессия. |
|
y |
a0 x1 |
x2 |
|
2. Входные переменные x являются неслучайными и измеряются с высокой точностью.
3. Матрица значений базисных функций F является матрицей полного ранга, т.е. ее ранг rank = min ( N, (k+1)).
4. Случайная компонента является центрированной, т.е.
M u i = 0 для любых i, или в векторной записи Mu = 0. 5. Возмущения в отдельных точках наблюдений являются не-
коррелированными, т.е.
cov(u i , u j ) 0 при i j; |
(а) |
дисперсия возмущений одинакова в любой точке наблюде- |
|
ний, т.е. |
|
2( u i ) = const для любых i. |
(б) |
Предпосылка 5 означает, что ковариационная матрица возмущений имеет вид:
|
2 |
0 |
|
0 |
|
||
|
|
|
|
|
|
|
|
2 |
|
0 |
2 |
|
0 |
|
|
cov u = M[uu′] = σ |
I = |
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
2 |
|
|
|
|
0 |
0 |
|
N N |
Матрицу подобной структуры называют скалярной, а возмуще-
ния со скалярной ковариационной матрицей – гомоскедастичны-
ми.
51
Обсуждение предпосылок
Предпосылка 1 специфицирует модель объекта исследования,
точнее результаты наблюдения за объектом, в виде |
|
|
~ |
Fa u . |
(3.1') |
y |
При этом конкретное наблюдение есть совместное проявление детерминированной, «истинной», зависимости и случайной составляющей. Заметим, что ни детерминированная составляющая, ни случайный компонент по отдельности не наблюдаемы.
Предпосылка 2 говорит, что входные переменные могут быть измерены точно, обеспечивая тем самым возможность (часто потенциальную) воспроизводить наблюдения.
Предположение 3 обеспечивает применимость и единственность оценки по методу наименьших квадратов.
Предположение 4 означает, что появление случайного компонента обусловлено действием неучтенных, малозначимых факторов, а также ошибками измерения, при этом их влияние на выходную переменную не приводит к систематическим ошибкам.
Предположение 5(б) говорит о том, что разброс выходной переменной возле «истинного» значения при повторных наблюдениях одинаков во всей области изменения входных переменных (гипотеза о гомоскедастичности возмущений).
3.2. Оценивание коэффициентов регрессии по методу наименьших квадратов
Для оценивания коэффициентов регрессии необходимы резуль-
таты N наблюдений, в ходе которых одновременно фиксируются
~
значения входных и выходной переменных (матрица Х и вектор y
соответственно). По матрице Х вычисляют матрицу F значений базисных функций в точках наблюдений.
Обозначим а вектор оценок коэффициентов, полученных тем или иным способом из результатов наблюдений. Вектор значений выходной переменной, полученных по уравнения регрессии, есть
|
|
|
ˆ |
ˆ |
|
|
|
y |
= F a . |
ˆ |
~ |
ˆ |
вектор невязок, или вектор остатков. |
|
Введем u |
y |
y |
52
Наиболее известный способ оценивания коэффициентов – метод наименьших квадратов (МНК). В этом методе ищут такую оценку a , которая обеспечивает минимум суммы квадратов остатков:
N |
~i |
ˆi |
|
min. |
|
2 |
|||
SR = ( y |
y ) |
|
i1
Ввекторных обозначениях имеем:
|
|
~ |
|
|
~ |
yˆ) |
~ |
|
|
~ |
Faˆ) = |
|
|
SR = uˆ uˆ = ( y |
yˆ)'( y |
= ( y |
Faˆ)'( y |
||||||||
~ |
ˆ |
ˆ |
ˆ |
= |
~ ~ ~ |
ˆ |
ˆ |
~ |
|
ˆ |
ˆ |
|
( y' a' F')(y Fa) |
y' y y' Fa a' F' y |
a' F' Fa = |
||||||||||
|
|
~ ~ |
|
ˆ |
~ |
ˆ |
ˆ |
|
|
|
|
|
|
|
= y' y |
2a' Fy a' F' Fa . |
|
|
|
|
Для поиска минимума требуется найти стационарные точки
квадратичной по a формы SR . Возьмем производную по вектору |
|||||
|
|
|
|
|
|
SR |
~ |
|
|
|
|
aˆ |
2F y 2F F |
и приравниваем ее нулю. Получаем систему |
|||
нормальных уравнений |
|
~ |
|
||
|
|
ˆ |
|
(3.2) |
|
|
|
F' Fa F' y . |
|||
Согласно предпосылке 3 F F имеет обратную матрицу. Тогда |
|||||
|
|
aˆ (F F) |
1 |
~ |
(3.3) |
|
|
|
F y |
– вектор оценок коэффициентов регрессии, полученных по методу наименьших квадратов (МНК-оценки).
Проиллюстрируем полученные соотношения применительно к
парной регрессии, описываемой моделью |
~i |
a0 a1x |
i |
i |
. |
Для |
y |
|
u |
||||
нее |
|
|
|
|
|
|
|
|
|
|
|
N |
|
|
1 |
x1 |
N |
|
xi |
|
||
|
|
|
|
|
i 1 |
|
|
F |
, |
F ' F |
|
|
|
, |
|
N |
|
N |
|
||||
|
|
|
|
|
|
|
|
1 |
x N |
|
|
xi |
|
(xi )2 |
|
|
|
i 1 |
|
i 1 |
|
|
~
F ' y
|
|
N |
~i |
|
|
|
|
y |
|
|
|
|
|
i 1 |
|
|
|
|
|
|
|
|
, |
N |
i ~i |
||||
|
|
|
|||
|
|
|
x y |
|
|
|
|
|
|
|
|
|
i 1 |
|
|
|
aa0 .a1
Система нормальных уравнений (3.2) примет вид:
|
|
ˆ |
|
|
|
|
i |
|
|
~i |
|
||
|
|
a0 N a1 |
x |
y |
i ~i . |
||||||||
|
ˆ |
|
i |
ˆ |
|
i 2 |
|
||||||
|
|
x |
a1 |
|
(x ) |
|
|
x y |
|||||
a0 |
|
|
|
|
|
Поделив первое уравнение системы на N, получим
53
ˆ |
ˆ |
~ |
, |
(3.3а) |
a0 |
a1 x y |
где |
~ |
− средние значения наблюденных переменных («центр тя- |
x, y |
жести облака (диаграммы) рассеяния»). Поскольку y yˆ (см.
(3.28)), |
~ |
|
|
|
|
|
|
|
|
|
|
|
получаем, что точка ( x, y ) удовлетворяет уравнению |
|
|
|
|||||||||
|
ˆ ˆ |
ˆ |
|
|
|
(3.3б) |
||||||
|
y a0 |
a1x . |
|
|
|
|||||||
Вычитая (3.3а) из (3.3б) и учитывая, что y |
|
y |
(см. (3.28)), |
|||||||||
y |
||||||||||||
|
|
|
|
|
ˆ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ˆ |
|
ˆ |
|
|
|
приходим к уравнению регрессии «в отклонениях» |
|
(x x) , |
||||||||||
y y a1 |
не содержащему свободного члена. Полученный результат легко обобщается на случай n переменных либо k базисных функций.
Для уравнения в отклонениях из (3.3) получаем, что
|
|
(x |
i |
|
|
~i |
y) |
|
(x |
i |
|
~i |
y) |
|
~i |
y) |
2 |
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||
ˆ |
|
|
x)( y |
|
|
x)( y |
|
( y |
|
|
ˆ |
sy |
. (3.4) |
|||||||||||
a1 |
|
|
|
i |
x) |
2 |
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
r |
|
||
|
|
(x |
|
|
|
|
i |
|
2 |
|
~i |
|
|
2 |
|
sx |
|
|||||||
|
|
|
|
|
|
|
|
(x x) |
|
|
|
|
( y y) |
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
В последней формуле через sy , sx обозначены средние квадратиче-
ские отклонения. По найденной оценке aˆ1 из (3.3а) находят aˆ0 . Рассмотрим численный пример. Наблюдается объект, между
выходом и входом которого имеется связь вида |
|
y y u 5 3x1 x1x2 u . |
(3.5) |
Исследователю модель (3.5) неизвестна, однако он располагает результатами четырех наблюдений над объектом (табл.3.1).
|
|
|
|
Таблица 3.1 |
i |
x1i |
x2i |
y i |
уi |
1 |
2 |
3 |
4 |
5 |
1 |
-1 |
-1 |
9 |
10 |
2 |
1 |
0 |
2 |
0 |
3 |
-1 |
1 |
7 |
7 |
4 |
1 |
2 |
4 |
5 |
Если бы случайные возмущения отсутствовали, то результатом наблюдений был бы столбец 4 (уi). Полагая, что модель специ-
54
фицирована в виде |
~ |
a0 |
a1x1 a2 x1x2 u , найдем значения |
y |
коэффициентов для этого случая:
|
|
|
|
|
|
|
|
|
|
1 |
|
|
1 |
||
|
|
|
1 |
||||
f (x) |
|
|
|
|
|
||
|
x1 , |
|
F |
||||
|
|
|
|
|
|
1 |
|
|
|
|
|
|
|||
|
x1x2 |
|
|
||||
|
|
|
|
|
|
|
1 |
|
|
|
|
|
20 |
4 |
|
(F ' F ) |
1 |
|
1 |
|
|
4 |
20 |
|
64 |
|
|
||||
|
|
|
|
|
8 |
||
|
|
|
|
|
8 |
||
|
|
|
|
|
|
|
|
1 |
1 |
|
4 |
|
2 |
|
|
|
0 |
||
1 |
0 |
, |
F ' F 0 |
4 |
2 , |
1 |
1 |
|
|
|
|
|
|
|
2 |
2 |
6 |
|
|
|
|
|
|
1 |
2 |
|
|
|
|
8 |
22 |
|
|
|
|
5 |
|
||
|
|
|
10 |
|
ˆ |
1 |
|
|
|
8 , F ' y |
, a (F ' F ) |
|
F ' y |
3 . |
|||||
16 |
|
|
10 |
|
|
|
|
1 |
|
|
|
|
|
|
|
|
|
|
|
Итак, в отсутствие возмущений МНК восстановил точные
значения |
|
коэффициентов |
|
модели |
(3.5). |
Однако |
реально |
|||||||
|
|
|
|
|
|
~ |
|
|
|
|
|
|
|
|
наблюдались значения столбца 5 ( y ), так что |
|
|
|
|
|
|
||||||||
|
|
1 10 1 0 1 7 1 5 |
|
|
|
22 |
|
|
|
|
|
|
4,5 |
|
~ |
|
|
|
|
|
|
|
ˆ ~ |
(F ' F ) |
1 |
~ |
|
|
|
F ' y |
1 10 1 0 1 7 1 5 |
|
12 , |
a( y) |
|
F ' y |
|
4 . |
||||||
|
|
1 10 0 0 1 7 2 5 |
|
|
|
13 |
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Вычисление оценок МНК не требует введения каких-либо дополнительных гипотез. Сам метод часто рассматривают как способ «разумного» выравнивания эмпирических данных. Однако судить об адекватности модели, о степени близости полученных оценок истинным значениям, об ее прогностической способности удается лишь за счет введения априорных сведений, зафиксированных в предпосылках классической регрессии.
3.3. Статистический анализ уравнения регрессии
Оценки МНК являются статистикой, величинами случайными.
~ -
Один и тот же набор Х приводит к разным значениям y из за слу-
чайных возмущений и, как следствие, к разным значениям оценки a .
С учетом введенных предпосылок рассмотрим вначале статистические свойства оценок коэффициентов регрессии.
55
3.3.1. Несмещенность оценок коэффициентов регрессии
Оценка называется несмещенной, если ее математическое ожидание равняется истинному значению. С учетом (3.1') следующая цепочка равенств является очевидной:
aˆ (F F) |
1 |
~ |
(F F) |
1 |
F (Fa u) a (F F) |
1 |
F u . |
(3.6) |
|
F y |
|
|
|||||
Математическое ожидание от крайних членов (3.6) есть |
|
|||||||
Maˆ M[a (F F) 1 F u] a (F F) 1 F M[u] a . |
(3.7) |
Обратим внимание на то, что вектор истинных значений коэффициентов регрессии а, присутствующих в модели, является неслучайным. Неслучайными являются также и значения базисных функций в точках наблюдений в силу неслучайности Х, так что F можно выносить за знак математического ожидания. Таким образом, Maˆ a , что доказывает несмещенность оценки.
3.3.2. Ковариационная матрица оценок коэффициентов регрессии
По определению covaˆ M[ aˆ Maˆ aˆ Maˆ ] . С учетом несмещенности a получаем covaˆ M[(aˆ a)(aˆ a)']. Из (3.6) видно,
что aˆ a = (F F) 1 F u . Следовательно,
covaˆ M[(F' F) 1 F u ((F' F) 1 F'u)'] M[(F F) 1 F uu F (F F) 1](F F) 1 F M[uu ]F (F F) 1 (F F) 1 F cov(u)F (F F) 1
(F F) 1 F 2IF (F F) 1 2 (F F) 1.
Итак, |
|
cov aˆ 2 (F F) 1 . |
(3.8) |
Матрицу С= (F F ) 1 называют дисперсионной, поскольку ее диагональные элементы пропорциональны дисперсиям оценок ко-
эффициентов регрессии. |
|
|
|
|
|
|
Если значение 2 известно, |
то можно определить дисперсии |
|||||
оценок отдельных коэффициентов: |
|
|
|
|||
|
2 |
ˆ |
|
2 |
cii , |
(3.9) |
|
( ai ) = |
|
56
где cii − диагональный элемент дисперсионной матрицы (F F ) 1 .
3.3.3. Оценка дисперсии случайной компоненты по уравнению регрессии
Оценка случайного компонента содержится, надо ожидать, в векторе невязок. Действительно,
|
~ |
~ |
|
~ |
F(F F) |
1 |
~ |
Fa u F(F F) |
1 |
F (Fa u) |
||
uˆ y yˆ y |
Faˆ y |
|
F y |
|
||||||||
|
Fa u Fa F(F F) 1 F u (IN F(F F) 1 F )u , |
|||||||||||
где IN − единичная матрица с N единицами по диагонали. |
|
|||||||||||
Выходит, uˆ |
|
есть линейная комбинация “истинных”, ненаблюда- |
||||||||||
емых, возмущений u. |
|
|
|
|
|
|
||||||
Обозначим G IN F(F F) 1 F . Легко показать, что |
G G G , |
|||||||||||
так что матрица G является идемпотентной. Отсюда остаточная |
||||||||||||
сумма квадратов SR есть: |
|
|
|
|
|
|
||||||
N |
~i |
yˆ |
|
|
|
~ |
~ |
uˆ uˆ |
(Gu) (Gu) u G Gu u Gu . |
|||
|
i |
) |
2 |
|||||||||
SR ( y |
|
|
( y yˆ) ( y yˆ) |
|||||||||
i 1 |
|
|
|
|
|
|
|
|
|
|
|
|
SR |
– квадратичная форма относительно u и может быть записа- |
|||||||||||
|
|
N |
|
|
|
|
|
|
|
|
|
|
на как SR gijuiu j , где gij – элементы матрицы G. |
|
|
||||||||||
|
|
i, j |
|
|
|
|
|
|
|
|
|
|
SR |
– величина случайная с математическим ожиданием |
|||||||||||
|
|
|
|
|
|
|
N |
|
|
N |
|
|
|
|
|
|
M[SR ] M[ gi juiu j ] gi j M[uiu j ] . |
|
|
||||||
|
|
|
|
|
|
|
i, j |
|
|
i, j |
|
|
М[uiuj] есть ковариация между возмущениями в точках i и j и согласно предпосылке 5 (п.3.1) равняется 0 при i j и 2 при i=j. Следовательно, под знаком суммы останутся лишь диагональные элементы gii матрицы G, т.е. ее след (обозначается Sp либо tr):
M SR 2tr G 2tr (IN F(F F) 1 F ) 2 (tr IN tr (F(F F) 1 F )).
Поскольку IN – единичная матрица, то tr(IN ) N . Известно, что tr(AB) = tr(BA). Обозначая A F(F F) 1 и B F , получим:
57
tr (F(F F) 1 F ) tr (F F(F F) 1) tr I |
(k 1) |
k 1 . |
|
|
|
В итоге, М[ SR ] = σ2(N – (k+1)). Выходит, величина |
||
s2 SR /(N (k 1)) |
|
(3.10) |
является несмещенной оценкой σ2. Величину [N-(k+1)] называют
числом степеней свободы (ЧСС).
Оценка дисперсии |
ˆ |
|
|
|
|
|
ai равняется (см.(3.9)): |
(3.11) |
|||||
|
s |
|
(ai ) s |
cii . |
||
|
|
2 |
ˆ |
2 |
|
|
3.3.4. Состоятельность
Важным свойством оценки является ее состоятельность (сходимость). Оценка состоятельна, если ее точность повышается при
увеличении числа наблюдений; иными словами, статистика a N
состоятельно оценивает a (индекс N здесь и далее указывает на то, что оценка получена на основе первых N наблюдений), если при N разброс около истинного значения стремится к нулю. Различают несколько видов состоятельности. Наиболее употребительные из них просто состоятельность и состоятельность в среднем квадратичном.
Просто состоятельность опирается на понятие сходимости по вероятности:
|
|
|
P[ |
|
ˆ |
|
] 0 при N |
|
|
||||
|
|
|
|
|
|
||||||||
|
|
|
|
aN a |
|
(записывается plim aN a ). |
|||||||
|
|
Оценка aˆN |
состоятельна |
в |
среднеквадратичном, |
если |
|||||||
|
2 |
ˆ |
|
|
ˆ |
a) |
2 |
] 0 |
|
|
ˆ |
|
|
|
(aN ) M[(aN |
|
при N (записывается l.i.m. aN a ). |
||||||||||
|
|
Из |
состоятельности в |
среднем квадратичном следует |
просто |
||||||||
состоятельность. Можно |
показать |
ˆ |
|
||||||||||
[4], что l.i.m. aN a тогда и |
|||||||||||||
только тогда, когда cov aˆN M[(aˆN a)(aˆN a) ] 0 . |
|
||||||||||||
|
|
Для оценки МНК состоятельность в среднем квадратичном |
|||||||||||
означает, что covaˆN 2 (F F) 1 |
0 |
при N . |
|
При справедливости предпосылок 1–5 необходимые и достаточные условия состоятельности в среднем квадратичном обеспечи-
58
ваются при выполнении условия Эйкера – минимальное характери-
|
N |
N |
|
|
: |
стическое число матрицы F |
F |
стремится к |
. |
||
min |
N |
N |
|
|
|
|
(F F ) |
|
при N |
|
min (FN FN ) есть квадрат минимальной длины вектора, являю-
щегося линейной комбинацией столбцов F, и служит мерой линей-
ной зависимости (мультиколлинеарности) векторов – столбцов матрицы F (см. п.4.2).
Отметим, что иногда проще показать, что FN ' FN 1 0.
3.4. Теорема Гаусса−Маркова
Теорема Гаусса−Маркова утверждает, что при выполнении
предпосылок 1-5 классической регрессии оценка МНК является
~ )
несмещенной и эффективной в классе линейных (по y несмещен-
ных оценок.
Доказательство. Несмещенность была доказана выше. Докажем эффективность. Для скалярной несмещенной оценки мерой эффективности является ее дисперсия. Для двух векторных оценок
ˆ |
и |
ˆ |
|
ˆ |
ˆ |
|
a |
b |
с ковариационными матрицами cov a |
и cov b |
оценка a счи- |
||
тается более эффективной, если матрица |
|
|
|
|||
|
|
|
ˆ |
ˆ |
|
|
|
|
|
Е = cov b – cov |
a |
|
|
неотрицательно определена. Напомним, что матрица считается неотрицательно определенной, если для любого z ( z ) квадратичная
форма z Ez неотрицательна, т.е. |
z E z 0 . |
|
|||
Перейдем к доказательству. Пусть |
|
|
|||
a – другая несмещенная |
|||||
|
~ |
|
~ |
, где Н − некоторая детер- |
|
оценка а, линейная по y . Тогда |
a |
Hy |
|||
|
|
|
|
|
|
минированная матрица. Из условия несмещенности a |
, т.е. Ma a , |
||||
|
~ |
|
|
|
|
следует Ma |
М[Hy] M[H (Fa u)] HFa HMu HFa a , отку- |
да HF I(k 1) .
Рассмотрим разность между новой оценкой и истинным значе-
нием коэффициентов: |
||
|
~ |
a H (Fa u) a HFa Hu a a Hu a Hu . |
a |
a Hy |
|
|
|
59 |
Введем матрицу
C H (F F) 1 F .
Легко видеть, что матричное произведение СF=0:
СF = (Н– (F ' F )-1F ' ) F = HF– (F ' F )-1F ' F = I k 1 – I k 1 = 0.
|
|
|
|
|
|
: |
|
Найдем матрицу ковариации для a |
|
||||||
|
|
|
|
|
|
|
|
cov a |
= M[(a– a )(a– a )'] = M[H u ( H u )′] = M[Huu′H′] = |
||||||
=H M[uu′]H΄ = 2HH′ = 2[(C+ (F F ) 1 F′)(C+ (F F ) 1 F′)′] = |
|||||||
|
=2[(C+ (F F ) 1 F′) (C′+F (F F ) 1 )] = |
||||||
=2[CC′+ (F F ) 1 F′C′+ CF (F F) 1 + (F F ) 1 (F F ) 1 ]= |
|||||||
|
2 |
|
' F ) |
-1 |
|
2 |
|
|
= [CC′+(F |
|
] = |
CC΄+cov a . |
|||
Матрицы вида CC΄ являются неотрицательно определенными и, |
|||||||
|
|
|
|
|
|
– положительно определен- |
|
следовательно, разность сov a |
- cov a |
||||||
ная матрица. Выходит, a |
более эффективная оценка в сравнении с |
a . Заметим, что матрица С по построению содержит в некоторой (i-й) строке хотя бы один ненулевой элемент, i-й диагональный элемент матрицы СС’ положителен, а следовательно, дисперсия i-й
компоненты вектора a будет больше.
3.5. Свойства оценок МНК при нормальных случайных возмущениях
В условиях нормальной гипотезы u ~ N (0, 2 I ) :
а) оценка МНК распределена по нормальному закону с математическим ожиданием a и матрицей ковариации 2 (F F) 1 –
|
|
|
aˆ ~ N(a, 2 (F F) 1) ; |
(3.12) |
||
б) статистика |
SR |
|
(N (k 1))s2 |
распределена по закону |
2 с |
|
2 |
2 |
|||||
|
|
|
|
(N-(k+1)) степенями свободы, т.е.
SR |
~ 2 (N (k 1)) ; |
(3.13) |
|
2 |
|||
|
|
в) оценки aˆ и s2 − независимы.
60