Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Диплом / Algebra_lineynoy_regressii.docx
Скачиваний:
40
Добавлен:
24.03.2015
Размер:
2.49 Mб
Скачать

Линейная регрессия

Предполагается, что между переменными , j = 1, . . . , n существует линейная зависимость:

(1.1)

j=1

где αj , j = 1, . . . , n, β (угловые коэффициенты и свободный член) — параметры (коэффициенты) регрессии (их истинные значения), ε — случайная ошибка; или в векторной форме:

xα = β + ε, (1.2)

где x и α — соответственно вектор-строка переменных и вектор-столбец пара- метров регрессии.

Регрессия называется линейной, если ее уравнение линейно относительно параметров регрессии, а не переменных. Поэтому предполагается, что , j = 1, . . . , n, могут являться результатом каких-либо функциональных преобразований исходных значений переменных.

Для получения оценок , j = 1, . . . , n, b , e, соответственно, параметров регрессии , j = 1, . . . , n, β и случайных ошибок ε используется N наблюдений за переменными x, i = 1, . . . , N , которые образуют матрицу наблюдений X размерности N × n (столбцы — переменные, строки — наблюдения). Уравнение регрессии по наблюдениям записывается следующим образом:

Xα = 1N β + ε, (1.3)

где, как и прежде, 1N — вектор-столбец размерности N , состоящий из единиц, ε — вектор-столбец размерности N случайных ошибок по наблюдениям; или в оценках:

Xa = 1N b + e. (6.4)

Собственно уравнение регрессии (без случайных ошибок) xα = β или xa = b определяет, соответственно, истинную или расчетную гиперплоскость (линию, плоскость,...) регрессии.

.

.

Далее применяется метод наименьших квадратов: оценки параметров регрессии находятся так, чтобы минимального значения достигла остаточная дисперсия:

Из равенства нулю производной остаточной дисперсии по свободному члену b

следует, что

x¯a = b (1.5)

и

t

e = 0. (1.6)

Действительно,

s2 2

1

e = r

b N N

(Xa − 1N b) =

− 2 (x¯a b) ,

2

N

N 1r e.

Вторая производная по b равна 2, т.е. в найденной точке достигается минимум.

Здесь и ниже используются следующие правила матричной записи результатов диф- ференцирования линейных и квадратичных форм.

Пусть x, a — вектор-столбцы, α — скаляр, а M — симметричная матрица. То- гда:

dxα = x, xra = a, xrM = M, xrMx = 2M x.

dα ∂x x x

2.2. Простая регрессия

Этот результат означает, что точка средних значений переменных лежит на расчетной гиперплоскости регрессии.

В результате подстановки выражения b из (1.5) через a в (1.4) получается другая форма записи уравнения регрессии:

Xˆ a = e, (1.7)

где Xˆ = X − 1N x¯ — матрица центрированных значений наблюдений.

(1.3, 1.4) — исходная, (1.7) — сокращенная запись уравнения регрессии. Минимизация остаточной дисперсии по a без дополнительных условий приве-

дет к тривиальному результату: a = 0. Чтобы получать нетривиальные решения,

на вектор параметров α и их оценок a необходимо наложить некоторые огра- ничения. В зависимости от формы этих ограничений возникает регрессия разного вида — простая или ортогональная.

1.2. Простая регрессия

В случае, когда ограничения на вектор a (α) имеют вид aj = 1 ( αj = 1), возникают простые регрессии. В таких регрессиях в левой части уравнения оста- ется одна переменная (в данном случае j-я), а остальные переменные переносятся в правую часть, и уравнение в исходной форме приобретает вид (регрессия j-й переменной по остальным, j-я регрессия):

Xj = Xj aj + 1N bj + ej , (1.8) где Xj — вектор-столбец наблюдений за j-й переменной — объясняемой,

Xj — матрица наблюдений размерности N × (n − 1) за остальными перемен- ными — объясняющими (композиция Xj и Xj образует матрицу X ), aj — вектор a без j-го элемента (равного 1), взятый с обратным знаком (компози- ция 1 и −aj образует вектор a), bj и ej — соответственно свободный член и вектор-столбец остатков в j-й регрессии. В сокращенной форме:

Xˆj = Xˆj aj + ej . (1.9)

В таких регрессиях ошибки eij — расстояния от гиперплоскости регрессии до точек облака наблюдения — измеряются параллельно оси xj .

Остаточная дисперсия приобретает следующую форму:

s2 1 1 ˆ

ˆ  ˆ ˆ

ej = N et ej = N

Xt at Xt

Xj Xj aj

. (6.10)

j j j j

Из равенства нулю ее производных по параметрам aj определяется, что

j j j

a = M 1m , (1.11)

где Mj =

ˆ t

1

N X

j

j — матрица ковариации объясняющих переменных xj

Xˆ

j N

между собой, m = 1 Xˆ t

Xˆj

— вектор-столбец ковариации объясняющих пе-

j

ременных с объясняемой переменной xj ; и

cov (Xj , ej ) = N Xˆ

1

t

j

ej = 0. (1.12)

Действительно,

s2 2

ˆ ˆ

2

−2(mj Mj aj ),

ej

aj

= Xˆ r

N j

Xj Xj

aj

=

Xˆ r

N

j ej .

Кроме того, очевидно, что матрица вторых производных равна 2Mj , и она, как всякая ковариационная матрица, положительно полуопределена. Следовательно, в найденной точке достигается минимум остаточной дисперсии.

Справедливость утверждения о том, что любая матрица ковариации (теоретическая или ее оценка) положительно полуопределена, а если переменные линейно незави- симы, то — положительно определена, можно доказать в общем случае.

Пусть x — случайный вектор-столбец с нулевым математическим ожиданием. Его

теоретическая матрица ковариации по определению равна E (xxr). Пусть ξ ƒ= 0 — детерминированный вектор-столбец. Квадратичная форма

(

ξrE(xxr)ξ = Erxxrξ) = E ξrx)2 “ 0,

т.е. матрица положительно полуопределена. Если не существует такого ξ ƒ= 0, что

ξrx = 0, т.е. переменные вектора x линейно не зависят друг от друга, то неравенство

выполняется строго, и соответствующая матрица положительно определена.

Пусть X — матрица N наблюдений за переменными x. Оценкой матрицы ко-

вариации этих переменных является

1

1 Xˆ rXˆ . Квадратичная форма

N

1 ξrXˆ rXˆ ξ =

N

= uru “ 0, где u = Xˆ ξ, т.е. матрица положительно полуопределена. Если не

N

существует такого ξ ƒ= 0, что Xˆ ξ = 0, т.е. переменные x линейно не зависят друг от друга, то неравенство выполняется строго, и соответствующая матрица положи- тельно определена.

Оператор МНК-оценивания образуется соотношениями (6.11) и (6.5), которые в данном случае записываются следующим образом:

bj = x¯j x¯j aj (6.13)

(соотношения МНК-оценивания (4.37), данные в пункте 4.2 без доказательства, являются частным случаем этого оператора).

Уравнения

mj = Mj aj , (6.14)

решение которых дает первую часть оператора МНК-оценивания (6.11), называ- ется системой нормальных уравнений.

МНК-оценки остатков имеют нулевую среднюю (6.6) и не коррелированы (ор- тогональны) с объясняющими переменными уравнения (6.12).

Систему нормальных уравнений можно вывести, используя иную логику. Если

X

j

обе части уравнения регрессии (6.9) умножить слева на ˆ t

1

и разделить на N ,

j

то получится условие mj = Mj aj + N Xˆ t

ej , из которого получается искомая

система при требованиях

e¯j = 0 и cov(Xj , ej ) = 0, следующих из полученных

свойств МНК-оценок остатков.

ZˆtXˆ

1

1

Такая же логика используется в методе инструментальных переменных. Пусть имеется матрица Z размерности N × (n − 1) наблюдений за некоторыми величи- нами z, называемыми инструментальными переменными, относительно которых известно, что они линейно не зависят от εj и коррелированы с переменными Xj . Умножение обеих частей уравнения регрессии слева на Zˆt и деление их на N да-

ет условие

ZˆtXˆj =

N

1

N j aj +

Zˆtej , из которого — после отбрасывания

N

второго члена правой части в силу сделанных предположений — следует система

нормальных уравнений метода инструментальных переменных:

mz

z

z

j = M a

, (6.15)

j

где mz

j

= cov (z, xj ), M z

j j

= cov (z, xj ).

Значения j-й (объясняемой) переменной, лежащие на гиперплоскости регрес- сии, называются расчетными (по модели регрессии):

Xc

j = Xj aj + 1N bj , (6.16)

Xˆ c ˆ

j = Xj aj . (6.17)

Их дисперсия называется объясненной (дисперсия, объясненная регрессией) и может быть представлена в различных вариантах:

s2 1 c ˆ c (6.17)

(6.11) 1

qj = N Xˆ t X

= at

Mj aj

= at

mj = mt

aj = mt (6.18)

Если раскрыть скобки в выражении остаточной дисперсии (6.10) и прове-

s2

сти преобразования в соответствии с (6.11, 6.18), то получается s2

= s2 s2 ,

где

j — дисперсия j-й (объясняемой) переменной, или

ej j qj

s2 2 2

j = sqj + sej . (6.19)

Это — дисперсионное тождество, показывающее разложение общей диспер- сии объясняемой переменной на две части — объясненную (регрессией) и оста- точную.

Доля объясненной дисперсии в общей называется коэффициентом детерми- нации:

s

2

R2

s

=

j 2

qj = 1 −

j

s2

ej

s

2 , (6.20)

j

который является показателем точности аппроксимации исходных значений объ- ясняемой переменной гиперплоскостью регрессии (объясняющими переменными). Он является квадратом коэффициента множественной корреляции между объ- ясняемой и объясняющими переменными rj,j , который, по определению, равен

коэффициенту парной корреляции между исходными и расчетными значениями

объясняемой переменной:

cov xj , xc

Xˆ t Xˆ c

Xˆ t Xˆ a

j

1 j j (6.17) 1 j j j

rj,j =

sj sqj

= =

N sj sqj N

=

sj sqj

s

mt 2

=

.

= j aj (6.18)

sj sqj

qj

sj sqj

(6.20)

j

=

R2.

Из (6.19) следует, что коэффициент корреляции по абсолютной величине не пре- вышает единицы.

Эти утверждения, начиная с (6.16), обобщают положения, представленные в конце пункта 4.2.

Композиция 1 и −aj обозначается a(j) и является одной из оценок вектора α. Всего таких оценок имеется n — по числу простых регрессий, в левой части уравнения которых по очереди остаются переменные xj , j = 1, . . . , n. Эти вектор- столбцы образуют матрицу A. По построению ее диагональные элементы равны единице ( ajj = 1 вслед за aj (j) = 1).

Все эти оценки в общем случае различны, т.е. одну из другой нельзя получить алгебраическим преобразованием соответствующих уравнений регрессии:

Это утверждение доказывалось в пункте 4.2 при n = 2. В данном случае спра- ведливо утверждение, что соотношение (6.21) может (при некоторых j, jt ) вы- полняться как равенство в том и только том случае, если среди переменных xj , j = 1, . . . , n существуют линейно зависимые.

Достаточность этого утверждения очевидна. Действительно, пусть переменные неко- торого подмножества J линейно зависимы, т.е. существует такой вектор ξ, в кото-

ром ξj ƒ= 0 при j J и ξj = 0 при j / J , и

Xˆ ξ = 0. Тогда для любого j J

ξj

справедливо: a(j) = 1 ξ, причем ajr (j) = 0 при jr / J , и ej = 0, т.е. некоторые

соотношения (6.21) выполняются как равенства.

Для доказательства необходимости утверждения предполагается, что существует такой ξ ƒ= 0, что

Aξ = 0 (6.22)

(т.е., в частности, некоторые соотношения из (6.21) выполняются как равенства).

N

Сначала следует обратить внимание на то, что вслед за (6.14) все компоненты век- тора M a(j) ( M — матрица ковариации всех переменных x: M = 1 Xˆ rXˆ ), кроме

ej

j -й, равны нулю, а j -я компонента этого вектора в силу (6.18, 6.19) равна s2 , т.е.

e

MA = S2, (6.23)

где S2 — диагональная матрица .s2 ..

e ej

e

Теперь, после умножения обеих частей полученного матричного соотношения справа на вектор ξ, определенный в (6.22), получается соотношение: 0 = S2ξ, которое

ej

означает, что для всех j , таких, что ξj ƒ= 0, s2

= 0, т.е. переменные xj линейно

зависят друг от друга.

Что и требовалось доказать.

Все возможные геометрические иллюстрации простых регрессий в простран- стве наблюдений и переменных даны в пункте 4.2.

Соседние файлы в папке Диплом