Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Цифровая обработка сигналов (сборник книг) / Дронов С.В. Многомерный статистическийц анализ, 2003

.pdf
Скачиваний:
112
Добавлен:
05.03.2016
Размер:
958.12 Кб
Скачать

6.1. Постановка задачи

 

 

 

 

 

 

61

расположены по столбцам и в векторе

~

= (x1; x2

; ::: xn)

t, â êîòî-

 

 

 

X

 

ром размещаются соответствующие значения отклика. Знак t означает

транспонирование, т.е. ~

 

 

 

 

 

 

 

Введем обозначенияX на самом деле вектор-столбец.

 

~

t

; ~

=

t

:

 

 

= ( 1

; :::; k)

( 1; :::; n)

 

 

Теперь мы можем записать задачу линейной регрессии в матричной фор-

~

ме: по заданным Z; X определить наилучший вектор коэффициентов

регрессии ~ и остаточную дисперсию из соотношения

~

t ~

+ ~;

(6.2)

X

= Z

причем cov~ = 2I.

Осталось ввести критерий оптимальности выбираемого набора коэффициентов. В основе традиционно рассматривающегося критерия, немедленно приводящего и к соответствующему методу, лежит геометриче- ское представление, восходящее еще к К.Ф.Гауссу. Представим себе, что

столбцы матрицы Z задают координаты точек в k-мерном пространстве,

тогда уравнение (6.1) (без добавки ) задает в этом пространстве гиперплоскость. Поставим задачу так провести эту гиперплоскость, чтобы

она проходила как можно ближе к точкам, задаваемым матрицей Z. Íà

языке формул, оптимальный ~

 

 

 

 

 

 

 

 

ищется из условия

 

 

 

 

 

^

^

 

~

 

 

(6.3)

 

 

:

S( )

= min S( );

 

 

 

 

 

 

 

~

 

 

 

 

 

 

 

 

 

 

 

 

ãäå

 

 

 

 

n

 

k

 

 

 

 

 

 

 

 

~

~

t ~

~

t ~

Xi

 

X

2

S( )

 

 

 

 

jzj;i) :

= (X Z ) (X Z ) = (xi

 

 

 

 

 

 

=1

 

j=1

 

Описанный метод называется методом наименьших квадратов, а ^, îïðå-

деленный (6.3), оценкой коэффициентов по методу наименьших квадратов (ОМНК).

Методы нахождения ОМНК могут быть самыми различными. Напри-

мер, можно методами математического анализа решить для функции k

~

переменных S( ) задачу на минимум. Традиционный метод наименьших квадратов, привлекающий только понятия линейной алгебры, будет рассмотрен в следующем разделе. А сейчас упомянем еще один метод, который получил название метода центра неопределенностей.

62

Глава 6. Регрессионный анализ

Суть его состоит в переходе от пространства наблюдений к пространству коэффициентов. Сначала зафиксируем некоторое число " и рассмо-

трим систему неравенств относительно ~

 

k

 

" xi

jX

 

jzj;i "; i = 1; :::; n:

(6.4)

 

=1

 

Методами линейного программирования определим наименьшее возможное из чисел ", при которых эта система имеет непустое множество

решений, т.е. имеется хотя бы одно ~, удовлетворяющее (6.4). Затем опре-

делим это минимальное непустое множество и его геометрический центр ~ . В литературе встречаются разные способы определения этого центра,

например,в решения (6.4) вписывается эллипсоид и в качестве ~ берет-

ся пересечение его полуосей. Можно также представить себе, что наше множество решений заполнено однородной массой и тем или иным способом определить центр масс. Так или иначе, но найденное ~ объявляется

оценкой коэффициентов регрессии по методу центра неопределенностей.

6.2Нормальное уравнение регрессии

Оказывается, ОМНК, определенная в предыдущем разделе, всегда является решением некоторой системы линейных уравнений, выводом которой мы сейчас и займемся.

 

 

 

 

 

 

~

Лемма 4 Для двух произвольных k-мерных векторов ;~ справедливо

соотношение

 

 

 

 

 

 

~

 

 

~

~

~

~

S( ) = S(~) + 2(Y

A~) (~ ) + 2(A(~ )) (~ );

ãäå A = ZZ

t

~

~

 

 

 

 

; Y

= ZX:

 

 

 

Доказательство. Проделаем следующие несложные выкладки:

~

 

 

~

t

~

~

t ~

 

~

t

~)

~

t ~

S( ) S(~) = (X

Z ) (X

Z )

(X

Z

(X Z )

~

 

t

~)

~

t

~)

~

t

~)

~

 

t ~

 

((X

Z

(X Z

(X Z

(X Z

)) =

 

 

t

 

~

~

 

t ~

~

 

t

 

t ~

~):

 

= Z

(~ ) (X Z ) (X Z

~) Z (

 

6.2. Поиск ОМНК

 

 

 

 

 

 

 

 

 

 

63

Если мы теперь учтем, что

 

 

 

 

 

 

 

~

t

~) Z

t

~

~

 

t

 

 

~

 

(X Z

 

(~ ) = (ZX ZZ

~) (~ );

 

 

Z

t

~

~

t ~

 

 

 

 

 

 

 

 

(~ ) (X Z ) =

 

 

 

 

 

t

 

~

 

 

~

~

t

 

 

 

~

 

ZZ

(~ )

(~ ) + (ZX

ZZ

~) (~ );

 

то окончательно получим

 

 

 

 

 

 

 

 

 

~

 

t

 

 

~

~

~

t

~)

~

S( ) S(~) = ZZ

(~ )

(~ ) + 2(ZX ZZ

(~ );

что и доказывает лемму.

Матрица A, фигурирующая в формулировке леммы, называется матрицей плана.

Лемма 5 Матрица плана симметрична и неотрицательно определена. Она положительно определена, если строки матрицы Z линейно независимы,

Доказательство. Так как A = ZZt, òî At = (Zt)tZt = ZZt = A, что означает симметричность. Возьмем теперь произвольный k-мерный

вектор ~

t. Тогда

~

~

t~

~

t~

t~

0;

At

t = ZZ t

t = Z t

Z t

а это означает неотрицательную определенность. Если для некоторого ненулевого вектора ~

t в последнем неравенстве достигается равенство, то

t~

Z t = 0, а значит, строки матрицы Z линейно зависимы с коэффициен-

òàìè t ; :::; t

Уравнение1 k.

~

~

(6.5)

A

= Y

называется нормальным уравнением регрессии.

Теорема 6 Любое решение нормального уравнения регрессии доставля-

~

ет минимум функции S( ), т.е. является ОМНК. Если матрица плана

обратима, то ^ 1 ~ ~

= A Y несмещенная оценка , причем

^ 2 1

cov = A :

64

 

 

 

Глава 6.

Регрессионный анализ

Доказательство. Пусть ^

 

 

 

 

 

 

решение уравнения (6.5). Тогда в си-

 

 

 

 

 

 

~

лу леммы 4 и неотрицательной определенности A для произвольного

выполнено

 

 

 

 

 

 

~

^

^

~

^

~

^

S( ) = S( ) + A(

) (

)

S( ):

Тем самым доказано, что ^

 

 

 

 

 

 

ОМНК. Нам известно, что

 

~

t

~

+ ~;

 

 

X

= Z

 

откуда получаем

~

~

 

 

 

 

 

+ Z~:

 

 

Y

= A

 

Сравнивая это соотношение с нормальным уравнением регрессии (6.5),

получаем, что A( ) = Z~; и если матрица плана невырождена, то

^ ~

^~ 1

= A Z~:

Вычислим от обеих частей математическое ожидание и учтем, что M~ =

^

~

=

0, т.е. мы доказали несмещенность ОМНК.

0. Получим M

 

Наконец, в силу несмещенности,

 

 

 

 

 

 

 

 

 

 

^

 

^

 

~ ^

 

~

t

=

 

 

cov

= M(

)(

)

 

 

 

 

= M(A 1Z~~tZtA 1) =

 

 

= A 1Z cov~ ZtA 1

= 2A 1ZZtA 1 = 2A 1:

Теорема доказана.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

^

 

 

 

 

 

 

 

 

 

остаточной дисперсии 2 в случае

k) является несмещенной оценкой

Теорема 7 Статистика S( )=(n

 

 

 

 

 

 

невырожденной матрицы плана.

Доказательство. Пусть ~

 

 

 

 

 

 

 

 

 

 

 

 

теоретический (неизвестный) вектор ко-

эффициентов регрессии. Тогда

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

~

 

 

 

 

 

jX

 

2

 

 

2

MS( ) = M~ ~ =

 

 

 

 

 

M j = n :

 

 

 

 

 

 

 

=1

 

 

 

 

 

Далее, обозначая ~

=

 

^

~

 

 

 

 

 

 

 

 

h

A(

), расписывая скалярное произведение

через координаты и используя вид ковариационной матрицы ОМНК из

предыдущей теоремы, получаем

 

 

 

 

 

 

 

 

 

~

^

~

 

2

trAA

1

 

 

2

:

Mh (

) =

 

 

= k

6.3. Ограничения

65

Здесь для матрицы B через trB обозначен ее след, т.е. сумма диагональных элементов. Согласно лемме 4,

~

^ ~ ^

~

S( ) = S( ) + h (

):

Вычисляя математические ожидания от обеих частей этого соотношения с учетом ранее сделанных замечаний, получим

n

2

^

2

;

 

= MS( ) + k

что и завершает доказательство теоремы.

6.3Задачи регрессии с ограничениями

Мы рассмотрели случай, когда любое из значений коэффициентов ре-

грессии, полученное в результате наших исследований на оптимальность,

нами принималось как допустимое. Но часто бывает так, что получен-

ное значение ^

 

 

нас не может устроить в силу невозможности его реали-

зации или каких-то иных априорных соображений. Таким образом, мы

приходим к задаче регрессии, в которой на коэффициенты наложены

некоторые ограничения.

 

 

Используя тот же метод, который применяется в задачах линейного

программирования при приведении задачи к каноническому виду (име-

ется ввиду способ замены всех ограничений на равенства при помощи

введения искусственных переменных), можно считать, что ограничения

на коэффициенты имеют вид

 

 

~

~

~

f1( ) = 0;

f2( ) = 0; ::: fm( ) = 0;

где каждая из fi; i = 1; :::; m функция k

переменных, принимающая

действительные значения.

Теперь наша задача сводится к поиску условного экстремума функ-

~

öèè S( ) в выписанных ограничениях. В такой ситуации математический анализ рекомендует прибегнуть к так называемому методу Лагранжа. Введем функцию Лагранжа

~

L( ; 1; :::; m)

 

m

~

~

= S( )

ifi( );

 

=1

 

Xi

Пусть ограничения имеют вид (6.6),

66 Глава 6. Регрессионный анализ

ãäå ; :::;

эту функцию1 m -наискусственноминимум. Найденныевведенныезначенияпеременныекоэффициентови будем исследоватьи будут

решением нашей задачи с ограничениями.

 

В силу линейности нашей задачи особенно важным частным случаем

является тот, когда ограничения на коэффициенты имеют линейный вид

~

(6.6)

Q = ~a:

Здесь ~a известный вектор размерности m, Q m k-матрица, имеющая ранг m. Это предположение не нарушает общности, поскольку означает

только, что ни одно из m линейных ограничений не является следствием остальных, и система ограничений непротиворечива.

Теорема 8 ^

- ОМНК парамет-

ров регрессии в задаче без ограничений с теми же выборочными данными и матрица плана не вырождена. Тогда решение задачи с ограниче- ниями имеет вид

^

^

A

1 t

1

^

~a);

Q

=

Q D

 

(Q

ãäå D = QA 1Qt квадратная матрица порядка m.

Доказательство. Прежде всего заметим, что

 

 

^

 

^

 

 

1

 

 

^

~a) = ~a;

(6.7)

 

Q Q

= Q DD

 

 

(Q

 

а так как для ОМНК справедливо (6.5), то

 

 

 

~

 

^

 

t

D

1

 

^

 

 

Y

A Q

= Q

 

(Q ~a):

 

Из (6.7) следует, что

 

^

~

 

 

 

 

 

 

~

 

 

 

 

 

 

 

 

 

 

 

при произвольном ~

 

Q( Q ) = ~a Q

 

 

. Осталось заметить, что в силу леммы 4,

~

^

^

~

t

1

 

 

 

^

 

^

~ ^ ~

S( ) = S( Q) + 2( Q

) Q D

 

(Q

~a) + A( Q

) ( Q ):

Åñëè ~

 

 

 

 

 

 

 

 

 

 

 

 

удовлетворяет (6.6), то

 

 

 

 

 

 

 

 

 

 

( ^Q ~) QtD 1(Q ^ ~a) = Q( ^Q ~) D 1(Q ^ ~a) =

 

= (~a Q~) D 1(Q ^ ~a) = 0;

 

а следовательно,

 

 

 

 

 

 

 

 

 

 

 

 

~

^

 

^

 

~

 

 

^

~

^

 

S( ) = S( Q) + A( Q

)

( Q ) S( Q)

в силу свойств матрицы плана, что и завершает доказательство.

6.4. Матрица плана

67

6.4Оптимальный выбор матрицы плана

В задачах регрессии, а иногда и в других задачах, связанных с изу-

чениями данных эксперимента, принято рассматривать две различных

ситуации в зависимости от возможности ставить дополнительные экспе-

рименты. Если серию экспериментов мы планируем сами, т.е. в состоянии

задавать значения факторов в очередном эксперименте по собственному

желанию, то говорят, что имеет место ситуация активного эксперимента.

Если же такой возможности нет, и мы просто можем записывать, чему

равны значения факторов, не в силах вмешаться в их изменение, то экс-

перимент называется пассивным. Близким (и в основном, тождествен-

ным) к ситуации пассивного эксперимента является случай так называ-

емого архивного эксперимента: фактически эксперимент не ставится, а

изучаются данные о проводившихся когда-то экспериментах.

Если мы имеем дело с активным экспериментом, то уместно поста-

вить вопрос о том, какие значения следует придать факторам, чтобы

оценки параметров регрессии получились бы возможно более точными.

В принципе, постановка такого вопроса не лишена смысла и в случае

пассивного эксперимента, просто возможностей выбора значений у нас

здесь будет скорее всего меньше, ведь все, что мы в состоянии пред-

принять это решить, включаем мы наблюдаемый эксперимент в наши

данные или подождем до следующего. Будем всюду в этом разделе рас-

сматривать только невырожденные матрицы плана.

Итак, задача поставлена. Естественным критерием надежности оце-

нок коэффициентов являются дисперсии ОМНК ^

 

 

 

 

 

j; j = 1; :::; k ÷åì

меньше эти дисперсии, тем лучше оценки. Но, согласно теореме 6,

^

=

2

(A

1

)j;j; j = 1; :::; k;

D j

 

 

а значит, если мы значения всех факторов Zi заменим на hZi; i = 1; :::; k,

то, поскольку матрица A 1

= (ZZt) 1

заменится на h 2A 1, òî âñå

дисперсии ОМНК уменьшатся в h2 ðàç.

 

 

Это наблюдение приводит к пониманию того, что для корректной

постановки задачи на минимизацию дисперсий необходимо наложить на

строки матрицы Z некоторые ограничения. Обычно такие ограничения

имеют вид

n

 

 

jZ(j)j2 =

 

 

zj;i2 = aj2;

j = 1; :::; k:

(6.8)

 

Xi

 

 

 

=1

 

 

Здесь Z(j) = (zj;1; :::; zj;n) j-я строка матрицы Z.

68

 

Глава 6. Регрессионный анализ

Теорема 9

Если имеют место ограничения (6.8), то при любом выборе

матрицы плана для ОМНК справедливы оценки

 

^

2

 

D j

aj2

; j = 1; :::; k;

причем равенство во всех этих неравенствах одновременно достигается тогда и только тогда, когда строки матрицы Z ортогональны, т.е.

при произвольных i 6= j скалярное произведение Z(i) Z(j) = 0:

Доказательство. Заметим, что из определения матрицы плана и

условий (6.8)

 

.

 

 

.

 

 

 

.

 

1

 

 

 

 

 

 

0

Z(2)

Z(1)

Z(2)

Z(2)

:::

Z(2)

Z(k)

 

a2

~bt

 

 

 

B

Z(1)

 

Z(1)

Z(1)

 

Z(2)

:::

Z(1)

 

Z(k)

C

 

 

 

! ;

 

A =

 

 

 

 

 

 

 

 

 

 

=

~b1

F

 

 

B

 

 

 

 

 

 

 

 

 

 

C

 

 

 

 

 

 

B

 

 

 

 

 

 

 

 

 

 

C

 

 

 

 

 

 

B

Z(k)

 

Z(1)

Z(k)

 

Z(2)

::: Z(k)

 

Z(k)

C

 

 

 

 

 

 

@

 

 

 

 

 

 

 

 

 

 

A

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ãäå ~t

= (Z(1) Z(2); :::; Z(1)

 

 

 

 

~

 

 

 

 

 

 

b

Z(k)), а значит b вектор-столбец размерно-

сти k 1, матрица F получена из матрицы плана вычеркиванием первой строки и первого столбца, а следовательно, является положительно определенной симметричной матрицей. Поскольку определитель

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

0

 

= 1;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

F 1~b

 

 

Ik 1

 

 

 

òî

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

jAj =

 

 

 

2

 

~t

!

 

 

 

F 1~b

 

Ik 1

! =

 

 

 

 

 

 

 

 

 

~b1

 

F

 

 

 

 

 

 

 

 

 

a

 

 

b

 

 

 

 

 

 

 

1

 

 

 

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1~

 

~

 

 

~t

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

a1

 

F

b

 

b

 

b

 

 

 

 

2

 

 

 

1~ ~

=

 

 

0

 

 

 

 

 

 

F

 

 

= (a1

 

F b b)jF j;

откуда

Поскольку

2

>

 

F

1~ ~

a1

 

 

b b:

(A 1)1;1 =

jF j

 

=

 

1

jAj

a12 F 1~b ~b

 

 

 

~
è Z, а значит и
~
Z. Какими же

6.5. Статистический прогноз

 

 

 

 

 

 

 

 

 

 

69

è F 1~b ~b > 0, òî

 

 

 

 

 

 

 

 

 

 

 

 

 

 

^

=

2

(A

1

)1;1

 

2

2

;

 

 

 

D 1

 

 

 

 

a1

 

причем равенство достигается в том и только том случае, когда ~

= 0,

 

 

 

 

 

 

 

 

 

 

 

 

 

b

т.е. когда строка

Z(1) ортогональна всем остальным. Итак, теорема дока-

çàíà äëÿ

 

 

j = 1. Для остальных j доказательство полностью аналогично.

Заметим, наконец, что в случае ортогональных строк Z

 

 

 

 

0 a12

.:::

0

1

 

 

 

 

A = B

0.

 

 

:::..

a.2

C ;

 

 

 

 

 

B

 

 

 

 

k

C

 

 

а значит,

 

 

@

 

 

 

 

 

A

 

 

 

 

 

 

~

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

^j =

Z(j) X

;

j = 1; :::; k:

(6.9)

 

 

 

aj2

 

 

 

 

 

 

 

 

 

6.5Задача статистического прогноза

Рассмотрим задачу, похожую на задачу регрессии. Отличие этих задач будет состоять в том, что в рассматриваемой ниже задаче статистического прогноза случайность вмешивается в наш эксперимент в более общей

форме - на этапе формирования факторов

Z1; :::; Zk.

Предположим, что случайный вектор

~

Z размерности k доступен для наблюдения, а случайная величина X недоступна. Ставится задача уга-

~

дать значение X ïî Z. Любая функция , заданная на k-мерном пространстве, принимающая действительные значения и такая, что мы бу-

~ ~

дем использовать (Z) вместо X, называется предиктором X ïî Z. Äðó-

~

гими словами, предиктор это оценка X ïî Z.

~

В ситуации, когда X не зависит от Z задача прогноза (оценки) X

ïî ~

Z лишена какого-либо смысла. Обычно считается что с теоретиче- ской точки зрения известно совместное распределение X

условные математические ожидания при фиксированном данными мы располагаем на практике?

Допустим, что в нашем распоряжении имеется достаточно обширный архив сведения о том, какие значения принимали факторы и какие значения предсказываемая величина в предыдущих экспериментах. По этим данным разными методами (например, методом подстановки)

70 Глава 6. Регрессионный анализ

можно оценить любые характеристики совместного распределения: MX; cov(X; Zj), j = 1; :::; k и т.п. В частности, если архив достаточно велик,

можно выбрать из него сведения о разных значениях

X при фиксиро-

ванном наборе значений ~

 

 

 

~(0)

 

 

0

 

 

0

 

t

и рассчитать

 

 

 

Z = Z

= (z1

; :::; zk)

 

 

 

 

 

 

 

M (Z~(0))

=

1

 

r

X

 

 

;

 

 

 

 

 

 

r

 

=1

nj

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

jX

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

~(0)

в качестве ~

ãäå r это число выборочных данных с набором Z

Z, à

вернемсяX соответствующиек теоретическойзначенияточке зрения,предсказываемойто считаем,величинычтофункция.Если мы

nj

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

~

(0)

 

 

 

 

 

~

 

 

~(0)

)

 

 

M(Z

 

) = M(X = Z = Z

 

нам известна при каждом значении Z~(0), à M

(:) является ее оценкой.

Эта функция называется функцией регрессии.

 

 

 

 

 

Говорят, что предиктор оптимален (в смысле среднего квадрати-

ческого), если

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

M(

X

 

 

Z~

2 = min M(X

 

(Z~))2:

 

 

 

(

 

 

))

 

 

 

 

 

 

 

 

Теорема 10 Оптимальный предиктор всегда существует и имеет вид

~ ~

(Z) = M(Z), т.е. получается подстановкой случайного вектора наблюдаемых величин в функцию регрессии.

Как становится ясно из приведенных выше рассуждений, эта теорема

имеет чисто теоретическое значение, ведь на практике знание функции

регрессии вещь весьма и весьма нечастая. Задача определения этой

функции непроста даже для нормальных распределений. С другой сто-

роны, справедливость утверждения теоремы совершенно очевидна с гео-

метрической точки зрения см. геометрическую интерпретацию в раз-

деле 2.5. Поэтому эту теорему мы не будем доказывать.

Пусть нам заранее известно, что функция регрессии линейна, т.е. на-

~

= ( 1; :::; k)

t, ÷òî

шлись такие число 0 и вектор

 

~

~

~

 

M(Z) = 0 +

Z:

 

Если бы эти число и вектор нам удалось бы определить, то, согласно теореме, оптимальный предиктор имел бы вид