Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Назаметдинов Анализ данных 2012

.pdf
Скачиваний:
10
Добавлен:
12.11.2022
Размер:
5.66 Mб
Скачать

Действительно, нормальность aˆ вытекает из линейности оцен-

ки по

~

Поскольку

Maˆ a ,

covaˆ

2

(F F)

1

, то справедливо

 

y .

 

 

(3.12);

 

SR

 

u Gu

представляет собой квадратичную форму стан-

2

2

 

 

 

 

 

 

 

 

 

дартизованных нормально распределенных, независимых случайных величин. Напомним, что для нормальных величин некоррелированность (предпосылка 5(а)) влечет независимость. Доказано

[19], что такая квадратичная форма имеет χ 2 -распределение, когда

Gидемпотентная матрица.

Факт нормальности aˆ , а также независимость aˆ и s2 дают воз-

можность проверять статистические гипотезы, находить доверительные интервалы.

3.5.1. Проверка адекватности

Проверка адекватности является исключительно сложной задачей и, строго говоря, не имеет решения. Всевозможные критерии для проверки правильности спецификации искомой функции регрессии, рассматриваемые далее, могут лишь подтвердить непротиворечивость модели исходным данным, либо отвергнуть гипотетическую форму зависимости как несоответствующую этим данным.

Упорядочим критерии по степени убывания априорной информации о σ2 .

1. Величина σ2 известна из результатов предварительных исследований, либо из других соображений (например, u есть ошибка измерения и характеристики точности измерительного прибора известны). Проверка здесь базируется на (3.13). Задавшись уровнем

значимости q, найдем с помощью таблиц χ 2 -распределения вели-

 

 

 

q

 

q

% -ных точек при

N-(k+1) степенях

чины

100 1

 

%

и 100

 

 

 

 

2

 

2

 

 

61

 

 

2

1

N

i

ˆi

 

2

 

 

 

 

 

 

( y

 

 

свободы. Вычисляется p

 

 

 

 

y

)

 

и сравнивается с таб-

σ

2

 

 

 

 

 

 

 

i 1

 

 

 

 

 

личными значениями 2 .

 

 

 

 

 

 

 

 

 

При χp

2 χT[2

q / 2] расхождение между наблюденными и пред-

сказанными по уравнению регрессии значениями выходной переменной «слишком велико». Уравнение регрессии недостаточно «гибко» следует за данными и его следует отвергнуть.

При χ 2 χ2 отклонения слишком малы; уравнение рег-

p T[1 q / 2]

рессии «слишком чутко» реагировало на случайные возмущения, такое уравнение можно «огрубить», уменьшив число базисных функций.

При χ2 χ2 2 данные не противоречат гипотезе об

T[1 q / 2] T[q 2]

адекватности.

2. Величина σ2 неизвестна, но может быть оценена. Это могут быть, например, опыты по проверке воспроизводимости, когда при одном и том же значении входных переменных имеется несколько наблюдений (для определенности m). Разброс значений выходной переменной в этом случае обусловлен только действием случайного компонента. По этим наблюдениям оценивают дисперсию

sв2 . Для того чтобы сопоставить две оценки дисперсии случайного компонента, находят

Fp (s2 / sв2 )

(3.14)

и сравнивают с табличным значением статистики Фишера при N-(k+1) степеней свободы числителя (ЧССЧ) и (m-1) степеней свободы знаменателя (ЧССЗ) для выбранного уровня значимости q (надежности (1-q) %). Это табличное значение будем обозначать

как FТ [1-q; ЧССЧ; ЧССЗ] либо просто FТ.

Если Fp > FT, то гипотеза об адекватности отвергается (модель слишком грубая). При Fp < FT модель принимается. Однако если при этом Fp<1, то это может указывать на излишнюю «чуткость» уравнения на случайные возмущения.

62

3. Величина σ2 неизвестна, но при

фиксированном значении

аргумента xi (i = 1,2,…, p ) наличествует

mi наблюдений

~i, j

(j =

y

=1,2,…, mi), при этом m1+m2+ … +mp=N. В этом случае уравнение

регрессии строится для y i ,

полученных усреднением наблюдений

в одной и той же точке. При этом статистика

 

 

 

 

 

 

 

 

1

 

p

 

 

 

 

ˆi

 

 

 

1

p

mi

~i, j

 

 

 

 

 

 

 

 

 

i

 

 

2

 

 

 

 

i

 

2

Fp

 

 

mi

( y

 

y

)

 

 

 

( y

y

)

 

p (k 1)

 

 

N p

 

 

i 1

 

 

 

 

 

 

 

 

i 1

j 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

должна приближенно подчиняться F-распределению с числом

степеней свободы

числителя

 

p-(k+1)

и знаменателя

 

N-p. В

 

 

 

 

i

 

 

1

 

mi ~i, j

 

 

 

 

 

 

 

 

введенных обозначениях y

 

 

 

 

y

. Cтрого говоря,

данный

 

m

 

 

 

 

 

 

 

 

 

j 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

подход справедлив, если m1=m2=…=mp. В противном случае, дисперсии средних будут различаться и эффективными будут оценки обобщенного МНК (см. п. 4.5.1).

Дальнейшая проверка происходит так же, как и в п.2.

3.5.2. Оценивание методом максимального правдоподобия

Введение гипотезы о нормальности возмущений дает возможность воспользоваться общестатистическим методом оценивания – методом максимального правдоподобия (ММП).

Покажем, что в этом случае оценки МНК и ММП совпадают. Из

 

 

 

 

~

Fa u и нормальной распреде-

линейности модели регрессии y

ленности возмущений u ~ N(0,σ

2

I)

следует

~

2

I). Плот-

 

y ~ N(Fa,

σ

 

 

 

 

 

 

 

~

 

 

 

ность распределения случайного вектора y равна

 

 

~

2

)

-N/2

exp{–

 

~

~

2

 

 

φ( y )=(2πσ

 

( y

Fa)'( y

Fa) / (2σ )}.

 

Возьмем логарифм

этой

функции,

отбросим

константу

(N/2)ln2π, умножим на 2, что не повлияет на максимизацию. В ито-

ге получим логарифмическую функцию правдоподобия

2

) = – Nln σ

2

~

~

2

ψ(a,σ

 

– ( y

Fa)'( y

Fa)/σ .

Необходимое условие экстремума:

63

Решением

aˆ (F F)

1

~

 

F y

 

1

~

 

a

 

( 2F y

2F Fa) 0 .

2

последнего уравнения и будет оценка ММП , которая совпадает с оценкой МНК.

3.6. Проверка статистических гипотез относительно коэффициентов регрессии

Как уже отмечалось, подобная проверка оказывается возможной при известном законе распределения случайной компоненты, а именно, в предположении нормальности u. В этом случае

(aˆ a) N(0, 2 (F F) 1) ,

а для отдельной компоненты

 

 

 

 

 

 

 

 

ˆ

 

 

2

ˆ

 

 

 

 

 

 

 

 

 

 

 

(ai ai ) N (0,

 

(ai )) ,

 

 

 

где

2

ˆ

 

 

2

cii ,

cii

i

диагональный

 

элемент матрицы

 

(ai )

 

 

(F F ) 1 . Величина σ 2 обычно не доступна, поэтому работают с ее

оценкой

s

2

SR /(N (k 1)) , так что s

2

 

ˆ

s

2

ci i .

 

 

(ai )

 

Отношение

 

ˆ

 

 

ˆ

подчиняется

t-распределению с

 

(ai

ai ) / s(ai )

(N-(k+1)) степенями свободы, т.е.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ˆ

ai

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ai

t (N (k 1)).

 

 

 

 

 

 

 

 

 

 

 

s

aˆi

 

 

 

 

3.6.1. Проверка гипотезы H0: ai=ai0

Задавшись уровнем значимости q (обычно q=0,05) по таблице t- распределения, находят двусторонний квантиль tT [q , N – ( k + 1 ) ]. Тогда (aˆi tT s (aˆi ), aˆi tT s (aˆi )) есть (1-q)%-ный доверительный интер-

вал для истинного значения коэффициента ai . Если ai0 попадает внутрь доверительного интервала, или точнее, интервал накрывает ai0 , то гипотеза принимается. Другая, более распространенная форма проверки H0 : ai ai0 следующая: вычисляют

64

 

 

ˆ

t p

 

ai ai0

 

s ai

 

 

 

 

ˆ

и сравнивают с tT [q , N – ( k + 1 ) ]. При t p > t T H 0 отклоняется.

Если ai0 = 0 , то речь идет о проверке значимости коэффициента

регрессии. При

ˆ

ˆ

tT

коэффициент ai

значимо отклоня-

ai

/ s ai

ется от нуля. Отметим, что в статистических программных пакетах

обычно

 

рассчитывается и уровень значимости qр из условия

 

 

 

 

t p

 

) qp . Если qр<0,05, коэффициент значим.

P(

t

 

 

 

 

 

 

 

 

 

 

 

 

Следует отметить, что проверка гипотезы Н0: аi = 0 важная и ответственная процедура в регрессионном анализе. От ответа на вопрос, считать ли коэффициент значимо отличающимся от нуля, зависит: оставить или исключить соответствующую базисную функцию из уравнения регресии. Проверка статистических гипотез сопровождается появлением ошибок первого и второго рода.

Пусть гипотеза H 0 : ai

0 верна. Оценка

ˆ

ai , являясь величи-

ной случайной с

ˆ

0

и дисперсией s

2

ˆ

) , может отклониться

Mai

 

(ai

от нуля больше, чем на tT s(aˆi ) в обе стороны в q % случаев (q – ма-

лая величина, называемая уровнем значимости). Если это имело место, т.е. t p > t T , то такое событие считается практически невозможным и H0 отвергается, так что соответствующая базисная функция должна остаться в уравнении регрессии. Тем самым совершается ошибка первого рода, приводящая к переизбытку, перебору, базисных функций.

Ошибка второго рода возникает, если истинное значение коэффициента регрессии отлично от нуля, т.е. a i ≠ 0, а статистическая проверка не выявила значимость коэффициента, т.е. принимается,

что ai 0 , а поэтому соответствующая базисная функция исклю-

чается из регрессии. Вероятность совершения такой ошибки не постоянна и зависит от ai. Таким образом, ошибка второго рода ведет к недобору базисных функций в уравнении регрессии. Недобор и перебор базисных функций в уравнении регрессии являются ошибками спецификации и подробно рассматриваются в п. 4.1.

65

Отметим только, что недобор ведет к более «тяжким» последст-ви- ям, чем перебор, порождая смещение в оценках.

Общая рекомендация здесь такая: уровень значимости не должен быть слишком малым, так как при этом повышается веро-

ятность недобора.

 

 

 

 

 

 

 

 

 

 

Вернемся к

численному

примеру

(3.5).

По

полученному

 

 

 

ˆ

4x1

2x1 x2 рассчитаем ожидаемые

уравнению регрессии y 4,5

значения выходной переменной в точках наблюдений:

 

 

 

ˆ

(1)

4,5 4 ( 1)

2 ( 1) ( 1) 10,5 ;

ˆ

(2)

 

ˆ (3)

6,5;

ˆ

(4)

4,5.

y

 

y

 

0,5; y

y

 

Оценка дисперсии случайной компоненты по уравнению регрессии составляет (см. (3.10))

s2=[(9-10,5)2+(2-0,5)2+(7-6,5)2+(4-4,5)2]/(4-3)=5. (3.15)

Дисперсию и стандартное отклонение оценим по (3.11) и сведем в табл. 3.2.

 

 

 

 

 

 

Таблица 3.2

 

 

aˆ i

 

4,5

-4

2

s

2

ˆ i

)

5 20/64=1,56

5 20/64=1,56

5 16/64=1,25

 

(a

s(aˆ i )

1,25

1,25

1,12

 

 

tp

 

4,5/1,25=3,6

|-4|/1,25=3,2

2/1,25=1,6

Применение статистики Стьюдента (последняя строка табл.3.2) правомерно в предположении нормальности возмущений. Посколь-

ку ЧСС=1, то табличные значения оказываются весьма высокими: tт =12,7 при q=0,05, так что ни один из коэффициентов нельзя

признать значимым. Поскольку известны «незашумленные» значения уi (табл.3.1), то можно получить еще одну оценку дисперсии случайной компоненты:

sв2 [(10 9)2 (0 2)2 (7 7)2 (5 4)2 ]/ 4 1,25.

Согласно (3.14) Fр=5/1,25=4. Поскольку Fр<FТ(0.95;1;4)=7,71, то гипотеза об адекватности оцененного уравнения не отвергается.

66

3.6.2. Проверка гипотезы Н: с′a=r

Нередко априорная информация указывает на линейные ограничения, которым должны удовлетворять коэффициенты регрессии. Например, постоянная отдача от единицы масштаба в производственной функции Кобба−Дугласа означает, что сумма эластичностей равна единице. В работе с подобными ограничениями существуют два подхода. Рассмотрим вначале первый из них, который предполагает, что оценивание происходит без учета ограничений, и лишь затем проверяют, будут ли оцененные коэффициенты удовлетворять этим ограничениям в статистическом смысле.

Рассматривается гипотеза H : c a r , где с – известный вектор

констант, а r – известная постоянная. Найдем дисперсию линейной комбинации оценок:

D[c aˆ] M[(c aˆ M[c aˆ])2 ] M[(c aˆ c a)2 ]

M[c (aˆ a)(c (aˆ a)) ] M[c (aˆ a)(aˆ a) c]

c M[(aˆ a)(aˆ a) ]c c covaˆ c 2c (F F) 1c .

Заменяя σ2 на оценку s 2 , построим соотношение, которое удовлетворяет t-распределению с (N-(k+1)) степенями свободы:

 

 

ˆ

c'a

 

 

t

c'a

 

.

 

 

 

 

s c'(F ' F ) 1c

 

 

 

Заменяя в последнем выражении

c a на r, вычисляют tp , после

чего сравнивают с табличным значением tT q,N (k 1) при выбран-

ном уровне значимости q (обычно 0,05) и ЧСС, равном N-(k+1). При tp tТ гипотеза H отвергается.

Второй, альтернативный, подход предполагает, что ограничение учитывается в процессе подгонки так, чтобы оцененные коэффициенты точно ему удовлетворяли. Тем самым осуществляется инкор-

порирование априорной информации в процедуру оценивания.

Рассмотрим этот подход в общем виде, полагая, что линейных ограничений может быть несколько [4]. Запишем эти ограничения так:

67

D∙ a = r,

(3.16)

где D – известная матрица порядка m(k+1), r – известный векторстолбец, состоящий из m элементов (m – число ограничений). Пусть, например, необходимо инкорпорировать два ограничения, а

именно a1 a4 и

a3 3a4 a5 1. Положим

 

 

 

 

0

1

0

0

1 0

0

 

 

0

D

0

0

1

3 1

0

 

,

r

1

.

0

 

 

 

 

 

 

 

 

 

 

 

 

 

Минимизацию суммы квадратов отклонений при наличии огра-

ничений проводят на основе функции Лагранжа:

~

~

Faˆr ) (r Daˆr ) ,

L ( y

Faˆr ) ( y

где через aˆr обозначены оценки с учетом ограничений, а через λ –

вектор неопределенных множителей. Приравняв нулю соответствующие первые производные, получим:

 

 

L

 

 

~

 

r

 

 

 

 

0

.

 

(3.17)

 

 

aˆ

 

 

 

 

 

 

 

r

 

2F y

 

2F Faˆ

 

D

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ˆ

 

 

 

 

 

 

 

 

 

 

из кото-

Выразим отсюда ar и подставим в ограничение (3.16),

рого

найдем 2 [D(F F) 1 D ] 1(r Daˆr ) .

Подставим теперь λ в

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ˆ

 

(3.17) и найдем отсюда окончательное выражение для ar :

 

 

 

 

 

aˆr aˆ (F F) 1 D S(r Daˆ) ,

 

где

S [D (F F) 1 D ] 1 , aˆ – оценка МНК без ограничений.

 

Можно показать [4], что остаточная сумма квадратов Sr

регрес-

сии с ограничениями есть

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Sr SR (r Daˆ) S(r Daˆ) ,

 

где

S R соответствует сумме квадратов отклонений оценки МНК

без учета ограничений.

 

 

 

 

 

 

 

 

 

 

 

В предположении нормальности возмущений статистика

 

F

(r Daˆ) S (r Daˆ) / m

 

 

(Sr SR ) / m

(3.18)

 

 

SR /(N (k

1))

 

 

s2

 

 

 

 

 

 

 

 

 

 

 

подчиняется F-распределению с [m, N-(k+1)] степенями свободы, что дает возможность проводить статистические проверки.

68

3.6.3. Проверка гипотезы Н0: а12=…=аk=0

Рассматриваются две конкурирующие модели:

“длинная” y

a0 a1

f1(x

) ... ak

fk (x

) u

 

(3.19)

~i

 

 

 

i

 

i

 

i

 

и “короткая”

~i

 

i

.

 

 

 

 

(3.20)

y

a0 u

 

 

 

 

Модель (3.20) называют также моделью среднего, поскольку для

 

 

 

 

 

 

 

 

 

 

ˆ

 

 

 

N

 

~i

. Модель среднего является, по сути дела,

нее a0 y 1

 

y

моделью

с

 

 

k

ограничениями (a1=a2=…=ak=0), а

значит,

~i

y)

2

.

 

 

 

 

 

 

 

Sr (y

 

 

 

 

 

 

 

 

Оценим модель без ограничений (3.19) и найдем S R .

 

Вычисляем

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Fp

(Sr SR ) / k

(3.21)

 

 

 

 

 

 

 

SR /(N (k 1))

 

и сравниваем с табличным значением F -распределения при выбранном уровне надежности (обычно 95%) FT [1 q,k ,N (k 1)] . При

Fp >FT гипотеза H0:a1=a2=…=ak=0 отвергается, в противном случае, принимается. Подобную проверку часто называют проверкой на значимость уравнения регрессии (3.19) в целом.

Выражение (3.21) может быть представлено в иной форме с использованием коэффициента детерминации R2 (см. п. 3.7).

Аналогично, проверка на значимость нескольких (для определенности l ) коэффициентов сразу приводит к статистике

Fp

(Sr SR ) / l

,

SR /(N (k 1))

где S R – остаточная сумма квадратов “длинной” регрессии с числом базисных функций (k+1), Sr – остаточная сумма квадратов “короткой” регрессии, где l базисных функций опущены. При Fp FТ [1 q;l;N (k 1)] гипотеза о равенстве нулю l коэффициентов регрессии отвергается.

69

3.6.4. Тест Чоу

Одним и тем же образом специфицированная модель подгоняется по двум наборам данных. Являются ли регрессии, построенные по этим двум выборкам, одинаковыми? Положительный ответ на этот вопрос позволил бы объединить наборы данных и рассматривать единую модель регрессии. Приведем формальную запись.

Имеются две регрессии: ~

 

 

(3.22)

 

y~1 F1a1 u1,

 

 

~

y2 F2a2 u2

~

 

(3.23)

где y1 и u1

– векторы размерности N1;

y2

и u2

– векторы размерно-

сти N2; F1

– матрица размерности N1×(k+1);

F2 – матрица значе-

ний тех же базисных функций размерности N2×(k+1); a1

и a2

векторы размерности (k+1).

Векторы

u1

и u2 независимы и

нормально распределены.

 

 

 

 

 

 

Модель без ограничений можно представить в виде

 

~

 

F1

0

a1

 

u1

 

 

y1

(3.24)

~

 

 

 

 

 

 

 

y2

 

0

F2

a2

 

u2

 

 

Для этой регрессии проверяется гипотеза Н: а12. В рамках данной гипотезы матрица D и вектор r примут вид:

1

0

0

1

0

 

 

0

 

1

D 0

1

0

 

 

 

 

 

 

 

 

1

 

 

0

0

0

0

 

0

 

 

 

0

 

 

 

, r = 0.

 

 

 

 

 

 

 

 

1 (k 1) 2(k 1)

 

Регрессия с ограничениями, для которой справедлива гипотеза

Н: а12, может быть записана так:

 

 

 

~

 

F1

 

u1

 

 

 

y1

,

(3.25)

~

 

 

a

 

y2

 

F2

 

u2

 

 

 

где a a1 a2 .

Остаточная сумма квадратов регрессии с ограничениями (3.25) есть Sr . Для полной регрессии (3.24) S R есть

70