
книги из ГПНТБ / Сирл, С. Матричная алгебра в экономике
.pdfЭти допущения относительно элементов е дают нам возможность
найти ожидаемые значения и дисперсию Ь, а также оценку о2. Как будет показано в параграфе 4 этой главы, для того чтобы рассмотреть
критерии существенности, относящиеся к в, нам необходимы дополни тельные предположения о точной форме распределения вероятностей элементов е.
б) ОЖИДАЕМЫЕ ЗНАЧЕНИЯ И ДИСПЕРСИИ
Ожидаемое значение у есть ХЬ\ так как при у = ХЬ А- е математи ческое ожидание у равно Е (у) = Е (Xb + е) = Xb + Е (ё) и поскольку Е (е) =; 0, то
Е (у) = ХЬ. |
(15) |
Оценка будет несмещенной, если ее математическое ожидание равно оцениваемому параметру. Оценка b несмещенная, так как К (Ь) = Ъ.
Поскольку Ъ = (Х'Х) 1 Х'у, то, используя выражение (15) |
для |
Е (у), получим |
|
Е (Ь)= Е [(Х'Х)-1 Х'г/] = (Х 'Х )'1 Х'Е (у) = (Х'Х)-1 Х 'Х Ь ^Ь . |
(16) |
Мы покажем теперь, что ковариационная матрица Ъравна (Х 'Х )-^2.. По определению ковариационная матрица Ь равна:
var ( Ь )Е [S— E (Ь)] |
f 6— Е ( Ь ) \'= Е (6— b) (b— Ь)'. |
||
Теперь, поскольку у = ХЬ + |
е, получим |
|
|
Ь — Ь = (Х'Х)-1 X' (ХЬ + е) — Ъ = (Х'Х)-1 Х'е, |
|
|
|
поэтому |
|
|
|
var (в) = ЕЦХ'Х)-1 X' ее'X (Х'Х)-1] = (Х'Х)-1 |
Х'Е (ее') X |
||
X X (Х'Х)-1 = (Х'Х)-1 Х'оЧХ (Х 'Х )-1 = (Х'Х)-1 |
о2. (17) |
||
Таким образом, обратная матрица (Х'Х)-1, взятая |
для |
получения |
Ь, определяет также дисперсии и ковариации элементов Ь1 ; дисперсии и ковариации, необходимые для испытания существенности, рассмат риваются в параграфе 4 данной главы.
в) ОЦЕНИВАНИЕ ДИСПЕРСИИ ОШИБКИ
Сумма квадратных отклонений наблюдений переменных у от их оцененных значений была названа суммой квадратов ошибок:
SSE ^ Y (уi - у i f ^ {у~ у ) (у — у)=-ё’ ё.-
г= 1
1Оценки способом наименьших квадратов часто называются наилучшими несмещенными линейными оценками. Они линейны относительно переменных у (см. (7)) и являются несмещенными (см. (16)) и наилучшими в том смысле, что, как это можно показать, имеют наименьшую дисперсию любой оценки.
270
Обычная расчетная форма получается заменой у на ХЬ, что дает
SSE = {у — ХЬ)' (у —ХЬ) ~ у ' у — 2Ь' Х'у-\- |
Ь’ Х 'Х Ь |
и |
|
SSE —у' у —2 b' Х ' у Х b' (X' у), |
|
поскольку Х'Хв = Х'у (нормальные уравнения). Отсюда |
|
^SSE = у ' у - У Х'у. |
■ (18) |
Этот результат оказывается полезным, так как у'у есть общая сумма
квадратов наблюдений у и Ъ'X' у есть сумма |
произведений элементов |
||
вектора Ь на правые стороны нормальных |
уравнений |
Х ’Хв = Х'у, |
|
на основе которых получают Ь. |
|
|
|
Другая полезная для |
расчета SSE форма получается при замене |
||
£ в (18) на (Х'Х)-1 Х'у. |
Тогда |
|
|
SSE = |
у' [I — X (Х'Х)-1 |
Х'1 у, |
(19) |
где матрица [/ — X (Х'Х)-1 X'] является идемпотентной (см. раздел б параграфа 3 главы VTI), т,- е.
[I — X (Х'Х)-1 Х '\2 = I — X (Х'Х)-1 X'. |
(20) |
Величина SSE, полученная по (19), такова, что она дает несме щенную оценку о2 — дисперсии случайной ошибки модели. Введя у = ХЬ + е в (19), получим
SSE = (Ь’Х' + |
е') [I — X {Х'Х)-1 X'\ |
{ХЬ + ё), ■ „ |
а поскольку X' [I — X |
(Х'Х)-1 X'] равно нулю, |
то |
SSE = |
е' II — X (Х'Х)-1 X')] е. |
|
Отсюда можно показать1, что при var (а) — ст2/ |
V |
|
Е (SSE) = {п — k) о2. |
|
|
Следовательно, |
S S F |
' |
|
(21) |
|
|
о2— — — |
п —k
есть несмещенная оценка о2, где п — число наблюдений и k — число переменных х.
г) МОДЕЛЬ СО СВОБОДНЫМ ЧЛЕНОМ
Полученные результаты за одним исключением (21) применимы к модели у = ХЬ + е вне зависимости от того, имеет она или не имеет свободного члена. Однако в первом случае некоторые результаты, имею-
1Поскольку |
е — вектор случайных переменных, |
у которых |
Е (ё) — 0 и |
Е{ее')= а2/, то, |
согласно теореме Грейбилла, получим |
Е (е'Ае) ~ |
га2, причем |
Л2= А и ранг матрицы А равен г (см. параграф 3 главы XIII). |
|
271
щие отношение к свободному члену, могут быть получены непосредст
венно, а не как часть вектора Ь. Таким образом, записав модель со свободным членом как у = Х*Ь* + е, мы определим X* и Ь* в (10)
через X и Ь. Выражение оценок Ь* = (Х*'Х*)-1 Х*'у через X и использование Ъ = (Х'Х)-1 Х'у приводят к непосредственному опре делению свободного члена Ь0и, что более важно, к определению вектора
Ъ, независимого от свободного члена. Эти результаты важны, посколь ку они представляют собой подходы, используемые в большинстве программ регрессионного анализа, реализуемых на ЭВМ.
Здесь мы просто констатируем эти результаты; что касается выводов, то их можно сделать, выполнив упражнение 11. Прежде всего опреде
лим у как среднюю арифметическую на блюдений у и введем вектор средних наблюдений w:
Можно показать, что- |
w' |
•= [хг х г |
... xh\. |
|
(22) |
|
|
|
|
|
|
||
|
Ь - - ( Х ' Х —nww')~x(X 'y —nyw); |
(23) |
||||
|
var (b) = ( X 'X —nww')-1о2; |
|
(24) |
|||
|
|
cov (b, у ) = 0; |
|
(25) |
||
|
|
b0— у — хю'Ъ\ |
|
(26) |
||
var |
(b0) = |
+ |
w' (X'X — nww')-1 |
о2; |
(27) |
|
cov |
(b0, |
b) = |
— (X 'X |
— nww')-1 |
wo2\ |
(28) |
SSE = y'y — b*’ X*' у =■--у ’у — ny2 — b' (X ’y — nyw). |
(29) |
|||||
Особенно важны выражения (23), |
(24) и (29). Исходя из существа |
вектора w, определенного в (22), следует, что nww' есть матрица, чьи элементы представляют собой поправочные коэффициенты для сумм квадратов и произведений переменных х, которые являются элементами матрицы Х'Х . Отсюда Х 'Х — nww' есть матрица скорректированных сумм квадратов и произведений переменных х. Аналогично этому Х'у —
— nyw есть вектор скорректированных произведений переменных хи у. Таким образом, (23) и (24) представляют собой точно такие же формы,
чтоб = (X' X)"1 Х'у и var (b) = (Х'Х)-1 ст2, полученные в (7) и (17). Отличие заключается лишь в применении скорректированных сумм квадратов и произведений вместо нескорректированных этих величин. Аналогично этому (29) — точно такая же форма, что и SSE = у'у —
—Ь'Х'у в (18), в которой использованы скорректированные величины.
Следовательно, записанные |
в символах |
формы b = (Х'Х)-1 Х'у, |
||
var (b) = (Х'Х)-1 о2 и SSE = |
у ' у — Ь'Х'у |
применимы как для моде |
||
ли со свободным членом, |
так и для модели без него. |
В обоих случаях |
||
они дают оценки (и их |
ковариационную |
матрицу) |
коэффициентов |
' 272
регрессии, а также сумму квадратов ошибок SSE. В случае, если нет свободного члена, Х 'Х .и Х'у представляют собой нескорректи рованные суммы квадратов и произведений, тогда как при наличйи свободного члена они будут скорректированными суммами.
Оценивая с помощью (18) или (29) о2 для модели со свободным чле ном, мы должны внести поправку в уравнение (21), которое применимо для модели без свободного члена. Модель о свободным членом можно представить, введя искусственную переменную x i0 в (8), как модель без свободного члена с k + 1 переменной. Следовательно, для модели со свободным членом, определяя SSE с помощью (18) или (29), можно записать
а2 |
SSE |
(30) |
|
п —k — 1 |
|
Пример (продолжение). В (12) Ь* было найдено непосредственно
как (Х*'Х*)-1 Х *’у. Теперь определим элементы Ь0 и b этого вектора с помощью только что рассмотренных формул. Для имеющихся данных получим
2 # i ^ 8 1 ; |
2 |
Mi = !3; |
2*22^19; |
|||||
I У\ -1123; |
2 * п = 3 5 ; |
\Д?2 = 87; |
||||||
Ц Уг Хп = 189; |
Z x n xi2=--54; |
% угх12=--283. |
||||||
Следовательно, w’ = [хг |
х2]= |
[ 13 |
|
191» |
|
|
|
|
|
|
6 |
|
6 |
|
|
|
|
|
3 5 - |
132 |
|
|
54 |
13- |
||
(Х'Х—nww')~1 = |
■V |
6 |
|
|
|
6 |
||
|
|
13 • |
19 |
|
87— 192 |
|||
|
54 |
|
|
|||||
|
|
|
|
6 |
|
|
6 |
|
1^ 1 |
с |
—1 |
|
|
161 |
77 ~ |
||
I |
|
|
|
|
||||
|
-С- |
|
|
|
|
|||
"б |
| |
|
|
|
|
|
112 |
112 |
6 |
|
|
= |
|
|
|||
77 |
161 |
|
|
|
|
77 |
41 |
|
6 |
6 |
|
|
|
|
|
112 |
112 |
|
_ |
|
189 — 13-81 ~ |
“ 81 |
||||
|
|
|
|
|
6 |
|
6 |
|
у —nyw = |
|
283 — |
19-81 |
— 159 |
||||
|
|
|
6 |
|
L 6 |
|||
|
|
|
|
|
|
|
||
Из соотношений (23), (31) и (32) следует, что |
||||||||
161 |
_ |
77 |
” |
“ |
81 |
~ |
“ |
133“ |
112 |
|
112 |
|
|
6 |
|
|
112 |
Ь = |
|
41 |
|
|
159 |
|
|
47 |
77 |
|
|
|
|
|
|||
112 |
|
112 |
|
_ |
е |
_ |
|
112 |
(31)
(32)
(33)
273
и и з (2 6 ) и (3 3 ) — ч т о
|
|
|
133 |
|
81 |
_13_ |
J9 |
112 |
1075 |
6 |
6 |
6 |
47 |
- 112 |
|
|
|
112 |
|
Эти значения корреспондируют значению Ь*, полученному в (12). Аналогично на основе (27) и (31) имеем
var(b0 |
■13 |
19 |
1 |
|
6 г _ 6 |
6 |
112 |
||
|
"161 — 77'
—77 41J
- 13 “
6 129
19 тт^
6
и с помощью (28) и (31) получим
cov (b0, b) = |
161 |
—77 |
|
-7 7 |
41 |
||
112 |
' 13 |
|
|
105_ |
6 |
о |
= |
112 |
19 |
а 2 |
37 |
|
|
|
||
6 |
|
|
112 |
Применение (24) и (31) дает |
|
|
|
var(b)= |
161 |
— 77 |
|
-7 7 |
41 |
||
112 |
|||
Эти результаты полностью совпадают с выражением |
|||
var (b*) = |
(А*' А*)-1 а 2, |
||
аналогичным (17), в которое введено |
(А*'А*)-1, как это показано |
в (И).
Наконец, из (29) при условии (33) и (32) следует, что
SSE |
1,123 — |
812 |
133 |
А7_ |
6 |
159 |
|||||
|
|
6 |
112 |
112 |
|
|
|
|
|
|
6 |
|
177 |
3 041 |
_ 263 |
|
(3 4 ) |
|
6 |
112 |
112’ |
||
|
|
274
и, таким образом, на основе (30) получим
263 . „ |
263 |
( 3 5 ) |
(>- —'— / 3 - ■— . |
||
112 |
336 |
|
4. КРИТЕРИИ СУЩЕСТВЕННОСТИ
До сих пор единственное допущение, которое было сделано относи тельно члена модели, характеризующего ошибку, заключалось в том, что они случайные и имеют некоторое распределение с Е (е) = 0 и Е (ее') = о2/; допущение о точной форме распределения принято не было. Если правдоподобно полагать, что это распределение нормаль ное, т. е. что ошибки нормально распределены, имеют нулевую среднюю и ковариационную матрицу а2/, то можно осуществить проверку суще ственности, тесно связанную с регрессионным анализом.
а) АДЕКВАТНОСТЬ МОДЕЛИ
Уравнения (6), (13) и (14) образуют вместе модель, которую мы рас сматривали до сих пор. Можно задать следующий вопрос, получая
оценки Ь на основе (7) или (23) и (26): насколько адекватна эта модель самим данным? Поскольку оценки Ь дают возможность оценить (или
предсказать) значения зависимой переменной, а именно у = ХЬ, то на этот вопрос можно ответить с помощью статистики, измеряющей взаимосвязь между наблюдениями переменных у и предсказанными их значениями. Коэффициент корреляции, иногда называемый коэфг
фициентом |
множественной корреляции, |
обозначается символом R) |
В практике |
чаще пользуются квадратом |
коэффициента корреляции |
R2, называемым коэффициентом детерминации. Он измеряетдолю общей дисперсии значений у, которая объясняется подобранной мо делью.
Так как R есть мера взаимосвязи, то коэффициент детерминации R 2 всегда находится между нулем и единицей. Чем ближе он к единице, тем лучше модель объясняет данные. Ддя испытания существенности модели может быть применено испытание, основанное на величине S2 и
свойствах Е-распределения1. |
Выражения для нахождения R 2 и Е-ста- |
||||
тистики |
показаны |
в табл. |
2 (см. стр. 276). |
|
|
Выражение для |
R2 |
в модели без свободного члена получено путем |
|||
записи |
R 2 как — ^ |
у) , |
замены у на |
ХЬ = X (Х'Х)-1 Х'у и |
|
|
(У’у) (у'у) |
упражнение 8). |
Вывод Е 2 для модели со |
||
упрощения результата |
(см. |
свободным членом содержится в параграфе 9.10 книги Сирла [10J. Величины Е, показанные в табл. 2, имеют Е-распределение с ука занными там же числами степеней свободы (D. F.). Они и представ
ляют собой критерии адекватности изучаемых моделей.
'См., например, [2, с. 109].
2 7 5
Т а б л и ц а 2
R 2 и F для регрессионной модели с п наборами наблюдений и k независимыми переменными х
С т ат и ст и к а |
М одель без свободного |
|
члена |
||
|
Коэффициент мно жественной кор реляции R
Сумма квадратов ошибок SSE
Коэффициент де терминации Rа
К-статистика
Число степеней свободы F
? = ЪУгУ1
~ Y ' Z y ? ( l y * )
SSE = у ' у —Ъ ' Х ' у
[уравн. (18)]
г ( n - k ) R * t ~ k ( l - R 2)
( k , n —k)
М одель со свободным членом
2 (t/г y) (yt—y)
R =
У ш - уГ Ы уг-У?\
SSE = y ' y — n y 2 —b ' ( x ' y —n y w j
[уравн. (29)]
SSE
£2= 1— ;----- =T
y ' y — ny *
( n - k - l ) R * k(l-RZ)
( k , n —k —1)
б) ДИСПЕРСИОННЫЙ АНАЛИЗ
Расчет F-критериев обычно обобщается в таблице дисперсионного анализа.
Сумма квадратов наблюденных значений у есть у'у, а скорректиро
ванная сумма квадратов равна у'у — пу2. С этими обозначениями со ответственно запишем общую сумму квадратов (SST*) для двух видов модели:
SST = у'у для модели без свободного члена |
(36) |
иSST = у'у — пу2 для модели со свободным членом.
TenepbSSF= 2 (yt—г/,)2 есть сумма квадратов отклонений наблю денных у от их предсказанных значений. Поэтому разность между
SST и SSE, а именно SSR**
SSR = SST — SSE
представляет собой ту часть SST, которая относится к подобной регрес сии. Применяя (36) для SST и величину SSE, показанную в табл, 2, находим
SSR = Ь'Х'у для модели без свободного члена |
(37) |
и SSR=fr' (Х'у—nyw) для модели со свободным членом. Величина SSR обычно называется суммой квадратов, объясняемой регрессией. Эта сумма относится ко всей модели без свободного члена; в модели со свободным членом она связывается с регрессией на пере менные х (исключая влияние средней).
Расчленение таким путем SST на две части (SSR и SSE) — ос новной процесс 'дисперсионного анализа. Обычно этот процесс обоб
* SST — total sum of squares. — Прим, перев.
**SSR— sum of squares due to regression.— Прим, перев.
2 7 6
щается в таблице дисперсионного анализа. В табл. 3 показаны два варианта схем дисперсионного анализа — для модели без свободного члена и для модели со свободным членом. Хотя вывод показателей этих таблиц начинался с расчета SSE, a SSR определялся как SST —
— SSE, вычисления более удобно основывать на SSR, определяя SSE как SST — SSR. Такой подход вызван легкостью расчета SSR, как это показано в (37).
|
|
|
|
|
|
Т а б л и ц а 3 |
|
|
Дисперсионный анализ при k независимых |
переменных |
|||||
|
|
М одель без свободного |
М одель со |
свободным членом |
|||
И сточник |
вариации |
|
члена |
||||
|
|
D . F . |
|
|
|
||
|
|
D . F . |
(сумма кв ад р ато в |
| |
сумма |
квадратов |
|
Регрессии |
на k |
k |
SSR = b ' X ’y |
k |
SSR = |
b' (X'y — nyw) |
|
х-ов |
|
n — k |
SSE = SST — SSR |
n — k — 1 |
SSE = SST — SSR |
||
Ошибка |
|
||||||
Итого |
|
n |
SST = y ' y |
n-— 1 |
SST = y ' y — ny2 |
Вспомним нормальные уравнения, на которых основывались оценки
Ъв (7) |
и (23); |
|
Х'ХЬ' — Х'у для модели без свободного члена (38) |
и |
(Х'Х — nww') 8' = Х'у — nyw для модели со сво |
|
бодным членом. |
Величина SSR в (37), таким образом, есть сумма произведений 8 с пра выми сторонами уравнений, на основе которых определяется Ь, отсюда каждое выражение (37) легко подсчитывается. В связи с этим в табл. 3 SSK определяется так, как это показано в (37), и SSE — как SST — —SSR. Величину R2 можно определить для обеих моделей на основе табл. 2 и 3 как
R 2 |
SSR |
(39) |
|
SST |
|||
|
|
||
Следовательно, коэффициент детерминации |
R2 представляет собой |
долю общей суммы квадратов, которая учитывается подобранной
регрессией (для модели со |
свободным членом, исключая влияние |
|||
средней). Кроме того, |
поскольку из (21) и (30) следует |
|
||
|
SSE |
для |
модели без свободного члена |
|
|
о2 = ---- |
|
||
и |
п— k |
|
. |
(40) |
|
|
|||
- |
SSE |
для |
модели со свободным членом, |
|
а2 = |
---------- |
|
п—k— 1
то из табл. 2 и 3 видно, что для обеих моделей |
|
ko2 |
(41) |
|
2 7 7
Часть табл. 3, относящаяся к модели без свободного члена, основная, она представляет собой исходную позицию для разработки ана логичной части таблицы, относящейся к модели со свободным членом. Соответствующие обобщения рассматриваются в разделе д параграфа 4. В связи с тем, что наиболее часто применяется модель со свободным членом, дальнейшее обсуждение ограничивается Только этой моделью.
Пример (продолжение). Вернемся к анализу ранее рассмотренного примера, полагая, что модель со свободным членом имеет 2 независи мые переменные. Для расчета табл. 3 необходимо определить
SS1R . |
V (X ' у — пут) - |
||
|
|
81 _ |
|
113 |
47 |
6 |
3 041 |
112 |
112 |
159 |
112 |
|
|
6 |
|
и
SST //'//. nif1 1 123— — — — .
Отсюда |
|
6 |
6 |
|
177 |
3041 |
263 |
||
SSE = SST —SSR |
||||
IT |
112 |
112 ’ |
||
|
как это и было получено ранее в (34). Таким образом, для данного примера получим следующие результаты (см. табл. 4). По формулам (39), (40) и (41), взяв данные табл. 4, получим
/— — 0,92;
11 2 / 6
—/ (6—2 — 1) = — - 0,78.
112/ |
336 |
Т а б л и ц а 4
Дисперсионный анализ (модель со свободным членом)
И сточник вариации D . F . Сумма квадратов
Регрессия |
2 |
|
SSR = |
3041/112 |
|
Ошибки |
3 |
|
SSE = |
263/112 |
|
Итого |
5 |
|
SST = |
117/6 |
|
р |
_ 3 041 |
|
/ 2 (263) __ 3 (3 041) _ |
j 7 |
3 |
|
112 |
/ |
336 ~~ 2 (263) |
|
’ |
F -статистики имеют распределения с двумя и тремя степенями свобо ды; табличное значение этих статйстик при 5%-ном уровне равно 9,55. Отсюда, поскольку 17,3 >■ 9,55, мы можем заключить, что при 5%-ком уровне существенности гипотеза о том, что Ьг = Ь2 = 0 должна быть отвергнута.
2 7 8
в ) П О Д М Н О Ж Е С Т В А П ЕРЕМ ЕН Н Ы Х
Предположим, что подмножество, состоящее из р переменных х, представляет вторичный интерес по сравнению с остальными k — р переменными. Тогда у нас может возникнуть намерение проверить, вносят ли эти р переменных существенный вклад в регрессию помимо k — р переменных. Для того чтобы осуществить это, мы подбираем две модели: сумму квадратов регрессии назовем SSRft для первой, содержащей k переменных х, и SSRfe_p для второй модели с k — р переменными х. Тогда для испытания того, являются ли р пере менных среди всех k переменных существенными для регрессии, подсчитаем
р _ ( f l - A - l ) ( S S R ft- S S R ft-p) |
|
,42ч |
р (SST — SSR/j) |
‘ |
^ > |
Этот критерий имеет f -распределение с р и п — k — 1 степенями сво боды. Расчет F может быть обобщен и представлен в таблице диспер сионного анализа (см. табл. 5).
|
|
|
|
Т а б л и ц а 5 |
|
Дисперсионный анализ для модели со свободным членом: |
|||
|
|
(испытание р из k переменных) |
|
|
И с т о ч н и к в а р и а ц и и |
D . F . |
С у м м а к в а д р а т о в |
||
Регрессия |
на |
k —р, пере |
k — p |
SSR^_р |
менных |
|
|
|
|
Регрессия |
на р |
переменных |
Р |
SSRa—SSR^_p |
Ошибка |
|
|
п — k — 1 |
SST —SSRft |
|
Итого |
|
п — 1 |
SST |
Расчет трех требующихся для анализа величин осуществляется следующим образом: обычным путем определяются SST = у'у — пуг
и SSRfe = Ь'Х'у. Третья величина SSRp определяется косвенно как. разность'SSRh — SSRft_p (см. вторую строку табл. 5). Рассмот рим теперь р переменных х, чья существенность испытывается. Пусть соответствующие им коэффициенты b состоят из р последних элемен
тов вектора Ь. Теперь разобьем Ь следующим образом:
b ' - r r [ b k ^ p |
b p ] , . |
где bp представляют собой исследуемые оценки. Кроме того, разобьем
обратную матрицу (Х'Х)-1 соответственно разбиению Ь. Для упроще ния записи при выполнении этой операции введем символ Т вместо (Х 'Х )-1 и получим2
Tl |
rr |
T |
r p |
|
(X' Х)-1 = Т |
|
1 |
|
|
|
|
|
|
|
T |
p r |
T |
p p |
J |
x |
|
2 79