
- •6. Множественная линейная регрессия 6.1. Определение параметров уравнения регрессии
- •6.2. Расчет коэффициентов множественной линейной регрессии
- •6.3. Дисперсии и стандартные ошибки коэффициентов
- •6.4. Интервальные оценки коэффициентов теоретического уравнения регрессии
- •6.5. Анализ качества эмпирического уравнения множественной линейной регрессии
- •6.6. Проверка статистической значимости коэффициентов уравнения регрессии
- •6.7. Проверка общего качества уравнения регрессии
- •6.8. Проверка выполнимости предпосылок мнк. Статистика Дарбина-Уотсона
6.3. Дисперсии и стандартные ошибки коэффициентов
Знание дисперсий и стандартных ошибок позволяет анализировать точность оценок, строить доверительные интервалы для теоретических коэффициентов, проверять соответствующие гипотезы.
Наиболее удобно формулы расчета данных характеристик приводить в матричной форме. Попутно заметим, что три первые предпосылки МНК в матричной форме будут иметь вид:
1°. М(е) = 0;
2°. D(s) = eft;
3°. К(е) = M(esT) =
149
З
десь
s
—
, I=[l]nxi =
1 0 ... О О 1 ... О
0
0 0 1
... у(
K(8) =
Уе2е1
епе2
Как показано выше, эмпирические коэффициенты множественной линейной регрессии определяются по формуле (6.18)
В = (Xх X)-!XTY.
Подставляя теоретические значения Y = Хр + е в данное соотношение, имеем:
в = (Хтх)~1хт(хр + е) = (хтх)~1(хтх)р + (xTx)~1xTs =
= р + (ХтХ)-1Хтг.
Следовательно, р - В = (XTX)~1XTS.
Построим дисперсионно-ковариационную матрицу
К(р) = М((Р - В)( р - В)т) = M[((XTX)-1XTs)((XTX)-1XTs)T] =
= М(ХТ X) ~1XTSST Х(ХТ X)"1. В силу того, что Xj не являются случайными величинами, имеем:
к(р) = (xtx)-1xtm(sst) х(хтх)~1 = (xtx)-1xVex(xtx)-1 =
(6.21)
= а2(ХтХ)~1 D(ei) = oVjj.
Напомним, что z'~ - j-й диагональный элемент матрицы Z"1 =
= (ХтХ)-!.
Поскольку истинное значение дисперсии а по выборке определить невозможно, оно заменяется соответствующей несмещенной оценкой
n-m-1'
(6.22)
150
где m - количество объясняющих переменных модели. Отметим, что иногда в формуле (6.22) знаменатель представляют в виде п - m - 1 = = n - k, подразумевая под к число параметров модели (подлежащих определению коэффициентов регрессии).
Следовательно, по выборке мы можем определить лишь выборочные дисперсии эмпирических коэффициентов регрессии:
Sj.=
S2
2'й
= £б{
zV
j =
0, 1, ..., m. (6.23)
J n-m-1
Как и в случае парной регрессии, S = VS2 называется стандартной ошибкой регрессии. Sb. = JSb. называется стандартной ошибкой коэффициента регрессии.
В частности, для уравнения Y = b0 + bjXj + Ь2Х2 с двумя объясняющими переменными дисперсии и стандартные ошибки коэффициентов вычисляются по следующим формулам:
1 | xfXC^-Xz^+x^XCXji-xQ2 -2x1x2I(xil -XjXx^ -х2)
^ \2
Z
(xu
-хО'Кх^
-х2)2
-(Х(хи
-хОСха -х2))2
_S?
„
,,, (6-24)
X)
x)2
(I(x
XXx
x))2
о
_ /о2 о
_ /о2 о
_ о*
Здесь г 12 = rx x - выборочный коэффициент корреляции между
объясняющими переменными Xi и Х2.
Ковариация между коэффициентами рассчитывается по формуле:
Cov(bbb2)
= „
. "ri2'So
. . (6.25)
151
6.4. Интервальные оценки коэффициентов теоретического уравнения регрессии
По аналогии с парной регрессией (см. параграф 5.4) после определения точечных оценок bj коэффициентов Pj (j = 0, 1, ..., m) теоретического уравнения регрессии могут быть рассчитаны интервальные оценки указанных коэффициентов. Для построения интервальной оценки коэффициента Pj строится t-статистика
t = ^i, (6.26)
имеющая распределение Стьюдента с числом степеней свободы v = = n-m-l(n- объем выборки, m - количество объясняющих переменных в модели).
Пусть необходимо построить 100(1 - а)%-ный доверительный интервал для коэффициента Pj. Тогда по таблице критических точек распределения Стьюдента по требуемому уровню значимости а и числу степеней свободы v находят критическую точку t6 ,
-, n-m-l
удовлетворяющую условию
P(|t|< t6 ) = P(-t6 <t<t6 ) = l-a. (6.27)
—, n-m-l —, n-m-l —, n-m-l
2 2 2'
6 ^6
—, n-m-l 4, —, n-m-l
2 bj 2
Подставляя (6.26) в (6.27), получаем
или после преобразования P(bj-t6 •Sb<Bj<bj+t6 -Sb) = l-6. (6.28)
J
-,n-m-l
J J J -,n-m-l
J
2 2
Напомним, что Sb. рассчитывается по формуле
Zef Sb, = S-X =\\^^<- (6.29)
n-m-
J
п л
Т
аким
образом, доверительный интервал,
накрывающий с надежностью
(1 - а) неизвестное значение параметра
Pj,
определяется
неравенством
152
bj-tg .Sbj<Bj <bj+t6 -Sb (6.30)
J -,n-m-l J J J -,n-m-l J
2 2
He вдаваясь в детали, отметим, что по аналогии с парной регрессией (см. раздел 5.5) может быть построена интервальная оценка для среднего значения предсказания:
T
2 2
В матричной форме это неравенство имеет вид:
Yp -
(6.32)