
Lektsia_06_new_MS_end
.pdf
|
20 |
m−1 |
|
fa (x) = ∑βk ψk (x) , |
(6.23) |
k=0 |
|
где некоторые из базисных функций ψk (x) могли быть включены в модель регрессии ошибочно, т.е. на самом деле отклик Y от этих ψk (x) не зависит и потому соответствующие коэффициенты βk должны быть равны нулю. Однако может оказаться, что полученные по формуле (6.7) значения МНК-оценок βˆk отличны от нуля, хотя обычно к нулю и близки.
Проверка значимости коэффициента βk означает проверку гипотезы
H0 : βk = 0 против альтернативной статистической гипотезы H1 : βk ≠ 0 . Ко-
эффициент βk считают значимым, если верна гипотеза H1 .
В общем случае могут возникать более сложные гипотезы, например гипотеза H0 : β1 = −β2 = β , означающая, что β1 +β2 = 0 . Такая гипотеза уме-
стна, когда есть подозрение, что действует не каждый из факторов X1 и X2
по отдельности, а только их разность, т.е. вместо комбинации β1X1 +β2X2 в
модель нужно включить выражение β(X1 −X2 ) .
Статистические гипотезы, которые включают утверждение о линейной комбинации параметров βj , j = 0, m −1 , называют линейными гипотезами.
Они обычно вытекают из знаний экспериментатора или его предположений относительно возможных моделей. Под проверкой значимости параметров модели регрессии в этом случае понимают проверку всех возможных линейных гипотез.
Мы ограничимся здесь проверкой линейных гипотез двух типов:
1) гипотезы H0 : β0 = β1 =... = βm−1 = 0 против альтернативной гипотезы
H1 , согласно которой βk ≠ 0 хотя бы для одного номера k , k = 0, m −1 ;
2) гипотезы H0k : βk = 0 против альтернативной гипотезы H1k : βk ≠ 0 ,
рассматриваемых для некоторого фиксированного номера k , k = 0,m −1 . Если гипотеза верна, то модель регрессии называют незначимой, т.е.
условное математическое ожидание отклика M(Y | x) = y(x) = β0 постоянно и

21
не меняется с изменением x . В противном случае модель регрессии назы-
вают значимой.
Гипотезы второго типа связаны с анализом конкретного коэффициента βk . Если гипотеза H0k принимается, то коэффициент βk незначим и может
быть удален из модели.
Рассмотрим критерий проверки гипотез первого типа. Исходя из пред-
положений о случайных величинах Yi , |
i = 1, n , сделанных в начале пара- |
|||
графа, можно показать, что статистики |
|
ˆ T |
ˆ |
|
Ql (Yn ) =(Y −Y ) |
(Y −Y ) (остаточ- |
|||
ˆ |
|
T |
ˆ |
|
|
|
|||
ная сумма квадратов) и Qf (Yn ) =(Y −IY ) |
(Y −IY ) являются независимыми |
случайными величинами. Здесь Y – матрица отклика линейной регресси-
|
|
|
|
ˆ |
|
|
|
|
|||
онной модели (6.6), Y – матрица МНК-оценок средних значений отклика и |
|||||||||||
|
|
– выборочное среднее отклика. |
|
|
|
|
|||||
Y |
|
|
|
|
|||||||
|
|
Раскрывая матричное представление статистик Ql (Yn ) и Qf (Yn ) заклю- |
|||||||||
чаем, что: |
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
n |
n |
|
|
|
|
|
|
|
|
|
|
|
ˆ 2 |
ˆ |
|
|
2 |
|
|
|
|
||||||||
|
|
|
|
Ql (Yn ) = ∑(Yi −Yi ) , Qf (Yn ) = |
∑(Yi |
−Y ) . |
|||||
|
|
|
|
|
|
i=1 |
i=1 |
|
|
|
|
|
|
Статистика |
|
Ql (Yn ) |
имеет распределение χ2 с числом степеней свободы |
||||||
|
|
|
|
||||||||
|
|
|
|
σ2 |
|
|
|
|
|||
n −m , а статистика |
Qf (Yn ) |
распределение χ2 |
с числом степеней свободы |
||||||||
|
|||||||||||
|
|
|
|
|
|
σ2 |
|
|
|
|
|
m −1 , если H0 |
верна. Тогда статистика |
|
|
|
|
F = Qf (Yn ) n −m F(m −1, n −m) , m −1 Ql (Yn )
т.е. имеет распределение Фишера со степенями свободы m −1 и n −m .
Статистика Qnl−(Ymn ) является несмещенной оценкой остаточной диспер-
сии (см. теорему 6.3), обусловленной как случайными ошибками измерений значений функции регрессии, так и неучтенными в регрессии факторами;
статистика Qf (Yn ) – несмещенная оценка дисперсии случайных ошибок при m −1
22
использовании функции регрессии (т.е. дисперсии случайных ошибок измерений значений функции регрессии). Поэтому статистика F может быть использована при проверке рассматриваемой гипотезы.
Таким образом, гипотеза H0 : β0 = β1 =…= βm−1 = 0 отклоняется на
уровне значимости α (а следовательно, регрессия признается значимой), если вычисленное значение статистики F :
Fíàáë. ≥Fêðèò. = f1−α, m−1, n−m . |
(6.24) |
Полезной характеристикой линейной регрессионной модели является коэффициент детерминации R2 (или квадрат множественного коэффициента корреляции).
Оценка
ˆ2 |
|
Ql |
Qf |
|
R |
=1 − |
Q |
= |
Q |
|
|
y |
|
y |
коэффициента детерминации показывает, какая доля в сумме квадратов от-
клонений отклика Y |
от его среднего значения, |
т.е. в |
|||||
|
|
|
|
|
обусловлена регрессией (т.е. |
показывает, на- |
|
Q (Y ) =(Y −IY |
)T (Y −IY ) , |
||||||
y n |
|
|
|
||||
сколько значимы параметры модели регрессии). Величина |
ˆ |
является |
|||||
R(Yn ) |
оценкой коэффициента корреляции (мерой линейной связи) между случай-
ными величинами и ˆ .
Y Y(x)
Перейдем к проверке линейных гипотез второго типа. Эти гипотезы проверяют после того, как обоснована значимость регрессии. Такая проверка позволяет более детально проанализировать структуру модели регрессии на уровне отдельных коэффициентов. Ясно, что возможна ситуация, когда
вектор параметров β модели регрессии является значимым, в то время как отдельные коэффициенты модели незначимы (и, следовательно, их надо принять равными нулю).
Проверку любой из m гипотез H0k , 0 ≤k ≤m −1 против гипотезы H1k проводят по критерию Стьюдента.
Напомним, что МНК-оценка βˆk (Yn ) параметра βk линейно зависит от матрицы отклика Y . Следовательно, в силу (6.22) эта оценка имеет нормальный закон распределения с математическим ожиданием βk (ибо оценка

23
βk (Yn ) несмещенная) и дисперсией σ2ckk (см. следствие 6.1). Здесь ckk – k -й
диагональный элемент дисперсионной матрицы Фишера C =(FT F)−1 . Поэтому
Z= βk (Yn ) −βk N(0, 1) .
σckk
В то же время
V = |
Ql (Yn ) |
= |
(n −m)Sy2(Yn ) |
χ2(n −m) . |
|
|||||||||||
|
|
|
σ2 |
|
|
|
||||||||||
|
|
|
|
σ2 |
|
|
|
|
|
|
|
|
|
|
||
Таким образом, если гипотеза H0k : βk = 0 верна, то |
|
|||||||||||||||
|
|
|
|
|
βˆ |
(Y ) |
|
|
|
|
|
|
|
|
|
|
T |
|
= |
|
|
S(n −m) , k = 0, m −1 . |
(6.25) |
||||||||||
|
|
k |
|
n |
|
|||||||||||
|
|
|
|
|
|
|||||||||||
k |
|
|
|
Sy |
ckk |
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
Если модуль вычисленного значения tk |
|
|
статистики Tk |
превысит крити- |
||||||||||||
ческий уровень têð. =t |
|
α |
|
|
, то гипотезу H |
0k |
следует отклонить на уровне |
|||||||||
k |
|
|
, n−m |
|
|
|
|
|
|
|||||||
|
1− |
|
|
|
|
|
|
|
|
|
||||||
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
значимости α и признать коэффициент βk значимым.
Проверку значимости коэффициента βk модели регрессии (6.23) можно проводить также с помощью доверительного интервала Jγ(βk ) =(βk (Yn ), βk (Yn )) , значения границ которого в силу (6.25) имеют вид
βˆ |
±t |
1+γ |
S |
|
c . |
(6.26) |
k |
|
, n−m |
y |
kk |
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
Гипотеза H0k : βk = 0 принимается, если интервал с границами (6.26)
накрывает нуль, и отклоняется в противном случае. Уровень значимости α связан с доверительной вероятностью γ равенством α =1 −γ .
Анализ точности результатов, полученных с использованием рег-
рессионной модели. Если модель регрессии прошла проверку на значимость, то ее можно использовать для решения различных практических задач. Основными из них являются:
– определение значения отклика Y в той части факторного пространства, где эксперимент не проводился, т.е. либо интерполяция, либо экстрапо-

24
ляция (прогнозирование) отклика;
– определение экстремальных условий протекания процесса, модель которого построена, т.е. отыскание такой точки x =(x1 , …, xp ) в которой yˆ(x) имеет экстремум; эту задачу решают методами математического ана-
лиза.
В обоих случаях с помощью построенной модели
ˆ |
m−1 |
ˆ |
ψk |
(x) |
Y(x) = ∑ |
βk |
k=0
требуется оценить точность предсказания в рассматриваемой точке
либо среднего значения отклика M(Y|x) = y(x) , либо ожидаемого значения
отклика Y =Y0 . |
|
|
|
|
|
|
|
|
|
|
||||
Для решения первой задачи нужно для величины |
|
(x) |
построить дове- |
|||||||||||
y |
||||||||||||||
рительный интервал Jγ |
с заданным уровнем доверия γ , |
а для решения |
||||||||||||
второй – так называемый прогнозирующий интервал Jγ , в который случай- |
||||||||||||||
ная величина Y при x = x 0 |
попадает с заданной доверительной вероятно- |
|||||||||||||
стью γ . |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
При |
нахождении |
доверительного |
интервала Jγ |
важно то, что |
||||||||||
МНК-оценки βˆ |
(Y ) |
имеют нормальный закон распределения, а следова- |
||||||||||||
|
|
k |
n |
|
|
|
|
|
|
|
|
|
|
|
тельно, |
оценка |
ˆ |
также распределена по нормальному закону со сред- |
|||||||||||
Y(x) |
||||||||||||||
ˆ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
ним MY |
(x) = y(x) , и дисперсией (см. (6.15)): |
|
||||||||||||
|
|
|
|
|
|
|
ˆ |
|
2 T |
|
|
|
|
|
|
|
|
|
|
|
DY(x) = σ ψ (x)C ψ(x) . |
|
|||||||
Значит, |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
ˆ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
Z = |
Y(x) −y(x) |
N(0, 1) . |
|
|||||
|
|
|
|
|
|
|
|
|
|
|
σψT (x)C ψ(x)
Сдругой стороны, несмещенная оценка дисперсии отклика σ2 , определяемая по формуле (6.17), не зависит от Z и
V = |
Ql |
= |
(n −m)Sy2(Yn ) |
χ2(n −m) , |
||
σ2 |
|
σ2 |
|
|||
|
|
|
|
т.е. имеет распределение χ2 с числом степеней свободы n −m .

|
|
|
25 |
|
Отсюда следует, что статистика |
|
Z |
|
распределена по закону Стью- |
|
V |
|
||
|
|
|
|
|
|
|
|
|
|
|
|
n −m |
|
|
дента с числом степеней свободы n −m :
Z
V
n −m
|
ˆ |
|
= |
Y(x) −y(x) |
S(n −m) . |
|
Sy (Yn ) ψT (x)C ψ(x)
Таким образом, с вероятностью γ |
выполняется неравенство |
||||||||||
|
|
|
|
|
ˆ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
Y(x) −y(x) |
|
|
<t |
1+γ, n−m , |
||
|
|
|
|
S |
T |
|
|
||||
|
|
|
|
(Y ) ψ (x)C ψ(x) |
|
2 |
|||||
|
|
|
|
y |
n |
|
|
|
|
||
где t |
1+γ |
– квантиль уровня 1 + γ |
распределения Стьюдента с числом |
||||||||
|
, n−m |
2 |
|
|
|
|
|
||||
|
2 |
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
степеней свободы n −m .
Это равенство дает границы доверительного интервала с уровнем до-
верия γ для среднего значения отклика |
|
(x) |
в произвольной точке x |
фак- |
|||||||||
y |
|||||||||||||
торного пространства в виде: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
yˆ(x) ±t |
1+γ |
|
S |
(Y ) ψT (x)C ψ(x) , |
(6.27) |
|||||||
|
|
, n−m |
y |
|
|
n |
|
|
|
|
|||
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
где, напомним, C =(FT F)−1 . |
|
|
|
|
|
|
|
|
|
|
|
|
|
Для отыскания прогнозирующего интервала Jγ |
с уровнем доверия γ |
||||||||||||
используют тот факт, что разность между откликом Y и оценкой его средне- |
|||||||||||||
ˆ |
|
|
|
имеет нормальный закон распределения |
|||||||||
го значения Y(x) в любой точке x |
|||||||||||||
со средним значением |
|
ˆ |
= 0 |
и дисперсией (в силу независимости |
|||||||||
M(Y −Y(x)) |
|||||||||||||
ˆ |
|
|
|
|
|
|
|
|
|
|
|
|
|
Y и Y(x) : |
|
|
|
|
|
|
|
|
|
|
|
|
|
ˆ |
|
ˆ |
|
|
2 |
|
|
ˆ |
2 |
(1 |
T |
|
|
D(Y −Y(x)) = DY +DY(x) = σ |
|
+DY(x) = σ |
+ ψ (x)C ψ(x)) , |
|
т.е. к дисперсии ˆ добавляется дисперсия отклика .
Y(x) Y
Повторяя предыдущие рассуждения при построении доверительного интервала, вместо (6.27) получаем окончательный результат в виде
yˆ(x) ±t |
1+γ |
|
S |
(Y ) 1 + ψT (x)C ψ(x) . |
|
, n−m |
y |
n |
|
|
2 |
|
|
|
|
|
|
|

26
6.04. Выбор допустимой модели регрессии
Как уже отмечалось выше, при решении задач регрессионного анализа исследователь в первую очередь сталкивается с необходимостью выбора класса F допустимых моделей регрессии. Мы не останавливаемся на этой проблеме и еще раз отметим, что при ее решении, как правило, исследователь исходит из преследуемых целей, собственного опыта, результатов предварительного анализа, имеющегося экспериментального материала и т.д.
Если класс F содержит, например, две допустимые модели регрессии, то возникает проблема выбора наилучшей (в каком-то смысле) допустимой модели регрессии. Обсуждение этой проблемы можно найти в специальной литературе, а мы ограничимся рассмотрением линейной регрессионной модели (см. (6.6)). При этом будем предполагать, что выполнены основные допущения регрессионного анализа: независимость и нормальное распреде-
ление случайных величин εi , i =1, n (см. (6.4)). Пусть имеем две допустимые модели регрессии
m1 −1 |
m2 −1 |
|
∑βk ψk (x) и |
∑βk ψk (x) , |
(6.30) |
k=0 |
k=0 |
|
где m2 >m1 и объем выборки равен n . Проверим гипотезу
H0 : βm1 = βm1 +1 =…= βm2 −1 = 0
против альтернативной гипотезы
m2 −1
H1 : ∑βk2 ≠ 0 . k=m1
Для проверки гипотезы H0 можно применить статистику:
F = |
Ql1(Yn ) −Ql2(Yn ) |
|
n −m2 |
, |
(6.31) |
|
|
||||
|
Ql 2(Yn ) |
n −m1 −m2 |
|
где Ql1(Yn ) и Ql2(Yn ) – остаточные суммы квадратов соответственно для первой и второй моделей (6.30). Статистика F имеет распределение Фишера с числом степеней свободы n −m1 −m2 и n −m2 .
Гипотезу H0 следует принять на уровне значимости α (принять модель
27
m1 −1 |
|
|
|
∑βk ψk (x) ), если значение Fíàáë. статистики F , рассчитанное по результа- |
|||
k=0 |
|
|
|
там наблюдений, не превышает: |
|
||
Fêð. = f1−α(m2 −m1, n −m1 −m2 ) , n −m1 −m2 ). |
|
||
ˆ |
ˆ |
m1 −1 |
|
∑βk ψk (x) . |
|||
Заметим, что при Ql2 |
>Ql1 всегда следует выбирать модель |
k=0
Рассмотренный критерий называют критерием отношения остаточных дисперсий. Смысл его прозрачен: усложнение допустимой модели регрессии статистически оправдано, если это приводит к значимому (на уровне значимости α) уменьшению значения оценки остаточной дисперсии.