Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Mashkovsky_Lesnaya_biometria

.pdf
Скачиваний:
42
Добавлен:
26.03.2015
Размер:
1.95 Mб
Скачать

n

~

~

((yi y) (yi yi ))=

i=1

 

 

= n (a1 x1,i (yi a0 a1 x1,i −K−am xm,1 ))

i=1

n ((a1 x1 (yi a0 a1 x1,i −K−am xm,1 ))+

i=1

L

+ n (am xm,1 (yi a0 a1 x1,i −K−am xm,1 ))

i=1

n (am xm (yi a0 a1 x1,i −K−am xm,1 )).

i=1

Теперь представим правую часть равенства в виде отдельных

сумм:

 

 

 

 

 

 

 

 

 

 

n

 

~

 

~

 

 

 

 

 

 

((yi y) (yi yi ))=

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

= a1

 

n

x1,i )a0

n

n

 

n

 

(yi

x1,i a1

(x1,2i )−K−am

(x1,i xm,1 )

 

 

i=1

 

i=1

i=1

 

i=1

 

 

a1

x1

n

 

n

n

 

+

 

 

yi n a0

a1 x1,i

Kam xm,1

 

 

 

 

 

 

i=1

 

i=1

i=1

 

 

 

 

L

 

n

n

n

 

 

 

 

 

n

 

+am (yi

xm,1 )a0 xm,1 a1 (x1,i xm,1 )−K−am (xm2 ,1 )

i=1

i=1

i=1

 

 

 

 

 

i=1

 

 

 

n

 

n

 

n

 

 

 

 

 

 

am xm yi n a0 a1

x1,i Kam xm,1 .

 

 

 

 

 

i=1

i=1

 

i=1

 

 

 

 

 

 

Используя соответствующие равенства системы (131),

преобразуем полученное выражение к виду

 

 

 

 

 

 

 

 

n

n

 

 

n

 

n

 

+

 

 

= a1 (yi

x1,i )(yi x1,i ) a1 x1

 

yi yi

 

 

i=1

i=1

 

i=1

 

i=1

 

 

 

 

L

 

 

 

 

 

 

 

 

 

 

 

 

n

n

 

 

 

n

 

n

 

= 0

 

+ am

(yi xm,1 )(yi

xm,1 ) am

xm

yi yi

 

i=1

i=1

 

 

i=1

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

162

Каждое слагаемое полученного выражения равно нулю и, следовательно, все выражение также равно нулю, что и требовалось доказать.

Учитывая (136), выражение (135) можно представить в следующем виде:

n

2

n

~

2

n

~ 2

(138)

∑(yi y)

=

(yi y)

+ ∑(yi

yi ) .

i=1

 

i=1

 

 

i=1

 

 

Так

как

величина

 

(yi y)

является

отклонением i-того

наблюдения от общего среднего, то левая часть уравнения (138)

представляет собой

сумму квадратов

отклонений

относительно

среднего наблюдений

(SS). Слагаемое

n ~

2

правой части

∑(yi y)

из

 

 

 

i=1

 

 

 

уравнения (138) – это сумма квадратов относительно

регрессии, а

n

~ 2

– сумма квадратов, обусловленная регрессией.

 

слагаемое ∑(yi yi )

i=1

Таким образом, общая сумма квадратов отклонений от среднего состоит из двух частей: суммы квадратов отклонений относительно регрессии и суммы квадратов отклонений, обусловленной регрессией. Первая составляющая общей суммы квадратов отклонений – сумма квадратов отклонений относительно регрессии – обусловлена тем, что не все действительные наблюдения лежат на линии регрессии. Чем больше эта сумма, тем больше разброс экспериментальных данных относительно регрессии, и наоборот, чем меньше эта сумма, тем точнее ложатся точки на линию регрессии. Отсюда следует, что качество регрессионной модели тем выше, чем большая часть общей суммы квадратов отклонений относительно среднего приходится на сумму квадратов отклонений, обусловленную регрессией. Если сумма квадратов, обусловленная регрессией, будет много больше, чем сумма квадратов относительно регрессии, то регрессионная модель будет вполне приемлемой. Кроме того, критерием может служить отношение суммы квадратов, обусловленной регрессией, к сумме квадратов относительно среднего. Если эта величина будет близка к единице, то уравнение регрессии также можно считать удачным.

Каждая сумма квадратов связана с числом степеней свободы. Это число показывает, сколько независимых элементов информации участвует в образовании данной суммы квадратов.

В сумме квадратов отклонений относительно среднего имеется

163

n–1 независимых элементов.

Из

n

чисел y1 y, y2 y ,K, yn y

независимы только n–1, так как

y

определяется по данным выборки

y1, y2, …,

yn с

помощью соотношения y = ( y1 + y2 + ,K, + yn ) / n и,

следовательно,

сумма чисел

y1 y, y2 y ,K, yn y

равна

нулю.

Таким

образом,

только

n–1

величина

из

n

чисел

y1 y, y2 y ,K, yn y

является независимой. Оставшееся значение

полностью определяется n–1 независимой величиной и соотношением

( y1 y) + ( y2 y) +K+ ( yn y) = 0 .

Теперь определим, сколько независимых элементов информации определяет сумму квадратов, обусловленную регрессией. Эту сумму можно вычислить с помощью формулы

n

~

2

 

n

n

 

2

∑(yi y)

= a1

(x1,i x1 )+K+ am (xm,1

xm ) ,

i=1

 

 

 

i=1

i=1

 

 

в которой используется m параметров a1, a2, …, am, являющихся функциями от y1, y2, …, yn. Следовательно, данная сумма квадратов имеет m степеней свободы.

Сумма квадратов относительно регрессии может быть вычислена следующим образом:

n

~ 2

n

2

 

 

∑(yi yi )

= (yi a0 a1 x1,i Kam xm,1 ) .

i=1

 

i=1

 

При этом из n чисел y1, y2, …, yn имеется nm–1 независимый элемент информации. Это связано с тем, что m + 1 коэффициент a0, a1, …, am, используемый при вычислении суммы квадратов относительно регрессии, вычислен по материалам выборки y1, y2, …, yn путем решения системы нормальных уравнений.

Таким образом, число степеней свободы, соответствующее сумме квадратов относительно регрессии, вместе с числом степеней свободы, соответствующим сумме квадратов, обусловленной регрессией, дает число степеней свободы, которое имеется при определении суммы квадратов отклонений относительно среднего:

n–1 = (nm–1) + m.

(139)

С помощью уравнений (138) и (139) мы можем построить таблицу дисперсионного анализа (табл. 42).

164

Таблица 42. Таблица дисперсионного анализа. Основное разложение

Источник вариации

Число степеней

Суммы квадратов

Средние

квадраты

 

свободы

отклонений SS

MS

 

 

 

 

 

 

 

Обусловленный

 

n

 

 

 

 

 

 

n

~

2

 

регрессией

m

 

~

2

 

 

 

 

∑(yi y)

 

∑(yi y)

MSR =

i=1

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

m

 

 

 

Относительно

 

n

 

 

 

 

 

n

~ 2

 

 

 

регрессии (остаток)

nm–1

 

 

~ 2

 

 

 

∑(yi yi )

 

 

 

 

∑(yi yi )

s

2

=

i=1

 

 

 

 

 

 

i=1

 

 

 

 

n

m 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Общий,

 

n

 

 

 

 

 

 

 

 

 

 

 

скорректированный

n–1

∑(yi y)2

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

Средний квадрат получается при делении каждой суммы квадратов на соответствующее ей число степеней свободы.

Более общая форма таблицы дисперсионного анализа получается при добавлении в таблицу корректирующего фактора для среднего игреков (SS(b0)) (табл. 43).

Средний квадрат относительно регрессии s2 дает оценку дисперсии относительно регрессии, основанную на nm–1 степенях

свободы. Эту дисперсию часто называют остаточной ( σY2 X ). Если

уравнение регрессии будет оцениваться на основании бесконечно большого количества наблюдений, то квадратный корень из дисперсии относительно регрессии будет представлять собой стандартную ошибку, т. е. ошибку, с которой любое измеренное значение y предсказывается для данного значения x по регрессионному уравнению. Таким образом, стандартную ошибку уравнения регрессии можно вычислить с помощью формулы

 

n

~

2

 

 

 

 

 

∑(yi yi )

 

s =

i=1

 

.

(140)

 

n m 1

 

 

Таблица 43. Таблица дисперсионного анализа, включающая SS(b0)

Источник

Число

SS

MS

 

степеней

 

 

 

свободы

 

 

 

 

 

165

Регрессия|b0

 

 

 

n

 

~

2

 

 

 

m

SS(R | b0 = ∑(yi

y)

 

MSR

 

 

 

 

i=1

 

 

 

 

 

Остаток

n-m-1

n

 

~ 2

 

 

s

2

 

 

 

 

 

 

∑(yi yi )

 

 

 

 

 

i=1

 

 

 

 

 

 

 

Общий,

 

n

 

y)2

 

 

 

 

скорректированный

n-1

∑(yi

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

Корректирующий

 

 

n

 

2

n = n

y2

 

 

фактор

1

 

 

 

SS(b0 ) =

yi

 

 

 

(обусловленный b0)

 

i=1

 

 

 

 

 

 

 

Общий

 

 

n

 

 

 

 

 

 

 

 

n

 

yi2

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

В связи с тем, что yi – это случайные величины, любая функция от них также является случайной величиной. Таким образом, MSR – средний квадрат, обусловленный регрессией, и s2 – средний квадрат, обусловленный остаточной вариацией, тоже будут случайными величинами. Можно показать, что эти случайные функции имеют следующие средние значения:

E(MSR ) = σ2 12 (x1,i x1)2 +K+β2m (xm,i xm )2 ;

E(s2 ) = σ2 ,

где E(Z) – это среднее или математическое ожидание случайной величины Z.

В предположении, что ошибки εi имеют распределение N(0, σ2), можно показать, что если β1 = β2 =…= βm = 0, то величины MSR, и s2, умноженные на свои числа степеней свободы, следуют распределению Пирсона χ2 с теми же самыми числами степеней свободы. Так как эти величины независимы, то отношение

F = MSs2 R (141)

подчиняется F-распределению Фишера с m и nm–1 степенями свободы при условии, что β1 = β2 =…= βm = 0. В связи с этим статистику (141) можно использовать как статистический критерий для проверки гипотезы об отсутствии связи между зависимой переменной y и независимыми переменными x1, x2, …, xm. Эта гипотеза принимается, если вычисленное значение критерия Фишера

166

F меньше, чем квантиль F-распределения Фишера с γ1 = m и γ2 = nm– 1 степенями свободы Fα, m, nm1 , который можно найти в табл. 8

приложения, и отвергается в противном случае.

Кроме F-критерия Фишера, используемого для проверки гипотезы об отсутствии связи между зависимой и независимыми переменными, для анализа соответствия регрессионной модели экспериментальным данным часто используется R2-статистика. Эта величина называется множественным коэффициентом детерминации и представляет собой квадрат коэффициента корреляции R между y и ~y , который обычно называют

множественным коэффициентом корреляции. Коэффициент детерминации показывает, какую долю общего разброса относительно среднего значения y объясняет регрессионная модель, и вычисляется как отношение суммы квадратов, обусловленной регрессией, к сумме квадратов относительно среднего:

 

n ~

2

 

 

R2 =

∑(yi y)

 

i=1

 

.

(142)

n

 

 

∑(yi y)2

 

i=1

Величина коэффициента детерминации может изменяться от нуля до единицы.

Множественный коэффициент детерминации не учитывает число степеней свободы. В связи с этим данная статистика может использоваться для сравнения между собой уравнений только с одинаковым количеством параметров. Для сравнения уравнений регрессии, построенных на базе наборов параметров разного размера, иногда используют приведенную R2 статистику. Эта величина учитывает число степеней свободы и определяется следующим образом:

R2 =1(1R2 )

n 1

.

(143)

a

n m 1

 

Рассмотренные выше статистики характеризовали уравнение в целом. Вместе с тем можно проверить значимость оценок каждого коэффициента регрессии в отдельности. Для этого следует проверить нулевую гипотезу, заключающуюся в том, что коэффициент регрессии равен нулю или в более общем случае, любому числу H0 : aj = aj,0.

Чтобы проверить такую гипотезу, следует вычислить

167

t-критерий:

 

 

t =

a j a j,0

,

(144)

sa j

 

 

 

где aj,0 – число, о равенстве которому коэффициента aj выдвинута нулевая гипотеза (для проверки значимости оценки коэффициента регрессии принимают aj,0 = 0), sa j – оценка стандартного отклонения

для регрессионного коэффициента aj.

Далее абсолютное значение вычисленного t-критерия сравнивают с квантилем t-распределения Стьюдента tn-m-1, α/2 для вероятности α/2 и nm–1 степеней свободы, который можно найти в табл. 5 приложения. Если оно превышает табличное, то нулевая гипотеза отвергается, и если она состояла в равенстве коэффициента регрессии нулю, то оценку этого коэффициента следует считать значимой. Если t < tnm1, α/ 2 , то нет оснований отвергать нулевую

гипотезу и оценку коэффициента регрессии считают значимой.

Для того чтобы вычислить t-критерий, необходимо знать оценку стандартного отклонения sa j для коэффициента регрессии. Найдем

эти значения для случая, когда имеется одна независимая переменная. Для коэффициента a1 решение системы нормальных уравнений

приводит к выражению

 

 

n

 

 

 

 

 

(x1,i

x1) yi

a =

i=1

 

=

 

n

 

1

 

 

 

 

 

 

(x1,i x1)2

 

 

i=1

 

 

 

=

(x1,1 x1) y1 +(x1,2 x1) y2 +K+(x1,n x1) yn

.

 

 

 

 

 

n

 

 

 

(x1,i x1)2

i=1

Известно, что дисперсия линейной функции f = b1 y1 +b2 y2 +K+bn yn

может быть выражена через дисперсии составляющих ее слагаемых следующим образом:

V ( f ) = b2

V ( y ) +b2

V ( y

2

) +K+b2

V ( y

n

)

(145)

1

1

2

 

n

 

 

 

 

при условии,

что y1,

y2,

…,

 

yn попарно

некоррелированы,

а b1,

b2, …, bn – константы.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

168

Учитывая сказанное выше, дисперсию для коэффициента a1 можно вычислить с помощью следующей формулы:

V (a1) =

 

(x

x )2

V ( y ) +(x

x )2

V ( y

2

) +K+(x

x )2

V ( y

n

)

 

=

1,1

1

1

1,2

1

 

1,n

1

 

 

.

 

 

 

n

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(x1,i x1)2

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

Если V(yi) = σ2, то

 

n

x1)2

 

 

 

 

 

 

 

 

(x1,1

σ2

 

σ

2

 

 

 

V (a ) =

i=1

 

 

=

 

 

.

(146)

 

 

 

 

 

n

 

2

 

 

 

1

 

 

 

n

x1)

2

 

 

 

(x1,i x1)2

 

 

 

(x1,i

 

 

 

 

i=1

 

 

 

 

i=1

 

 

 

 

Если σ2 неизвестна и в предположении, что модель корректна, вместо нее используется оценка s2 – остаточный средний квадрат, то дисперсию коэффициента регрессии a1 можно оценить следующим образом:

V (a1) =

s2

.

n

 

(x1,i x1)2

 

 

i=1

 

Учитывая, что стандартное отклонение есть квадратный корень из дисперсии, t-критерий для a1 можно вычислить по формуле

t =

или

t =

 

 

 

 

 

 

 

n

 

 

 

1/ 2

 

 

 

 

 

 

 

(x1,i x1)2

 

(a

 

a

)

 

i=1

 

 

 

 

 

 

s2

 

1

 

1,0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

x1)2

 

1/ 2

 

 

 

 

 

(x1,i

 

 

 

 

a

 

i=1

 

 

 

 

 

 

,

(147)

 

s2

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

если проверяется гипотеза о равенстве коэффициента регрессии a1 нулю.

Теперь найдем стандартное отклонение sa j для коэффициента

169

a0. Сначала запишем выражение (137) для случая одной независимой переменной:

y = a0 + a1 x1 .

(148)

Теперь выразим из уравнения (148) коэффициент a0:

a0 = y a1 x1 .

 

 

 

 

 

 

 

 

(149)

Преобразуем выражение (149) следующим образом:

a

 

= y a

x =

1 y

+

1 y

 

+K+

1 y

n

x

a .

 

0

1

1

n 1

 

n

2

 

n

1

1

Учитывая (145), дисперсию для коэффициента a0 можно задать выражением

V (a ) =

1

V ( y ) +

1

V ( y

) +K+

1

V ( y

) + x2

V (a ) .

(150)

 

 

 

0

n2

1

n2

2

 

n2

n

1

1

 

 

 

 

 

 

 

 

 

Используя (146) и учитывая, что V(yi) = σ2, преобразуем выражение (150) следующим образом:

V (a0 ) = σn2 + x12 n (x1σ,i 2x1)2 . i=1

Теперь вынесем за скобки σ2 в правой части равенства:

 

 

 

 

 

 

 

 

 

1

 

x 2

 

 

V (a ) = σ2

 

+

1

 

.

 

 

 

0

n

 

n

2

 

 

 

 

(x1,i x1)

 

 

 

 

i=1

 

 

Объединяя выражение в скобках в одну дробь, получим

 

 

 

 

n

x1)2 + n x12

 

 

) = σ2

 

(x1,i

V (a

0

 

i=1

 

.

n

 

 

 

 

 

n (x1,i x1)2

i=1

Теперь раскроем скобки в числителе дроби и представим его в виде отдельных сумм:

 

 

 

 

n

n

n

 

 

 

) = σ2

 

x12,i 2

x1,i x1

+x12 + n x12

 

V (a

0

 

i=1

i=1

i=1

.

 

n

 

 

 

 

 

 

n (x1,i x1)2

 

i=1

170

После преобразования второго и третьего слагаемого, как показано ниже

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

x1,i

 

 

 

 

 

 

 

 

 

 

 

x12,i 2

x1

n

i=1

 

+ n x12 + n x12

 

 

 

 

) = σ2

n

 

 

 

V (a

0

 

i=1

 

 

 

 

 

 

 

 

,

 

 

 

n

x1)2

 

 

 

 

 

 

 

 

n (x1,i

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

получим:

 

 

 

n

 

 

 

 

 

 

 

n

 

 

 

 

 

 

n x12 + 2 n

x12

 

 

 

 

 

) = σ2

 

x12,i 2

σ2

x12,i

V (a

0

 

i=1

 

 

 

 

 

=

 

i=1

 

.

n

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

x1)2

 

 

 

 

n (x1,i x1)2

 

 

 

n (x1,i

 

 

 

 

i=1

 

 

 

 

 

i=1

 

 

 

 

В том случае, когда σ2 неизвестна, предполагая, что модель корректна, вместо нее можно использовать оценку s2 – остаточный средний квадрат. Тогда дисперсию коэффициента регрессии a0 можно оценить следующим образом:

 

 

n

 

 

 

 

s2

x12,i

 

V (a0 ) =

 

i=1

 

.

(151)

n

 

 

 

n (x1,i

x1)2

 

i=1

Теперь, зная дисперсию коэффициента a0 (151), вычислим t-критерий для проверки гипотезы о равенстве этого коэффициента заданному числу a0,0:

 

 

 

 

 

n

 

 

 

1/ 2

 

 

(a0 a0,0 ) n (x1,i x1)2

 

t =

 

 

 

i=1

 

 

 

 

 

 

 

n

1/ 2

 

 

 

 

 

 

 

 

 

 

 

 

s2

x12,i

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

или

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

1/ 2

 

 

 

 

a0

n (x1,i x1)2

 

 

 

t =

 

 

 

i=1

 

 

 

(152)

 

 

n

1/ 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

s2 x12,i

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

для проверки гипотезы о равенстве коэффициента регрессии a0 нулю.

171