Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Учебное пособие по ТВ и МС

.pdf
Скачиваний:
59
Добавлен:
08.03.2016
Размер:
3.21 Mб
Скачать

Согласно МНК имеем:

 

 

nxi yi

 

xi

 

 

yi

 

 

 

 

 

 

 

 

12 183577 1503 1448 = 0,9361,

b

=

 

i

 

i

 

 

 

 

i

 

=

 

 

 

 

 

 

 

 

 

 

1

 

 

nxi2

 

 

 

2

 

 

12 190617 15032

 

 

 

 

xi

 

 

 

 

 

 

i

 

 

 

i

 

 

 

 

 

b

=

 

yi b1 xi

= 1448 0,9361 1503 = 3,423.

 

i

i

 

 

 

 

 

 

 

0

 

 

n

 

 

 

 

 

 

 

12

 

 

 

 

 

 

 

 

 

 

 

 

Таким образом, уравнение парной линейной регрессии имеет вид:

Y = 3,423 + 0,9361X .

12.2.3. Оценка точности регрессионной модели

Построим доверительные интервалы для коэффициентов регрессии и зависимой переменной Y.

Интервальные оценки коэффициентов регрессии.

Доверительные интервалы позволяют проверить значимое отличие коэффициентов от нуля. Пусть β0, β1 коэффициенты истинной регрессии. Важной является гипотеза H0 о коэффициенте наклона, H0: β1=0. В этом случае переменная Y изменяется чисто случайно, не завися от значений X. Гипотезу H0 следует отвергнуть против двусторонних альтернатив β10 на уровне значимости α, если число 0 не входит в доверительный интервал для β1.

Построение доверительных интервалов для параметров β0, β1 основано на

 

b

β

0

 

b

β

 

том, что отношения

0

и

1 sb

1 имеют распределение Стьюдента с n2

sb

 

 

 

0

 

 

 

1

 

степенями свободы, где b0, b1 оценки коэффициентов регрессии, полученные при решении системы (12.4), sb0 , sb1 оценки стандартных отклонений

коэффициентов регрессии.

Тогда доверительные интервалы для параметров β0, β1 при надежности оценки 1α равны:

b0 ± tα (n 2) sb0

и b1 ± tα (n 2) sb1 ,

(12.8)

2

2

 

Для sb0 , sb1 выполняются следующие свойства:

191

sb1

=

 

 

 

 

sост

 

sост xi2

 

 

2

 

 

 

 

 

 

i

 

 

 

 

 

 

, sb0 = n(xi x)2

=

x

 

sb1 .

(xi x)2

 

 

 

 

i

 

 

 

 

i

 

 

 

 

Число связей (коэффициентов) для линейной модели l=2, поэтому

 

 

 

 

 

1

 

n

 

 

 

 

 

 

sост2 =

 

 

 

( yi

b0 b1 xi )2 .

 

 

 

(12.9)

n

 

 

 

 

 

 

 

 

2 i=1

 

 

 

 

 

 

При вычислении

sb удобно пользоваться формулой Бартлета:

 

 

 

 

 

 

 

 

 

1

 

 

 

 

sb1

=

s

y

 

 

1 rxy

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

sx

 

n 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Из (12.8) можно получить условия для проверки значимости (в смысле отличия от нуля) оценок коэффициентов регрессии. Действительно, учитывая, что при выполнении гипотезы H0 теоретические коэффициенты регрессии β0=β1=0, получим соотношения для критических статистик

tb0

=

b0

, tb1 =

b1

.

 

 

 

 

sb

sb

 

 

0

 

1

 

Эти статистики при справедливости H0 имеют распределение Стьюдента с числом степеней свободы l = n–2. Отсюда условиями, при которых оценки b0, b1 будут значимыми с надежностью 1α, являются:

tb0

tα (n 2) ,

tb1

tα (n 2) .

2

 

2

Доверительные области для зависимой переменной.

Одной из центральных задач регрессионного анализа является прогнозирование значений зависимой переменной при определенных значениях объясняющих переменных. Здесь возможны два варианта:

1.Предсказать условное математическое ожидание зависимой переменной при определенных значениях объясняющих переменных (предсказание среднего значения).

2.Предсказать некоторое конкретное значение зависимой переменной

(предсказание конкретного значения).

Построим вначале доверительную область для условного математического ожидания зависимой переменной (для модели регрессии M[Y/X=xp] = β0+β1xp).

192

Пусть построено уравнение регрессии y(xi ) = b0 + b1 xi на основе которого необходимо предсказать условное математическое ожидание M[Y/X=xp] = β0+β1xp переменной Y при X=xp.

Возникает вопрос: как сильно может уклониться значение y(xp ) от

M[Y/X=xp]. На основе предпосылок 1050 регрессионного анализа, можно показать, что статистика

 

T =

 

 

y

(xp ) M x [Y ]

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

s

 

( xp )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

ei2

 

 

2

 

 

 

2

 

 

(x p x)

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

где

s

 

 

 

 

= sост

 

 

 

+

 

 

 

 

 

 

 

,

sост2

=

i

,

 

( x

)

 

n

 

 

 

 

 

2

y

 

 

 

 

 

 

 

(xi x)

n 2

 

 

 

p

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

имеет tраспределение Стьюдента с n2 степенями свободы, и построить доверительную область для условного математического ожидания M[Y/X=xp]:

b0 + b1 xp tα (n 2) s

 

( xp ) < β0 + β1 xp < b0 + b1 xp + tα (n 2) s

 

( xp ) .

(12.10)

y

y

2

 

 

 

 

2

 

 

 

Величина доверительной области (12.10) зависит от значения

объясняющей переменной xp: при

xp =

 

она минимальна, и увеличивается по

x

мере удаления xp от

 

(рис. 12.2).

 

 

 

 

 

 

x

 

 

 

 

 

 

Рис. 12.2.

Получим теперь доверительную область для конкретных значений

зависимой переменной (для уравнения регрессии y p = b0 + b1 xp ).

193

Построенная доверительная область для Mx[Y] определяет местоположение модельной линии регрессии (условного математического ожидания), а не отдельных возможных значений зависимой переменной, которые отклоняются

от среднего x .

Оценка дисперсии индивидуальных значений y p = b0 + b1 xp при x=xp равна

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1 +

(xp x)2

 

 

s2

 

= sост2

1 +

 

 

,

 

 

 

 

 

 

 

 

 

 

 

2

 

y

 

 

 

n

(xi x)

 

p

 

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

а доверительная область

для прогнозов индивидуальных

значений y p

определяется по формуле

 

 

 

 

 

b0 + b1 xp tα

(n 2) s

< b0

+ b1 xp < b0

+ b1 xp + tα

(n 2) s .

(12.11)

2

y p

 

 

2

y p

 

 

 

 

 

 

Доверительная область (12.11) определяет границы, за пределами которых могут оказаться не более 100α% точек независимой переменной при X=xp. Он шире доверительной области (12.10) для условного математического ожидания

Mx[Y].

Анализ построенных доверительных областей (12.10), (12.11) позволяет сделать следующие выводы:

1. Прогноз значений (определение неизвестных значений) зависимой переменной Y по уравнению регрессии оправдан, если значение xp

объясняющей переменной X не выходит за диапазон ее значений по выборке,

т.е. xmin < xp < xmax . Причем, чем ближе xp к x , тем уже доверительный интервал (точнее прогноз).

2. Использование регрессионной модели вне обследованного диапазона значений объясняющей переменной (даже если оно оправдано, исходя из смысла решаемой задачи) может привести к значительным погрешностям.

Пример 12.2. Для данных из примера 12.1 построить доверительные интервалы для коэффициентов регрессии для уровня значимости α=0,05 и оценить их значимость.

Решение. Определим вначале

 

1

n

1

12

 

35,249

 

sост2 =

( yi b0 b1xi )2 =

ei2

=

= 3,525 , т.е. sост = 1,714.

 

 

10

 

n 2 i=1

10 i=1

 

 

Отсюда стандартные ошибки коэффициентов регрессии:

194

sb =

sост

=

1,714

=

(xi x)2

(107 125,25)2 + (109 125,25)2 +K+ (150 125,25)2

1

 

 

 

 

 

 

i

 

 

 

= 0,0386,

sb0 = x2 sb1 = 15884,75 0,0386 = 4,8644 .

Далее найдем tα (n 2) = t0,05 (12 2) = t0,025 (10) = 2,634 .

 

 

2

2

 

 

Тогда

t0,025

(10) sb

= 2,634 4,864 =12,81,

t0,025

(10) sb = 2,634 0,0386 = 0,102 .

 

 

0

 

 

1

Отсюда доверительные интервалы для параметров β0, β1 при надежности оценки 1α = 95% равны:

9,387 < β0 < 16,233 и 0,834 < β1 < 1,038.

Т.к. 0 входит в доверительную область для коэффициента β0, то он является статистически не значимым.

Проверим теперь значимость коэффициентов регрессии:

 

tb0

 

=

3,423

= 0,704 < 2,634 = t0,025 (10)

,

 

т.е.

коэффициент

β0,

является

 

 

 

 

4,864

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

статистически не значимым;

 

 

 

 

 

 

 

tb1

 

 

=

0,9361

= 24,25 > 2,634 = t0,025 (10)

,

т.е.

коэффициент

β1,

является

 

 

 

0,0386

 

 

 

 

 

 

 

 

 

 

 

 

 

статистически значимым.

 

 

 

 

 

 

12.2.4. Оценка значимости уравнения регрессии

Проверить значимость уравнения регрессии – значит, установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных для описания зависимой переменной.

Проверка значимости уравнения регрессии производится на основе дисперсионного анализа.

Для оценки значимости в предположении нормальной однофакторной модели регрессии вида ϕ(x) = b0 + b1 x + b2 x2 +K проверяется гипотеза о

равенстве коэффициентов b0, b1, нулю, H0: b0 = b1 = = 0, что эквивалентно гипотезе о равенстве нулю индекса корреляции, H0: Ryx = 0. Для проверки нулевой гипотезы используется основное тождество дисперсионного анализа

(10.2) о разбиении суммы квадратов на слагаемые.

Общая сумма квадратов отклонений отклика (зависимой переменной)

n

Q = ( yi y)2 относительно его среднего значения y разлагается на сумму

i=1

Qмод, характеризующую влияние фактора X, т.е. обусловленную регрессионной моделью ϕ(x) и остаточную сумму квадратов Qост, характеризующую влияние

195

неучтенных факторов, т.е. обусловленную случайными ошибками относительно модели регрессии. Формальный вид разложения для однофакторной модели:

n

 

n

n

 

Q = ( yi

 

)2 = [ϕ(xi )

 

]2

+ [yi ϕ(xi )]2 = Qмод +Qост .

 

y

y

(12.12)

i=1

 

i=1

i=1

 

Очевидно, чем меньше влияние неучтенных факторов, тем лучше модель соответствует экспериментальным данным, т.к. вариация отклика Y в основном

объясняется влиянием фактора X.

 

 

Для

проверки

гипотезы об

адекватности предлагаемой модели

ϕ(x) = b + b x + b x2

+K

используется F

отношение

0

1

2

 

 

1 n [ϕ(xi ) y]2

F = l 1 i=1

1 n [yi ϕ(xi )]2 n l i=1

 

n l

 

Qмод

2

 

=

 

=

sмод

(12.13)

l 1

Qост

2

 

 

 

sост

 

с числом степеней свободы (l1, nl), где l число коэффициентов модели (число связей). Таким образом, критерий Фишера (12.13) вычисляется как частное от деления среднего квадрата, обусловленного моделью регрессии, на средний квадрат ошибки относительно модели. По величине Fотношения проверяется гипотеза H0. Когда коэффициенты bj отличны от нуля, Fотношение имеет тенденцию к возрастанию. При F > Fα (l 1,n l) , значения

коэффициентов b0, b1, отличаются от нуля и регрессионная зависимость значима на уровне значимости α.

Дисперсионный анализ для многофакторной регрессионной модели y = ϕ(x1, x2 ,K) проводится аналогично.

Еще одним показателем качества модели является коэффициент детерминации

R

2

=

Qмод

=1

Qост

,

(12.14)

 

Q

Q

показывающий, какая часть (доля) вариации зависимой переменной обусловлена вариацией объясняющих переменных. По сути, он является мерой качества регрессионной модели, характеристикой ее прогностической силы.

Чем ближе R2 к 1, тем лучше подобранная модель описывает анализируемую зависимость, тем выше ее информационная способность. Если R2 = 1, то эмпирические точки (xi, yi) лежат на линии регрессии и между переменными Y и X существует функциональная зависимость. Если R2 = 0, то

196

вариация зависимой переменной полностью обусловлена воздействием неучтенных в модели переменных, и линия регрессии параллельна оси абсцисс.

Замечание 12.2. Коэффициент R2 имеет смысл рассматривать только при наличии в уравнении регрессии свободного члена b0, т.к. в противном случае не будет выполняться равенство (12.12), а, следовательно, и (12.14).

Если известен коэффициент детерминации, то критерий значимости (12.13) уравнения регрессии (или самого коэффициента R2) примет вид:

F = n l

 

R2

 

> Fα (l 1, n l) .

1 R

2

l 1

 

 

 

Предложение 12.2. В случае парной линейной регрессионной модели коэффициент детерминации равен квадрату коэффициента корреляции, R2 = r2 .

Доказательство. Действительно, учитывая (12.6), (12.7), имеем

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

Q

 

 

 

( yi

y

)2

R2

=

 

мод

 

=

i=1

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

Q

 

 

 

( yi

 

 

)2

 

 

 

 

 

 

y

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

=

b2 s2

=

b s

 

 

 

2

2

.

 

2

 

 

1 x

 

 

= r

 

 

1

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

sy

 

 

 

sy

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

1

n

 

 

b12 (xi

 

 

)2

 

b12

(xi

 

)2

 

 

x

 

x

 

 

 

 

n

 

=

i=1

=

 

 

 

i=1

=

n

1

 

 

n

 

 

 

 

 

 

( yi

 

)2

 

 

( yi

 

)2

 

 

y

 

y

 

 

 

 

n

 

 

 

i=1

 

 

 

i=1

 

Пример 12.3. Для данных из примера 12.1 оценить значимость уравнения регрессии для уровня значимости α=0,05. Спрогнозировать потребление при доходе xp = 160 у.е. и построить доверительный интервал для прогноза.

Решение. Определим согласно (12.13) расчетное значение Fотношения:

1

10

 

 

 

 

 

 

 

 

 

 

( yi

y

)2

= 10

(103,58 120,67)

2

+K+ (143,83 120,67)

2

 

 

 

 

F =

2 1 i=1

 

 

 

 

=

1

10

 

 

1

(102 103,58)

2

+L+ (144 143,83)

2

 

 

( yi yi )2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

12 2 i=1

 

 

 

 

 

 

 

 

 

= 588,22.

Критический уровень равен

Fα (l 1, n l) = F0,05 (2 1,12 2) = F0,05 (1,10) = 4,965 .

Т.к. 588,22>4,965, то полученное уравнение регрессии значимо для α=0,05. Для прогнозирования подставим интересуемое нас значение объясняющей

переменной в найденное уравнение регрессии:

197

 

 

 

 

+ b1 xp = 3,423 + 0,9361 160 = 153,199 .

y(160) = b0

Определим дисперсию

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

(xp x)2

 

 

 

 

1

 

2

 

2

 

 

 

 

 

 

 

 

 

s

= sост

1

+

 

+

 

 

 

 

 

 

 

 

= 3,525 1

+

 

 

+

 

 

 

 

 

 

 

2

 

 

 

n

(xi x)

 

12

y p

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

+

 

 

 

 

(160 125,25)2

 

 

 

 

= 4,071,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(107

125,25)

2

+L+ (150 125,25)

2

 

 

 

 

 

 

 

 

 

 

отсюда tα (n 2) s

= t0,025 (10) 4,071 = 2,634 4,071 =10,723.

 

2

 

 

 

y p

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

В результате, доверительный интервал для прогнозов индивидуальных

 

 

значений y p при xp = 160 равен: 142,48 < y p < 163,92.

Видим, что, как и следовало ожидать, доверительный интервал получился слишком большим для достоверных прогнозов.

Упражнение 12.1. Проводится анализ взаимосвязи количества населения (X) и количества практикующих врачей (Y).

 

 

 

 

 

 

 

 

 

 

Таблица 12.3

 

 

Годы

81

 

82

83

84

85

86

87

 

88

89

90

 

 

 

X, млн. чел.

10

 

10,3

10,4

10,55

10,6

10,7

10,75

 

10,9

10,9

11

 

 

 

Y, тыс. чел.

12,1

 

12,6

13

13,8

14,9

16

18

 

20

21

22

 

 

Оцените по

МНК

коэффициенты линейного

уравнения

регрессии

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Y

= b0 + b1 X .

 

 

 

 

 

 

 

 

 

 

 

 

 

Существенно ли отличаются от нуля найденные коэффициенты? Проверьте значимость полученного уравнения при α=0,01.

Если количество населения в 1995 году составит 11,5 млн. чел., каково ожидаемое количество врачей? Рассчитайте 99%-й доверительный интервал для данного прогноза.

Рассчитайте коэффициент детерминации.

12.3. Общий случай регрессии

Выше мы рассмотрели парную линейную регрессию. Это самый простой частный случай. В общем случае задача регрессии может быть:

-множественной линейной при выборе многофакторной линейной модели

зависимой переменной Y от нескольких объясняющих переменных

X= ( X1 ,K, X p ) ;

-нелинейной, если рассматривается одноили многофакторная нелинейная регрессионная модель.

198

12.3.1. Множественный линейный регрессионный анализ

Рассмотрим случай несгруппированных данных. Обозначим i-е наблюдение зависимой переменной yi, а объясняющих переменных xi1, xi2, , xip. Тогда модель множественной линейной регрессии можно представить в

виде:

 

 

 

 

 

 

 

 

 

yi = β0

+ β1xi1

+ β2 xi2 +K+ βxip

+ εi

= yx + εi , i = 1, 2, , n,

(12.15)

 

 

 

 

 

 

i

 

 

 

где εi удовлетворяют предпосылкам 15 регрессионного анализа.

 

Введем

обозначения:

Y = ( y1, y2 ,K, yn )T

вектор-столбец

значений

зависимой

переменной размера

n;

β = (β0 , β1,K, βp )T вектор-столбец

параметров

размера

p+1;

ε = (ε1,ε2 ,K,εn )T

вектор-столбец

случайных

ошибок размера n;

 

 

 

 

 

 

 

 

1 x11

x12

K x1 p

 

 

 

 

 

 

x21

x22

 

 

 

 

 

 

 

X = 1

K x2 p

 

 

 

 

 

K K

K K K

 

 

 

 

 

 

xn1

xn2

 

 

 

 

 

 

 

1

K xnp

 

 

 

 

 

матрица значений объясняющих переменных размера n×(p+1). Тогда в матричной форме модель (12.15) примет вид:

Y = Xβ+ε.

(12.16)

Оценкой модели (12.16) по выборке данных является уравнение

Y = Xb+e,

где b = (b0 ,b1,K,bp )T , e = (e1, e2 ,K, en )T .

Для оценки вектора неизвестных параметров β применим МНК. Условие минимизации остаточной суммы квадратов запишем в виде:

n

Qост = ( yxi i=1

n

 

yi )2 = ei2 = eT e = (Y Xb)T (Y Xb) min .

(12.17)

i=1

Учитывая, что транспонирование произведения матриц равносильно произведению транспонированных матриц, т.е. (Xb)T = bTXT, получим:

(Y Xb)T (Y Xb) = YT Y 2bT XT Y + bT XT Xb .

199

Произведение YTXb есть матрица размера 1 1, т.е. скалярная величина, следовательно, оно не меняется при транспонировании: YTXb = (YTXb)T = bTXTY. Поэтому условие минимизации (12.17) примет вид:

Qост = YT Y 2bT XT Y + bT XT Xb min .

На основании необходимого условия экстремума функции нескольких переменных Qост = Qост(b0 ,b1,K,bp ) , представляющей (12.17), необходимо

приравнять нулю частные производные по этим переменным или в матричной форме – вектор частных производных

Q

 

 

Q

 

Q

 

Q

 

 

 

=

 

 

 

 

 

 

 

 

 

b

 

b

, b

,K, b

 

.

(12.18)

 

 

 

0

1

 

 

p

 

Предложение 12.3. Для вектора частных производных справедливы следующие формулы:

(bT c) = c,

(bT Ab) = 2Ab ,

b

b

 

 

где b и c – вектор-столбцы, A – симметрическая матрица (симметричные относительно главной диагонали элементы равны). #

Поэтому, полагая c=XTY, A=XTX, запишем (12.18) в виде

Qост = −2XT YT + 2XT Xb = 0 ,

b

откуда получаем систему нормальных уравнений в матричной форме для определения вектора b:

XT Xb = XT Y .

(12.19)

Найдем матрицы, входящие в систему (12.19):

1

1

K 1 1 x11

K x1 p

 

x

x

 

K x

 

1

x

 

K x

 

=

XT X = 11

 

 

21

 

n1

 

 

 

21

 

2 p

K K K K K K K K

 

x

x

2 p

K x

np

 

1

x

n1

K x

 

 

1 p

 

 

 

 

 

 

np

 

200