Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
СМОД – Статистические методы обработки данных / СМОД_Часть2 Муха ВС, БГУИР 2007 (Мет пособие).pdf
Скачиваний:
95
Добавлен:
15.06.2014
Размер:
797 Кб
Скачать

10 РЕГРЕССИОННЫЙ АНАЛИЗ

В регрессионном анализе изучается взаимосвязь между случайными и неслучайными величинами на основе экспериментальных данных. В отличие от корреляционного анализа в регрессионном анализе не все изучаемые взаимосвязанные величины являются случайными, и условия, накладываемые на изучаемые величины, менее обременительны. В связи с этим считается, что задачи регрессионного анализа чаще встречаются на практике по сравнению с задачами корреляционного анализа.

10.1 Линейный регрессионный анализ для двух переменных (простая линейная регрессия)

Основное предположение регрессионного анализа состоит в следующем. Случайная величина η зависит от неслучайной (детерминированной) вели-

чины x таким образом, что условная плотность вероятности fη ( y / x ) нор-

мальная и имеет вид

fη ( y / x ) = N(ϕ( x ),σ 2 )) ,

где ϕ( x ) – условное математическое ожидание или функция регрессии величи-

ны η на x , σ 2 – условная дисперсия, не зависящая от x . Функция регрессии

ϕ(x) обычно задается с точностью до некоторых параметров θ1 ,...,θm в виде

ϕ(x,θ1,...,θm ) . Имеются результаты наблюдений над величинами η и x в виде

совокупности пар чисел

 

 

 

( x1 , y1 ),( x2 , y2 ),...,( xn , yn ),

 

где

y1,..., yn – значения величины η, соответствующие значениям

x1,..., xn ве-

личины

x . Требуется по этим данным

найти

оценки θ1 ,...,θm

параметров

θ ,...,θ

m

функции регрессии ϕ( x,θ

1

,...,θ

m

) и

параметра σ 2 распределения

1

 

 

 

 

 

 

50

fη ( y / x ) = N(ϕ( x ),σ 2 ), а также сделать статистические выводы о этих пара-

метрах.

Рассматриваемую в регрессионном анализе модель зависимости между η и x можно представить в виде

η =ϕ( x,θ1 ,...,θm ) +ξ ,

где ξ – случайная величина, имеющая распределение N( 0,σ 2 ) . Придавая пе-

ременной x значения x1,..., xn из некоторого промежутка, мы получим значения y1,..., yn случайной величины η:

yi =ϕ( x,θ1 ,...,θm ) + zi ,

где zi – возможные значения случайной величины ξ (ошибки измерений).

Рассмотрим случай линейной функции регрессии

ϕ( x ) =α + βx

c двумя параметрами α и β . Для удобства данную функцию регрессии будем

рассматривать в виде

 

 

 

ϕ( x ) = a +b( x x ),

 

 

1

n

где

x =

 

xi – среднее арифметическое наблюдений переменной x . Понятно,

 

 

 

n i=1

что в этом случае α = a bx , β = b .

Для получения оценок параметров a , b функции регрессии по результатам экспериментов, то есть для получения эмпирической функции регрессии, вос-

пользуемся методом наименьших квадратов. В этом случае оценки a , b параметров a , b определяются как решение следующей оптимизационной задачи:

F( a,b ) = n (yi a b( xi x ))2 min .

i=1

a,b

 

Необходимые условия минимума функции F( a,b ) имеют вид системы уравне-

ний

51

a F( a,b ) = 0 , b F( a,b ) = 0 .

В результате дифференцирования функции F( a,b ) получим следующую сис-

тему уравнений

2n (yi a b( xi x ))= 0 ,

i=1

2n (yi a b( xi x ))( xi x ) = 0 .

i=1

Упростим эту систему:

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

na + nb( xi x ) = yi ,

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

n

 

 

 

n

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

a( xi x ) + b( xi

 

x )2 = yi ( xi x ).

 

 

i=1

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

i=1

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Поскольку ( xi

x ) = 0 , то получим

 

 

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

na = yi ,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

1

n

 

1

n

 

 

 

 

 

 

1 n

 

 

1 n

b

 

( xi x )2

=

 

yi xi

x

 

 

yi =

 

yi xi xy .

 

 

 

 

 

 

n i=1

 

n i=1

 

 

 

 

 

 

n i=1

n i=1

Отсюда мы получаем следующие оценки для неизвестных параметров:

 

 

 

 

 

 

 

)

 

 

 

 

 

1

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

a

= y

=

 

 

 

yi

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n i=1

 

 

 

 

 

 

 

 

 

 

 

)

 

 

 

 

s y

 

 

 

sxy

 

 

 

 

 

 

 

 

 

 

b

= r

=

 

,

 

 

 

 

 

 

 

 

 

sx

 

sx2

 

 

 

 

 

 

 

 

 

 

 

 

xy

 

 

 

 

 

 

 

 

 

 

 

 

 

σ)2 = s

2

(1

r

2

).

 

 

 

 

 

 

 

 

 

 

 

 

 

y

 

 

 

 

 

xy

 

 

 

 

Выражения для оценок

r

xy ,

sx ,

s y такие же,

как и в разделе 9.1. Метод наи-

меньших квадратов не позволяет непосредственно получить оценку дисперсии

52

σ 2 ошибок измерений. Эта оценка определяется из дополнительных соображений. Естественно в качестве такой оценки взять величину

)

 

1

n

)

)

1

n

)

σ

2 =

 

( yi a

b( xi x ))2 =

 

( yi yi )2 ,

 

 

 

 

n i=1

 

 

n i=1

 

где обозначено

y)i = a) b( xi x ).

Эта оценка совпадает с оценкой (9.6). Действительно, преобразуя выражение

)2

так, как показано ниже,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

для σ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

)

 

 

1

n

 

 

)

)

 

 

 

 

 

 

 

 

1

 

 

 

n

 

 

 

 

sxy

 

 

 

 

 

 

 

 

σ

2 =

 

( yi a b( xi x ))2

=

 

 

 

( yi y

 

 

 

 

 

 

( xi

x ))2 =

 

 

 

 

 

 

 

sx2

 

 

 

 

 

 

 

 

n i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

n i=1

 

 

 

 

 

 

 

 

 

 

 

1

 

n

 

o

 

sxy

o

 

 

1

 

n

o

 

 

2 sxy

n o o

 

 

 

1 sxy2

n

o

 

=

 

 

 

( yi

 

xi

)2

=

 

 

 

 

( yi )2

 

 

 

 

 

 

 

 

xi yi

+

 

 

 

 

 

( xi )2 =

 

 

 

 

sx2

 

 

 

 

n

 

sx2

 

n sx4

 

 

 

n i=1

 

 

 

 

 

 

 

n i=1

 

 

 

 

 

 

i=1

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

s 2

 

 

 

 

s

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

= s 2

xy

= s 2

1

 

xy

 

 

 

 

= s 2 (1

r

2

 

) ,

 

 

 

 

 

 

 

 

 

 

 

s

2

 

 

s 2 s

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y

 

 

 

 

y

 

 

 

 

 

y

 

xy

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

x

 

 

 

y

 

 

 

 

 

 

 

 

 

 

 

 

 

мы получаем выражение (9.6). Таким образом, мы получили те же оценки (9.2)

– (9.7), что и в корреляционном анализе. Рассмотрим свойства этих оценок.

Оценки a , b – несмещенные, σ)2 – смещенная, однако асимптотически несмещенная. Новая оценка

)

1

n

)

)

1

n

)

σ12 =

 

( yi a

b( xi x ))2 =

 

( yi yi )2

 

 

 

n 2 i=1

 

 

n 2 i=1

 

является несмещенной. Легко видеть, что σ)12 = n n 2 σ)2 .

Рассмотрим распределения оценок. Можно показать, что

a) N( a,σ 2 ) , n

b) N( b, σ 2 ) , sx2 n

53