Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Учебно-методическое пособие к лабораторной работе N2 Установление зависимости между двумя случайными величинами по результатам их выборок

.pdf
Скачиваний:
0
Добавлен:
30.11.2025
Размер:
1.36 Mб
Скачать

внешние случайные воздействия приводят к разбросу данных. Тем не менее если все же предположить существование линейной связи и наличие неограниченной выборки, то можно подобрать такие значения α и β, которые помогут предсказать ожидаемое значение Y для любого значения x. Следовательно, значение ˆy не обязательно совпадает с наблюдаемым значе-

нием Y, соответствующим данному x, однако оно будет равно среднему значению всех таких наблюдаемых значений.

Таким образом, на втором этапе исследования перед нами стоит задача: используя метод наименьших квадратов получить расчетные формулы для оценки параметров А и b прямолинейной регрессии.

Замечание. При изложении регрессионного анализа, как вы успели заметить, встает проблема в обозначениях: x или X, y или Y и др. Как и ранее, когда речь идет о вычислительных процедурах, обработке данных, линиях регрессии, изучении функциональной зависимости мы, обозначаем переменные через x, y, ˆy . Например,

ˆy =α + β( x x ) .

Если же нужно провести статистический анализ этого соотношения,

ˆ = ˆ + ˆ

то запишем так Y A b( X X ) , т.е. как зависимость между

случайными величинами. При изложении материала мы не оговариваем каждый раз, какие обозначения применяются, но надеемся, что из контекста это совершенно ясно.

3.3. Определение параметров прямолинейной регрессии методом наименьших квадратов

Суть

метода наименьших квадратов состоит в

том, что

оценки

ˆ

ˆ

 

A

и b параметров А и b в предлагаемой линии рег-

рессии

f ( x, A,b ) = A +b( x

 

) подбирают таким

образом,

x

чтобы минимизировать сумму квадратов отклонений:

 

 

 

 

 

 

31

n

n

S( A,b ) = εi2

= [ yi A b( xi

x

)] 2 .

i=1

i=1

Данная функция принимает минимальное значение в точке, где обе частные производные обращаются в ноль:

S

= 0,

S

= 0 .

A

 

b

 

После дифференцирования получим:

 

 

S

 

n

 

 

 

= −2[ yi A b( xi

x

)] = 0,

 

 

A

 

i=1

 

S

n

 

= −2( xi

 

)[ yi A b( xi

 

)] = 0.

x

x

 

b

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

После несложных преобразований имеем систему двух линейных уравнений:

 

 

 

 

 

 

 

n

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

An +b( xi

x

 

) = yi ,

 

n

 

 

 

i=1

 

 

 

 

i1

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

n

 

 

 

 

 

 

 

 

A( xi

 

) +b( xi

 

)2 = ( xi

 

 

)yi .

x

x

x

 

i=1

 

 

 

i=1

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

ˆ

 

 

ˆ

Решив ее, получим искомые оценки A

и b :

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

ˆ

 

 

1

 

n

ˆ

( xi

x

)( yi

y

)

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

A = y =

 

yi ; b =

 

 

 

 

n

 

.

 

 

 

 

n i=1

 

 

 

 

 

( xi

 

)2

 

 

 

 

 

 

 

 

 

 

x

i=1

32

Данныеоценкиобладаютследующимиважнымисвойствами:

1.

ˆ

 

ˆ

 

 

 

M ( A ) = A, M ( b ) = b .

 

 

 

2.

ˆ

2

ˆ

2

 

n

D( A ) =σ

 

/ n, D( b ) =σ

 

 

( xi

 

 

 

 

 

i=1

3.

C( A,b ) = 0 .

 

 

 

x )2 1 .

ˆˆ

4.Случайные величины A и b распределены по нормальному закону.

ˆˆ

5.A и b независимы как случайные величины.

Доказательствам утверждений 1 – 3 могут быть получены прямыми вычислениями, причем эти свойства не обязательно предполагают нормальный характер ошибок. Свойство 4 верно только в рассматриваемой нами Гауссовской модели. Свойство 5 есть естественное следствие нормальности ошибок и свойства 3 (если случайные величины, имеющие нулевой коэффициент ковариации, равны нулю, то они независи-

мы). Независимость оценок ˆ и ˆ заметно упрощает даль-

A b

нейший анализ.

Замечания 1. Полученные формулы для оценок ˆ и ˆ легко

A b

преобразовать к виду, более удобному для вычислений и анализа:

ˆ

 

 

 

1

n

ˆ

 

 

 

 

xy

x

 

y

 

 

 

 

 

 

1

n

 

 

 

 

 

 

 

 

 

 

 

 

 

A = y

=

 

yi ,

b =

 

2

 

 

 

, где

 

x =

 

 

xi ,

 

 

 

 

 

 

n i=1

 

 

 

 

 

σx

 

 

 

 

 

n i =1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

n

 

 

xi2

 

 

 

 

 

 

 

y

=

 

1

yi ,

xy

=

1

 

xi yi , σx2

=

i=1

 

 

(

x

)2 = x2 (

x

)2 .

 

 

 

n

 

 

n

 

 

 

 

 

n i=1

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

2. Уравнение регрессии Y на X записывается в виде

ˆ = + ˆ

y y b( x x ).

33

Если X и Y – случайные величины, то, поменяв в наших выкладках местами X и Y, получим прямую регрессию X на Y:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ˆ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

( y y ).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ˆx = x +b1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

yi2

 

 

 

 

 

 

 

 

 

 

 

ˆ

 

xy x

y

2

 

 

 

 

2

 

 

 

 

 

2

 

 

 

i=1

 

 

 

 

2

 

 

 

 

 

 

 

 

 

где

b1

=

 

2

 

 

 

, σy

=

 

(y)

= y

 

(y) .

σ

 

 

 

n

 

 

 

 

 

 

y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Как видно, обе прямые регрессии проходят через точку ( x, y ). Угловые коэффициенты наклона прямых связаны с выборочным

коэффициентом

корреляции соотношением

rXY =

ˆ ˆ

. Если

b b1

 

ˆ

 

2

 

 

 

ˆ

 

b

 

σx

 

 

 

учесть, что

 

=

2

, то можно получить выражение для оценок b

ˆ

 

b1

 

σy

 

 

 

 

и ˆ через выборочный коэффициент корреляции и выборочные b1

дисперсии

ˆ

σ y

ˆ

 

σx

rXY .

b =

 

 

rXY , b1

=

σ

 

σ

x

y

 

 

 

 

 

 

Часто эти оценки называют выборочными коэффициентами регрессии Y на X и X на Y соответственно и обозначают ρ Y / X и

ρ X / Y , т.е.

ˆ

σ y

ˆ

 

σx

 

ρ Y / X = b =

 

 

rXY , ρ X / Y = b1

=

σ

 

rXY .

σ

x

y

 

 

 

 

 

 

3. Легко увидеть, что прямые регрессии Y на X и X на Y совпадают только в том случае, если | rXY | =1, т.е. X и Y связаны линейной

34

зависимостью. Действительно, оба уравнения в этом случае преоб-

разовываются к виду

y

y

 

=

x

x

 

.

 

 

 

 

 

 

 

 

 

 

 

σy

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

σx

 

 

 

 

 

 

 

 

 

 

 

3.4. Доверительные интервалы для параметров

 

 

линейной регрессии

 

 

 

 

 

 

 

Свойства 1 – 4 оценок

ˆ

ˆ

 

 

 

 

 

 

 

 

 

 

 

A

и b параметров линейной регрес-

сии показывают, что случайные величины

ˆ

ˆ

A и

b распределе-

ны по нормальному закону, причем

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

σ 2

 

 

 

 

 

 

 

σ

2

 

 

 

ˆ

 

ˆ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

A N A,

n

, b N

b,

 

 

 

 

 

,

 

 

 

 

 

 

 

 

 

( xi

x

)2

 

где

 

 

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ˆ

2

 

σ

2

 

 

 

 

ˆ

 

2

 

 

 

σ 2

 

 

 

 

D( A ) =σ ˆ

=

 

 

 

 

 

, D( b )

=σˆ =

 

 

 

 

 

,

n

n

 

 

 

 

 

A

 

 

 

 

 

 

 

b

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

( xi

 

)2

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

ˆ

 

 

 

 

 

 

ˆ

= b .

 

 

 

 

 

 

M ( A )

= A, M ( b )

 

 

 

 

Это дает возможность применить к построению доверительных интервалов ту же методику, что и для оценок неизвестного математического ожидания.

Если дисперсия ошибок эксперимента σ2 – известна (что бывает крайне редко, и этот случай представляет собой больше теоретический интерес), то рассматриваем случайные величины

35

 

 

 

ˆ

 

 

 

ˆ

 

 

u ˆ =

A A

, uˆ =

b b

,

 

σ ˆ

 

 

 

 

A

 

b

 

σˆ

 

 

 

 

A

 

 

 

 

b

 

которые имеют нормальное распределение N(0;1). Для данно-

го уровня значимости α получаем:

 

P(|u |<u1α / 2 ) =1α . Из

последнего соотношения находим

u1−α / 2

квантиль нор-

мального распределения, тогда

 

 

 

 

 

 

ˆ

 

 

ˆ

 

 

 

 

 

 

| A A|

<u

,

| b b |

<u

.

 

 

 

σ ˆ

1α / 2

 

σˆ

 

 

 

1α / 2

 

 

 

 

 

 

 

 

 

 

A

 

 

b

 

 

 

 

 

При этом доверительные интервалы будут следующими:

ˆ

σ

ˆ

σ

 

A

n u1α / 2

< A < A +

n u1α / 2

,

ˆ

σ

ˆ

σ

u1α / 2

b

n

u1α / 2 <b <b +

n

 

( xi x )2

 

( xi x )2

 

 

i=1

 

i=1

 

Пусть теперь σ 2 – неизвестная величина, что чаще бывает на практике. В таком случае необходимо воспользоваться оценкой σˆ 2 . Ключ к оцениванию σ 2 дает остаточная сумма квадратов:

n

 

n

ˆ

 

n

ˆ ˆ

 

 

 

 

2

=

( yi

2 =

[yi

x )]

2

ei

 

yi )

 

A b( xi

 

 

i=1

 

i=1

 

 

i=1

 

 

 

 

 

Можно доказать, что в рассматриваемой нами Гауссовской

модели эта сумма не зависит от ˆ и ˆ и имеет распределение

A b

36

σ 2 χn22 , где χn22 – распределение хи-квадрат с n – 2 степеня-

ми свободы. Благодаря этому свойству для σ 2

можно постро-

ить несмещенную оценку

S yx :

 

 

 

 

 

 

 

 

 

 

2

 

 

 

1

 

n

ˆ

 

ˆ

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S yx

=

 

 

 

 

[yi

A

b( xi x )]

 

.

 

 

 

 

 

n 2 i=1

 

 

 

 

 

 

 

 

Поскольку

2

 

не зависит от

ˆ

и

ˆ

 

то статистики

Syx

 

A

b ,

t ˆ =

ˆ

 

 

 

 

ˆ

 

n

(x x)2

 

 

 

n A A

и

t ˆ = b

b

имеют распреде-

A

Syx

 

 

b

Syx

 

i

 

 

 

 

 

 

 

 

 

 

i =1

 

 

 

 

 

 

 

ление Стьюдента с n – 2 степенями свободы. Тогда для данного уровня значимости α и по числу степеней свободы n – 2 по таблицам квантилей распределения Стьюдента находим кван-

тиль порядка 1α

, т.е. t

.

 

 

 

 

2

 

1α / 2

 

ˆ

 

ˆ

 

Доверительные интервалы для

 

 

A

и b запишутся в той же

форме, что и при известном σ 2 :

 

 

 

 

ˆ

 

S yx

 

ˆ

 

S yx

 

A

n t1α / 2

< A <

A

+

n t1α / 2 ,

ˆ

S yx

 

ˆ

 

S yx

 

b

n σx t1α / 2

< b < b +

n σx

t1α / 2

Замечание. Полученные выражения для доверительных интервалов можно записать в другой форме. Путем несложных преобра-

ˆ

σy

ˆ

 

 

 

зований и, с учетом того, что b =

σ

rXY , A = y , остаточная сумма

x

квадратов запишется в виде

37

n

n

ei2 =( yi ˆyi )2

i=1

i=1

n

ˆ

ˆ

 

 

2

2

2

 

 

 

=[yi A b( xi x )]

 

= n σ y

(1rXY ) .

i=1

Тогда

S

yx

=σ

y

n

(1r 2

)

. Кроме того, так как

 

 

 

n2

XY

 

 

 

 

 

 

 

 

n

 

 

 

n

 

σ x =

1

( xi x )2

, σ y =

1 ( yi y )2 ,

 

 

 

 

n i=1

 

 

 

n i=1

то доверительные интервалы имеют вид

ˆσ

A

ˆσ b σ

 

1r 2

ˆ

 

1r 2

 

 

XY

 

XY

 

y

n 2

t1α / 2 < A < A +σy

n 2

t1α / 2

y

1r 2

ˆ

σy

1r 2

t1α / 2

 

XY

+ σx

XY

x

n 2

t1α / 2 <b <b

n 2

, (3.2)

. (3.3)

Последние формулы наиболее удобны для вычислений.

Пример. Определить по данным, приведенным в п. 1.2, прямую регрессии, задающую линейный прогноз средней массы студента по его росту. Найти 95%-й доверительный интервал для параметров прямой регрессии.

Решение. С учетом вычислений, проделанных в п. 1.2 имеем, учитывая, что n = 25, α = 0,05:

ˆ

 

 

ˆ

344493 25 179,4 76,64

 

 

 

A = y = 76,64,

b =

 

= 0,51 .

806105 25 179,42

Следовательно, прямая регрессии, оценивающая среднюю массу студента по его росту, имеет вид

ˆy = 76,64 +0,51 ( x 179,4 ) .

38

Для построения доверительных интервалов оценок

ˆ

ˆ

A

и b

вычислим:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(

 

 

)2

 

806105

 

 

 

 

σx =

 

x2

=

(179,4 )2

= 7,736 ,

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

25

 

 

 

 

 

 

(

 

)2

 

148918

 

 

 

 

σ y =

y 2

=

( 76,64 )2

= 9,1121,

 

 

y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

25

 

 

 

 

 

 

S

yx

=σ

y

n

(1r 2 =8,5763.

 

 

 

 

 

 

 

 

 

 

 

 

n2

XY

 

 

 

Квантиль распределения Стьюдента с числом степеней

свободы

α , равен t

 

n – 2 = 23, порядка 1

= 2,069 .

 

2

1α / 2

 

 

 

 

После подстановки в формулы (3.2) и (3.3)получим довери-

тельные интервалы 73,0899 < A < 80,190, 0,0511 < b < 0,9689.

4. МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ

При решении инженерных задач часто требуется найти зависимость между случайной величиной η и переменными ве-

личинами ξ1, ξ2 ,..., ξm , значения которых x1, x2 ,..., xm зада-

ются заранее при планировании эксперимента. Однако при проведении n экспериментов значения

x1 j ,x2 j ,...,xmj ( j =1,n )

обычно измеряются с некоторыми малыми ошибками (погрешности приборов и др.).

39

Так как переменные xi не коррелированы с ошибками измерений, то для получения зависимости между xi и у, где у – значение случайной величины η , можно использовать обыч-

ный метод наименьших квадратов, как при рассмотрении случая линейной регрессии двумерного случайного вектора.

Заметим, что переменная η является случайной величиной,

так как при проведении эксперимента невозможно учесть все факторы в том числе ошибки измерений, оказывающие влияние на эту переменную,

При исследовании взаимосвязи между случайной величиной η и переменными ξ1 ,ξ2 ,...,ξm обычно рассматриваются

следующие вопросы:

выбор модели регрессии;

нахождение оценок этих параметров выбранного у и построение доверительных интервалов параметров уравнения по заданному уровню значимости α ;

проверка согласованности выбранноймодели с экспериментальнымиданнымииуточнениевидаполученногоуравнения.

Выбор модели регрессии производится обычно с учетом эмпирических аспектов. Эту задачу подробно рассматривать не будем ввиду ее сложности.

Проанализируем следующие вопросы:

построение линейного уравнения регрессии и доверительных интервалов для его параметров;

проверка согласованности полученной модели с экспериментальными данными наиболее простыми способами.

4.1 Нахождение оценок параметров линейного уравнения регрессии

Ограничимся построением линейного уравнения регрессии:

η =α0* +α1*ξ1 +α2*ξ2 +...+αm* ξm ,

40

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]