Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Учебно-методическое пособие к лабораторной работе N2 Установление зависимости между двумя случайными величинами по результатам их выборок

.pdf
Скачиваний:
0
Добавлен:
30.11.2025
Размер:
1.36 Mб
Скачать

т.е. найдем наилучшее приближение функции η с помощью функции вида

ϕ( x1 ,...,xm ,a0 ,a1 ,...,am ) = a0 +a1 x1 +...+am xm .

Пусть в j-м эксперименте величины ξ1 ,ξ2 ,...,ξm приняли значения x1 j , x2 j ,..., xmj , а случайная величина η – значения

y j ( j =1,n ) .

По методу наименьших квадратов в качестве оценок пара-

метров α* ,α* ,...,α*

принимаем значения a*

,a* ,...,a*

, при

0 1

m

0

1

m

 

которых достигает минимума функция

n

Φ( a0 ,a1 ,...,am ) = ( y j a0 a1 x1 j ...am xmj )2 .

j=1

Согласно условиям экстремума функции Φ( a0 ,a1 ,...,am ) параметры a0 , a1,..., am являются решениями системы

∂Φ( a0 ,a1 ,...,am ) = 0, i = 0,L1,L..., m

ai

Введем следующие обозначения: X n ×( m +1) -мерная

матрица наблюдений контролируемых переменных, в которую введен дополнительно первый столбец, состоящий из единиц; Y – n-мерный вектор-столбец наблюдаемых значений случайной величины η ; A ( m +1) -мерный столбец парамет-

ров ai ( i = 0,1,...,m ).

41

1

x11

 

1

x12

 

X =

 

 

... ...

 

1

x

 

 

1n

...

x

m1

 

...

 

 

xm2

 

...

...

, Y

 

...

 

 

 

xmn

y1 a0

=y2 , A = a1 .... ...yn am

В матричных обозначениях эта система примет вид

( X T X )A = X T Y ,

здесь X T – матрица, транспонированная к матрице X. Решение этой системы находим по формуле

A =( X T X )1 X T Y ,

где ( X T X )1 – матрица, обратная матрице ( X T X ) . Искомое выборочное уравнение регрессии имеет вид

y = a0 +a1 x1 +...+am xm .

При большом числе переменных задача нахождения вектора решается на ЭВМ с помощью стандартных программ.

4.2 Построение доверительных интервалов параметров уравнения репрессии

Построение доверительных интервалов параметров

ai ( i = 0,1, ..., m )

легко проводится в случае, если остатки e j = y j y j ( j =1,n ) распределены по нормальному закону с параметрами

42

M ( e ) = 0, D( e ) =σ 2 .

Здесь y j – наблюдаемое в j-м эксперименте значение η ; y j

значение y, полученное из уравнения регрессии при подстановке значений x1 j , x2 j ,..., xmj , заданных в j-м эксперименте. При

малом числе опытов (n < 50) применяют приближенные методы проверки нормального распределения остатков. Можно считать,

что остатки

e j

 

распределены по нормальному закону, если не

менее 95%

из

них лежат в интервале ( 2Se ,2Se ) , где

 

n

 

 

 

 

e2j

 

 

Se =

j=1

 

– оценкадисперсии.

n m

+1

 

 

 

Случай, когда остатки e j не подчиняются нормальному зако-

нураспределения, рассматриватьнебудемввидуегосложности. Для построения 100 (1 α )% -х доверительных интервалов

для α*j ( j = 0,1, ..., m ) по таблице распределения Стьюдента

по заданному уровню значимости α и числу степеней свободы ν = n m 1 находим критическое значение статистики

t

 

α

,ν

. Доверительные интервалы имеют вид

1

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ai t α

Sa <αi* < ai +t α

 

Sa ,

 

 

 

 

 

 

 

 

 

12 ,ν

i

12

,ν

i

 

 

 

 

 

 

 

 

 

 

 

где

S

a

= S

e

a( 1 )

, i = 0,1,...,m .

 

 

 

 

 

 

 

 

 

i+1,i+1

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

Здесь

Sa

– средние квадратические ошибки коэффициен-

 

 

 

ai ;

 

 

i

 

 

 

 

 

тов

Se

– вычисленная выше оценка дисперсии; ai(+11,i)+1

 

 

 

 

 

 

 

 

 

 

 

 

 

43

диагональный элемент матрицы

( X T X )1

размера

( m +1)×( m +1) , соответствующий переменной xi .

 

4.3Проверка согласованности модели

сэкспериментальными данными

Если в уравнении регрессии какая-то из контролируемых переменных xi незначительно влияет на переменную у, то эту

переменную xi следует исключить из уравнения регрессии. Выявление статистически незначимых переменных xi

можно рассматривать как проверку гипотезы

H0 : αi* = 0 ( i =1,m ),

т.е. η не коррелировано с ξi .

Если остатки e j распределены по нормальному закону, то гипотеза H0 может быть проверена с помощью статистики

ti =

ai

,i =

 

. Статистика t имеет распределение Стьюдента

1,m

 

 

Sa

 

i

с ν = n m 1 степенями свободы при условии справедливости гипотезы H0 .

По таблицам распределения Стьюдента находим критиче-

ское значение t

α

, где α – выбранный уровень значимости.

1

2

,ν

| t

| > t

 

 

Если выполняется условие

 

, то нулевая гипотеза

 

 

 

i

1

α

,ν

 

 

 

 

 

2

 

отвергается. Следовательно, проверяемый коэффициент уравнения регрессии α*i существенно отличается от нуля или, что

44

то же самое, контролируемая переменная xi оказывает значимое влияние на переменную у.

Если это неравенство не выполняется, то переменная xi влия-

ет незначительно на переменную y. В этом случае уравнение регрессии нужно строить заново, учитывая в нем все переменные,

кроме xi . Построение линейной регрессионной модели, у которой все факторы xi существенно влияют на переменную у может

закончиться не на первом, а на втором, третьем и т. д. этапе. На каждом из них заново проводится оценка коэффициентов регрессииианализвлияниякаждойпеременной.

Если несмещенная оценка среднего квадратического отклонения Se , вычисляемого по приведенной выше формуле,

допустима для данной задачи, то считаем, что модель хорошо согласуется с экспериментом. Обычно в практических задачах

требуют, чтобы Se не превышало 10% абсолютной величины наименьшего значения случайной величины η .

Если Se велико, то модель регрессии нужно уточнить, т.е.

взять большее число опытов и произвести все вычисления заново. Если и это не поможет, то делаем вывод, что выбранная модель плохо согласуется с экспериментом. В этом случае нужно выбирать другой вид зависимости.

Пример. Произведено 10 измерений прочности строительного материала у при равном содержании в нем некоторых компонент ξ1 ,ξ2 . Заданные при проведении эксперимента

значения x1 j , x2 j

компонент ξ1 ,ξ2 и полученные значения yi

 

 

 

 

 

) сведены в таблицу:

 

 

 

прочности η ( j =1,10

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x1

0

1

2

 

3

4

5

6

7

8

9

x2

17,5

13,7

10,8

 

8,5

5,2

5

4,95

4,92

4,9

4,89

y

13,25

15,95

17,63

18,63

19,2

19,37

19,5

19,6

19,67

19,7

 

 

 

 

 

 

 

 

 

 

 

 

45

a0 ,a1, a2
α*0 , α1* ,α*2

Предполагая, что зависимость между величиной η и величинами ξ1, ξ2 линейная, найти оценки a0 ,a1, a2 параметров

уравнения регрессии; 95% доверительные интервалов параметров α0* ,α1* ,α2* ; и проверить согласованность по-

лученной модели регрессии с экспериментом.

Решение.

1. Для нахождения оценок коэффициентов выборочного уравнения регрессии y = a0 +a1 x1 +a2 x2 необходимо решить систему алгебраических уравнений. Матрица коэффициентов X T X этой системы и матрица-столбец свободных членов X T Y записываются следующим образом:

 

n

 

X T X =

x1

 

x2

x1

x12

x1 x2

x2

x1 x2 ,

x22

 

y

X T Y =

x1y .

 

x2 y

В нашем случае вычисления дают:

 

10

45

80,36

 

 

 

182,5

 

 

45

285

253,95

 

,

 

869,61

 

X T X =

 

X T Y =

.

 

80,36

253,95

 

 

 

 

 

 

 

831,501

 

1381,512

 

Решая систему ( X T X )A = X T Y линейных алгебраических уравнений третьего порядка, находим:

a

0

 

 

22,3634

 

 

 

 

0,0473

 

A = a1

 

=

.

 

 

 

 

0,4854

 

a2

 

 

 

46

Значит, выборочное уравнение регрессии имеет вид

 

y = 22,3634 0,0473x1 0,4854x2

(4.1)

2. Прежде чем найти доверительные интервалы параметров α0* ,α1* ,α2* уравнения регрессии, убедимся, что остатки

e j = y j y j ,( j =1,10 ) распределены по нормальному закону.

Так как число опытов мало, применим приближенный метод проверки.

Для удобства вычислений составим таблицу:

 

y j

13,25

15,95

 

17,63

18,63

19,2

19,37

19,5

19,6

19,67

19,7

 

 

 

 

13,869

15,666

17,027

18,096

19,65

19,7

19,677

19,644

19,607

19,564

 

 

y j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

e j

-0,619

0,234

 

0,603

0,534

-0,45

-0,33

-0,177

-0,044

0,063

0,136

 

 

Значения

 

 

вычисляются, исходя из уравнения регрессии

 

y j

(4.1). Используя данные таблицы, находим:

n

e2j =1,4805 .

j=1

Средняя квадратическая ошибка

= 1,4805 =

Se 7 0,4599 .

Так как в интервал ( 2Se ,2Se ) попадают все остатки e j ,

то можно считать, что остатки распределены по нормальному закону. В этом случае для нахождения доверительных интер-

валов вычислим диагональные элементы a11( 1 ) ,a22( 1 ) ,a33( 1 ) матрицы ( X T X )1 :

47

det( X T X ) =

 

10

45

80,36

 

 

 

 

 

45

285

253,95

=37297,5 ,

 

 

 

 

 

80,36 253,95

831,501

 

a( 1 )

=

 

 

1

 

 

285

253,95

 

 

= 4,6246 ,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

11

 

det( X T X )

 

253,95

831,501

 

 

 

 

 

 

 

 

 

a22( 1 ) =

 

 

1

 

 

 

10

80,36

 

 

 

= 0,0498 ,

 

 

 

 

 

 

det( X T X )

 

80,36

831,501

 

 

 

 

 

 

 

 

 

 

 

 

a33( 1 ) =

1

 

 

 

10

45

 

= 0,0221.

 

 

det( X T X )

 

45

 

 

 

 

 

285

 

 

 

 

 

 

 

Далее находим средние квадратические ошибки параметров ai :

S

a

= S

a( 1 )

= 0,989, S

a

= S

e

a( 1 )

=

 

0

e 11

 

 

22

 

 

 

 

 

1

 

 

 

 

= 0,1026, Sa2 = Se a33( 1 ) = 0,0684.

По заданному уровню значимости α =1p =10,95 = 0,05

и числу степенней свободы ν = n m 1 =7 находим критическое значение

t1α2 ,ν = t0,975,7 = 2,365 .

Доверительныеинтервалыпараметров α0* ,α1* ,α2* имеютвид:

22,3634 2,365 0,989 <α0* < 22,3634 +2,365 0,989 ,

48

0,0473 2,365 0,1026 <α1* < −0,0473 +2,365 0,1026 ,

0,4854 2,365 0,0684 <α2* < −0,4854 +2,365 0,0684 .

Окончательно получаем:

20,024 <α0* < 24,702 ;

0,289 <α1* < 0,195 ;

0,647 <α2* < −324 .

Данные доверительные интервалы накрывают параметры α*0 , α1* ,α*2 уравнения регрессии с вероятностью

p=1α = 0,95 .

3.Так как остатки e j = y j y j ,( j =1,10 ) распределены по

нормальному закону, то выявление статистически незначимых переменных, можно осуществить с помощью уравнения

ti = ai : Sai

t =

0,0473

 

= 0,461, t

2

=

0,4854

= 7,96 .

 

 

 

1

0,1026

 

 

0,0684

 

 

 

 

 

 

Сравним полученные значения t1 иt2 ,

с критическим зна-

чением t0,975,7 = 2,365 . Как видно, для полученной статистики t2 превосходит критическое значение. Значит, коэффициент

49

a2 отличен от нуля с вероятностью 0,95, т.е. переменная x2 оказывает влияние на у. Значение t1 меньше критического. Значит, коэффициент a1 незначительно отличается от нуля. Об этом свидетельствует и тот факт, что доверительный интервал для α1* накрывает нуль. Следовательно, переменная x1

незначительно влияет на у, и ее из выражения регрессии следует исключить.

Уравнение регрессии должно иметь вид η = β0* + β2*ξ2 . Для построения выборочного уравнения регрессии исполь-

зуем табличные значения x2 и у.

Задача ставится теперь так:

1) найти выборочный коэффициент корреляции и оценить его значимость;

2) построить уравнение регрессии y = b* +b* x

2

и найти

0

2

 

95%-е доверительные интервалы параметров β0* и β2* .

Решение.

1. Так же, как и ранее, находим:

ρ = −0,981, σx2 = 4,5427, σ y = 2,1208, x22 = 83,1501.

Для проверки значимости коэффициента корреляции определяем:

0,981 8 tнабл.= 1( 0,981)2 14,29 .

По уровню значимости α = 0,005 и числу степеней свободы ν = n m 1 =10 11 =8 находим критическое значение tγ ;ν = t0,975;8 = 2,306 , где γ =1α / 2 =10,05 / 2 = 0,975 . Как

50

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]