Учебно-методическое пособие к лабораторной работе N2 Установление зависимости между двумя случайными величинами по результатам их выборок
.pdf
т.е. найдем наилучшее приближение функции η с помощью функции вида
ϕ( x1 ,...,xm ,a0 ,a1 ,...,am ) = a0 +a1 x1 +...+am xm .
Пусть в j-м эксперименте величины ξ1 ,ξ2 ,...,ξm приняли значения x1 j , x2 j ,..., xmj , а случайная величина η – значения
y j ( j =1,n ) .
По методу наименьших квадратов в качестве оценок пара-
метров α* ,α* ,...,α* |
принимаем значения a* |
,a* ,...,a* |
, при |
||
0 1 |
m |
0 |
1 |
m |
|
которых достигает минимума функция
n
Φ( a0 ,a1 ,...,am ) = ∑( y j −a0 −a1 x1 j −...am xmj )2 .
j=1
Согласно условиям экстремума функции Φ( a0 ,a1 ,...,am ) параметры a0 , a1,..., am являются решениями системы
∂Φ( a0 ,a1 ,...,am ) = 0, i = 0,L1,L..., m
∂ai
Введем следующие обозначения: X – n ×( m +1) -мерная
матрица наблюдений контролируемых переменных, в которую введен дополнительно первый столбец, состоящий из единиц; Y – n-мерный вектор-столбец наблюдаемых значений случайной величины η ; A – ( m +1) -мерный столбец парамет-
ров ai ( i = 0,1,...,m ).
41
1 |
x11 |
|
|
1 |
x12 |
|
||
X = |
|
|
... ... |
||
|
1 |
x |
|
|
1n |
... |
x |
m1 |
|
... |
|
|
|
xm2 |
|
||
... |
... |
, Y |
|
|
|||
... |
|
|
|
xmn |
|||
y1 a0
=y2 , A = a1 .... ...yn am
В матричных обозначениях эта система примет вид
( X T X )A = X T Y ,
здесь X T – матрица, транспонированная к матрице X. Решение этой системы находим по формуле
A =( X T X )−1 X T Y ,
где ( X T X )−1 – матрица, обратная матрице ( X T X ) . Искомое выборочное уравнение регрессии имеет вид
y = a0 +a1 x1 +...+am xm .
При большом числе переменных задача нахождения вектора решается на ЭВМ с помощью стандартных программ.
4.2 Построение доверительных интервалов параметров уравнения репрессии
Построение доверительных интервалов параметров
ai ( i = 0,1, ..., m )
легко проводится в случае, если остатки e j = y j − y j ( j =1,n ) распределены по нормальному закону с параметрами
42
M ( e ) = 0, D( e ) =σ 2 .
Здесь y j – наблюдаемое в j-м эксперименте значение η ; y j –
значение y, полученное из уравнения регрессии при подстановке значений x1 j , x2 j ,..., xmj , заданных в j-м эксперименте. При
малом числе опытов (n < 50) применяют приближенные методы проверки нормального распределения остатков. Можно считать,
что остатки |
e j |
|
распределены по нормальному закону, если не |
||
менее 95% |
из |
них лежат в интервале ( −2Se ,2Se ) , где |
|||
|
n |
|
|
|
|
|
∑e2j |
|
|
||
Se = |
j=1 |
|
– оценкадисперсии. |
||
n −m |
+1 |
||||
|
|
|
|||
Случай, когда остатки e j не подчиняются нормальному зако-
нураспределения, рассматриватьнебудемввидуегосложности. Для построения 100 (1 −α )% -х доверительных интервалов
для α*j ( j = 0,1, ..., m ) по таблице распределения Стьюдента
по заданному уровню значимости α и числу степеней свободы ν = n −m −1 находим критическое значение статистики
t |
|
α |
,ν |
. Доверительные интервалы имеют вид |
|||||||||
1− |
2 |
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ai −t α |
Sa <αi* < ai +t α |
|
Sa , |
||
|
|
|
|
|
|
|
|
|
1− 2 ,ν |
i |
1− 2 |
,ν |
i |
|
|
|
|
|
|
|
|
|
|
|
|||
где |
S |
a |
= S |
e |
a( −1 ) |
, i = 0,1,...,m . |
|
|
|
||||
|
|
|
|
|
|
i+1,i+1 |
|
|
|
|
|
||
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
|
Здесь |
Sa |
– средние квадратические ошибки коэффициен- |
||||||||||
|
|
|
ai ; |
|
|
i |
|
|
|
|
|
||
тов |
Se |
– вычисленная выше оценка дисперсии; ai(+−11,i)+1 – |
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
43 |
диагональный элемент матрицы |
( X T X )−1 |
размера |
( m +1)×( m +1) , соответствующий переменной xi . |
|
|
4.3Проверка согласованности модели
сэкспериментальными данными
Если в уравнении регрессии какая-то из контролируемых переменных xi незначительно влияет на переменную у, то эту
переменную xi следует исключить из уравнения регрессии. Выявление статистически незначимых переменных xi
можно рассматривать как проверку гипотезы
H0 : αi* = 0 ( i =1,m ),
т.е. η не коррелировано с ξi .
Если остатки e j распределены по нормальному закону, то гипотеза H0 может быть проверена с помощью статистики
ti = |
ai |
,i = |
|
. Статистика t имеет распределение Стьюдента |
|
1,m |
|||||
|
|||||
|
Sa |
||||
|
i |
||||
с ν = n −m −1 степенями свободы при условии справедливости гипотезы H0 .
По таблицам распределения Стьюдента находим критиче-
ское значение t |
α |
, где α – выбранный уровень значимости. |
||||
1− |
2 |
,ν |
| t |
| > t |
|
|
Если выполняется условие |
|
, то нулевая гипотеза |
||||
|
|
|
i |
1− |
α |
,ν |
|
|
|
|
|
2 |
|
отвергается. Следовательно, проверяемый коэффициент уравнения регрессии α*i существенно отличается от нуля или, что
44
то же самое, контролируемая переменная xi оказывает значимое влияние на переменную у.
Если это неравенство не выполняется, то переменная xi влия-
ет незначительно на переменную y. В этом случае уравнение регрессии нужно строить заново, учитывая в нем все переменные,
кроме xi . Построение линейной регрессионной модели, у которой все факторы xi существенно влияют на переменную у может
закончиться не на первом, а на втором, третьем и т. д. этапе. На каждом из них заново проводится оценка коэффициентов регрессииианализвлияниякаждойпеременной.
Если несмещенная оценка среднего квадратического отклонения Se , вычисляемого по приведенной выше формуле,
допустима для данной задачи, то считаем, что модель хорошо согласуется с экспериментом. Обычно в практических задачах
требуют, чтобы Se не превышало 10% абсолютной величины наименьшего значения случайной величины η .
Если Se велико, то модель регрессии нужно уточнить, т.е.
взять большее число опытов и произвести все вычисления заново. Если и это не поможет, то делаем вывод, что выбранная модель плохо согласуется с экспериментом. В этом случае нужно выбирать другой вид зависимости.
Пример. Произведено 10 измерений прочности строительного материала у при равном содержании в нем некоторых компонент ξ1 ,ξ2 . Заданные при проведении эксперимента
значения x1 j , x2 j |
компонент ξ1 ,ξ2 и полученные значения yi |
|||||||||||
|
|
|
|
|
) сведены в таблицу: |
|
|
|
||||
прочности η ( j =1,10 |
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
x1 |
0 |
1 |
2 |
|
3 |
4 |
5 |
6 |
7 |
8 |
9 |
|
x2 |
17,5 |
13,7 |
10,8 |
|
8,5 |
5,2 |
5 |
4,95 |
4,92 |
4,9 |
4,89 |
|
y |
13,25 |
15,95 |
17,63 |
18,63 |
19,2 |
19,37 |
19,5 |
19,6 |
19,67 |
19,7 |
||
|
|
|
|
|
|
|
|
|
|
|
|
45 |
Предполагая, что зависимость между величиной η и величинами ξ1, ξ2 линейная, найти оценки a0 ,a1, a2 параметров
уравнения регрессии; 95% доверительные интервалов параметров α0* ,α1* ,α2* ; и проверить согласованность по-
лученной модели регрессии с экспериментом.
Решение.
1. Для нахождения оценок коэффициентов выборочного уравнения регрессии y = a0 +a1 x1 +a2 x2 необходимо решить систему алгебраических уравнений. Матрица коэффициентов X T X этой системы и матрица-столбец свободных членов X T Y записываются следующим образом:
|
n |
|
|
X T X = |
∑x1 |
|
∑x2 |
∑x1
∑x12
∑x1 x2
∑x2
∑x1 x2 ,
∑x22
|
∑y |
X T Y = |
∑x1y . |
|
∑x2 y |
В нашем случае вычисления дают:
|
10 |
45 |
80,36 |
|
|
|
182,5 |
|
|
45 |
285 |
253,95 |
|
, |
|
869,61 |
|
X T X = |
|
X T Y = |
. |
|||||
|
80,36 |
253,95 |
|
|
|
|
|
|
|
831,501 |
|
1381,512 |
|
||||
Решая систему ( X T X )A = X T Y линейных алгебраических уравнений третьего порядка, находим:
a |
0 |
|
|
22,3634 |
|
|
|
|
−0,0473 |
|
|
A = a1 |
|
= |
. |
||
|
|
|
|
−0,4854 |
|
a2 |
|
|
|
||
46
Значит, выборочное уравнение регрессии имеет вид |
|
y = 22,3634 −0,0473x1 −0,4854x2 |
(4.1) |
2. Прежде чем найти доверительные интервалы параметров α0* ,α1* ,α2* уравнения регрессии, убедимся, что остатки
e j = y j − y j ,( j =1,10 ) распределены по нормальному закону.
Так как число опытов мало, применим приближенный метод проверки.
Для удобства вычислений составим таблицу:
|
y j |
13,25 |
15,95 |
|
17,63 |
18,63 |
19,2 |
19,37 |
19,5 |
19,6 |
19,67 |
19,7 |
|
||
|
|
|
13,869 |
15,666 |
17,027 |
18,096 |
19,65 |
19,7 |
19,677 |
19,644 |
19,607 |
19,564 |
|
||
|
y j |
|
|||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
e j |
-0,619 |
0,234 |
|
0,603 |
0,534 |
-0,45 |
-0,33 |
-0,177 |
-0,044 |
0,063 |
0,136 |
|
||
|
Значения |
|
|
вычисляются, исходя из уравнения регрессии |
|||||||||||
|
y j |
||||||||||||||
(4.1). Используя данные таблицы, находим:
n
∑e2j =1,4805 .
j=1
Средняя квадратическая ошибка
= 1,4805 =
Se 7 0,4599 .
Так как в интервал ( −2Se ,2Se ) попадают все остатки e j ,
то можно считать, что остатки распределены по нормальному закону. В этом случае для нахождения доверительных интер-
валов вычислим диагональные элементы a11( −1 ) ,a22( −1 ) ,a33( −1 ) матрицы ( X T X )−1 :
47
det( X T X ) = |
|
10 |
45 |
80,36 |
|
|
|
|
||||||||||||||
|
45 |
285 |
253,95 |
=37297,5 , |
||||||||||||||||||
|
|
|
|
|
80,36 253,95 |
831,501 |
|
|||||||||||||||
a( −1 ) |
= |
|
|
1 |
|
|
285 |
253,95 |
|
|
= 4,6246 , |
|||||||||||
|
|
|
|
|||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
11 |
|
det( X T X ) |
|
253,95 |
831,501 |
|
|
|
||||||||||||||
|
|
|
|
|
|
|||||||||||||||||
a22( −1 ) = |
|
|
1 |
|
|
|
10 |
80,36 |
|
|
|
= 0,0498 , |
||||||||||
|
|
|
|
|
||||||||||||||||||
|
det( X T X ) |
|
80,36 |
831,501 |
|
|
|
|||||||||||||||
|
|
|
|
|
|
|
|
|
||||||||||||||
a33( −1 ) = |
1 |
|
|
|
10 |
45 |
|
= 0,0221. |
||||||||||||||
|
|
|||||||||||||||||||||
det( X T X ) |
|
45 |
||||||||||||||||||||
|
|
|
|
|
285 |
|
|
|
|
|
|
|
||||||||||
Далее находим средние квадратические ошибки параметров ai :
S |
a |
= S |
a( −1 ) |
= 0,989, S |
a |
= S |
e |
a( −1 ) |
= |
|
0 |
e 11 |
|
|
22 |
|
|||
|
|
|
|
1 |
|
|
|
|
= 0,1026, Sa2 = Se
a33( −1 ) = 0,0684.
По заданному уровню значимости α =1− p =1−0,95 = 0,05
и числу степенней свободы ν = n −m −1 =7 находим критическое значение
t1−α2 ,ν = t0,975,7 = 2,365 .
Доверительныеинтервалыпараметров α0* ,α1* ,α2* имеютвид:
22,3634 −2,365 0,989 <α0* < 22,3634 +2,365 0,989 ,
48
−0,0473 −2,365 0,1026 <α1* < −0,0473 +2,365 0,1026 ,
−0,4854 −2,365 0,0684 <α2* < −0,4854 +2,365 0,0684 .
Окончательно получаем:
20,024 <α0* < 24,702 ;
−0,289 <α1* < 0,195 ;
−0,647 <α2* < −324 .
Данные доверительные интервалы накрывают параметры α*0 , α1* ,α*2 уравнения регрессии с вероятностью
p=1−α = 0,95 .
3.Так как остатки e j = y j − y j ,( j =1,10 ) распределены по
нормальному закону, то выявление статистически незначимых переменных, можно осуществить с помощью уравнения
ti = ai : Sai
t = |
0,0473 |
|
= 0,461, t |
2 |
= |
0,4854 |
= 7,96 . |
|
|
|
|||||
1 |
0,1026 |
|
|
0,0684 |
|
||
|
|
|
|
|
|||
Сравним полученные значения t1 иt2 , |
с критическим зна- |
||||||
чением t0,975,7 = 2,365 . Как видно, для полученной статистики t2 превосходит критическое значение. Значит, коэффициент
49
a2 отличен от нуля с вероятностью 0,95, т.е. переменная x2 оказывает влияние на у. Значение t1 меньше критического. Значит, коэффициент a1 незначительно отличается от нуля. Об этом свидетельствует и тот факт, что доверительный интервал для α1* накрывает нуль. Следовательно, переменная x1
незначительно влияет на у, и ее из выражения регрессии следует исключить.
Уравнение регрессии должно иметь вид η = β0* + β2*ξ2 . Для построения выборочного уравнения регрессии исполь-
зуем табличные значения x2 и у.
Задача ставится теперь так:
1) найти выборочный коэффициент корреляции и оценить его значимость;
2) построить уравнение регрессии y = b* +b* x |
2 |
и найти |
|
0 |
2 |
|
|
95%-е доверительные интервалы параметров β0* и β2* .
Решение.
1. Так же, как и ранее, находим:
ρ = −0,981, σx2 = 4,5427, σ y = 2,1208, x22 = 83,1501.
Для проверки значимости коэффициента корреляции определяем:
0,981 8 ≈ tнабл.= 1−( 0,981)2 14,29 .
По уровню значимости α = 0,005 и числу степеней свободы ν = n −m −1 =10 −1−1 =8 находим критическое значение tγ ;ν = t0,975;8 = 2,306 , где γ =1−α / 2 =1−0,05 / 2 = 0,975 . Как
50
