Обработка данных / [SHashkov_V.B.]_Obrabotka_yeksperimentalnueh_dannu(BookFi.org)
.pdf
|
|
|
n |
|
−y |
|
sr)2 |
|
|
|
|
|
∑ (y |
g |
g |
|
|||
S |
2 |
= |
g =1 |
|
|
|
|
||
|
|
|
|
, |
(46) |
||||
|
n−1 |
|
|
||||||
|
yg |
|
|
|
|
|
|
||
где Syg2 -выборочная дисперсия,
yg sr - среднее арифметическое по выборке величины yg.
Значение компонент вектора yg определяется двумя факторами: - функциональной зависимостью у=ϕ(х1,х2,…,хк),
влиянием функции шума δ(х).
Оба эти фактора определяют и значение дисперсии вектора У. Конкретный вид аналитической зависимости у=ϕ(х1,х2,…,хк) неизвестен, но ее табличный вид представляет объективно существующую функцию. В значе-
нии дисперсии Syg2 эта функция представлена составляющей yg. Аналогично
субъективная функция yrg=η(b,x), которой мы хотим отобразить объективную функцию у=ϕ(х1,х2,…,хк), представлена в выражении ( 44)
|
|
|
|
n |
|
|
−yr |
2 |
|
|
|
|
∑ |
y |
|
|
|
S2 |
= SUM ost = g =1 |
g |
g |
|||||
ost |
|
n−(k +1) |
|
|
n−(k +1) |
|
||
в виде переменной yrg. Таким образом, сопоставление дисперсий Sos2 t и
S 2yg может показать, насколько принятый экспериментатором вид полинома
регрессии согласуется с "объективной реальностью" в виде функции истин-
ного отклика ϕ(х). Означенное сопоставление дисперсий производится следующим образом /4/. Формулу (44) представим в виде
S2 |
× n−(k +1) |
] |
= |
∑ |
(y |
g |
−yr )2 . |
(47) |
ost |
[ |
|
|
g |
|
|||
Аналогично уравнение (45) представим в виде |
|
|||||||
Syg2 |
×(n −1) =∑(yg −yg sr)2 . |
(48) |
||||||
Рассмотрим отношения составляющих двух этих уравнений:
61
|
S |
2 |
×[n−(k +1)] |
|
∑(y |
g |
−yr |
)2 |
|
|
|
γ = |
ost |
= |
|
g |
|
. |
(49) |
||||
|
|
|
∑(yg −yg sr)2 |
||||||||
|
|
S yg2 |
×(n−1) |
|
|
|
|||||
Если уравнение регрессии адекватно идеальной математической модели и функции истинного отклика, т.е. зависимость у=ϕ(х1,х2,…,хк) имеет
не стохастический, а функциональный характер, то yg=yrg и тогда значение функции (40) γ равно нулю.. Если же связи между величинами у и х нет и
зависимость у=ϕ(х1,х2,…,хк) вообще отсутствует (т.е. величины х и у независимы), то и в числителе, и в знаменателе равенства (49) останется только
одинаковая составляющая шума δ(w) и значение γ будет равно единице.. Все остальные значения величины γ , промежуточные между границами "0"
и "1", означают переменную "степень функциональности" зависимости между у и х. Графически эту "степень функциональности" можно интерпретировать как тесноту размещения точек на графике стохастической зависимости – чем гуще дорожка точек, тем меньше значение γ .
На практике используют не показатель γ , а обратную ему величину,
равную 
1−γ . Ее поведение аналогично поведению коэффициента парной корреляции ρх,у – если зависимость между величинами отсутствует, ρх,у равен нулю, если зависимость функциональная, ρх,у равен единице. Поэтому переменную 
1−γ называют корреляционным отношением θ, тогда
|
|
|
n |
|
|
|
|
− yr |
2 |
|
|
|
|
|
|
∑ |
|
y |
g |
|
|
|
|||
θ = |
1−γ + |
1− |
g =1 |
|
|
|
|
g |
|
|
||
|
|
|
|
|
|
, |
(50) |
|||||
|
|
|
|
|
|
|
|
|||||
n |
|
|
|
|
− y |
|
2 |
|||||
|
|
|
|
|
|
|
|
|
||||
|
|
|
∑ |
y |
g |
g |
sr |
|
|
|||
|
|
|
g =1 |
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
где yg sr − среднее арифметическое по вектору yg . |
|
|||||||||||
Таким образом, чем ближе значение θ к единице, тем сильнее сила стохастической связи в найденном уравнении, по которому рассчитано зна-
чение yrg. Если корреляционное отношение равно единице, то такая связь является функциональной. Это равносильно тому, что полином регрессии η(x,b)адекватен идеальной модели η(x,β), где β - идеальные коэффици-
62
енты регрессии, т.е. адекватен и функции истинного отклика ϕ(x) , а значение yg в таблице экспериментальных данных равно их математическим ожи-
даниям M{yg}.
Сравнение корреляционных отношений двух разных уравнений регрессии, найденных для одной таблицы экспериментальных данных , позволяет выявить более точное уравнение; при этом разница между значениями θ1 и θ2 должна быть статистически значимой.
12.3 Соотношение между коэффициентом корреляции и корреляционным отношением
Для линейного уравнения
b0+b1x=y, |
(51) |
cистема нормальных уравнений состоит из двух уравнений
nbo+b1∑x=∑y, b0∑x+b1∑x2=∑xy.
Решая ее относительно коэффициентов b, получаем
b = |
∑ y−b1x |
= ysr −b xsr , |
(52) |
|
|||
0 |
n |
1 |
|
где ysr и xsr -средние арифметические по соответстующим массивам,
b1 = n∑ yx−∑ y∑x . n∑x2 −(∑x)2
Учитывая, что ∑x=xsr×n=∑xsr, что справедливо и для "у" разуя (53), получим
(53)
и преоб-
b = n∑ yx−n2 ×xsr×ysr = ∑ yx−∑ ysr×xsr |
(54) |
||
1 |
n∑x2 −(n×xsr)2 |
∑x2 −∑xsr2 |
|
|
|
||
Несложные преобразования показывают, что знаменатель этого уравнения равен ∑(x- xsr)2, а числитель -∑(x- xsr)(y-ysr), позтому
63
b = ∑(x−xsr)(y−ysr)× |
(n−1)sy sx |
, |
|
|
|||
1 |
∑(x−xsr)2 |
(n−1)sy sx |
|
|
|
||
где Sy и Sx – среднеквадратичные отклонения.
В последнем уравнении величина
∑(x−xsr)(y−ysr)× |
1 |
|
(n−1)sy sx |
||
1 |
есть выборочный коэффициент корреляции, поэтому
b =r |
s ysx |
=r |
s y |
, |
2 |
|
|||
1 xy |
xy |
sx |
||
|
sx |
|
||
т.е. уравнение (51) принимает вид
b0 +rxy s y x=y . sx
В соответствии с (52), имеем
b0+b1x=ysr-b1xsr+b1x=y,
откуда
y-ysr=b1(x-xsr).
Остаточная дисперсия для линейной регрессии имеет вид
(55)
(56)
S2ost=[1/(n-2)]∑(yg-b0-b1x)2,
тогда с учетом уравнения (52) будем иметь
S2ost=[1/(n-2)]∑[yg-(ysr-b1xsr)-b1x]2= =(1/n-2)∑[(yg-ysr)-b1(x-xsr)]2=
=[(1/n-2)]∑[(yg-ysr)2-2b1(x-xsr)( yg-ysr)+b12(x-xsr)2].
Знак суммы разносим по слагаемым и тогда для S2ost получаем
64
S2ost=[1/(n-2)][∑(yg-ysr)2-2b1∑(x-xsr)( yg-ysr)+b12∑ (x-xsr)2]=
=[1/(n-2)] [Sy2(n-1)-2b1rxy(n-1)Sy Sx+b12(n-1)S 2x]= |
||||||||||||||||
=[(n-1)/(n-2)] (Sy2-2r2xyS2y +rxy2S 2y)=[(n-1)/(n-2)]Sy2(1-rxy). |
||||||||||||||||
Итак, для линейного уравнения имеем |
|
|
|
|
|
|||||||||||
S 2 |
= |
n−1 |
S 2 |
(1−r 2 |
). |
|
(57) |
|||||||||
|
|
|||||||||||||||
ost |
|
|
n−2 |
y |
xy |
|
|
|
||||||||
Поскольку в соответствии с (49) |
|
|
|
|
|
|||||||||||
|
|
|
|
S |
2 |
|
[n−(k +1)] |
|
|
|
||||||
γ = |
|
|
ost |
|
|
|
|
, |
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
S |
2 |
|
(n−1) |
|
|
|
|||
|
|
|
|
|
|
|
|
yg |
|
|
|
|
|
|
||
совмещаем два последних результата в виде |
|
|
|
|||||||||||||
|
|
n−1 |
S |
2 |
(1−r2 )[n−(k +1)] |
|
||||||||||
|
|
|
|
|
||||||||||||
γ = |
n−2 |
y |
|
|
|
xy |
|
|
, |
|||||||
|
|
(n−1)Sy2 |
|
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|||||
и находим, что γ =1−rxy2 , откуда
rxy =
1−γ .
Согласно (50)
θ =
1−γ ,
т.е. для линейного уравнения коэффициент корреляции и корреляционное отношение совпадают.
Таким образом, в отличие от коэффициента корреляции, корреляционное отношение охватывает все виды стохастической связи и является ее универсальной характеристикой.
65
13 Лекция 13. Построение оценки и доверительной области для математической модели объекта исследования
Ранее отмечалось, что для полинома регрессии типа
b0 +b1 x1+b2 x2+b12 x1 x2+b11 x12 +b22 x22 =y
левая часть алгебраически представляет собой произведение двух векторов:
-вектора коэффициентов b;
-вектора множителей при этих коэффициентах
1 |
х1 |
х2 |
х1х2 |
х12 |
х22 , |
который носит название вектора базисных функций. Матрица базисных функций F состоит из строк, образованных этими векторами. Поэтому расчетное значение отклика yg на g-ой строке таблицы экспериментальных данных есть
произведение g-ой строки матрицы F на вектор коэффициентов b.
Обозначим вектор базисных функций как f −T (x) , тогда расчетное значение отклика на g-ой строке таблицы данных будет равно f −T (xg )b.
В математической статистике оценки обозначают символом оцениваемой величины со знаком " ", поэтому оценку математической модели объекта исследования обозначим как
|
|
y(x,β)=y(x,b)= f −T (x)b. |
(58) |
С помощью этой оценки мы можем предсказать значение отклика
f−T (xg )b в любой точке факторного пространства.
Вто же время идеальная модель отклика есть функция
η(x,β) = f −T (x)β =ϕ(x) = M{y(x)}.
Если x есть хg (конкретная точка факторного пространства), то пред - сказанное значение отклика есть оценка истинного значения M{y(xg )}.
Введем оценку математической модели (58) под символ математиче-
ского ожидания M{y(x,β)}= M{ f −T (x)b}= f −T (x)M b,
66
но M b =β и поэтому
|
|
M{y(x,β)}= f −T (х)β =η(x,β) , |
(59) |
т.е. y(x,β) есть несмещенная оценка η(x,β). Если оценить дисперсию
оценки, то можно показать, что она является и эффективной. Аналогично
можно доказать, что предсказанное значение отклика в g-точке y(xg ,b) есть такая же оценка M{yg}.
Дисперсия оценки математической модели
D{y(x,b)}=M{[y(x,b) −M{y(x,b)}]2}.
С учетом (58) и (59) преобразуем это выражение
D{y(x,b)}=M{[f −T (x)b− f −T (x)β)]2}.
Правую часть этого уравнения представим в виде
M{[ f −T (x)b − f −T (x)β)]×[ f −T (x)b − f −T (x)β)]},
перемножаем выражения в квадратных скобках и, вынеся векторы базисных функций за скобки, получим
M{ f −T (x)(b −β)(b −β)T f −(x)}= = f −T (x)M{(b −β)(b −β)T} f −(x)},
что означает в соответствии с (38) |
|
|||||||||||||||||||
|
D{y( |
|
|
, |
|
|
|
)}= f −T ( |
|
|
)D{ |
|
} f −( |
|
|
), |
|
|||
|
x |
b |
x |
b |
x |
(60) |
||||||||||||||
|
D{y( |
|
, |
|
)}= f −T ( |
|
)M −1 f −( |
|
)σvos2 . |
|
||||||||||
или |
x |
b |
x |
x |
(61) |
|||||||||||||||
|
Дисперсию предсказанного значения ygr в g-точке можно рассчитать, |
|||||||||||||||||||
подставив в (60) или (61) значения факторов по данной строке xg. Если дисперсия воспроизводимости неизвестна, используем ее оценку и тогда расчет ведем по формуле
67
D{y( |
|
, |
|
)}= f −T ( |
|
)M −1 f −( |
|
)Sost2 . |
|
x |
b |
x |
x |
(62) |
Можно показать /3/, что эта дисперсия меньше любой другой дисперсии любой другой оценки математической модели
< ~
D{y(x,b)} D{y(x,b},
т.е. оценка математической модели является не только несмещенной, но и
эффективной. Это же справедливо и для y(xg ,b) - для расчетного значения
отклика в данной точке факторного пространства, а в более узком смысле - для расчетного значения отклика на данной строке таблицы экспериментальных данных.
В геометрической интерпретации дисперсия D{y(x,b)} есть пространственный коридор ошибок, с помощью которого можно построить до-
верительную область для оценки ~y(x,β). Для n-факторов х (n строк табли-
цы экспериментальных данных) доверительная область есть n-мерная поверхность во многомерном пространстве. Для двух факторов –это поверхность второго порядка, для одного фактора (одной строки таблицы экспериментальных данных) –это интервал. Интервальная оценка расчетного значе-
ния отклика y(xg ,b) является еще одним критерием качества полинома рег-
рессии – чем уже интервал, тем точнее уравнение. При функциональной зависимости длина интервала равна нулю.
В уравнении (62) выражение f −T (x)M −1 f −(x) есть функция координат точки факторного пространства, для которой мы рассчитываем значение отклика, а векторы f −T (x), f −(x) являются вектором-строкой и век- тором-столбцом для g-строки матрицы базисных функций F, т.е. векторами f −T (xg ), f −(xg ) . Обозначим это произведение как
f −T (x)M −1 f −(x) =d(x).
В неравенство интервальной оценки показатель дисперсии входит под знаком квадратного корня. Тогда интересующая нас интервальная оценка будет иметь вид
y(xg ,b) −upσvos
d(xg ) < M{y(xg ,b)}< y(xg ,b) +upσvos
d(xg ) ,
а при неизвестной дисперсии воспроизводимости неравенство примет вид
68
y(xg ,b) −tp sost
d(xg ) < M{y(xg ,b)}< y(xg ,b) +tp sost
d(xg ) ,
где tp-табличный квантиль t-распределения Стъюдента.
Обозначим левую часть неравенства как Лев_гр, правую как Пр_гр, то-
гда интервальной оценкой расчетного значения отклика y(xg ,b) будет
Int=Пр_гр - Лев_гр.
В работе /8/ для критических точек распределения Стьюдента (tp-
табличный квантиль) по табличным данным t-распределения были найдены парные зависимости вида
t = |
|
ν |
, |
|
b |
ν −b |
|||
|
|
|||
1 |
0 |
|
||
где bj - эмпирические коэффициенты;
ν - число степеней свободы, т.е. для данного случая это разность
[n-(k+1)], где (k+1) –количество коэффициентов b в уравнении регрессии.
Для всех принятых вероятностей коэффициент корреляции табличных и расчетных данных для этих уравнений был более 0,99999. Значения коэф-
фициентов bj составили:
-при р=0,95
-при р=0,90
-при р=0,80
b0= − 0,6130; |
b1= 0,5101; |
b0= − 0,5618; |
b1= 0,6079; |
b0= − 0,5151: |
b1=0,7803. |
69
14 Лекция 14. "Ортогональная" регрессия. Пример планирования эксперимента
Ранее было показано, что коэффициенты регрессии являются зависимыми друг от друга случайными величинами и что силу стохастической связи между ними характеризует значение второго смешанного центрального
момента µ11{bibj }. При этом значение коэффициентов регрессии bj зависит
от количества членов уравнения, т.е. уменьшение или увеличение их числа влияет на значение всех коэффициентов, включенных в полином. Поэтому если какой-то из коэффициентов близок к нулю, нельзя его просто исключить из уравнения, расчеты для новой формы полинома нужно проводить вновь и полностью. Эта неопределенность значений коэффициентов делает невозможной их физическую интерпретацию и является принципиальным недостатком метода.
Рассмотрим под этим углом строение матрицы моментов М. Ее элементы являются суммами произведений соответствующих векторов базис-
n |
−T |
f |
− |
, а сама матрица есть произведение FT F . |
|
ных функций вида ∑ |
f |
gi |
gj |
||
g =1 |
|
|
|
||
|
|
|
|
|
|
Если матрица будет диагональной, т.е.
n |
−T |
− |
|
∑ |
f gi |
f gj =0 при i≠ j , |
(63) |
g =1 |
|
|
|
то система нормальных уравнений (28) распадется на простые уравнения ви-
да |
M |
jj |
b |
j |
= |
∑n yx j , |
(64) |
|
|
|
|
g=1 |
|
где j - индекс соответствующего столбца матрицы F , Mjj- диагональный элемент матрицы моментов M.
Зависимость коэффициентов регрессии друг от друга при этом исчезает, значение их станет однозначным и постоянным, т.е. исключение одного коэффициента из уравнения не будет влиять на значения других. Соотношение (64) есть условие ортогональности вектор-столбцов матрицы базисных функций F .
Таким образом, для получения независимых коэффициентов регрессии нужно спланировать эксперимент так, чтобы выполнялись условия линейной независимости и ортогональности вектор-столбцов матрицы базисных функций F .
70
