Оптимизация эксперимента в химии и химической технологии
..pdfПри нормальном распределении случайных величин метод наи меньших квадратов обосновывается в теории вероятностей как частный случай принципа максимума правдоподобия. При этом можно говорить о достаточных статистиках, т. е. таких функциях от результатов наблюдений (оценках для генеральных парамет ров), при помощи которых извлекается вся информация об этих параметрах, содержащаяся в результатах наблюдений.
Задача определения параметров уравнения регрессии сводится практически к определению минимума функции многих перемен ных. Если
« = / ( - * , *о. Ьи b2... ) |
(IV. 19) |
есть функция дифференцируемая и требуется выбрать Ь0, Ь\, Ь2...
так, чтобы
|
ф = ;2-i [Ул — f |
(x i> bo> |
bu h - |
•-)]2 = m i n , |
(IV. 20) |
||||
|
|
||||||||
необходимым условием минимума Ф(6о> bь b2...) является |
выпол |
||||||||
нение равенств |
|
|
|
|
|
|
|
|
|
|
— |
-0 - — - о |
|
|
|
(IV .21) |
|||
|
|
дЬц |
* дЬ\ |
|
|
|
|
|
|
или |
|
|
|
|
|
|
|
|
|
V 2 [ < / ,- / ( * « . |
b0, bu |
b2...)] |
|
^ } * 1) |
= 0 , |
|
|||
I-1 |
|
|
|
|
|
dbn |
|
|
|
|
|
|
|
|
|
|
|
||
|
П |
|
|
|
|
|
|
|
|
2 |
2 [ y - i - f |
( X , , |
b0, bu |
b2...)] |
|
df(Xi) |
= 0 . |
(IV. 22) |
|
<=l |
|
|
|
|
|
db, |
|
|
|
|
|
|
|
|
|
|
|
||
После преобразования |
|
|
|
|
|
|
|
|
|
,, |
df(xi) |
V |
ft |
t- |
«■ |
' |
' |
------= 0, |
|
1//— 17------— |
7 |
, f |
bQ, bu |
b2. . . ) — |
|
||||
<=i |
|
i=i |
|
|
|
|
|
db0 |
|
|
|
|
|
|
|
|
(IV. 23) |
||
|
|
|
|
|
|
|
|
|
П
S ,r d f (x,)
Уг— IT-----—
/ - 1
^1
x S , , .
7 j / (■*/> bo>b\>h- ••)—
/=>1
(xi)n
db\------ |
= 0 . |
|
Система уравнений (IV.23) содержит столько же уравнений, сколько неизвестных коэффициентов b0i b\, 62, входит в уравне ние регрессии, и называется в математической статистике системой нормальных уравнений.
Величина Ф ^О при любых &о, bi, Й2 |
..., |
следовательно, |
У нее |
|||||||
обязательно должен существовать хотя бы один минимум. Поэтому |
||||||||||
если система нормальных уравнений имеет единственное решение, |
||||||||||
то оно и является минимумом для величины |
Ф. Решить систему |
|||||||||
(1V.23) в общем виде нельзя. Для этого надо задаться конкретным |
||||||||||
видом функции /. |
|
переменного |
параметра |
|||||||
При изучении зависимости от одного |
||||||||||
|
|
полезно для определения вида урав |
||||||||
|
|
нения регрессии |
построить эмпири |
|||||||
|
|
ческую линию регрессии. Для этого |
||||||||
|
|
весь диапазон изменения х на поле |
||||||||
|
|
корреляции |
(рис. |
25) |
разбивается |
|||||
|
|
на k равных |
интервалов Ах. |
Все |
||||||
|
|
точки, попавшие в данный интервал |
||||||||
|
|
AXj, относят к его середине Ху Для |
||||||||
|
|
этого подсчитывают |
частные |
сред |
||||||
|
|
ние уз для каждого интервала |
|
|
||||||
Рис. 25. |
Эмпирическая линия |
|
|
|
|
j |
|
|
|
|
|
|
|
2 |
ун |
|
|
|
|||
|
регрессии |
|
|
|
|
|
|
|||
|
|
Уi = |
1-1 |
|
|
(IV. 24) |
||||
|
|
|
|
|
||||||
где пj — число точек в интервале Axj; при этом |
|
П} |
|
|
|
|
||||
|
|
|
|
|
|
|||||
|
S |
n.j = n;. |
|
|
|
|
|
|
(IV.25) |
|
п — объем |
выборки. Затем последовательно |
соединяют |
точки |
(xj, |
||||||
yj) отрезками прямой. Полученная ломаная называется эмпириче |
||||||||||
ской линией регрессии у по х. По виду эмпирической линии регрес |
||||||||||
сии можно подобрать уравнение регрессии y = f{x) |
|
|
|
|
опреде |
|||||
5. |
Линейная регрессия от одного параметра. Требуется |
|||||||||
лить по методу наименьших квадратов коэффициенты линейного, |
||||||||||
уравнения регрессии |
|
|
|
|
|
|
|
|
|
|
|
у = |
Ь0 + Ьхх |
|
|
|
|
|
(IV .26) |
по выборке объемом п. Система нормальных уравнений при этом имеет вид
2 > / - 2 ( & о + М/) = о, /-lj /-1
п
i2- 1уi*i ■ /2=1(*о + hxi) Xi = 0,
или
|
п |
п |
|
|
пь0 + ьг2 |
*i = 2 У‘< |
|||
|
i |
- 1 |
/ - 1 |
|
п |
|
п |
п |
|
h 2 |
xt + b1 2 |
■*<= 2 |
Х‘У‘- |
|
l - |
l |
i - 1 |
i - |
1 |
Коэффициенты bo и Ь\ легко найти при помощи определителей:
/-1
2 Х1У1
1 = 1
*0 = '
/ - 1
|
п |
п |
|
2 |
х 1 |
Z-1 |
|
*1 = |
|
|
п |
п |
|
2 |
х 1 |
/ - |
1 |
п |
|
|
|
|
|
|
|
|
2 |
*1 |
|
|
|
|
|
|
|
i-1 |
|
|
|
|
|
|
|
|
п |
|
|
п |
п |
|
п |
п |
|
2 * |
|
2 vi |
2 |
х\ —2 х ‘ 2 |
|
|||
i-1 |
|
i- l |
/°1 |
|
i-1 |
Z-1 |
||
И |
|
|
/1 |
|
/ п |
\ 2 |
||
2*< |
« 2 * ? - |
2 * ) |
||||||
/-1 |
|
|
i-1 |
\i —I |
/ |
|||
п |
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
/ - 1 |
|
|
|
|
|
|
|
|
п |
|
|
|
|
|
|
|
|
2 |
|
yi |
|
|
|
|
|
|
i= i |
|
л |
|
п |
п |
|||
п |
Х1У1 |
|
||||||
|
п 2 |
|
~ |
2 |
2 ^ |
|||
|
1 |
|
i-1 |
|
i-1 |
i-1 |
||
п |
|
|
л |
/ n |
\2 |
|||
2 |
|
•*/ |
« 2 |
* ? - |
2 * |
0 |
/ |
|
1-1 |
|
|
/-1 |
\i~l |
|
|||
п |
|
|
|
|
|
|
|
/2-1* ?
2 (Xl — x)(tfi — y )
/"1_____________
2 (■*/—*)2 i-1
(IV .28)
(IV. 29)
bo проще найти по известному &i из первого уравнения системы:
Ь0 = ~у — Ь{х. |
(IV .30) |
Уравнение (IV.30) показывает, что” между коэффициентами Ьо и Ь\ существует корреляционная зависимость. Для оценки силы ли
нейной связи (IV.26) вычисляется выборочный |
коэффициент кор |
реляции г |
|
г* — i2-1 (•*/ — *) (yi— у) |
(IV .31) |
(л — 1) Sx Sy |
|
где sx, sv — выборочные среднеквадратичные отклонения. Из уравнений (IV.29) и (IV.31) имеем
1/ 'ФИ!*')'
Sy |
«2 |
|
^ |
у>) |
|
|
/-1 |
\/ —1 / |
Пример |
1. |
Требуется |
определить |
зависимость растворимости хлорида бария |
|||||||
в воде (у) |
в присутствии хлорида |
кальция |
(х) |
при 70° С. Объем |
выборки я=6. |
||||||
Экспериментальные данные приведены ниже |
|
|
|
|
|
|
|||||
■*СаС12 » |
% |
. . . |
|
0 |
5 |
8 |
10 |
15 |
20 |
|
|
у (растворимость ВаС12,%) |
|
32 |
25 |
20 |
17 |
11 |
5 |
|
|||
Р еш ен и е . Определим коэффициенты уравнения линейной регрессии вида |
|||||||||||
|
|
|
У = |
Ь0 + Ьхх. |
|
|
|
|
|
||
Коэффициент Ь\ определим по формуле (IV.29), |
Ь0— по |
формуле |
(IV.30). |
||||||||
Для этого экспериментальные данные и результаты расчета |
представим |
в виде |
|||||||||
таблицы. |
|
|
|
|
|
|
|
|
|
|
|
Номер |
|
X |
У |
X- |
|
ху |
|
У2 |
х + у |
(* + У)2 |
|
опыта |
|
|
|
||||||||
1 |
|
0 |
32 |
0 |
|
0 |
|
1024 |
32 |
1024 |
|
2 |
|
5 |
25 |
25 |
|
125 |
|
625 |
30 |
900 |
|
3 |
|
8 |
20 |
64 |
|
160 |
|
400 |
28 |
784 |
|
4 |
|
10 |
17 |
100 |
|
170 |
|
289 |
27 |
720 |
|
5 |
|
15 |
11 |
225 |
|
165 |
|
121 |
26 |
675 |
|
6 |
|
20 |
5 |
400 |
|
100 |
|
25 |
25 |
625 |
|
2 |
|
58 |
110 |
814 |
|
720 |
|
2484 |
168 |
473& |
|
Проверку вычислений можно провести по формуле' |
|
|
|
||||||||
|
|
2 (*/ + */)* = 2 А + 2 2 |
+ 2 *?• |
|
оv. зз> |
||||||
|
|
/-1 |
/=1 |
|
i=l |
|
/=1 |
|
|
|
|
В данном примере имеем |
|
|
|
|
|
|
|
|
|
||
|
|
|
4738 1= 814 -j- 2-720 4- 2484, |
|
|
|
|
||||
т. е. вычисления проведены правильно. |
суммы |
для определения |
коэффициен |
||||||||
Используем полученные в таблице |
|||||||||||
тов Ьо и Ь\: |
|
|
|
|
|
|
|
|
|
|
|
|
|
bi |
6-720 — 58-110 |
|
|
|
|
|
|
||
|
|
6-814— 582 |
|
1,3 |
’ |
|
|
|
|||
|
|
|
|
|
|
|
|||||
|
|
|
110 + |
1,355-58 |
|
|
|
|
|
|
По формуле (IV.32) определим выборочный коэффициент корреляции:
г* = — 1,355 |
6-814 — 3364 |
— 0,99. |
|
|
6-2484— 12 100 |
Коэффициент корреляции очень близок к единице, следовательно, зависимость между х и у является практически линейной в изученном диапазоне и имеет вид
у = 31,43— 1,355*.
После того как уравнение регрессии найдено, необходимо про-, вести статистический анализ результатов. Этот анализ заключается в проверке значимости всех коэффициентов регрессии в сравнении
с ошибкой воспроизводимости и адекватности уравнения. Такое исследование называется регрессионным анализом. Примем при проведении регрессионного анализа следующие допущения:
1. Входной параметр х измеряется с пренебрежимо малой ошиб кой по сравнению с ошибкой в определении у. Большая ошибка у объясняется наличием в каждом процессе невыявленных перемен ных, не вошедших в уравнение регрессии.
2. Результаты |
наблюдений над выходной величиной. у\, уч, , |
уп представляют |
собой независимые, нормально распределенные |
случайные величины.
3. При проведении эксперимента с объемом выборки п при ус ловии, что каждый опыт повторен /лграз, £ = 1, 2, , п выборочные дисперсии Si2, S22, , sn2должны быть однородны.
Однородность дисперсий при одинаковом числе степеней свобо ды проверяют по критерию Кохрена, а при разном — по критерию Бартлета. Определенная по параллельным опытам дисперсия вос производимости 52воспр необходима для оценки значимости коэф фициентов уравнения регрессии и проверки адекватности уравне ния эксперименту.
Оценка значимости коэффициентов производится по критерию Стыодента
О = |
'(IV.34) |
где bj — /-й коэффициент уравнения регрессии; Sbj |
— среднее квад |
ратичное отклонение /-го коэффициента. |
|
Если tj больше табличного tp(f) для выбранного уровня значи
мости р и числа степеней |
свободы / = /восп Р, |
то коэффициент b j |
значимо отличается от.нуля; |
sb( определяется |
по закону накопле |
ния ошибок (11.36): |
|
|
|
|
[(IV. 35) |
Если выборочные дисперсии Si2, s22, • ••, sn2 однородны, получим
Sb0= |
(IV .36) |
^ВОСПрГС
п
2 *i
Незначимые коэффициенты исключаются из уравнения регрес сии. Оставшиеся коэффициенты пересчитываются заново, посколь ку коэффициенты закоррелированы друг с другом. Адекватность уравнения проверяется по критерию Фишера:
^ М о с п р . |
(IV.38) |
где s2aH — дисперсия адекватности; s2Bocnp— дисперсия воспроизво димости;
5дд = 5 5 ал//ал , |
(IV .39) |
SSan — сумма квадратов адекватности;
S$aii = —SSocr'-r- SSaocnp> , |
(IV .40) |
/ад — число степеней свободы дисперсии адекватности;
/ад = /ост— /воспр = П— |
(IV. 41) |
I — число коэффициентов в уравнении регрессии;
SSB0Cnp — сумма квадратов, связанная с дисперсией воспроизводи мости 52воспр;
|
п. |
т 1 |
|
|
•^•^ВОСПр — 2 |
2 |
--- I//)2» |
(IV .42) |
|
|
1—1 и—1 |
|
|
|
|
|
т1 |
|
|
у г ~ |
щ |
2 |
' - |
(IV. 43) |
|
||||
|
|
ы-1 |
|
|
5воспр = |
^ в о с п р / / |
воспр, |
(IV .44) |
/воспр— число степеней свободы дисперсии воспроизводимости;
П |
|
|
/воспр ^ 2 |
1)» |
(IV.45) |
/-1 |
|
|
пт1
2 |
2 |
|
(ут-Ид* |
|
5воспр2 __ /-1и-1 |
|
(W.. 46) |
||
|
/2-1 (mi — *) |
|
||
SSOCT — остаточная сумма квадратов; |
|
|||
п |
mi |
|
^ |
|
550Ст = 2 |
2 |
(У1и— |
(IV. 47) |
|
/-1Ы-1 |
|
|
|
|
|
п |
|
|
|
/о с т ^ |
2 |
|
^» |
(IV. 48) |
|
1-1 |
|
|
|
/ост — число степеней свободы остаточной дисперсии s2,ост*,
п ™i
2 |
_‘S^OCT |
2 2 |
(уin—уi)2 |
|
i=»1 и=1 |
|
|
||
5 О СТ |
X |
п |
|
|
|
/о с т |
2 |
|
mi —1 |
|
|
|
||
|
|
/=1 |
|
Если
окажется меньше табличного значения ^i-p(/i, /г) для уровня зна чимости р и чисел степеней свободы.fi= fw и / 2=/восщ>, уравнение адекватно эксперименту.
Для одинакового числа опытов mi = m2= =rrii= ... = т п= т вычисления упрощаются:
т 2 |
(т — ?;)2 |
|
|
1=1 |
(IV .51) |
||
5ад = |
П—1 |
||
|
|||
2 2 (yiu-Ji)2 |
|
||
/=1 н=1 |
(IV .52) |
||
5воспр |
п (т — 1) |
||
|
Если опыты проведены без параллельных, а для получения дис персии воспроизводимости проделала отдельная серия из т опы тов, тогда
|
2 (0*—у№ |
с2 — с2 |
/=1 |
(IV .53) |
|
°ад °ост |
п — I |
2 |
( й -~уУ |
и= 1_____________ |
|
5воспр |
(IV .54) |
|
от— 1 |
2 й
—w=■1
У{3= — — |
(IV .55) |
гп |
|
Прй отсутствии параллельных опытов и дисперсии воспроизво димости можно оценить качество аппроксимации принятым урав нением, сравнив 5 2ОСт и дисперсию относительно среднего sy2:
2 |
0//-У )2 |
s2 _ Л=1_____ |
|
V |
Пп — 1 |
по критерию Фишера
sl u o
4 т Ш
В этохм случае критерий Фишера показывает, во сколько раз уменьшается рассеяние относительно полученного уравнения рег рессии по сравнению с рассеянием относительно среднего. Чем больше значение F превышает табличное F\-V(fu /2 ) для выбранно го уровня значимости р и чисел степеней свободы f\ = n— l и /2 =
=п—/, тем эффективнее уравнение регрессии.
6.Параболическая регрессия. Если уравнение регрессии пред
ставляет собой полином некоторой степени, то при применении ме тода наименьших квадратов коэффициенты этого полинома нахо дят решением системы линейных уравнений. Например,-требуется определить по методу наименьших квадратов коэффициенты квад ратичной функции — параболы второго порядка:
у = Ь0 + Ьхх + b2xz. (IV.58) ^
При этом
d f ( x ) |
11 |
d f ( x ) |
= X, |
df ( x) |
= |
|
||
--------= |
|
dbj |
дЬ2 |
|
||||
|
db0 |
|
|
|
|
|
||
и система нормальных уравнений имеет вид: |
|
|
||||||
|
|
п |
|
|
п |
п |
yit |
|
М + *i 2 |
|
+ 62 2 ■*? = 2 |
|
|||||
|
|
4 - 1 |
|
|
/ - 1 |
/ - 1 |
|
|
bo 2 |
X, + |
*1 2 |
|
А + h 2 |
х] = 2 |
х , у , , |
(IV.59) |
|
1 - 1 |
4 - 1 |
|
4 - 1 |
/ - 1 |
|
|
||
*о 2 |
Х1+ Ь\ 2 |
Х1+ Ь2 2 |
х\ = 2 |
Х]У1- |
|
/ - 1 |
4 - 1 |
4 - 1 |
4 - 1 |
|
Аналогичными по структуре уравнениями будут |
определяться |
|||
коэффициенты параболы любого порядка. |
добиваются |
|||
Адекватности уравнения регрессии |
эксперименту |
повышением степени полинома. При этом в связи с наличием кор реляции между коэффициентами все коэффициенты регрессии нуж но вычислять заново. При переходе от k-и степени полинома к (/г+1) -й в правой части уравнения регрессии добавляется не одно
слагаемое вида b h+ \Хк+ \ а |
целый многочлен (&+1)-й степени, в |
котором содержатся (k + 2) |
новых „ неизвестных коэффициентов. |
В качестве критерия при вычислениях рассматривается остаточная дисперсия:
|
п |
2 |
2 U i-liiP |
1 - 1 |
|
°ост |
л — / |
|
Как только s2/t+i ост перестанет быть значимо меньше s2/!0CT, увели чение степени k нужно прекратить. Значимость различия между sit2 и 52/,+I проверяется по критерию Фишера:
Если полученное F-отношение меньше табличного Fi-P'(fi, /2 ) для выбранного уровня значимости и чисел степеней свободы fi = = //, и f2 = fh+u увеличение степени k нужно прекратить. ■«.
7. Полиномы Чебышева. Уравнение регрессии, выраженное через полиномы Чебышева, имеет вид
У = Ь0Р 0О ) + bxP v (х) + + ЬкРк (х), (IV .60)
где Ро{х), Pi(x), , Ph(x) — ортогональные полиномы Чебышева
на множестве точек х\, х%, , хп■Это означает, что для |
всех иф } |
выполняются соотношения |
|
2 /» « (■ * ,) Ру (*/) = 0, |
[(IV.ei) |
/ = 1 |
|
где Ph+ 1 (х) зависит только от объема выборки п. Зная многочлены Чебышева Рк+\(х), при каждом увеличении степени уравнения рег рессии необходимо вычислять только коэффициент Ьк+\. Много члены Чебышева определяются по формулам
|
P Q(■*) = |
!. |
|
|
|
(IV. 62) |
|
= |
|
|
|
|
(IV .63) |
Pft+1 (X) = Р, (X) Рк(*) - |
* 2 |
(ц 2 _ |
£ 2) |
(X). |
(IV.64) |
|
—±—----Ф |
||||||
|
|
4 |
(4ft2 _ |
1) |
|
|
Например, |
|
|
|
|
|
|
Р 2(х) = х 2 - ( п + 1)х + (я + !)(* +2) |
|
(IV .65) |
||||
|
|
|
|
. 6 |
|
|
+ |
+ |
|
х _ с |
+ 1 ) с + 2 ) ( ч - я |
(IV 6б) |
|
р ,« ) = * , - 2 (а + 1)*> + |
<”>1+27”,+ 4 |
х1. . ч-±. м |
« 1+ ^ ± |
‘л :, + |
||
+ ( П |
-ь 1) ( п + 2) ( п + |
3) ( п |
+ 4) |
|
(IV .67) |
|
|
80 |
|
|
|
|
|
Определяя коэффициенты b0, bt, ..., bh уравнения регрессии (IV.60) по методу наименьших квадратов, получим
П
2 у,
Ь()= /-1
2 !fip l (•*<•) i=1_______
2 p Uxi)
2 yipk(■*<) /=1_______
2 ^ I(* /) /=1
Вычисленные по формулам (IV.68) коэффициенты bj не зависят от того, каков будет порядок определяемого уравнения регрессии. При нахождении уравнения регрессии методом последовательных уточ нений используются все ранее найденные bj. Повышение порядка уравнения регрессии на 1 приводит к определению только, одного коэффициента. При этом удобными получаются формулы для рас чета остаточной дисперсии для уравнения регрессии k-го порядка:
s k ост |
(IV. 69) |
|
где суммы квадратов отклонений SSu определяются по рекуррент ной формуле
S S ft = SSfc—i - b\ 2 J P \ с * , ) • |
( I V . 7 0 ) |
i - 1 |
|
Необходимо только заранее подсчитать SS0: |
|
п |
п |
__ |
« |
(2 У1 Y |
sso= 2 |
[y<_*oPo(JC,)12 = 2 |
(f/' ~ 2,)2 = ] S |
----- • (IV-71) |
|
|
i=1 |
|
i-1 |
|
При равноотстоящих значениях аргумента
Х 2 = Х\ + Л; х г = X I + 2 Н. . .х п = х х + (п — 1) Л,
где h — шаг интерполяции, вычисления коэффициентов облегчают ся. Сделаем замену переменных:
X — Х\
* = ----— + l-
п
Тогда каждое значение Xi заменится своим Будем искать уравнение регрессии в виде
(ivJ 2 )
номером, т. e„Zi = i.
у = а0Р о (z) + &\P\ (z) -Ь • • . + cLhPk (z ) * |
( I V . 7 3 ) |