
книги из ГПНТБ / Химмельблау Д. Анализ процессов статистическими методами
.pdf290 |
Глава 4 |
|
величин е был предложен |
для случая независимых |
переменных, |
являющихся внесистемными, |
т. е. для величин е, |
статистически |
не зависящих от х. Следовательно, он не является вполне строгим, если, как это имеет место для временного ряда, некоторые из величин x измеряются с запаздыванием. Этот критерий весьма
прост: |
требуется |
лишь вычислить |
статистику D для серии |
из |
||
п измерений: |
|
|
|
|
|
|
|
|
D=^—n |
, |
(4.6.13) |
||
|
|
|
t=l |
|
|
|
где Et |
— остаток |
(Yt — Yt) |
в момент |
времени t, a (Et |
— Et_i) |
— |
правая |
последовательная |
разность. |
|
|
|
На фиг. 4.6.2 представлены распределение D и области, в кото рых гипотеза о сериальной корреляции принимается или отвер гается. В табл. В. 10 приведены значения верхних Du и нижних Di
р(Л)
|
|
Область не |
|
Область |
|
Область не |
|
|
|
|
|
|
принятия |
? |
принятия |
|
принятия |
|
|
|
|
|
|
Положи |
|
|
|
Отрицатель |
|
|
|
|
|
|
тельная се |
|
|
|
неюсериаль |
|
|
|
|
|
|
риальная |
|
|
|
наякорре |
|
|
|
|
|
|
О корреляция |
Ли |
2 |
|
ляция |
В |
|
|
|
|
|
Дг |
|
4 |
|
|
|
|||
Ф и г. 4.6.2. Распределение D, |
используемое |
при проверке |
сериальной |
кор |
||||||
реляции |
(нуль-гипотеза состоит в том, |
что |
сериальная к о р р е л я ц и я |
отсут |
||||||
|
|
|
|
ствует). |
|
|
|
|
|
|
границ |
критерия. Если |
величина |
D, |
вычисленная |
по форму |
|||||
ле (4.6.13), оказывается |
меньше, чем Dь или превосходит |
значе |
||||||||
ние 4 — DI, |
то следует считать, что сериальная корреляция |
имеет |
||||||||
место. Если величина D заключена внутри интервала |
между |
Du |
||||||||
и 4 — Du, |
справедливо |
противоположное утверждение. В |
обла |
стях, помеченных знаком вопроса, этот критерий не позволяет принять определенное решение.
Линейные модели с одной |
переменной |
293 |
и тем самым получить оценку дисперсии Ъ. Кроме того, поскольку корреляция ztxt+kEtEt+k уменьшается по мере роста временного разрыва между двумя членами, при аппроксимации дисперсии Ъ можно вычеркнуть все члены после t + к как пренебрежимо малые. Следовательно,
Var {&} Ä;
n |
n—1 |
|
|
|
n-h |
|
2*!£ !+2 |
2 xtxMEtEt+i+...+2 |
S |
xtxt+hEtEt+k |
|||
^ t=l |
t=l |
|
|
|
i=l |
(4.6.16) |
|
|
|
|
|
|
|
|
|
|
t=l |
|
|
|
Можно рассмотреть |
подобную, но более |
сложную модель |
||||
|
Yt |
= |
ß; + ß A + е„ |
(4.6.17) |
||
что приводит к |
следующим |
результатам: |
|
|||
|
|
|
|
2 |
( ^ - х ) У 4 |
|
|
|
h. — t=i |
|
(4.6.18) |
||
|
|
|
|
(=1 |
|
|
|
|
К- |
|
Y—hl, |
(4.6.19) |
|
|
|
|
|
|
|
|
|
|
_ |
|
л |
" |
|
|
|
X |
= |
1 |
VI |
|
|
|
T T J U , |
|
în
У=42^,
|
|
|
Со |
^ |
2xCi |
, |
(4.6.20) |
|
|
|
V a r { f o ; } ~ ^ |
|
_ |
+ ^ а г { 6 , } , |
|||
|
|
|
п |
n |
|
1 |
|
|
|
|
|
n |
2 |
|
c**—*)2 |
|
|
|
|
Varié,} « - s — ^ |
i=l |
|
, |
|
(4.6.21) |
|
|
|
|
<?2 |
|
|
|
|
|
|
|
|
[ 2 ( * t - * ) 2 ] 2 |
|
|
|||
где |
|
|
|
|
|
|
|
|
|
c 0 |
= s m + 2 " s |
|
|
+ . . . + 2 2 * В Д + ь , ' |
|
||
Ci = 2 |
|
£f + |
2 S*(**-*) |
+ 2 %Ы,-х) |
EtEl+ft |
|||
«=i |
|
|
J=I t=i |
|
|
|
j=i i=i |
|
C 2 |
= 2 |
|
Я? + 2 2 |
"S |
|
(xt-x) |
(xt+J-x) |
EtEt+). |
|
t—i |
i=i <=i |
|
|
|
294 |
Глава 4 |
|
|
Кроме |
того, |
|
|
|
СоѵТб;, ЬІ) « — ^ — |
x Ѵаг {h}: |
(4.6.22) |
Кроме уравнений (4.6.14) и (4.6.17), можно предложить много других моделей, в которых остатки не являются статистически независимыми, но описать их здесь не представляется возможным. В дополнительной литературе к этой главе можно найти обсужде ние методов обнаружения и рассмотрения различных других типов моделей с коррелированными остатками и способов оцени вания величины смещения, возникающего при игнорировании корреляции, когда она имеет место.
4.7. О Б Н А Р У Ж Е Н И Е И У С Т Р А Н Е Н И Е В Ы Б Р О С О В
В разд. 3.8 исследовалась проблема выбросов, или экстремаль ных точек, и описывались критерии обнаружения таких значений в некоторой выборке. Даже тщательно подготовленные экспери менты могут дать неоднородные данные в силу того, что могут измениться нерегулируемые экспериментальные условия, экспери-^ ментатор может совершить ошибку в процессе измерения или записи результатов и т. п. Если экспериментатор не обнаружит эти «ложные», «ошибочные», выбросы или аналогичные аномаль ные измерения, они будут учитываться наряду с правильными измерениями при построении линии регрессии; при этом они могут вызвать значительное смещение оценок параметров, осо бенно оценок их дисперсий, в которые экстремальные точки вносят
существенный вклад. В связи с этим |
экспериментатор стремится |
|||
отбросить выскакивающие |
значения. |
С |
другой |
стороны ему |
не хотелось бы исключить |
все измерения, |
которые |
значительно |
отклоняются от предполагаемого (здесь линейного) хода кривой,
ибо эти |
отклонения могут содержать истинную |
информацию |
|
и свидетельствовать о том, что линейная |
модель |
неверна. |
|
Одна |
из трудностей при отбрасывании |
аномальных значений |
в рамках линейного регрессионного анализа (в отличие от методов разд. 3.8) состоит в том, что экспериментальные данные пытаются уложить в некоторую схему; иначе говоря, между ними предпо лагается некоторая функциональная связь. Следовательно, снова
приходится |
возвращаться |
к вопросу о том, что означает выброс. |
В разд. 3.8 |
под выбросом |
понималось измерение, выделяющееся |
среди других, что можно было заметить хотя бы по его числовому значению. Однако в регрессионном анализе должны быть приняты
в расчет |
числовое значение измерения, его местоположение |
и характер |
модели. Несмотря на то что график измерений харак |
теризуется |
линейной моделью, это представляет собой ограниче- |
Линейные модели |
с |
одной |
переменной |
295 |
ние, вносимое исследователем, |
и |
переменные процесса |
вовсе не |
|
обязаны удовлетворять ему. Если какое-либо измерение |
отклони |
лось от кривой и смежные измерения проявляют ту же тенденцию, хотя, возможно, и в меньшей степени, не исключено, что более правдоподобно рассматривать это измерение не как ложный выброс, а как реальное отклонение от предполагаемой модели. С другой стороны, отдельное измерение, стоящее особняком от ближайших соседних измерений, вероятно, следует признать ложным. Чтобы измеренное значение можно было классифициро вать как «выскакивающее», оно должно существенно нарушать корректно принятый ход в (линейной) модели.
Хотя статистика,, по-видимому, и могла бы предложить объек тивные критерии для отбрасывания аномальных значений, при выборе методов анализа данных все же важную роль играют личное мнение и предубеждение. Вероятно, нет лучше критерия, чем суждение опытного экспериментатора, знакомого с применяемой им измерительной техникой.
Одним из способов решения этой задачи статистическими мето дами является исследование остатков. Если остатки Yt — Yt вычисляются с учетом выбросов, это влияет на каждый остаток. По этой причине использование остатков в качестве основы для распознавания выбросов не очень удобно. Тем не менее пусть требуется проверить, отклоняется ли некоторое отдельное изме рение достаточно сильно от значения, предсказываемого оценкой линии регрессии, чтобы его с уверенностью можно было отнести к выбросам. Предполагается, что остатки распределены по нор мальному закону с нулевым средним по ансамблю и дисперсией
но |
ансамблю, равной |
а\.. |
Если |
вычислить величину |
[18] |
||
|
|
|
У = И |
^ І , |
|
(4.7.1) |
|
где |
Е+ — остаток |
для |
предполагаемого |
выброса, Е+ |
— среднее |
||
по |
всем другим |
остаткам, |
а величина |
sy. получена |
по форму |
ле (4.3.15) с отбрасыванием подозрительного измерения, то при веденные в табл. 4.7.1 значения распределения У можно использо
вать в качестве |
критических значений для |
сохранения |
или |
отбрасывания этого измерения. Если величина V превышает |
|||
значения, приведенные в таблице, то гипотеза |
Н0: остаток |
Е+ |
|
не соответствует |
выбросу — отвергается. |
|
|
К сожалению, если имеется не одно аномальное измерение, то критерий V, вообще говоря, не обнаруживает этих аномалий, особенно если анализируется менее 30 остатков. В случае несколь ких подозрительных значений можно применить один из крите риев Диксона [20]. Эти статистики характеризуют отклонение одного или нескольких элементов от соседних членов серии. Пред-
296 |
Глава 4 |
Таблица 4.7.1
Критические значения V, используемые при решении вопроса о том,
отбрасывать ли подозрительные значения [19] і )
|
Уровень значимости а, |
|
Уровень значимости а |
||
Объем |
для одностороннего |
Объем |
для |
одностороннего |
|
|
критерия |
|
критерия |
||
выборки п |
0,05 |
0,01 |
выборки п |
0,05 |
0,01 |
|
|
||||
3 |
123 |
31,4 |
9 |
3,63 |
4,98 |
4 |
7,17 |
16,27 |
10 |
3,54 |
4,75 |
5 |
5,05 |
9,00 |
15 |
3,34 |
4,22 |
6 |
4,34 |
6,85 |
20 |
3,28 |
4,02 |
7 |
3,98 |
5,88 |
25 |
3,26 |
3,94 |
8 |
3,77 |
5,33 |
|
|
|
|
|
1) Эта таблица сокращена с разрешения автора. |
|
|
|
|
|
|
|
|||||||||||
положим, что все остатки, исключая выбросы, образуют |
нормаль |
|||||||||||||||||||
ную |
совокупность |
с неизвестными |
средним |
значением |
и |
диспер |
||||||||||||||
сией; |
расположим |
их |
в |
порядке |
возрастания |
величин |
так, |
что |
||||||||||||
Е |
1 |
^ |
Е 2 ^ . |
- - ^ |
Е |
П . |
|
Нулевая |
гипотеза |
состоит |
в |
том, |
что |
|||||||
Е |
П |
(или ЕІ) |
не является выбросом. Выберем уровень значимости а |
|||||||||||||||||
и |
|
вычислим |
статистику, |
указанную |
в табл. |
4.7.2. |
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Таблица |
4.7.2 |
||
|
|
Число остатков |
|
|
|
|
|
|
|
Вычисление г. . |
|
|
|
|
|
|||||
|
|
|
|
|
подозревается Е |
|
подозревается |
Е\ |
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
||||||||||
|
|
|
3 < « < 7 |
|
|
|
гіо'- |
Еп—Еп-і |
|
|
|
Е2 |
— Еі |
|
|
|||||
|
|
|
|
|
|
Еп — Еі |
|
|
|
En — Ei |
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
8 < |
п < 10 |
|
|
|
|
Еп |
— |
Еп-\ |
|
|
Е% — Ei |
|
|
||||
|
|
|
|
|
|
|
En — Ег |
|
|
En-i |
— Ei |
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
11 < и < 1 3 |
|
|
|
Г21: |
Еп |
— |
Еп_2 |
|
|
E3 — E1 |
|
|
|||||
|
|
|
|
|
|
|
|
|
|
En — |
Ег |
|
|
En-\ |
— Ei |
|
|
|||
|
|
|
14 О |
|
< 25 |
|
|
|
|
Еп — Еп_2 |
|
|
E3-Et |
|
|
|
||||
|
|
|
|
|
|
|
|
Еп—Е3 |
|
|
|
|
|
— Ei |
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
En-2 |
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
Для применения двустороннего критерия (аномальное значе |
||||||||||||||||||
ние может быть как слишком большим, так и слишком |
малым) |
|||||||||||||||||||
находим величину |
г і _ а / 2 |
из табл. В.11; если rtj |
больше, чем |
г і _ а / 2 , |
||||||||||||||||
подозрительное |
измерение отбрасывается; |
в . противном |
случае |
|||||||||||||||||
оно оставляется в выборке. Можно использовать и |
односторонний |
|||||||||||||||||||
критерий, |
проверяя, |
выполнено |
ли |
неравенство |
Гц > |
Гі_а. |
|
Линейные |
модели с одной |
переменной |
297 |
Критерии Диксона являются оптимальными для малых смеще ний и не зависят от числа ошибок, тогда как критерий, основан ный на выражении (4.7.1), оптимален, когда имеется лишь одно аномальное значение, независимо от величины остатка. Работы, посвященные аналогичным критериям, можно найти в списке литературы в конце гл. 3.
Задачи
4.1. Установите для каждого из следующих выражений, линей ны или нелинейны они по параметрам (х — независимая пере менная) :
а) У = ßo + ßi^i + ßa^z-
в) у = e~ßo*+ßi.
г) In у = ß 0 + ßi*.
д) 7 = ß. + - ^ .
е) у = ß o 4 ' 4 2 -
4.2. Преобразуйте каждую нелинейную модель задачи 4.1
влинейную по параметрам.
4.3.В каких из следующих моделей параметры можно оценить
методами линейного оценивания?
а) |
у = |
ßo + ßi* + ß 2 z 2 . |
б) У = ß A + ß 2 ^ 2 - |
||
в) |
ху = |
ß4a; + ß 2 . |
г) |
у = |
ßi In x + ß 2 . |
д) |
у = |
eßix. |
4.4. В каких случаях уравнения, нелинейные по параметрам, можно описать с помощью линейной регрессии?
4.5. Найдите наилучшую функциональную связь для следую щих данных:
a) x |
Y |
б) X |
Y |
в) X |
Y |
г) X |
У |
1 |
5 |
2 |
94,8 |
2 |
0,0245 |
0 |
8290 |
2 |
7 |
5 |
87,9 |
4 |
0,0370 |
20 |
8253 |
3 |
9 |
8 |
81,3 |
8 |
0,0570 |
40 |
8215 |
4 |
11 |
11 |
74,9 |
16 |
0,0855 |
60 |
8176 |
|
|
14 |
68,7 |
32 |
0,1295 |
80 |
8136 |
|
|
17 |
64,0 |
64 |
0,2000 |
100 |
8093 |
|
|
|
|
128 |
0,3035 |
|
|
298 |
|
|
|
|
Глава |
4 |
|
|
|
4.6. Можно ли параметр а |
в |
модели у = (а?! + |
ж2 )/(а + х3 ) |
||||||
оценить |
с помощью |
расчетной |
схемы для |
линейной |
регрессии? |
||||
Объясните. Будет |
ли эта цель |
достигнута, |
если данные описать |
||||||
трансформированной |
моделью |
|
|
|
|
||||
а) у = к (хі + |
|
хг |
— х3у), |
|
|
|
|
||
где к = |
1/а, |
|
|
|
|
|
|
|
|
или |
|
|
|
|
|
|
|
|
|
б) — = а : |
1 |
' |
г- |
*8 |
|
|
|
|
|
|
ѵл |
|
• |
|
|
|
|
||
у |
Хі + Х2 |
|
|
хі-\-хг |
|
|
|
|
Поясните.
4.7. Считая, что значения ж и У заданы, найдите подходящий функциональный вид линейной связи между Y -ах. Коэффициенты оценивать не нужно, установите лишь вид функции Y = / (х).
X |
У |
X |
У |
0 |
0 |
0,6 |
0,558 |
0,1 |
1,333 |
0,7 |
0,491 |
0,2 |
1,143 |
0,8 |
0,438 |
0,3 |
0,923 |
0,9 |
0,396 |
0,4 |
0,762 |
1,0 |
0,360 |
0,5 |
0,645 |
|
|
4.8. Модель для скорости реакции в некотором реакторе перио дического действия имеет вид
|
|
|
IV |
1 — |
х |
|
|
|
к К л Т + х р |
||
|
|
|
|
1 |
ш І+ХГ |
где к, КА и |
Kw |
— некоторые |
коэффициенты, х — независимая |
||
переменная, |
а р |
— другая |
независимая переменная. Предла |
||
гается переписать |
модель в |
виде |
|
||
|
|
|
|
1—хр |
|
где |
|
|
|
|
|
|
|
1 |
|
|
|
|
|
ßt = kKA |
' |
k ' |
|
|
|
1 |
I |
Kw — КЛ |
|
|
|
ß 2 = kKA |
1 |
kKA. |
и оценить параметр ß l 5 исходя из данных при х — 0, а оценку параметра ß 2 получить, используя данные при фиксированных значениях х, как функцию р. Прокомментируйте это предложение.
4.9. Предлагается модель
Линейные модели с одной переменной 299
Можно ли сделать ее линейной по параметрам с помощью следую щего преобразования
^ |
1 |
I ß 2 |
|
(тГ- (РА)"2 |
(РА)"2 |
X |
и получить линейные оценки параметров методом наименьших квадратов?
4.10. Ниже перечислены некоторые эксперименты. Для каж дого из них в одной-двух фразах скажите, применим ли метод наименьших квадратов для: 1) оценивания параметров в линейной эмпирической модели; 2) оценивания доверительного интервала
для этих параметров. |
|
а) Исследователь для калибровки рефрактометра |
анализирует |
несколько проб растворов, содержащих известные |
концентрации |
бензина. Он получает данные в виде зависимости между относи |
тельным содержанием бензина в растворе и показателем прелом ления.
б) Антрополог измеряет длину предплечья у сыновей и отцов,
чтобы |
установить возможную |
связь. |
|
|
|
|
|||
в) |
Химик |
взвешивает |
воду, |
вытесненную |
твердыми |
шарами |
|||
известных радиусов, |
но |
вес которых точно |
не известен. |
||||||
г) Двумя пропорциональными счетчиками (ß-излучения) изме |
|||||||||
ряется одинаковый |
вид |
радиоактивности |
у |
ряда |
источников. |
||||
{Оба |
счетчика |
допускают |
несколько типов |
ошибок |
на |
выходе.) |
д) Химик пытается отлить х граммов карбоната натрия по масштабной линейке (шкале). Карбонат натрия добавляется к точ
но |
известному |
объему воды. Затем |
измеряется |
pH раствора. |
||
|
е) В |
более |
точном опыте химик пытается взвесить |
х граммов, |
||
но не в состоянии сделать это. Он смотрит на шкалу и |
записывает |
|||||
x |
плюс |
ошибку. Затем измеряет |
показатель |
преломления. |
ж) Техник измеряет твердость эпоксидного покрытия сталь ных листов в лаборатории на берегу моря. Затем он проделывает такие же измерения на других образцах в лаборатории, находя щейся в пустыне. Ему хотелось бы связать твердость с место положением.
4.11. Для следующих пород измерялись пороговое контактное давление и прочность на сдвиг.
|
|
Пороговое кон- |
Прочность на |
|
|
тактное давление, |
сдвиг, |
|
|
КГС/СМ2-10-3 |
КГС/СМ2-10-3 |
Базальт |
А |
44,5 |
0,32 |
Песчаник |
39,9 |
0,46 |
|
Гранит |
|
34,5 |
0,60 |
Доломит |
|
25,5 |
0,63 |
Мрамор |
В |
7,2 |
0,33 |
Песчаник |
6,05 |
0,21 |
|
Известняк |
|
3,51 |
0,21 |
Сланец |
|
0,21 |
0,08 |