Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Химмельблау Д. Анализ процессов статистическими методами

.pdf
Скачиваний:
72
Добавлен:
27.10.2023
Размер:
31.74 Mб
Скачать

290

Глава 4

 

величин е был предложен

для случая независимых

переменных,

являющихся внесистемными,

т. е. для величин е,

статистически

не зависящих от х. Следовательно, он не является вполне строгим, если, как это имеет место для временного ряда, некоторые из величин x измеряются с запаздыванием. Этот критерий весьма

прост:

требуется

лишь вычислить

статистику D для серии

из

п измерений:

 

 

 

 

 

 

 

D=^—n

,

(4.6.13)

 

 

 

t=l

 

 

 

где Et

— остаток

(Yt — Yt)

в момент

времени t, a (Et

— Et_i)

правая

последовательная

разность.

 

 

 

На фиг. 4.6.2 представлены распределение D и области, в кото­ рых гипотеза о сериальной корреляции принимается или отвер­ гается. В табл. В. 10 приведены значения верхних Du и нижних Di

р(Л)

 

 

Область не­

 

Область

 

Область не

 

 

 

 

 

 

принятия

?

принятия

 

принятия

 

 

 

 

 

 

Положи­

 

 

 

Отрицатель

 

 

 

 

 

 

тельная се­

 

 

 

неюсериаль­

 

 

 

 

 

 

риальная

 

 

 

наякорре­

 

 

 

 

 

 

О корреляция

Ли

2

 

ляция

В

 

 

 

 

 

Дг

 

4

 

 

 

Ф и г. 4.6.2. Распределение D,

используемое

при проверке

сериальной

кор ­

реляции

(нуль-гипотеза состоит в том,

что

сериальная к о р р е л я ц и я

отсут­

 

 

 

 

ствует).

 

 

 

 

 

границ

критерия. Если

величина

D,

вычисленная

по форму­

ле (4.6.13), оказывается

меньше, чем Dь или превосходит

значе­

ние 4 — DI,

то следует считать, что сериальная корреляция

имеет

место. Если величина D заключена внутри интервала

между

Du

и 4 — Du,

справедливо

противоположное утверждение. В

обла­

стях, помеченных знаком вопроса, этот критерий не позволяет принять определенное решение.

Линейные

модели с одной

переменной

291

Пример 4.6.2. Критерий сериальной корреляции

Дарбина—Ватсона

Следующие данные представляют собой скорость потока через водяную турбину как функцию проходного отверстия:

Проходное

Скорость

Проходное

Скорость

отверстие,

потока,

отверстие,

потока,

см

мз/с

см

мз/с

1,1

8,92

5,1

25,01

2,3

15,51

4,5

23,03

2,9

20,08

5,5

29,47

2,5

16,38

6,0

32,97

3,5

19,53

6,3

35,05

4,0

22,12

6,5

36,58

4,7

24,60

6,7

38,30

5,0

25,35

6,9

40,06

1. Предположите, что эти данные можно описать с помощью

линейной модели с некоррелированными

остатками г) = ßo _ Ь ßi-£-

Найдите Ь'0 и by — оценки параметров ß<J

и ßi и вычислите 16 остат­

ков. Исследуйте их.

2. Примените критерий Дарбина — Ватсона сериальной кор­ реляции. Коррелированы ли остатки?

Решение

Оценка уравнения регрессии, полученная методом наимень ших квадратов, имеет вид

Y = 2,792 + 5,0101л:.

Критерий значимости F для параметра ß4 указывает, что этот параметр модели является значимым. Остатки равны:

0,616

- 1 , 7 4 2

0,113

1,193

—2,495

0,690

2,756

—3,336

1,218

1,061

—2,310

1,936

—0,799

—0,880

2,694

—0,714

 

 

Очевидно, что эти остатки не распределены относительно нуля

по случайному

закону, как это должно быть. (Анализ проводит­

ся в разд. 7.1.)

Вычисленная

по формуле

(4.6.13) статистика D

равна

 

 

 

 

іб

 

 

 

д = < = Ч ё

= в д = 0

' 3 3 6 -

f=i

292

Глава 4

 

И з табл. В.10 для двустороннего критерия с а

= 0,05, а/2 = 0,025

и К =

1 находим Di = 0,97. Следовательно,

гипотеза о том, что

ненаблюдаемые ошибки не коррелированы, отвергается. Корреля­

ция

остатков

положительна.

 

 

 

Прежде

всего исследуем

модель

 

 

 

 

 

 

Yt

= $xt

-1- eti

 

(4.6.14)

где

t — индекс

времени. Пусть хіг

х2, • • .,

хп — ряд

последо­

вательных

значений

независимой

переменной, a Yt,

Y2, . . .

. . .,

Yn — измеренные

значения

зависимой

переменной. Хотя

остатки могут быть коррелированы между собой, математическое ожидание каждого из остатков равно нулю и предполагается, что

они не коррелированы с

xt:

 

 

g { 8 , } = 0 ,

 

M{xtst}=0.

Оценка коэффициента ß получается методом наименьших

квадратов, как описано в

разд.

4.3:

 

 

Ъ = -Ц

.

(4.6.15)

 

2 *\

 

 

t=l

 

 

Отклонение Ъ от ß можно записать, подставляя выражение (4.6.14)

для величины Yt в формулу

(4.6.15):

 

n

 

2 x&t

r

n

 

) S*!

Если взять члены с одинаковым запаздыванием по времени, квадрат отклонения можно записать в виде

пп - 1

 

2 х\г\ 4-2 2

xtxt+1etzt+i

+

.. .-+2ххх

.

 

t=î

 

 

 

 

i=l

 

 

 

Нужно

найти математическое

ожидание

 

величины (b — ß)2 , но

так как

значения et , е 2 , . . .

неизвестны,

приходится заменить

 

п - 1

 

п - 1

 

члены типа Щ { 2 xtxt+ietEt+i)

на их оценки 2 xtxt+iEtEt+i,

где

Линейные модели с одной

переменной

293

и тем самым получить оценку дисперсии Ъ. Кроме того, поскольку корреляция ztxt+kEtEt+k уменьшается по мере роста временного разрыва между двумя членами, при аппроксимации дисперсии Ъ можно вычеркнуть все члены после t + к как пренебрежимо малые. Следовательно,

Var {&} Ä;

n

n—1

 

 

 

n-h

 

2*!£ !+2

2 xtxMEtEt+i+...+2

S

xtxt+hEtEt+k

^ t=l

t=l

 

 

 

i=l

(4.6.16)

 

 

 

 

 

 

 

 

 

t=l

 

 

Можно рассмотреть

подобную, но более

сложную модель

 

Yt

=

ß; + ß A + е„

(4.6.17)

что приводит к

следующим

результатам:

 

 

 

 

 

2

( ^ - х ) У 4

 

 

 

h. — t=i

 

(4.6.18)

 

 

 

 

(=1

 

 

 

К-

 

Y—hl,

(4.6.19)

 

 

 

 

 

 

 

 

_

 

л

"

 

 

 

X

=

1

VI

 

 

 

T T J U ,

 

în

У=42^,

 

 

 

Со

^

2xCi

,

(4.6.20)

 

 

V a r { f o ; } ~ ^

 

_

+ ^ а г { 6 , } ,

 

 

 

п

n

 

1

 

 

 

 

n

2

 

c**—*)2

 

 

 

Varié,} « - s — ^

i=l

 

,

 

(4.6.21)

 

 

 

<?2

 

 

 

 

 

 

 

[ 2 ( * t - * ) 2 ] 2

 

 

где

 

 

 

 

 

 

 

 

 

c 0

= s m + 2 " s

 

 

+ . . . + 2 2 * В Д + ь , '

 

Ci = 2

 

£f +

2 S*(**-*)

+ 2 ,-х)

EtEl+ft

«=i

 

 

J=I t=i

 

 

 

j=i i=i

 

C 2

= 2

 

Я? + 2 2

"S

 

(xt-x)

(xt+J-x)

EtEt+).

 

t—i

i=i <=i

 

 

 

294

Глава 4

 

 

Кроме

того,

 

 

 

СоѵТб;, ЬІ) « — ^ —

x Ѵаг {h}:

(4.6.22)

Кроме уравнений (4.6.14) и (4.6.17), можно предложить много других моделей, в которых остатки не являются статистически независимыми, но описать их здесь не представляется возможным. В дополнительной литературе к этой главе можно найти обсужде­ ние методов обнаружения и рассмотрения различных других типов моделей с коррелированными остатками и способов оцени­ вания величины смещения, возникающего при игнорировании корреляции, когда она имеет место.

4.7. О Б Н А Р У Ж Е Н И Е И У С Т Р А Н Е Н И Е В Ы Б Р О С О В

В разд. 3.8 исследовалась проблема выбросов, или экстремаль­ ных точек, и описывались критерии обнаружения таких значений в некоторой выборке. Даже тщательно подготовленные экспери­ менты могут дать неоднородные данные в силу того, что могут измениться нерегулируемые экспериментальные условия, экспери-^ ментатор может совершить ошибку в процессе измерения или записи результатов и т. п. Если экспериментатор не обнаружит эти «ложные», «ошибочные», выбросы или аналогичные аномаль­ ные измерения, они будут учитываться наряду с правильными измерениями при построении линии регрессии; при этом они могут вызвать значительное смещение оценок параметров, осо­ бенно оценок их дисперсий, в которые экстремальные точки вносят

существенный вклад. В связи с этим

экспериментатор стремится

отбросить выскакивающие

значения.

С

другой

стороны ему

не хотелось бы исключить

все измерения,

которые

значительно

отклоняются от предполагаемого (здесь линейного) хода кривой,

ибо эти

отклонения могут содержать истинную

информацию

и свидетельствовать о том, что линейная

модель

неверна.

Одна

из трудностей при отбрасывании

аномальных значений

в рамках линейного регрессионного анализа (в отличие от методов разд. 3.8) состоит в том, что экспериментальные данные пытаются уложить в некоторую схему; иначе говоря, между ними предпо­ лагается некоторая функциональная связь. Следовательно, снова

приходится

возвращаться

к вопросу о том, что означает выброс.

В разд. 3.8

под выбросом

понималось измерение, выделяющееся

среди других, что можно было заметить хотя бы по его числовому значению. Однако в регрессионном анализе должны быть приняты

в расчет

числовое значение измерения, его местоположение

и характер

модели. Несмотря на то что график измерений харак­

теризуется

линейной моделью, это представляет собой ограниче-

Линейные модели

с

одной

переменной

295

ние, вносимое исследователем,

и

переменные процесса

вовсе не

обязаны удовлетворять ему. Если какое-либо измерение

отклони­

лось от кривой и смежные измерения проявляют ту же тенденцию, хотя, возможно, и в меньшей степени, не исключено, что более правдоподобно рассматривать это измерение не как ложный выброс, а как реальное отклонение от предполагаемой модели. С другой стороны, отдельное измерение, стоящее особняком от ближайших соседних измерений, вероятно, следует признать ложным. Чтобы измеренное значение можно было классифициро­ вать как «выскакивающее», оно должно существенно нарушать корректно принятый ход в (линейной) модели.

Хотя статистика,, по-видимому, и могла бы предложить объек­ тивные критерии для отбрасывания аномальных значений, при выборе методов анализа данных все же важную роль играют личное мнение и предубеждение. Вероятно, нет лучше критерия, чем суждение опытного экспериментатора, знакомого с применяемой им измерительной техникой.

Одним из способов решения этой задачи статистическими мето­ дами является исследование остатков. Если остатки Yt — Yt вычисляются с учетом выбросов, это влияет на каждый остаток. По этой причине использование остатков в качестве основы для распознавания выбросов не очень удобно. Тем не менее пусть требуется проверить, отклоняется ли некоторое отдельное изме­ рение достаточно сильно от значения, предсказываемого оценкой линии регрессии, чтобы его с уверенностью можно было отнести к выбросам. Предполагается, что остатки распределены по нор­ мальному закону с нулевым средним по ансамблю и дисперсией

но

ансамблю, равной

а\..

Если

вычислить величину

[18]

 

 

 

У = И

^ І ,

 

(4.7.1)

где

Е+ — остаток

для

предполагаемого

выброса, Е+

— среднее

по

всем другим

остаткам,

а величина

sy. получена

по форму­

ле (4.3.15) с отбрасыванием подозрительного измерения, то при­ веденные в табл. 4.7.1 значения распределения У можно использо­

вать в качестве

критических значений для

сохранения

или

отбрасывания этого измерения. Если величина V превышает

значения, приведенные в таблице, то гипотеза

Н0: остаток

Е+

не соответствует

выбросу — отвергается.

 

 

К сожалению, если имеется не одно аномальное измерение, то критерий V, вообще говоря, не обнаруживает этих аномалий, особенно если анализируется менее 30 остатков. В случае несколь­ ких подозрительных значений можно применить один из крите­ риев Диксона [20]. Эти статистики характеризуют отклонение одного или нескольких элементов от соседних членов серии. Пред-

296

Глава 4

Таблица 4.7.1

Критические значения V, используемые при решении вопроса о том,

отбрасывать ли подозрительные значения [19] і )

 

Уровень значимости а,

 

Уровень значимости а

Объем

для одностороннего

Объем

для

одностороннего

 

критерия

 

критерия

выборки п

0,05

0,01

выборки п

0,05

0,01

 

 

3

123

31,4

9

3,63

4,98

4

7,17

16,27

10

3,54

4,75

5

5,05

9,00

15

3,34

4,22

6

4,34

6,85

20

3,28

4,02

7

3,98

5,88

25

3,26

3,94

8

3,77

5,33

 

 

 

 

 

1) Эта таблица сокращена с разрешения автора.

 

 

 

 

 

 

 

положим, что все остатки, исключая выбросы, образуют

нормаль­

ную

совокупность

с неизвестными

средним

значением

и

диспер­

сией;

расположим

их

в

порядке

возрастания

величин

так,

что

Е

1

^

Е 2 ^ .

- - ^

Е

П .

 

Нулевая

гипотеза

состоит

в

том,

что

Е

П

(или ЕІ)

не является выбросом. Выберем уровень значимости а

и

 

вычислим

статистику,

указанную

в табл.

4.7.2.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица

4.7.2

 

 

Число остатков

 

 

 

 

 

 

 

Вычисление г. .

 

 

 

 

 

 

 

 

 

 

подозревается Е

 

подозревается

Е\

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3 < « < 7

 

 

 

гіо'-

Еп—Еп-і

 

 

 

Е2

— Еі

 

 

 

 

 

 

 

 

Еп — Еі

 

 

 

En — Ei

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

8 <

п < 10

 

 

 

 

Еп

Еп-\

 

 

Е% — Ei

 

 

 

 

 

 

 

 

 

En — Ег

 

 

En-i

— Ei

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

11 < и < 1 3

 

 

 

Г21:

Еп

Еп_2

 

 

E3 E1

 

 

 

 

 

 

 

 

 

 

 

 

En —

Ег

 

 

En-\

— Ei

 

 

 

 

 

14 О

 

< 25

 

 

 

 

Еп — Еп_2

 

 

E3-Et

 

 

 

 

 

 

 

 

 

 

 

Еп—Е3

 

 

 

 

 

Ei

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

En-2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Для применения двустороннего критерия (аномальное значе­

ние может быть как слишком большим, так и слишком

малым)

находим величину

г і _ а / 2

из табл. В.11; если rtj

больше, чем

г і _ а / 2 ,

подозрительное

измерение отбрасывается;

в . противном

случае

оно оставляется в выборке. Можно использовать и

односторонний

критерий,

проверяя,

выполнено

ли

неравенство

Гц >

Гі_а.

 

Линейные

модели с одной

переменной

297

Критерии Диксона являются оптимальными для малых смеще­ ний и не зависят от числа ошибок, тогда как критерий, основан­ ный на выражении (4.7.1), оптимален, когда имеется лишь одно аномальное значение, независимо от величины остатка. Работы, посвященные аналогичным критериям, можно найти в списке литературы в конце гл. 3.

Задачи

4.1. Установите для каждого из следующих выражений, линей­ ны или нелинейны они по параметрам — независимая пере­ менная) :

а) У = ßo + ßi^i + ßa^z-

в) у = e~ßo*+ßi.

г) In у = ß 0 + ßi*.

д) 7 = ß. + - ^ .

е) у = ß o 4 ' 4 2 -

4.2. Преобразуйте каждую нелинейную модель задачи 4.1

влинейную по параметрам.

4.3.В каких из следующих моделей параметры можно оценить

методами линейного оценивания?

а)

у =

ßo + ßi* + ß 2 z 2 .

б) У = ß A + ß 2 ^ 2 -

в)

ху =

ß4a; + ß 2 .

г)

у =

ßi In x + ß 2 .

д)

у =

eßix.

4.4. В каких случаях уравнения, нелинейные по параметрам, можно описать с помощью линейной регрессии?

4.5. Найдите наилучшую функциональную связь для следую­ щих данных:

a) x

Y

б) X

Y

в) X

Y

г) X

У

1

5

2

94,8

2

0,0245

0

8290

2

7

5

87,9

4

0,0370

20

8253

3

9

8

81,3

8

0,0570

40

8215

4

11

11

74,9

16

0,0855

60

8176

 

 

14

68,7

32

0,1295

80

8136

 

 

17

64,0

64

0,2000

100

8093

 

 

 

 

128

0,3035

 

 

298

 

 

 

 

Глава

4

 

 

4.6. Можно ли параметр а

в

модели у = (а?! +

ж2 )/(а + х3 )

оценить

с помощью

расчетной

схемы для

линейной

регрессии?

Объясните. Будет

ли эта цель

достигнута,

если данные описать

трансформированной

моделью

 

 

 

 

а) у = к (хі +

 

хг

— х3у),

 

 

 

 

где к =

1/а,

 

 

 

 

 

 

 

или

 

 

 

 

 

 

 

 

 

б) = а :

1

'

г-

*8

 

 

 

 

 

ѵл

 

 

 

 

 

у

Хі + Х2

 

 

хі-\-хг

 

 

 

 

Поясните.

4.7. Считая, что значения ж и У заданы, найдите подходящий функциональный вид линейной связи между Y -ах. Коэффициенты оценивать не нужно, установите лишь вид функции Y = / (х).

X

У

X

У

0

0

0,6

0,558

0,1

1,333

0,7

0,491

0,2

1,143

0,8

0,438

0,3

0,923

0,9

0,396

0,4

0,762

1,0

0,360

0,5

0,645

 

 

4.8. Модель для скорости реакции в некотором реакторе перио­ дического действия имеет вид

 

 

 

IV

1 —

х

 

 

 

к К л Т + х р

 

 

 

 

1

ш І+ХГ

где к, КА и

Kw

— некоторые

коэффициенты, х — независимая

переменная,

а р

— другая

независимая переменная. Предла­

гается переписать

модель в

виде

 

 

 

 

 

1—хр

 

где

 

 

 

 

 

 

 

1

 

 

 

 

 

ßt = kKA

'

k '

 

 

 

1

I

Kw — КЛ

 

 

ß 2 = kKA

1

kKA.

и оценить параметр ß l 5 исходя из данных при х — 0, а оценку параметра ß 2 получить, используя данные при фиксированных значениях х, как функцию р. Прокомментируйте это предложение.

4.9. Предлагается модель

Линейные модели с одной переменной 299

Можно ли сделать ее линейной по параметрам с помощью следую­ щего преобразования

^

1

I ß 2

 

(тГ- (РА)"2

(РА)"2

X

и получить линейные оценки параметров методом наименьших квадратов?

4.10. Ниже перечислены некоторые эксперименты. Для каж­ дого из них в одной-двух фразах скажите, применим ли метод наименьших квадратов для: 1) оценивания параметров в линейной эмпирической модели; 2) оценивания доверительного интервала

для этих параметров.

 

а) Исследователь для калибровки рефрактометра

анализирует

несколько проб растворов, содержащих известные

концентрации

бензина. Он получает данные в виде зависимости между относи­

тельным содержанием бензина в растворе и показателем прелом­ ления.

б) Антрополог измеряет длину предплечья у сыновей и отцов,

чтобы

установить возможную

связь.

 

 

 

 

в)

Химик

взвешивает

воду,

вытесненную

твердыми

шарами

известных радиусов,

но

вес которых точно

не известен.

г) Двумя пропорциональными счетчиками (ß-излучения) изме­

ряется одинаковый

вид

радиоактивности

у

ряда

источников.

{Оба

счетчика

допускают

несколько типов

ошибок

на

выходе.)

д) Химик пытается отлить х граммов карбоната натрия по масштабной линейке (шкале). Карбонат натрия добавляется к точ­

но

известному

объему воды. Затем

измеряется

pH раствора.

 

е) В

более

точном опыте химик пытается взвесить

х граммов,

но не в состоянии сделать это. Он смотрит на шкалу и

записывает

x

плюс

ошибку. Затем измеряет

показатель

преломления.

ж) Техник измеряет твердость эпоксидного покрытия сталь­ ных листов в лаборатории на берегу моря. Затем он проделывает такие же измерения на других образцах в лаборатории, находя­ щейся в пустыне. Ему хотелось бы связать твердость с место­ положением.

4.11. Для следующих пород измерялись пороговое контактное давление и прочность на сдвиг.

 

 

Пороговое кон-

Прочность на

 

 

тактное давление,

сдвиг,

 

 

КГС/СМ2-10-3

КГС/СМ2-10-3

Базальт

А

44,5

0,32

Песчаник

39,9

0,46

Гранит

 

34,5

0,60

Доломит

 

25,5

0,63

Мрамор

В

7,2

0,33

Песчаник

6,05

0,21

Известняк

 

3,51

0,21

Сланец

 

0,21

0,08

Соседние файлы в папке книги из ГПНТБ