Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Статистика и анализ геологических данных

..pdf
Скачиваний:
20
Добавлен:
15.11.2022
Размер:
21.12 Mб
Скачать

тях слоя ила и медленно убывает, почти стабилизируясь, в осадке вблизи основания слоя. Рассмотрим теперь различные способы исследования и записи неявных соотношений между этими наблюдениями.

Значение 47,75, указанное на фиг. 5.5, — среднее содержание влаги в пробах — представляет собой точку, относительно ко­ торой дисперсия минимальна, т. е. минимальна сумм-а квадра­ тов отклонений содержаний влаги относительно этой точки. Чи­ татель должен помнить (см. гл. 3), что если некоторые пробы вызывают сомнение, то их можно заменить несмещенной и эф­ фективной оценкой выборочного среднего, которое является наилучшим предсказанием для дополнительных проб, которые могут быть извлечены из той же совокупности. Однако ясно, что среднее значение не может адекватно представлять данные фиг. 5.5. Пробы отбирались последовательно, и потому они не являются независимыми. Еще более, чем точечная оценка, нам подошла бы прямая линия, которая выразила бы связь между содержанием влаги и глубиной на всем множестве изме­ нения значений переменных. Интуитивные соображения под­ сказывают нам, что в качестве такой линии можно было бы выбрать прямую, отклонения которой от данных значений можно было бы свести до минимума. Если рассуждать по ана­ логии со средним, то один из способов состоит в минимизации суммы квадратов отклонений от прямой. (Среднее — это значе­ ние, относительно которого дисперсия и, следовательно, сумма квадратов отклонений, является наименьшей.) Мы можем по­ строить единственную прямую, относительно которой дисперсия минимальна. Если значения этой линейной функции в данных точках вычесть из соответствующих наблюдаемых значений, то полученная совокупность будет иметь нулевое среднее значение и меньшую дисперсию, чем набор отклонений от любой другой прямой, построенной по данным точкам.

Имеется, однако, несколько способов определения и измере­ ния отклонений от подбираемой линии. Например, мы можем рассмотреть отклонения значений влажности, отклонения глу­ бин или некоторую их комбинацию. На фиг. 5.6 отрезок А изоб­ ражает отклонение содержаний влажности от подобранной пря­ мой, а отрезок С — отклонение значений глубины от той же прямой. Отклонение В измерено по перпендикуляру к ней. Можно было бы построить прямые, используя любой из этих способов измерения отклонений, но мы ограничимся лишь за­ мечаниями по поводу каждого из этих способов. Если наша задача будет заключаться в минимизации отклонений содер­ жаний влаги, то мы получим прямую, представляющую наилуч­ шую оценку влажности при заданных глубинах. Наоборот, если задача будет состоять в минимизации отклонений глубин, то мы

 

 

Y

 

получим

наилучшую

оценку

за­

 

 

 

 

висимости

глубины

от содержа­

 

 

 

 

ний

влаги.

Третья

альтернати­

 

 

 

 

ва

 

позволяет

 

выразить

связь

 

 

 

 

между двумя переменными. В спе­

 

 

 

 

циальном

наборе задач, рассмат­

 

 

 

 

риваемых в этой главе, вре­

 

 

 

 

менные или пространственные ин­

 

 

 

 

тервалы

считаются

известными,

 

 

 

 

а

вторая

 

переменная имеет

не­

 

 

 

 

прерывное

распределение.

 

По­

 

 

 

 

этому

первая

альтернатива

ка­

 

 

 

 

жется

наиболее

 

подходящей

для

 

 

 

 

наших целей. Иными словами, со­

 

 

 

 

держание

влаги

Y рассматрива­

 

 

 

 

ется

как

случайная

переменная,

 

 

 

 

а глубина X фиксируется. Поэто­

 

 

 

 

му задача

состоит в

предсказа­

 

 

 

 

нии значений Y по значениям X.

Фиг. 5.6.

Различные

варианты

Другие

случаи

будут рассмотре­

критериев

минимизации

отклоне­

ны

в гл. 7,

где

 

мы

остановимся

ний от линии

аппроксимации.

на

изучении связей между

пере­

А — минимизация

отклонений влажно­

менными, которые нельзя класси­

сти В — минимизация обобщенных от­

клонений;

С — минимизация отклоне­

фицировать

как

пространствен­

 

ний глубины.

 

ные.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

После того как

мы условились

о

характеристиках прямой

тренда, которую мы хотим построить, определим некоторые тер­ мины. Изучаемая переменная является зависимой (т. е. функ­ цией) или регрессионной и обозначается Yi. Отклонения Yi от прямой линии должны быть минимальными. Другая перемен­ ная является независимой (или аргументом) и обозначается Хь Пусть аппроксимирующая прямая пересекает ось Y в точке Ьо и имеет угловой коэффициент bi. Тогда ее уравнение имеет вид

Y ^ b o + b jX ,,

(5.5)

где — оценка для Yi при данном значении Хь Тогда рассмат­

риваемое отклонение равно Yi — Yi, и наша задача сводится к нахождению такой прямой, для которой сумма квадратов от­ клонений

2 ( Y| — Y,) = minimum.

(5.6)

i =i

 

Получение окончательного результата требует применения дифференциального исчисления, поэтому мы не будем рассмат­ ривать доказательство, а ограничимся тем, что приведем так

называемые нормальные уравнения, позволяющие найти значе­ ния Ь0 и bi для аппроксимирующей прямой. Они имеют вид

2 Y , =

bon + bi 2 х „

1 = 1

 

1 = 1

 

2 х , у , = Ь о

2

х , + ь , 2

х?.

1= 1

1= 1

1=

1

Решая систему уравнений, получим

2

XjY,— f 2

Xj 2

Y .V n

SP,

1=

1

 

\ i = i

 

i = i

r

 

 

3ty

^1—

n

 

7 n

 

\ 2/

s s ,

 

2

XH

2

 

X,

n

 

 

1=1

 

\I=1

 

 

 

 

2

Y,

 

2-x,

 

 

b o = - ^ ------b1- ^ l -

= Y - b 1X.

(5.7)

(5.8)

(5.9)

(5.10)

Мы могли использовать формулы (5.9) и (5.10) для получения коэффициентов прямой, однако поступим иначе. Легко заметить, что уравнения (5.7) и (5.8) представляют собой систему урав­ нений, которую можно решить, используя методы, описанные в гл. 4.

Оба эти уравнения можно записать в матричной форме:

n

EX 1 ГЬо]_рУ '

_ах

(5.11)

s x 2J ‘ LbJ LE X Y

Хотя в этом простом случае использование матричного метода едва ли дает какие-либо преимущества, в более сложных ситуа­ циях его применение оправданно. Поэтому мы приведем реше­ ние задачи о зависимости содержания влаги от глубины мето­ дами матричной алгебры и будем использовать этот метод и

далее в настоящей

главе.

Элементы матриц таковы:

п= 8,

£ Х = 140, 2]Y = 382, 2]XY = 3870 и

2]Х2=3500. Система в

мат­

ричной форме имеет вид

 

3821

 

• 8

1401

ГЬо!

 

140

3500J

[ь,.

3870J 1

 

Решив ее, получаем Ь0 = 94,67 и b i = —2,68. Мы можем использо­ вать полученные значения для вычисления оценок содержаний влаги в осадке на различных глубинах с помощью уравнения 5.5.

Полученные оценки в выборочных точках Yi позволяют изме­ рить, насколько хорошо прямая, построенная по методу наи­ меньших квадратов, соответствует выборочным данным. Если

бы построенная прямая проходила в точности через каждую

выборочную точку, то Yi и Yi совпадали бы и сумма квадратов отклонений от прямой была бы равна нулю. Конечно, в при­

веденном примере это не так. Значения Yj и Yi изображены на фиг. 5.7.

Мы можем определить три характеристики, которые описы­ вают изменение зависимой переменной. Первая из них — это общая сумма квадратов (SS T) переменной Y:

n

( £

Y,Y

п

 

SST= 2

Y ? - —-"

г - =

2 (Y .- Y )2.

(5.12)

1=1

 

 

1=1

 

Разделив это уравнение на (п— 1), получим дисперсию пе­ ременной Y:

 

 

n

/

п

\ 2

s2 =

S S T

п 2

Y? -

2

Y,

-----т-

1=1

\1=1

(5.13)

5 — п — 1

 

n ( n - I )

 

Вторая характеристика изменчивости зависимой перемен­ ной — это сумма квадратов отклонений наблюдаемых значений

Влажность, г

Yt

от среднего значения

 

Y

(SSR):

Фиг. 5.7. Наблюдаемые значения влаж­ ности и их оценки, полученные из ли­ нейного уравнения регрессии, построен­ ного по методу наименьших квадратов.

= 2 ( Y , - Y )2

(5.14)

i=i

 

Как следует из правой части этого равенства, оцен­

ки Yi имеют то же среднее значение, что и исходные данные. Сумма квадратов этих оценок Yi характери­ зует меру изменчивости ли­ нии регрессии относительно

среднего значения. Если Yi и Yi совпадают для всех наблюдений, то суммы квадратов, вычисленные по

формулам (5.12) и (5.14), будут одинаковыми. Наоборот, если сумма квадратов (5.14) будет меньше, то разность

SSD= SST - S S r,

(5.15)

называемая остаточной

суммой

квадратов, будет отличаться

от нуля. Как легко убедиться, величину SS D можно также вы­

числить по формуле

 

 

 

SSD^ J ^ Y

. - Y , ) 2,

(5.16)

где SS D является мерой

отклонения прямой, построенной по

методу наименьших квадратов, от результатов

наблюдений.

Качество приближения

прямой

характеризуется

отношением

 

SS,

 

 

R 2 = ssT

(5.17)

Если для имеющихся данных прямая хорошо подобрана, то это отношение будет близко к единице; ниже мы рассмотрим критерии, позволяющие судить о том, насколько хорошо это от­ ношение характеризует качество оценки. Величину R2 нередко выражают в процентах. Та же терминология принята в тренданализе, который, как мы увидим, является прямым обобщением этого метода. Необходимо отметить, что квадратный корень из R2 равен множественному коэффициенту корреляции R:

 

 

(5.18)

Алгебраический эквивалент

этого соотношения определен

в гл. 3 как коэффициент корреляции

 

^

S S X y

(5.19)

 

 

V s s x • s S y

Таким образом, при нахождении уравнения прямой, харак­ теризующей зависимость влажности осадка от глубины, по ме­ тоду наименьших квадратов мы вычислили различные вели­ чины, необходимые при определении сумм квадратов, качества приближения и коэффициента корреляции. Вычислите величины S S T , SS R , SSD , R2 и R д л я данных табл. 5.7.

Программу построения уравнения линейной регрессии легко составить по приведенной серии уравнений. Ее главными со­ ставными частями являются операции нахождения сумм квадра­ тов и смешанных произведений X и Y, а также запись этих данных в виде матрицы порядка 2 x 2 с последующим реше­ нием системы уравнений. Последнюю задачу можно реализо­ вать с помощью подпрограммы, аналогичной подпрограмме SLE

(программа 4.9). Подпрограммы READM (программа 4.1) и PRINTM (программа 4.2) можно использовать для ввода и вы­ вода данных матриц и матриц сумм квадратов и смешанных произведений. Кроме нахождения коэффициентов уравнения

регрессии, с помощью этой программы можно вычислить ожи- /S

даемые значения переменной (Y) и различные суммы квадра­ тов, а также коэффициент корреляции. Используя программу 5.3, LINFIT, найдите статистики, указанные в табл. 5.7, а также проведите расчеты для данных табл. 5.10.

Совершенно очевидно, что прямая линия не всегда хорошо аппроксимирует данные даже в случаях высокой корреляции. Плохое приближение возникает как следствие ряда причин, среди которых следует отметить высокую дисперсию зависимой переменной (чрезмерный разброс данных), а также выбор не­ подходящей модели. В этом примере мы склонны подозревать последнее, так как расположение исходных данных наводит на мысль, что для аппроксимации более пригодна кривая, а не пря­ мая линия. Ниже мы рассмотрим нелинейную аппроксимацию. Однако прежде нам придется изучить статистические критерии, применяемые для проверки предположения, что данные подчи­ няются некоторым заданным требованиям.

Если Yi — случайная переменная, которой соответствует не­ который интервал изменения переменной Xj, мы можем пред­ положить, что имеющиеся данные подчиняются следующей тео­ ретической модели:

Y ^ P O+ P A + S,,

(5.20)

где i — номера последовательных наблюдений. Величина е яв­ ляется случайной нормально распределенной величиной с нуле­ вым средним и неизвестной дисперсией а2, не зависящей от величин Yi. Иными словами, предполагается, что наблюдаемые значения Yi являются суммами постоянной величины, называе­ мой средним значением (если Yi и Xi отсчитываются от своих средних значений, то р0 равно нулю), линейной функции от Xi и случайной компоненты, или отклонения е. Это соотношение изображено на фиг. 5.8. Предполагается, что для каждой точки линии регрессии существует нормальное распределение частот возможных значений переменной Yi. Применяя метод наимень­ ших квадратов и используя выборочные коэффициенты регрес­ сии, вычисленные по формулам (5.9), (5.10), мы можем оценить параметры регрессии [(т. е. параметры р0 и Pi в формуле (5.20)]. Если сделанные нами ограничения выполнены, то метод наи­ меньших квадратов даст нам оценки максимального правдопо­ добия параметров регрессии Ь0 и Ьь и построенная линия регрессии будет ближе к истинной прямой регрессии, чем лю­

бая другая прямая. Если построенное линейное уравнение является удачной регрессионной моделью, то дисперсия ошибки равна дисперсии относительно линии регрессии. Наоборот, если модель выбрана неудачно, то дисперсия относительной прямой регрессии будет больше, чем дисперсия величины е.

СPROGRAM 5 - 3

С

R O U T IN E U N F I T

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

С

PROGRAM

ТО

F I T

A

L IN E A R

R E G R E S S IO N .

 

 

 

 

 

 

 

 

 

С

 

 

 

 

 

 

 

 

 

С

A R RAY

A

C O N T A IN S

 

X

AND

Y

D A TA T H A T

IS

READ

I N .

 

 

 

 

С

 

 

 

 

 

C

ARRAY

В

C O N T A IN S

T H E

C O E F F IC IE N T S

OF

TH E

UNKNOWN

B 'S

IN

TH E

C

NORMAL

E Q U A T IO N S

5 . 7

AND 5 . 8 .

 

 

 

 

 

 

 

 

 

 

 

C

ARRAY

C

O R IG IN A L L Y

IS

A

VECTOR

T H A T

C O N T A IN S

T H E

SUM

OF

T H E Y 'S

C

AND

TH E

SUMS O F TH E CROSSPRODUCTS

OF

 

X

AND Y

IN

E Q U A T IO N

5 . 1 1 .

C

A FTER T H E NORMAL

E Q U A T IO N S

ARE

S O L V E D ,

ARRAY

C

C O N T A IN S

THE

C

C O E F F IC IE N T S OF T H E R E G R E S S IO N E Q U A T IO N .

 

 

 

 

 

 

 

C

SUMS

OF

THE

CROSSPRODUCTS O F X

AND

Y

IN

E Q U A T IO N

5 . 1 1 .

 

C

A R R AY D

C O N T A IN S

X ,

Y .

Y -C A L C U L A T E D ,

 

AND D E V IA T IO N S

FOR

A L L

C

DATA

P O IN T S .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

C

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

C

T H E

M AXIM UM

NUMBER

OF

O B S E R V A T IO N S

IS

 

IO O .

 

 

 

 

 

C

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

C

S U B R O U T IN E S

NEEDED

ARE

R EAD M ,

P R IN T M .

 

AND

S L E .

 

 

 

 

C

D IM E N S IO N A ( I 0 0 , 2 ) , B ( 2 , 2 ) , C ( 2 ) , D ( 1 0 0 , 4 )

 

 

 

 

 

 

C

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

C

READ

X - Y

D ATA ANDP R IN T

 

I T

O U T .

 

 

 

 

 

 

 

 

 

 

C

C A L L R E A D M ( A ,N ,M ,1 0 0 , 2 )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

C

C A L L P R I N T M ( A , N . M , 1 0 0 , 2 )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

C

. . . C A LC U L A T E SUMS

FOR

L E A S T SQUARES

S O L U T IO N

 

 

 

 

 

 

C

DO

1 0 0

1 * 1 , 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

C ( I ) * 0 . 0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

DO

101

J - l , 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

B ( I , J ) = 0 . 0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

101 C O N T IN U E

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1 0 0 C O N T IN U E

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

DO

1 0 2

I * I ,N

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

В « 1 , 1 ) = B ( I , 1 ) + I . O

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

В ( I , 2 ) * B ( I , 2 ) +A ( I , I )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

B ( 2 , 2 ) = B ( 2 , 2 ) * A ( I , 1 ) * A ( I , I )

 

 

 

 

 

 

 

 

 

 

 

 

 

C C I ) = C ( I ) 4 A ( I , 2 J

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

C ( 2 ) * C ( 2 ) + A ( I . I ) * A ( 1 , 2 )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1 0 2 C O N T IN U E

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

C

В ( 2 , 1 ) = B ( I , 2 )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

SOLVE

T H E S IM U L T A N E O U S

L IN E A R

E Q U A T IO N S W H IC H

ARE OF TH E

FORM

C

C

O F

5 . 7

AND

5 . 8

IN

TH E

T E X T .

 

 

 

 

 

 

 

 

 

 

 

 

C

C A L L PR IN T M ( B , 2 , 2 , 2 , 2 )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

W R IT E ( 6 , I 0 0 1 )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

C A L L P R I N T M ( C , I , 2 , I , 2 )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

W R I T E ( 6 , 1 0 0 2 )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

C A L L S L E ( B , C , 2 , 2 , i . 0 E - 0 5 )

 

 

 

 

 

 

 

 

 

 

 

 

 

C A L L P R I N T M I C , I , 2 , 1 , 2 )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

W R IT E ( 6 , 1 0 0 3 )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

DO

1 0 3

I « I , N

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

D ( I , I ) * A ( 1 , 1 )

D ( I , 2 ) - A ( I , 2 )

D ( I , 3 ) » C ( I ) + C ( 2 ) * D ( I • I ) D ( I , 4 ) » D ( I , 2 ) - D ( I , 3 )

1 0 3 C O N T IN U E

C A L L P R I N T M ( D , N , 4 , I 0 0 , 4 ) W R IT E ( 6 , 1 0 0 4 )

с

С . . .

C A LC U L A T E

ERROR M EASURES

 

 

 

 

 

С

S Y * 0 . 0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S Y 2 = 0 . 0

 

 

 

 

 

 

 

 

 

S Y C * 0 . 0

 

 

 

 

 

 

 

 

 

S Y C 2 = 0 .0

 

 

 

 

 

 

 

 

 

DO

1 0 4

1 * 1 , N

 

 

 

 

 

 

 

 

S Y = S Y + D ( I, 2 )

 

 

 

 

 

 

 

 

S Y 2 = S Y 2 + D ( I , 2 ) * D ( I , 2 )

 

 

 

 

 

 

S Y C * S Y C + D (1 , 3 )

 

 

 

 

 

 

 

 

S Y C 2 = S Y C 2 + D ( I, 3 ) * D ( I , 3 )

 

 

 

 

 

1 0 4 C O N T IN U E

 

 

 

 

 

 

 

 

 

S S T = S Y 2 - S Y * S Y /F L 0 A T ( N )

 

 

 

 

 

 

S S R * S Y C 2 -S Y C * S Y C /F L O A T (N )

 

 

 

 

 

S S D = S S T -S S R

 

 

 

 

 

 

 

 

R 2 = S S R /S S T

 

 

 

 

 

 

 

 

 

R * S Q R T (R 2 )

 

 

 

 

 

 

 

 

 

W R IT E ( 6 , 1 9 9 0 )

 

 

 

 

 

 

 

 

W R IT E ( 6 , 2 0 0 0 ) N

 

 

 

 

 

 

 

W R IT E

( 6 , 2 0 0 1 )

SST

 

 

 

 

 

 

W R IT E

( 6 , 2 0 0 2 )

SSR

 

 

 

 

 

 

W R IT E

( 6 , 2 0 0 3 )

SSD

 

 

 

 

 

 

W R IT E ( 6 , 2 0 0 4 ) R2

 

 

 

 

 

 

W R IT E ( 6 , 2 0 0 5 ) R

 

 

 

 

 

 

 

C A L L E X IT

 

 

 

 

 

 

 

 

1 00 1

FORMAT

( / '

C O E F .

M A T R IX

O F

UNKNOWN

PAR AM ETER S I N

NORMAL E O N S ')

1 0 0 2

F O R M A T !/'

VECTOR

O F CRO SSPR ODUCTS

OF X AND

Y ' )

 

1 0 0 3

F O R M A T ( /'

TH E

PAR AM ETER S O F

T H E R E G R E S S IO N

E Q U A T IO N ')

1 0 0 4

F O R M A T ( /'

COL

I= X V A R IA B L E '

/ ' COL

2 * Y V A R IA B L E '

/

 

I '

COL

3 = Y

V A LU E

BASED ON

R E G R E S S IO N .E O N ' / '

COL

4 = C 0 L 2 -C O L 3 ' )

1 9 9 0

FORMAT

( I H I )

 

 

 

 

 

 

 

 

 

 

2 0 0 0

FORM AT

( 2 1H0NUMBER O F

S AM P LES

*

, 1 5 )

 

 

2 0 0 1

FORMAT

( 2 5H O T O T A L

SUMS

OF SQUARES

=*

, F I 5 . 4 )

=

, F I 5 . 4 )

2 0 0 2

FORMAT

( 37H 0S U M S

O F

SQUARES

DUE

TO

 

R E G R E S S IO N

2 0 0 3

FORMAT

( 3 6H 0S U M S

OF

SQUARES

DUE

TO

 

D E V IA T IO N

*

, F 1 5 . 4 >

2 0 0 4

FORMAT

( I9 H 0 G 0 0 D N E S S

O F * F I T

=

, F I 5

. 6 )

 

 

2 0 0 5

FORMAT

(2 7 H 0 C 0 R R E L A T I0 N C O E F F IC IE N T

* , F I 5 . 6 )

 

 

 

END

 

 

 

 

 

 

 

 

 

 

 

 

 

Программа

5.3. LINFIT

 

 

Можно использовать полученные суммы квадратов для вы­ числения оценок дисперсий, которые в свою очередь можно ис­ пользовать для проверки двух альтернатив. В частности, S S D используется как оценка дисперсии относительно линии регрес­ сии. Мы можем получить адекватную оценку а2 только в том случае, если проведем измерения Yi для каждой точки Хь так как это единственный путь, который позволяет оценить значе­ ние дисперсии Y независимо от дисперсии X. Однако значение S S R дает оценку дисперсии а 2 в том случае, если наша модель правильна. В том случае, если наша модель неправильна, это значение превосходит а2 на некоторое положительное число. Используя S S R , можно провести дисперсионный анализ, приво­ дящий к отклонению нулевой гипотезы в любом из двух слу­ чаев, либо когда изменчивость наблюдений слишком велика для того, чтобы сделать надежные выводы, либо если постули­ рованная нами модель неверна. В табл. 5.8 приведена схема дисперсионного анализа.

Фиг. 5.8. Компоненты регрессионной модели Y i= p 0+ P iX i+ ei-

Предполагается, что случайная компонента Е\ нормально распределена относительно линии регрессии.

Т а б л и ц а 5.8

Дисперсионный анализ для случая простой линейной регрессии

Источник изменчивости

Линейная регрессия

Отклонение

Общая дисперсия

Сумма

квадратов

S S R

Q СО СО

s s T

Число степеней

Средние

Значение

свободы

квадраты

F-критерия

1

M S R

 

п — 2

M S D

M S R/ M S D

п — 1

Как указано в гл. 3, средние квадратов дают дисперсии, оценки которых получаются в результате деления соответствую­ щих сумм квадратов на отвечающие им числа степеней свободы. Величине M S R отвечает одна степень свободы, так как ее зна­ чение получено на основе двух «наблюдений» значений коэффи­ циентов Ьо и bj. Общая дисперсия имеет п — 1 степеней свободы. Поэтому величина MSD должна иметь число степеней свободы, равное разности между двумя указанными, т. е. (п— 1) — 1 = = п — 2. Мы можем применить ANOVA к рассмотренной выше задаче, как это сделано в табл. 5.9. При этом проверяется сле­ дующая гипотеза:

Н0:

при альтернативе

H i: о2=т^оу.х,

где через а2у . х обозначена дисперсия относительно прямой регрессии, оценка которой получена на основании значения SSD.

Т а б л и ц а 5.9

Результаты дисперсионного анализа, проведенного для определения значимости регрессии, характеризующей зависимость содержания воды в осадке от глубины

Источник изменчивости

Сумма

Число степеней

Средние

Значение

квадратов

свободы

квадраты

F-критерия

Линейная регрессия

7546,88

1

7546,88

 

Отклонение

1962,62

6

327,10

23,071

Суммарная дисперсия

9509,50

7

1

 

1 Гипотеза о равенстве

дисперсий

отклоняется

при 5%-ном уровне

значимости

(а=0,05).

 

 

 

 

Так как мы имеем дело с бесповторной схемой анализа, то

должны получить оценку а 2,

используя значение

S S R . Выберем

5%-ный уровень значимости

(а = 0,05). Проверяемая статистика

подчиняется F -распределению с vi = l и V2 = 6

степенями

сво­

боды, поэтому критическая

область состоит из

значений,

пре­

вышающих F = 5,99. Вычисленное значение критерия попадает в критическую область, поэтому мы должны отклонить гипотезу о том, что дисперсия относительно линии регрессии не отли­ чается от дисперсии, полученной по наблюдениям. Однако, даже несмотря на то что существует значительный линейный тренд,

графическое представление

данных позволяет предположить,

что мы в состоянии провести

анализ точнее.

В 50 футах от первой скважины в илистых отложениях устья реки была пробурена вторая скважина. Содержания воды в пробах из этой скважины образуют последовательность из­ мерений Yi, позволяющих оценить а2. В результате мы можем определить, является ли слабая корреляция между содержа­ нием воды в осадке и глубиной следствием сильного разброса данных или результатом непригодности уравнения, выбранного в виде модели. Данные по второй скважине приведены в табл. 5.10. Нанесите эти точки на график и сравните полу­ ченное распределение с распределением, соответствующим дан­

ным табл. 5.7.

Данные табл. 5.7 можно объединить вместе с данными табл. 5 .1 0, после чего построить уравнение регрессии по всем наблюдениям. Вычисления величин S S T, SS R и SS D проводятся так же, как и раньше, только теперь число наблюдений удвои­ лось. Так как сейчас у нас в распоряжении имеются новые наблюдения, мы можем подсчитать сумму квадратов, возникаю­ щую из-за недостаточной точности аппроксимации (S S LF),