Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Статистика и анализ геологических данных

..pdf
Скачиваний:
20
Добавлен:
15.11.2022
Размер:
21.12 Mб
Скачать

 

 

 

Т а б л и ц а 5.10

Значения влажности осадков из второй скважины

Глубина

Влажность

Глубина

Влажность

(в граммах воды на

(в граммах воды на

 

100 г сухого осадка)

 

100 г сухого осадка)

0

137

20

28

5

84

25

24

10

50

30

23

15

32

35

20

и сумму квадратов, соответствующую «чистой» случайной компо­ ненте ( S S P E ), которые разбивают сумму квадратов отклонений на две части. В случае пар повторных наблюдений мы можем найти величину SS PE по формуле

SSPE = ^ - 2 ( Y I1- Y i2)2.

(5.21)

Z i= l

 

Эта величина имеет одну степень свободы для каждой точки, а остаточная сумма квадратов S S L F находится путем вычита­ ния, так же как и ее число степеней свободы:

 

SSLF =

SSD- S S PE.

(5.22)

Совсем

не обязательно, чтобы мы проводили дублирующие

измерения

в каждой точке,

но если это сделать, то

анализ

удастся осуществить более точно. Можно также использовать более двух повторений Yi для каждого значения Хь но при этом вычисление величины S S P E становится несколько более слож­ ным. Эти и другие усовершенствования описаны в книгах по регрессионному анализу Ли [15], Дрейпера и Смита [8], и мы не будем останавливаться .на них более подробно.

Схема модифицированного дисперсионного анализа приве­

дена в табл. 5.11.

Используя

объединенные

данные

по двум

скважинам, выполните дисперсионный анализ и вычислите S S P E

и S S L F . Среднее

значение суммы квадратов S S P E

является

оценкой для Оу.х > т- е- дисперсии относительно линии регрес­

сии. Оно находится по формуле

 

 

 

 

 

 

S S

 

 

 

M SPE =

j ~ “ >

 

(5.23)

где к — число точек, в которых

проведены

повторные

измере­

ния. В нашем случае мы сделали это для всех точек, и поэтому к равно у , так как половина наблюдений Yi дублирована.

Т а б л и ц а 5.11

Дисперсионный анализ в случае простой линейной регрессии с повторением. Число наблюдений Yi равно п; число точек, в которых сделаны повторные измерения, равно к

Источник изменчивости

Сумма

Число степе­

Средние

Р-критерий

квадратов

ней свободы

квадраты

Линейная регрессия

S S R

1

M SR

M SR/M S *

Отклонение

s s D

n—2

M SD

 

Недостаток точности

s s LF

(n—2) — k

M S L F

M S LF/ M S « E

Чистая случайная

s s PE

k

M S PE

 

компонента

 

 

 

 

 

Общая дисперсия

s s T

n—1

 

 

аКритерии качества приближения,

бКритерии соответствия модели.

Мы отмечали, что величина SS D является мерой дисперсии вокруг регрессии плюс некоторое смещение, которое может воз­ никнуть из-за выбора неподходящей модели, и поэтому среднее значение квадратов S S LF является оценкой только этого сме­

щения. Мы можем провести проверку

пригодности модели, вы­

числяя значение

 

 

MS LF

(5.24)

F = MS

PE

 

 

Если вычисленное значение критерия попадает в критиче­ скую область, то мы должны сделать вывод, что построенная модель не отвечает действительности. Если проверка не приво­ дит к отклонению модели, то обе оценки дисперсий можно сло­ жить ( M S L F + M S P E = M S D ) и оценить качество аппроксимации, как мы делали это раньше. Вычислите F -отношение и дополните табл. 5.11, а затем определите, является ли эта простая линей­ ная модель достаточно хорошей. На фиг. 5.9 изображены четыре возможные ситуации для двух характеристик, одна из

которых — соответствие модели, а вторая — качество аппрокси­ мации.

После вычисления F -критерия для проверки соответствия модели выборочным данным вы можете прийти к выводу, что

прямая линия неадекватно представляет выборку. Что делать после этого, зависит от предмета исследования и от ваших зна­ ний или догадок о соотношении между переменными X и Y. Иногда можно иметь вполне определенное мнение о связи переменных. Например, если самолет сбрасывает бомбу, то, пренебрегая сопротивлением ветра, мы можем предсказать ее теоретическую траекторию, которая является кривой, опреде­ ляемой скоростью самолета и направленным вниз ускорением силы тяжести (фиг. 5.10); действительно, парабола очень хорошо описывает траекторию падения бомбы. С другой стороны, мы можем ничего не знать о зависимости между двумя перемен­ ными X и Y (ее может и не существовать) и просто хотим полу­ чить выражение одной из них через другую. Обычно наши задачи находятся между этими двумя крайними случаями, мы предполагаем наличие причинной связи, но не знаем ее формы. В последних двух случаях мы можем подобрать аппроксими­ рующее уравнение к имеющимся данным в надежде, что оно поможет нам прояснить существующие соотношения или же точно описать форму зависимости переменных X и Y. Такие уравнения выбираются потому, что с их помощью удается ап­ проксимировать многие классы функций, и используются в тех случаях, когда истинный вид функции неизвестен.

Возможны различные типы аппроксимирующих функций, но чаще всего используется полиномиальная аппроксимация, за­ ключающаяся в том, что в качестве приближающей функции используется сумма целых степеней независимой переменной:

Y1= b o + b 1XIfb 2X ? + b 3X ? +

+ b mX,m.

(5.25)

Уравнение, в котором все переменные суммируются, назы­

вается линейным, так как соотношения

между всеми

парами

имеют своими графиками прямые линии. Расширение первона­ чального уравнения с помощью добавления следующих степе­ ней приводит к тому, что график начинает искривляться. Один дополнительный член заставляет прямую изменить наклон, вто­ рой дополнительный член приводит к возникновению двух точек перегиба и т. д. Увеличивающаяся искривленность позволяет

линии более точно

подходить

к исходным данным. Действи­

тельно, если число дополнительных членов достигнет

(п — 1),

то линия пройдет

точно через

каждую данную точку.

Однако

в построении такой линии мало смысла, так как она не явля­ ется более эффективной, чем сами исходные данные. Кроме того, наиболее важную информацию о данном массиве можно сохранить с использованием лишь нескольких членов в поли­ номиальном уравнении. На фиг. 5.11 изображены различные типы полиномиальных зависимостей, соответствующих различ­ ным степеням аргумента. Максимальная степень, использованная

15 Заказ № 455

Фиг. 5.9. Возможные случаи линейной регрессии [8].

а — существенная

линейная регрессия и

точность аппроксимации удовлетворительная;

б — отсутствие линейной регрессии

при

удовлетворительной

точности

аппроксимации;

в _ существенная

линейная регрессия и значимый недостаток точности аппроксимации;

г — отсутствие

линейной регрессии

и значимый недостаток

точности

аппроксимации.

Фиг. 5.10. Теоретическая траектория падения бомбы, сброшенной с самолета.

в полиномиальном уравнении, называется степенью уравне­ ния, т. е.

Y ^ b o + b i X j + b a X f + b e X ?

— полиномиальное уравнение третьей степени. Такова же

степень уравнения Yi = bXi‘, так как оно является частным слу­ чаем предыдущего при b0, bi и Ь2 равных нулю. Полиномиаль­ ное уравнение строится по наблюдениям с помощью метода наименьших квадратов, а процесс этого построения называется

подбором кривой.

При выполнении некоторых статистических условий каче­ ство аппроксимации и ее значимость могут быть проверены с помощью регрессионных методов, аналогичных уже рассмот­ ренным. Эти статистические процедуры являются составной частью так называемого нелинейного регрессионного анализа.

Фиг. 5.11. Кривые полиномиальной регрессии для возрастающих степеней X.

а

п р я м а я ли н и я, со о тв е тс тв у ю щ а я п о л и н о м у первого пор ядка; б — к в а д р а ти ч н а я к р и ­

вая,

или к р и в а я в торой степени; в — к у б и ч е ск а я

кривая, или к р и в ая тр етье й степени;

 

г — к р и в а я ч етвер той

степени.

Чтобы аппроксимировать данные кривой второго порядка (или квадратичной кривой), нужно составить нормальные урав­ нения с включением дополнительных членов. Два нормальных уравнения (5.7) и (5.8) превращаются в совокупность трех урав-

нений:

EY ^bon+biSX +bzSX 2,

 

 

SXY = b0S X + b !S X 2+ b 2SX3,

 

 

ЕХ2У= Ьо2+ Ь !Е Х 3+ Ь 22Х4.

(5.26)

.Подразумевается, что суммирование выполняется

по всем

наблюдениям от 1 до п. Переписав их в матричной форме, по­ лучаем

n

ЕХ

ЕХ2'

Ьо

’ EY "

ЕХ

ЕХ2

ЕХ3 .

bi =

EXY

.EX2

ЕХ3

ЕХ4.

_ь2_

_SX2Y_

Это матричное уравнение можно решить, используя подпро­ грамму, приведенную в гл. 4. Заметим, что в эту систему входят высокие степени независимой переменной. Самая высокая сте­ пень, используемая в матрице, равна удвоенной степени поли­ нома, который мы хотим подобрать к изучаемым данным. Это обстоятельство является главным источником ошибок в вычис­ лительных программах полиномиальной аппроксимации, так как элементы правого нижнего угла матрицы коэффициентов могут на много порядков превышать величину элементов левого верх­ него угла матрицы. Это может привести к большим ошибкам округления и потере значимости в существенных цифрах, ре­ зультатом чего будут неустойчивые или ненадежные решения си­ стемы уравнений. Подробное рассмотрение этих задач содер­ жится в книге Уэстлейка [24].

Структура матрицы коэффициентов станет очевидной, если мы используем переменную Х°, которая равна 1 для всех наблю­ дений Хь Мы можем занумеровать все строки и столбцы мат­ ричного уравнения следующим образом:

Х° X 1 X2 X3

Х т

b

Y

Х° ’

 

 

 

X1

 

 

 

X2

 

 

 

X3

 

 

(5.28)

Хт

 

 

 

Элементы матрицы коэффициентов, а также матрицы коэф­ фициентов b и правых частей являются суммами смешанных

произведений элементов строк и столбцов с заданными номе­ рами. Имея в виду значение Х°, мы определяем элемент Ац как 2 1 * 1 = п; другие элементы верхней строки получаются умно­ жением 1 на соответствующий столбец. Например, элемент А43 матрицы равен 2 Х 3 2= 2 Х 5. Напомним, что при умножении показатели степени складываются, т. е. Ха -Хь= Х а+ь.

Вычисление нелинейного приближения к данным по методу наименьших квадратов с помощью вычислительной машины сравнительно просто. Сначала данные считываются и записы­ ваются в память машины. После этого ряд предложений, вво­ димых в машину, приводит к нахождению сумм степеней, необ­ ходимых для заполнения матрицы, которую мы назовем 1 2 X]. Для удобства выполнения этой операции сначала вычисляется верхняя строка матрицы ( 2 X], а затем производится перекрест­ ное умножение этой строки на единичный вектор-столбец, что дает полную матрицу. Перекрестное умножение осуществляется с помощью использования двух циклов DO, индексы которых соответствуют индексам элемента Хц в матрице (2 Х ]. Эта операция выполняется по схеме

]

Необходимые

матрицы предложения

ФОРТРАНа таковы:

 

СTHESE STATEMENTS CREATE INITIAL VECTOR XP (1) = 1,0

 

DO

103

J = 2,

IORD1

 

XP

(J) =

XP ( J - l ) * A (1, I)

103 □

CONTINUE

 

C

THESE STATEMENTS CROSS-M ULTIPLY AND SUM

 

DO

105

J = 1,

IORD1

 

DO

105 K = l ,

IORD1

 

В (J,

K) = B (J, K )+ X P (J) * XP (K)

105 □ CONTINUE

Здесь IORD1 имеет значение 1+ш , где m — максимальная степень полиномиального уравнения. В результате получаем матрицу, входящую в матричное уравнение, решение которого дает коэффициенты аппроксимирующего многочлена, в част­ ности коэффициент Ь0. Для этого необходимо построить вектор соответствующей степени и осуществить перекрестное умноже­ ние для всех п наблюдений. К счастью, современные вычисли­ тельные машины требуют для этих целей мало времени даже при больших объемах массивов наблюдений при условии, что максимальная степень аппроксимирующего полинома невелика, например меньше десяти. Время, требуемое для вычисления матрицы [2 X J, увеличивается прямо пропорционально числу данных точек и пропорционально квадрату числа коэффициентов.

Как только матрица получена, соответствующее ей матричное уравнение можно решить с помощью подпрограммы, аналогичной программе 4.9. Эта программа выдает коэффициенты регресси­ онного уравнения, полученного по методу наименьших квадратов.

Необходимо отметить, что обычно экспериментатор хочет получить некоторую дополнительную информацию, и поэтому в программу вводятся дополнительные предложения, которые повторно вызывают исходный массив данных. Для каждого значения Yi, используя метод наименьших квадратов, получаем

оценку Yi.

Разности Yi — Yi возводятся

в квадрат и накапли­

ваются, в

результате чего получается

значение SS D. Обычно

 

/V

/X

желательно получать значения Yi, Yi и Yi — Yi последовательно; если хранить их в массиве в порядке появления, то их можно распечатать с помощью подпрограммы программы 4.2. Вели­

чины S S T и

SS R в ы ч и с л я ю т с я

п о формулам (5.12)

и (5.14).

Далее, используя эти значения, определяются R2 и R и если

нужно, то средние квадратов и F -отношение.

данных

Отметим,

что графическое

изображение исходных

и подбираемой линии часто бывает очень полезным, так как позволяет проникнуть в структуру данных, которую нельзя изу­ чить только на основе статистических соображений. Программы построения графиков являются наиболее трудными для нович­ ков в программировании, так как требуют сложных предложе­ ний формата и вывода. Подпрограмма PLOTER (программа 5.4)' позволяет нанести на график две переменные в зависимости друг от друга. Используя ее вместе с предложениями, порож­

дающими значения Yi для последовательности значений Xj, мы построим линию наименьшего квадратичного отклонения. Ее также можно использовать для нанесения на график исходных данных, отклонений или различных комбинаций последних. Вывод автоматически производится в масштабе 25x25 см.

сPROGRAM 5 . 4

с

с

X I C O N T A I N S T H E F I R S T S E T O F V A R I A B L E S TO BE P L O T T E D

с

X 1 с 1 , 1 > I S A V A R I A B L E P L O T T E D I N TH E X D I R E C T I O N

с

X I ( 1 , 2 ) I S T H E I T H V A R I A B L E P L O T T E D I N T H E Y D I R E C T I O N

с

X2

C O N T A I N S A SECOND S E T OF

V A R I A B L E S

TO BE P L O T T E D .

с

N I

I S

T H E

A C T U A L NUMBER

OF

ROWS

I N

T H E

A R R AY

X I .

с

N3

I S

T H E

D I M E N S I O N OF

TH E

F I R S T

S U B S C R I P T O F

X I I N M AINPRO GRAM

с

N2

I S

T H E A C T U A L NUMBER

OF

ROWS

I N

X2

 

 

с

N 4 I S T H E D I M E N S I O N OF TH E F I R S T S U B S C R I P T O F X2

с

 

 

 

 

 

 

 

 

 

 

с

S U B R O U T IN E P L O T E R ( X I , N 1 , N 3 , X 2 , N 2 , N 4 )

 

 

 

 

 

 

D I M E N S I O N X I ( N 3 , 2 ) f X 2 ( N 4 , 2 )

 

 

 

 

 

 

D I M E N S I O N I O U T d O l ) , X X ( I I )

 

 

 

 

 

 

DATA

I B L N K , I I « I P L U S , I X I v I M I N U S , I S T A R , 1 0

 

I

/ '

' , ' I ' , ' + ' , ' X ' f ' - ' , ' * ' , ' 0 ' /

 

 

 

 

с

 

 

 

 

 

 

 

 

 

 

с . .

F I N D M I N - M A X O F D A T A

 

 

 

 

 

 

с

 

 

 

 

 

 

 

 

 

 

X M I N = X I ( 1 , 1 )

 

X M A X = X M I N

 

Y M I N = X I ( 1 , 2 )

 

Y M A X = Y M I N

 

DO

I 0 0 1 = 1 , N I

I F

( X I ( I , I )

. L T . X M I N )

I F ( X I ( 1 , 1 )

. C T . X M A X )

I F

( X I ( 1 , 2 )

. L T . Y M I N )

I F ( X I ( 1 , 2 )

. G T . YM AX )

1 0 0 C O N T IN U E

I F ( N 2 . L E . 0 ) GO TO I

DO

101 1 = 1 , N 2

 

I F

( X 2 ( I , I ) . L T . X M I N )

I F

( X 2 ( I , I )

. C T .

XM AX)

I F

( X 2 ( 1 , 2 )

. L T . Y M I N )

I F

( X 2 ( I , 2 )

. G T .

YM AX)

101 C O N T IN U E

ID X = ( X M A X - X M I N ) / ! 0 0 . D Y = ( Y M A X - Y M I N ) / 6 0 .

с

X M I N = X 1 ( 1 , 1 ) X M A X = X 1 ( 1 , 1 ) Y M I N = X I ( 1 , 2 ) Y M A X = X I ( 1 , 2 )

X M I N = X 2 ( I , I ) X M A X = X 2 ( 1 , 1 ) Y M I N = X 2 ( I , 2 > Y M A X = X 2 ( 1 , 2 )

W R IT E ( 6 , 1 0 0 0 )

Y-YMAX

 

DO

1 0 2

1 = 1 , 6 1

 

 

I F (M O D I 1 - 1 , 6 )

. E Q . 0 ) GO TO 2

 

DO 1 0 3 J = I . I O I

 

 

I O U T ( J ) = I B L N K

 

 

I F

( M O D ( J - I , 1 0 ) . E Q . 0 ) I O U T ( J ) = I I

 

1 0 3 C O N T IN U E

 

 

 

CO

TO

3

 

 

 

2 DO 1 04 J = 1 , 1 0 1

 

 

I 0 U T ( J ) = I M I N U S

 

 

I F ( M O D ( J - I , I 0 ) . E Q . 0 ) I O U T ( J ) = I P L U S

с

1 0 4 C O N T IN U E

 

 

 

 

 

 

 

с

. . P LO T DATA

S E T

ONE

с

3 DO 1 0 5 J = I , N I

 

 

 

 

I Y = I F I X ( ( X I ( J , 2 ) - Y M I N ) / D Y + 0 . 0 0 5 ) +1

 

I F ( ( 6 2 - 1 )

. N E . I Y ) GO TO 1 05

 

I X = I F I X ( ( X I ( J , I ) - X M I N ) / D X + 0 . 0 0 5 ) +1

 

I O U T ( I X ) = 1 STAR

 

C

1 0 5 C O N T IN U E

 

 

PLO T DATA

S ET

TWO

C

C

I F ( N 2 . L E . 0 ) GO TO 10

 

 

DO

106 J=I,N 2

 

 

 

 

 

 

IY*IFIX((X2(J,2)-YM IN)/DY+0.005)+|

 

IF ((62 -1) .NE.

IY)

GO TO 106

 

IX=IFIX((X2(J,I)-XM IN)/DX+0.005)+l

 

IF

(IX

.GT.

100)

IX=100

TO

106

 

IF

(IOUT(IX)

. EQ.

10) GO

 

IF

(IOUT(IX)

.EQ.

ISTAR)

GO

TO 4

 

IOUT(IX)*IXI

 

 

 

 

 

 

4

GO

TO

106

 

 

 

 

 

 

IOUT(IX)*IO

 

 

 

 

 

 

(06

CONTINUE

 

 

 

 

 

 

C

 

 

 

 

 

 

 

 

 

C . . . PRINT LINE OF PLOT

 

 

 

C

 

(MOD(1 - 1,6)

.NE.

0) GO

TO 11

10 IF

 

WRITE

(6*1001)

Y, IOUT

 

 

 

Y=Y-6.0*DY

 

 

 

 

 

 

11

GO

TO

102

 

IOUT

 

 

 

WRITE

(6*1002)

 

 

 

102 CONTINUE

 

 

 

 

 

 

C

 

 

 

 

 

 

 

 

 

C . . . PRINT LEGEND ACROSS BOTTOM OF GRAPH

C

XXX=XMIN

 

 

 

 

 

 

 

 

 

 

 

 

 

 

DO

110

1*1, II

 

 

 

 

 

 

XX(I)=XXX

 

 

 

 

 

 

 

XXX«XXX+I0.0*DX

 

 

 

 

 

110 CONTINUE

 

( X X ( I ) ,1 *1 ,1 1 ,2 )

 

WRITE

(6,1003)

 

WRITE

(6*1004)

( X X ( I ) , 1 * 2 ,1 0 ,2 )

1000

RETURN

(I HI)

 

 

 

 

 

 

FORMAT

 

 

 

 

 

 

1001

FORMAT

(IX,FI 0 . 5 , 1X, I ОIAI 3

 

1002

FORMAT (!2 X ,!0 IA I)

 

 

 

 

1003 FORMAT (BX,6(F!0.5,10X>>

 

 

1004

FORMAT

(18X, 5 ( F10 . 5 , 1OX ) )

 

 

 

END

 

 

 

 

 

 

 

 

Программа 5.4. Подпрограмма PLO TER

C

PROGRAM

5 - 5

 

 

 

 

 

 

 

 

 

 

 

 

 

C

R O UTINE

POLYD

 

 

 

 

 

 

 

 

 

 

 

 

C

 

 

 

 

 

 

 

 

 

 

 

 

C

RO UTINE

TO

F IT

AC U R V IL IN E A R

PO LYN O M IA L

 

 

 

 

 

 

C

 

 

 

 

 

 

C

REGRESSION

O FORDER

IO R D .

 

 

 

 

 

 

 

 

C

ARRAY A

C O N TA IN S

X

AND Y DATA

 

 

 

 

 

 

 

 

C

 

 

 

 

M A T R IX

D E F IN E D

C

ARRAY В

C O N TA INS

THE

TERMS

OF THE C O E F F IC IE N T

C

IN

EQUATION

5 . 2 8 .

 

 

 

VECTOR

OF

TH E

R IG H T

HAND S ID E

C

ARRAY C O R IG IN A L L Y C O N TA IN S TH E

C

OF

THE

NORMAL EQ UATIO NS AS

D E F IN E D

BY 5 . 2 8 .

A FTE R

S O L V IN G

C

THE

SET

OF

NORMAL

E Q U A T IO N S ,ARRAY C

C O N T A IN S

T H E

C O E F F IC IE N T S

C

OF

THE

REGRESSION

E Q U A T IO N .

 

 

AND

D E V IA T IO N

FOR

A L L P O IN T S

C

ARRAY D

C O N TA IN S

X , Y , Y -C A L C U L A T E D ,

C

ARRAY E

C O N TA IN S

THE

X AND

Y -C A L C U L A T E D

VA LU ES TO

BE

P LO TTE D

C

MAXIMUM

NUMBER

OF

O B SER VA TIO N S

IS 1 0 0 .

 

 

 

 

 

 

C

 

 

 

 

 

 

C

THE SUBROUTINES NEEDED ARE

P L O T E R ,

READM ,

P R IN T M ,

AND

S L E .

Q

c s : : : : : : s s a s s e s : s s s s s e s s s s s s s s s e s s s s s s s s s s s s s s s s s s s s s x s s s s s s s s

c c

оо . . .

D IM E N S IO N

A ( 1 0 0 , 2 ) , B ( 2 0 , 2 0 ) , C ( 2 0 ) , D ( I 0 0 , 4 ) , E ( I 0 I , 2 >

D IM E N S IO N

X P ( 2 0 )

READ ORDER OF EQ UATIO N