книги / Статистика и анализ геологических данных
..pdfгде Х0 снова принимает значения 1 для всех наблюдений. Ма тричное уравнение после вычисления смешанных произведений выглядит следующим образом:
- n |
EX, |
EX2 |
EX3 - |
bo |
"EY " |
EXx |
EX? |
EXjXa |
EXxX3 |
bi |
EXjY |
sx2 EX2XI |
EX! EX2X3 |
Ьг |
SX2Y |
||
_EX3 |
SX3Xi |
EX3X2 EX! . |
J> 3- |
_EX3Y_ |
Коэффициенты Pi регрессионной модели оцениваются с по мощью выборочных частных коэффициентов регрессии Ьь Они носят название частных коэффициентов регрессии по той при чине, что каждый из них характеризует скорость изменения (или наклон) по отношению к одной независимой переменной при ус ловии, что все остальные переменные фиксированы. В некоторых руководствах для отражения этого факта используется следую щая запись:
Y = b o -|-b i>23X i-{ -b 2,13X2+63,12X3- f - £,
где коэффициент bi,23 называется коэффициентом регрессии пе ременной Y на Xi при фиксированных переменных 2 и 3. Эти коэффициенты в общем случае отличаются от общих регрессион ных коэффициентов, которые характеризуют простую регрессию переменной Y на каждой отдельной переменной X. Как и следо вало ожидать, множественная регрессия вносит в общую измен чивость Y больший вклад, чем любой из общих регрессионных
СPROGRAM 7 . I
с
С |
R O U T IN E M ULTR |
|
|
|
|
|
|
|
|
|
|
||
С |
M U L T IP L E R E G R E S S IO N |
|
|
|
|
|
|
|
|
|
|
||
С |
|
|
|
|
|
|
|
|
|
|
|||
С |
|
|
|
|
|
|
|
|
|
|
|
|
|
С |
ГНЕ PROGRAM |
A C C EP TS AN |
N B Y |
М |
DATA M A T R IX |
WHERE N |
I S |
T H E |
|||||
C |
NUMBER O F |
O B S E R V A T IO N S |
AND M |
I S |
T H E |
NUMBER |
O F V A R IA B L E S . |
||||||
C |
V A R IA B L E |
I |
I S TH E D EPEN D EN T |
V A R IA B L E |
AND 2 |
THROUGH |
M |
ARE |
|||||
C |
IN D E P E N D E N T . |
PROGRAMCOMPUTES |
M U L T IP L E |
R E G R E SS IO N BY |
|
||||||||
C |
5 0 L V IN G M |
S IM U LT A N E O U S |
NORMAL |
|
E Q U A T IO N S AND RETURNS |
|
P A R T IA L |
||||||
C |
R E G R E S S IO N |
C O E F F IC IE N T S |
AND |
S T A T IS T IC S |
FOR |
T E S T IN G |
S IG N IF IC A N C E . |
||||||
C |
L IS T S O F |
Y , |
Y - E S T . , |
AND |
D E V IA T IO N FOR EACH |
O B S E R V A T IO N |
|||||||
C |
ARE P R IN T E D . |
|
|
|
|
|
|
|
|
|
|
||
C |
S U B R O U T IN E S |
R E Q U IR E D |
ARE R E AD M , |
P R IN T M , |
AND SLE |
|
|
||||||
C |
|
|
|||||||||||
C |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
D IM E N S IO N X ( l 0 0 , 2 0 ) , D < ! 0 0 , 3 ) |
|
|
|
|
|
|
|
|
||||
|
D IM E N S IO N A ( 2 0 , 2 0 ) , B ( 2 0 ) |
|
|
|
|
|
|
|
|
||||
|
N D - I 0 0 |
|
|
|
|
|
|
|
|
|
|
|
|
|
M D - 2 0 |
|
|
|
|
|
|
|
|
|
|
|
|
C |
MM* 2 0 |
|
|
|
|
|
|
|
|
|
|
|
|
READ AND |
P R IN T IN P U T |
DATA M A T R IX |
|
|
|
|
|
||||||
C . . . |
|
|
|
|
|
||||||||
C |
C A L L R E A D M (X ,N ,M ,N D ,M D ) |
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
C A L L P R IN T M ( X ,N ,M ,N D ,M D )
W R IT E ( 6 , 2 0 0 5 )
NDF2=N-M |
|
|
A M S D = S S D /FLO A T (N D F2) |
||
R 2=S SR /SS T |
|
|
R =SQ R T(R 2) |
|
|
F=AMSR/AMSD |
|
|
N D F 3= N -I |
|
|
C |
ERROR MEASURES |
|
C . . . P R IN T |
||
C |
( 6 , 2 0 0 0 ) |
|
WRITE |
S S R ,N D F I, AMSR,F |
|
WRITE |
( 6 , 2 0 0 1 ) |
|
WRITE |
( 6 , 2 0 0 2 ) |
SSD,NDF2,'AMSD |
WRITE |
( 6 , 2 0 0 3 ) |
S ST,N D F3 |
WRITE |
( 6 , 2 0 0 4 ) |
R 2 ,R |
2 0 0 0 |
CALL |
E X IT |
|
|
|
|
DEGREES |
OF |
M E A N ,/, |
||
FORMAT |
(IO H 1SOURCE O F ,I3 X ,2 5 H S U M OF |
||||||||||
IIO H V A R IA T IO N ,I3 X , 37HSQUARES |
FREEDOM |
SQUARES |
F - T E S T , /, |
||||||||
2 I X , 6 0 ( I H - ) ) |
|
|
|
|
|
|
|
|
|||
2001 |
FORMAT |
( I I H |
REGRESSION, I OX. F I 0 . 2 , 1 8 , 2 X ,F I 0 . 2 , / , 5 1X, FI 0 . 4 ) |
||||||||
2 0 0 2 |
FORMAT |
( I OH |
D E V IA T IO N ,I I X , F I 0 . 2 , 1 8 , 2 X . F I 0 . 2 ) |
" |
|
||||||
2 0 0 3 |
FORMAT( 16HOTOTAL V A R I A T I 0 N , 5 X , F I 0 . 2 , I 8 ) |
|
|
|
|||||||
2 0 0 4 |
FORMAT |
('OGOODNESS OF |
F IT * |
' . F I 0 . 4 , / , |
|
|
|
||||
.1 |
'OCORRELATION C O E F F IC IE N T |
= |
' . F I 0 . 4 ) |
|
, |
|
|
||||
2 0 0 5 |
FORMAT |
( IH O ,4 X ,'IN P U T |
DATA |
MATRIX - ' . I X |
|
|
|||||
I |
'COLUMNS = |
V A R IA B LE S , |
ROWS |
= O BSER VATIO N S') |
|
Y . ' . I X , |
|||||
2 0 0 6 |
FORMAT |
( I Н О ,4X ,'C O LU M N |
I = |
Y , |
COLUMN |
2 |
= ESTIMATED |
||||
I |
'COLUMN 3 = |
D E V IA T IO N ') |
C O E F F IC IE N T S ',3 X , |
|
|
||||||
2 0 0 7 |
FORMAT |
( I Н О ,4X ,'R E G R E S S IO N |
|
|
|||||||
I |
' I |
■ CONSTANT T E R M ') |
|
|
|
|
|
|
|
||
|
END |
|
|
|
|
|
|
|
|
|
|
Программа 7.1. MULTR
коэффициентов. Это происходит по той причине, что множест венная регрессия строится на основе учета всех возможных взаи модействий между переменными и их комбинациями.
Выше мы неоднократно рассматривали вопрос о построении и решении множества нормальных уравнений. Поэтому мы не будем снова останавливаться на нем подробно. POLYD (про грамма 5.5) и TREND (программа 6.3) могут рассматриваться как модели регрессионных программ. Приведенная ниже про грамма MULTR (программа 7.1 ) будет использована в следую щем упражнении. Позже мы изменим ее таким образом, чтобы она была менее чувствительной к ошибкам округления, и рас смотрим другое упражнение, цель которого — указать опасности, подстерегающие вычислителя в некоторых случаях. Кроме коэф фициентов уравнения регрессии по программе MULTR, можно вычислить суммы квадратов S S T , SS R и S S D , определенные в гл. 5, величины R и R2, а также значения зависимой перемен-
ной Yi, ее оценок Yi с помощью уравнения регрессии и отклоне
ний Yi — Yi.
В качестве типичного примера использования уравнения мно жественной регрессии мы рассмотрим задачу из геоморфологии. Для этой цели некоторый район в восточной части штата Кен тукки был разделен на относительно однородные в геологиче ском отношении области. Изучаемый район охватывает ряд дре нажных бассейнов различных размеров, из которых были
пользуется в качестве зависимой переменной. Уравнение регрес сии позволяет оценить влияние всех переменных на величину бассейна. Измерения значений этих переменных для 92 бассей нов третьего порядка в изучаемом районе приведены в табл. 7.1, которая взята из книги Крамбейна и Шрива [16].
Т а б л и ц а 7.1
Семь геоморфологических переменных, измеренных в речных бассейнах третьего порядка штата Кентукки
|
Y |
X, |
х 2 |
Х3 |
X, |
х 5 |
х в |
|
14 |
720 |
570 |
07 |
154 |
2 200 |
61 |
|
6 |
670 |
610 |
03 |
80 |
2 667 |
62 |
|
5 |
860 |
550 |
11 |
84 |
763 |
62 |
|
7 |
870 |
610 |
11 |
122 |
1 110 |
63 |
|
11 |
730 |
570 |
14 |
185 |
1 321 |
52 |
|
14 |
690 |
590 |
12 |
200 |
1 667 |
50 |
|
12 |
880 |
640 |
11 |
170 |
1 545 |
41 |
|
18 |
760 |
690 |
28 |
340 |
1 215 |
57 |
|
6 |
820 |
600 |
5 |
100 |
2 000 |
41 |
|
5 |
720 |
480 |
3 |
80 |
2 667 |
60 |
|
17 |
670 |
670 |
19 |
290 |
1.526 |
51 |
|
5 |
660 |
600 |
5 |
90 |
1 800 |
53 |
|
22 |
830 |
660 |
18 |
260 |
1 444 |
57 |
|
7 |
780 |
620 |
17 |
111 |
652 |
57 |
|
15 |
750 |
740 |
15 |
184 |
1 227 |
67 |
|
17 |
770 |
630 |
21 |
227 |
1 080 |
59 |
|
5 |
750 |
570 |
4 |
60 |
1 500 |
55 |
|
18 |
750 |
580 |
20 |
259 |
1 295 |
39 |
|
14 |
740 |
760 |
9 |
62 |
689 |
64 |
|
21 |
750 |
740 |
6 |
95 |
1 583 |
53 |
|
22 |
750 |
760 |
11 |
105 |
954 |
64 |
|
23 |
740 |
770 |
32 |
350 |
1 094 |
55 |
|
28 |
940 |
510 |
21 |
232 |
1 105 |
52 |
|
42 |
700 |
600 |
23 |
266 |
1 156 |
34 |
|
22 |
810 |
580 |
44 |
390 |
886 |
29 |
|
10 |
920 |
500 |
13 |
142 |
1 092 |
65 |
" |
11 |
920 |
490 |
12 |
145 |
1 208 |
72 |
|
12 |
790 |
605 |
33 |
253 |
766 |
59 |
|
13 |
860 |
550 |
23 |
241 |
1 048 |
76 |
|
31 |
860 |
630 |
87 |
702 |
807 |
55 |
|
18 |
880 |
520 |
37 |
288 |
778 |
51 |
|
13 |
780 |
460 |
17 |
162 |
953 |
40 |
|
4 |
720 |
440 |
8 |
67 |
838 |
60 |
^ |
5 |
780 |
300 |
3 |
52 |
1 733 |
57 |
|
9 |
700 |
460 |
10 |
121 |
1 210 |
50 |
Переменные: |
Y — ширина |
бассейна; Xi — высота истоков |
бассейна |
над |
|||||
уровнем моря |
(в |
футах); Х2 — характеристика |
рельефа бассейна |
(в |
фу |
||||
тах); Х3 — площадь бассейна |
(в кв. |
милях); |
Х< — общая |
длина |
русла |
||||
в бассейне (в |
милях); Х5 — плотность |
дренажа |
(т. |
е. отношение |
общей |
||||
длины русла к площади бассейна); |
Хв — отношение |
площадей наиболь |
|||||||
шего вписанного круга и наименьшего описанного круга [16]. |
|
|
|
mXm обозначается через [гхх]. Например, нормальное уравне ние для трех независимых переменных имеет вид
“ 1 |
Г12 |
Г13" |
~ в г |
Гх,у |
г 2 1 |
1 |
Г23 |
в 2 = |
Гх,у |
J*31 |
Гз2 |
1 _ |
Вз_ |
_гх3у _ |
Отметим, что в этом уравнении на одну строку и один стол бец меньше, чем в эквивалентном уравнении (7.5).
Однако этот метод, основанный на вычислении корреляцион ной матрицы и получении стандартизованного уравнения регрес сии, имеет тот недостаток, что он увеличивает объем вычислений. Для сохранения точности коэффициенты корреляции рекомен дуется вычислять не по формуле (3.17), а на основании опреде ляющего уравнения. Использование формулы (3.17) нецелесооб разно по той причине, что она содержит квадраты величин 2 ^ 1 и Если эти суммы велики, то их квадраты могут оказаться неточными за счет отбрасывания разрядов, выходящих за пре делы разрядной сетки. Этой проблемы не возникает, если до вы числения сумм квадратов из каждого наблюдения вычесть сред
нее значение. Суммы квадратов находятся |
по формулам (3.9) |
и (3.12). Для осуществления этой операции |
требуется использо |
вать исходные данные дважды — первый раз для вычисления среднего значения, а затем при вычитании полученного значения из наблюдений. В то время как при вычислениях вручную это приводит к значительному увеличению объема работы, на вы числительной машине такая операция производится очень просто. Вычисленные коэффициенты должны выдаваться в «нестандартизированном» виде, так как они затем используются для по строения уравнения прогноза вместе с необработанными дан ными. Однако этот недостаток окупается преимуществами воз растающей устойчивости и точности матричного решения, а стандартизованные коэффициенты' дают возможность оценить величины вкладов отдельных переменных в уравнение регрессии. Коэффициенты частной регрессии можно получить из стандарти зированных коэффициентов частной регрессии с помощью преоб разования
bk= Bk - | - . |
(7.10) |
Постоянный член Ьо находится по формуле |
|
Ь0= 7 — Ъ\Х\ — Ь2Х2 — . . . — bmXm. |
(7.11) |
Несмотря на то что при стандартизации данных и использо вании уравнения, матрица которого состоит из коэффициентов корреляции, различные суммы квадратов изменяются, отноше ния сумм квадратов остаются неизменными. Поэтому критерии
значимости, основанные на стандартизованной регрессии, иден тичны критериям, основанным на нестандартизованной регрес сии. Такие величины, как коэффициент множественной корреля ции (R) и процентное выражение точности аппроксимации (100% R2), также остаются неизменными.
Вычислительные процедуры, используемые при определении стандартизированных множественных коэффициентов корреля ции по существу такие же, как и в программе 7.1. Однако, для того чтобы эта программа вместо матрицы суммы квадратов использовала корреляционную матрицу, в нее требуется внести значительные изменения, главным образом потому, что данные, должны быть использованы дважды. По этой причине мы при водим модифицированный вариант программы линейной корре ляции, которая основана на использовании более точного ме тода. Эта программа называется RMULT (программа 7.2); для вычисления корреляционной матрицы она использует подпро грамму RCOEF (программа 7.3), а для стандартизации исход ного множества переменных — программу STAND (программа 7.4). Для вычисления уравнения множественной регрессии в ни жеследующих задачах мы будем использовать программы MULTR (программа 7.1) и RMULT (программа 7.2). Примеры подобраны таким образом, чтобы дать представление о различ ных ситуациях, которые возникают при решении некоторых за дач численными методами.
Данные, приведенные в табл. 7.4, представляют собой харак теристики нефтегазоносного бассейна в Арканзасе. Зависимой переменной является оценка запасов нефти в некотором месте бассейна, вычисленная на основании метода материального ба ланса. Уравнение материального баланса в сущности является соотношением между добычей нефти, добычей газа и давлением. В него включаются также допущения об объеме резервуара и на чальных объемах нефти, газа и воды. Независимыми перемен ными являются время заполнения резервуара, давление в нем, общая добыча нефти, кумулятивное отношение добычи газа к добыче нефти. Так как между зависимой переменной и аргу ментами в уравнении материального баланса имеется неявная связь, то мы вправе ожидать необычно высокую внутреннюю корреляцию. Действительно, если модель материального баланса выбрана удачно и наши представления о начальном состоянии и объеме резервуара правильны, то корреляция будет высокой. Неудачные попытки полностью оценить размеры нефтяных запа сов могут быть связаны с ошибками в начальных допущениях или с неполным исследованием всех факторов, входящих в урав нение материального баланса.
Эти данные содержат некоторые характеристики, которые представляют трудности для анализа. Так как порядки значений