![](/user_photo/_userpic.png)
книги / Статистика и анализ геологических данных
..pdfC |
S U B R O U T IN E S R E Q U I R E D |
ARE RE AD M , |
P R I N T M , S T A N D , R C O E F , AND S LE « |
|||||||
C |
|
|
|
|
|
|
|
|
|
|
|
D I M E N S I O N X ( I 0 0 , 2 0 ) , X M ( I O O , I O ) , D ( 1 0 0 , 3 ) |
|||||||||
|
D I M E N S I O N A ( 2 0 , 2 0 ) , B ( 2 0 ) , C ( 2 0 ) |
|
|
|||||||
|
N D = I 0 0 |
|
|
|
|
|
|
|||
|
M D = 2 0 |
|
|
|
|
|
|
|
||
C |
MM=20 |
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
||
C . . . |
READ |
AND P R I N T |
I N P U T |
DATA |
M A T R I X |
|
||||
C |
C A L L R E A D M ( X , N , M , N D ,M D ) |
|
|
|
||||||
|
|
|
|
|||||||
|
C A L L P R I N T M ( X , N , M , N D , M D ) |
|
|
|
||||||
C |
W R IT E ( 6 , 2 0 0 5 ) |
|
|
|
|
|
||||
S T A N D A R D IZ E AND TH EN |
P R I N T |
I N P U T |
DATA M A T R I X |
|||||||
C . . . |
||||||||||
C |
DO |
2 0 1 |
1 = 1 ,N |
|
|
|
|
|
||
|
|
|
|
|
|
|||||
|
DO |
2 0 1 |
J = l , M |
|
|
|
|
|
||
|
X M ( I , J ) = X ( I , J ) |
|
|
|
|
|
||||
2 0 1 C O N T IN U E |
|
|
|
|
|
|||||
|
C A L L S T A N D ( X M , N , M , N D , M D ) |
|
|
|
||||||
|
C A L L P R I N T M ( X M , N , M , N D , M D ) |
|
|
|
||||||
C |
W R IT E ( 6 , 2 0 0 6 ) |
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
||
C . . . |
C A L C U L A T E AND |
P R I N T |
M A T R I X |
OF |
C O R R E L A T IO N S BETWEEN COLUMNS |
|||||
C |
C A L L R C O E F ( X M , N , M , N D , M D , A , M M ) |
|
|
|||||||
|
|
|
||||||||
|
C A L L |
P R I N T M ( A , M , M , MM, MM) |
|
|
|
|||||
C |
W R IT E ( 6 , 2 0 0 7 ) |
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
||
C . . . |
S ET |
UP |
AND SOLVE S IM U L T A N E O U S |
E Q U A T IO N S |
||||||
C |
DO |
1 0 0 |
I = 2 , M |
|
|
|
|
|
||
|
|
|
|
|
|
|||||
|
С П - I ) = A ( I , I ) |
|
|
|
|
|
||||
|
DO |
1 0 0 |
J = 2 , M |
|
|
|
|
|
||
|
A ( I — 1 , J - I ) = A ( I , J ) |
|
|
|
|
|||||
1 0 0 C O N T IN U E |
|
|
|
|
|
|||||
C |
|
|
|
|
|
|
|
|
|
|
C . . . |
SOLVE |
|
S L E |
|
|
|
|
|
||
C |
C A L L S L E ( A , C , M - I , M M , 1 . 0 E - 0 8 ) |
|
|
|||||||
C |
|
|
||||||||
|
|
|
|
|
|
|
|
|
||
C . . . |
C A L C U L A T E P A R T I A L R E G R E S S IO N C O E F F I C I E N T S |
|||||||||
C |
DO |
101 |
1 = 1 , M |
|
|
|
|
|
||
|
|
|
|
|
|
|||||
|
A ( 1 , 1 ) = 0 . 0 |
|
|
|
|
|
||||
|
A ( 2 , I ) = 0 . 0 |
|
|
|
|
|
||||
|
DO |
101 |
J = 1 , N |
|
|
|
|
|
A ( 1 , I ) = A ( 1 , I ) + X ( J , I )
A ( 2 , I ) = A ( 2 , I ) + X ( J , I ) * * 2
101C O N T IN U E AA=N
A B = N - I
A C = S Q R T ( ( A ( 2 , I ) - A ( 1 , 1 ) * A ( I , I ) / A A ) / A B ) В ( I ) = A ( 1 , I ) / A A
DO 1 0 2 I = 2 , M
B ( I ) = C ( I - 1 ) * A C / S Q R T ( ( A ( 2 , I ) - A ( 1 , I ) * A ( 1 , I ) / A A ) / A B ) В ( 1 ) = B ( I ) - B ( I ) * A ( l , I ) / A A
1 0 2 C O N T IN U E
C
C . . . C A L C U L A T E E S T I M A T E D V ALU E AND D E V I A T I O N FOR EAC H O B S E R V A T I O N C
DO 1 0 3 1 = 1 , N
DC 1 , 1 ) * X ( I , I ) D ( 1 , 2 ) = B ( I )
2 0 0 7 |
FORMAT |
( I Н О * 4 Х * ' C O R R E L A T I O N |
M A T R I X . |
V A R I A B L E 1 I S Y M |
||
2 0 0 8 |
FORMAT |
< I Н О , 4 X , ' C O L U M N I = |
Y , |
COLUMN |
2 = E S T I M A T E D |
|
I 'C O L U M N 3 » D E V I A T I O N ' ) |
C O E F F I C I E N T S ' , 3 X , |
|||||
2 0 0 9 |
FORMAT |
< I H 0 * 4 X , ' R E G R E S S I O N |
||||
I |
' 1 » |
C O N STA N T |
T E R M ' ) |
|
P A R T I A L |
R E G R E S S I O N ' , I X , |
2 0 1 0 |
FORM AT |
( I H 0 . 4 X , ' S T A N D A R D I Z E D |
||||
1 |
' C O E F F I C I E N T S |
C O N STA N T TERM = 0 . 0 ' ) |
||||
|
END |
|
|
|
|
|
Программа 7.2. RMULT
процедуры, полезно сравнивать между собой коэффициенты, по лученные по обеим программам MULTR (программа 7.1) и RMULT (программа 7.2) на основании данных табл. 7.4. Разли чие, которое вы обнаружите, возникает из-за ошибки округле ния в программе MULTR.
Несмотря на то что стандартизованные частные коэффици енты регрессии позволяют находить наиболее важные перемен ные, входящие в уравнение регрессии, они не могут служить не погрешимым указанием на то, что это уравнение выбрано наи лучшим образом. Предположим, что, исследуя уравнение регрессии, мы пришли к выводу, что две переменные дают несу щественный вклад в регрессию и их можно отбросить. Если одну из переменных устранить и снова построить уравнение регрессии, то качество подбора и само уравнение, конечно, изменятся. Если мы решили устранить вторую переменную, уравнение регрессии снова изменится, но изменение может быть совсем иным по срав нению с изменением, которое произойдет в том случае, если пер вая переменная сохранится в регрессии. Это происходит по той причине, что эффекты взаимодействия двух отбрасываемых пе ременных с другими переменными нельзя оценить без повторного построения регрессионного уравнения. Если необходимо провести исследование большого числа переменных и отбросить те пере менные, которые несущественны для данной задачи, то мы не должны ограничиваться простым исследованием уравнения регрессии.
Увеличение числа независимых переменных в уравнении ре грессии всегда ведет к увеличению S S R (исключая те случаи, когда новые переменные полностью коррелированы со старыми). Однако это увеличение не может быть значительным. Потерю степеней свободы отклонений можно компенсировать уменьше нием SS D, ч т о в действительности приводит к увеличению сред
него значения квадратов отклонений. Если |
это происходит, то |
F -отношение уменьшается, что приводит к |
сокращению числа |
членов в уравнении регрессии. Для определения наилучшей воз можной регрессии (наиболее значимого F-отношения) прихо дится исследовать всевозможные комбинации переменных. Это легко сделать, если переменных немного и число их возможных комбинаций равно 2т . Однако, если т велико, эта процедура
требует значительных затрат машинного времени. Существуют другие процедуры, которые позволяют получать оптимальную регрессию со значительно меньшими затратами времени. Среди них можно назвать обратную процедуру исключения, прямую
C |
PROGRAM |
7 . 3 |
С |
|
|
С |
S U B R O U T IN E ТО C A LC U L A T E T H E M A T R IX O F C O R R E L A T IO N S |
|
C |
BETWEEN |
COLUMNS OF DATA M A T R IX X |
C |
|
|
S U B R O U T IN E R C O E F ( X , N , M , N l , M l , A , М 2 ) D I M E N S IO N X ( N 1 , M I ) , A ( M 2 , M 2 )
AN=N
C
C . . . C A L C U L A T E C O R R E L A T IO N C O E F F I C I E N T BETWEEN COLUMNS' I AND J C
|
DO |
IOO |
1 = 1 , M |
|
|
C |
DO |
I 0 0 |
J = I , M |
|
|
|
|
|
|
|
|
C . . . |
ZERO SUMS |
|
|
||
C |
S X I = 0 . 0 |
|
|
|
|
|
|
|
|
||
|
S X 2 = 0 . 0 |
|
|
|
|
|
S X I X I = 0 . 0 |
|
|
||
|
S X 2 X 2 = 0 . 0 |
|
|
||
C |
S X I X 2 = 0 . 0 |
|
|
||
|
|
|
|
|
|
C . . . |
C A L C U L A T E |
SU M S , |
SUMS OF SQUARES AND SUM OF C R O S S - P R O D U C T |
||
C |
OF |
COLUMNS |
I AND |
J |
|
C |
DO |
101 |
K = 1 , N |
|
|
|
|
||||
|
S X I = S X I + X ( K , I ) |
|
|||
|
S X 2 = S X 2 + X ( K , J ) |
|
SX 1XI =SX I XI +X ( К, I )* * 2
SX2X2=SX2X2+X(K,J>**2
SX I X2=SXI X2+X( К ,I ) * X ( K , J )
101 C O N T IN U E
C
C . . . C A L C U L A T E C O R R E L A T IO N C O E F F I C I E N T AND STORE I N M A T R IX A C
R = ( S X ! X 2 - S X l * S X 2 / A N ) /
I SORT( ( SXIX I-SX 1*S X 1/AN) * ( SX2X2-SX2*SX2/AN))
A ( I , J ) = R
A ( J , I ) = R
10 0 C O N T IN U E RETURN END
Программа 7.3. RCOEF
процедуру выбора, методы пошаговой и многошаговой регрес сии. При большом количестве исходных переменных эти методы не всегда приводят к одинаковым уравнениям регрессии, однако результаты, полученные на их основании, все же эквивалентны. Изложение этих методов не входит в наши задачи, и мы приве дем лишь краткое описание одного из них. Эти методы хорошо изложены в некоторых руководствах, например в книгах Дрей пера и Смита [6] и Эфроймсона [7].
Обратная процедура исключения сводится к построению уравнений регрессии, включающих все возможные переменные, и в последующем отборе наименее значимых аргументов. Отбор производится путем исследования стандартизированных коэффи циентов частной регрессии с наименьшими значениями и после дующего построения уравнения регрессии, из которого удалены эти переменные. Значимость отбрасываемых переменных прове-
СPROGRAM 7 . 4
с
С |
S U B R O U T IN E ТО |
S T A N D A R D IZ E T H E |
COLUMNS |
OF |
A DATA M A T R IX |
|||
C |
S U B R O U T IN E S T A N D ( X , N , M , N I , M I ) |
|
|
|
||||
|
|
|
|
|||||
C |
D I M E N S IO N X ( N 1 , M 1 ) |
|
|
|
|
|||
S T A N D A R D IZ E EACH COLUMN OF |
T H E |
M A T R IX |
|
|
||||
C . . . |
|
|
||||||
C |
DO |
IO O |
1 = 1 , M |
|
|
|
|
|
|
|
|
|
|
|
|||
C |
|
|
' |
AND STANDARD |
D E V I A T I O N |
OF |
COLUMN |
|
C . . . |
C A L C U L A T E MEAN |
|||||||
C |
S X = 0 . 0 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
S X X = 0 , 0 |
|
|
|
|
|
|
|
|
DO |
101 |
J = 1 , N |
|
|
|
|
|
S X = S X + X ( J . I )
S X X = S X X + X ( J , I ) * * 2
101C O N T IN U E
X M = S X / F L O A T ( N )
S D = S Q R T ( ( S X X - S X * S X / F L O A T ( N ) ) / F L O A T ( N - t ) )
C |
S U B TR A C T MEAN |
FROM EACH E L E M E N T I N C O LU M N , T H E N |
|
C . . . |
|||
C |
D I V I D E |
R E S U L T |
BY TH E STANDARD D E V I A T I O N . |
C |
DO 1 0 2 |
J = 1 , N |
|
|
|
X ( J , I ) = ( X ( J , I ) - X M ) / S D 1 0 2 C O N T IN U E
1 0 0 C O N T IN U E RETURN END
Программа 7.4. STAND
ряется с помощью приемов дисперсионного анализа, аналогич ных представленным в табл. 5.13. Если переменная не дает зна чимого вклада в регрессию, то она обыкновенно отбрасывается. Затем стандартизированные коэффициенты частной регрессии приведенного уравнения анализируются снова, и процесс повто ряется. На каждом шаге число переменных в уравнении регрес сии уменьшается на единицу до тех пор, пока все оставшиеся переменные не окажутся значимыми.
Весьма полезно исследование набора семи переменных, пред ставляющих характеристики бассейнов рек (табл. 7.1), с целью возможного исключения каких-либо переменных.
Исследуя стандартизированные частные коэффициенты ре грессии, получаемые по программе 7.2, и отбрасывая наимень шие из них с последующим построением уравнения регрессии,
мы можем найти минимальное множество аргументов регрессии. Повторное применение программы RMULT к данным явля ется несложной процедурой по сравнению с операционным ис пользованием вычислительной программы, специально предназ наченной для выбора наилучшего уравнения регрессии. Однако использование более сложной итеративной программы для этой
частной задачи едва ли целесообразно.
Хотя по внешним признакам теорию множественной регрес сии можно отнести к «многомерным» теориям, так как в ней уча ствует несколько переменных, измеренных на каждом объекте наблюдения, все же по существу своему она является одномер ной, так как мы имеем дело с дисперсией только одной зависи мой переменной Y. Поведение независимых переменных X не подвергается анализу. Процедуры, которые будут рассмотрены в оставшейся части этой главы, связаны с исследованием одно временного изменения нескольких переменных. Мы начнем с рас смотрения некоторых критериев проверки совпадения двух или более групп наблюдений, определяемых несколькими перемен ными. Затем мы рассмотрим оптимальные методы различения двух многомерных групп, связанных с двумя задачами. Первая из них называется задачей идентификации, вторая — задачей классификации. Последняя состоит в разбиении объектов на группы на основании значений их многомерных характеристик. Наконец, мы рассмотрим связанные между собой методы: ком понентный и факторный анализы.
Переход от одномерной
кмногомерной статистике
Вгл. 3 мы рассмотрели некоторые простые геологические за дачи, которые можно решать с помощью элементарных статисти
ческих методов. Мы начнем изложение многомерных методов в геологии с рассмотрения прямых обобщений этих простых кри териев. Напомним, что характеристики изменчивости, связанные с наиболее естественными явлениями природы, обычно описыва ются нормальным распределением. Это является отражением так называемой центральной предельной теоремы, которая гла сит, что распределение случайной величины, являющейся суммой п независимых величин при больших п, можно приближенно счи тать нормальным. Именно это свойство позволяет нам использо вать нормальное распределение в качестве основы статистиче ских критериев и считать его отправным пунктом при построе нии других распределений, таких, как t-, F- и ^-распределения. Понятие нормального распределения можно распространить на ситуации, в которых наблюдения содержат много переменных.
Предположим, что мы отбираем образцы пород на некоторой площади и измеряем некоторый набор характеристик каждого из них. Измерения могут представлять собой значения химиче ских и минералогических характеристик, удельного веса, харак теристик магнитных и радиоактивных свойств, а также любые из бесчисленного множества возможных переменных. Множество измерений, сделанных на индивидуальном образце породы, можно записать в виде вектора
[Х] = [Х1( Х2, |
X J , |
где m — число измеренных характеристик или переменных. Если множество измерений, представляющих вектор [X], случайно извлечено из совокупности, которая возникла в результате воз действия многих независимых факторов, то наблюдаемые век торы приближенно можно считать векторами, имеющими много мерное нормальное распределение. Каждая переменная, рас сматриваемая отдельно, имеет нормальное распределение со средним значением Цк и дисперсией а2к.' Совместное вероятност
ное распределение является m-мерным эквивалентом нормаль ного распределения, имеющего вектор среднего [ц] = [pi, рг,
..., рш] и обобщенную дисперсию, которая может быть пред ставлена в виде диагональной матрицы:
Г - |
2 |
0 |
0 |
0 |
0 |
|
01 |
||||
|
0 |
2 |
0 |
0 |
0 |
|
02 |
||||
_ |
0 |
0 |
0 |
0 |
2 |
° т |
Кроме этих очевидных обобщенных характеристик одномер ного нормального распределения, для многомерного случая сле дует упомянуть коэффициенты ковариации COVjk, которые за нимают все недиагональные позиции в матрице [ 2 2]. Таким образом, многомерное нормальное распределение характеризу ется вектором среднего и матрицей дисперсий и ковариаций, яв ляющейся многомерным аналогом дисперсии одномерной нор мальной случайной величины. В простом случае при m = 2 форма поверхности нормального распределения напоминает ко локол, изображенный на фиг. 3.8, «контурная карта» которого представлена на фиг. 7.2. Хотя распределения переменных Xi и Хг изображены вдоль соответствующих осей, все же наиболее существенные черты совместного вероятностного распределения лучше характеризуются большой и малой осями эллипсоида.
Подставляя эти величины прямо в формулу (7.12), получаем IX — ixl У Г
V W Y |
9 |
К сожалению, очевидных способов решения этого уравнения не существует, поэтому мы получаем с его помощью единствен ное значение t. Если мы хотим применить этот критерий, мы должны и в числителе и в знаменателе вместо вектора и мат
рицы иметь числа. Если вектор-столбец [X — ц] умножить на вектор-строку, имеющую такое же число элементов, то в резуль тате получится число. Определим произвольную вектор-строку [А]. в результате транспонирования которой получается вектор-
столбец [А]' Умножение вектор-столбца разности [X — ц] на вектор-строку [А] дает число, и умножение [s2] слева на [А] и справа на [AJ' снова дает число, т. е. наш критерий прини мает вид
ГА] • [X — i*l • У ~
[A] V l s2] [А ]'
Однако при этом мы изменили также запись проверяемой гипотезы. Нулевая гипотеза вместо предыдущей записи
Но ‘ [lxil = [Pol
теперь будет записываться так:
Но: [AJ Ы = [А] Ы -
Первоначальная гипотеза Но верна только в том случае, если новая гипотеза Н* верна для всех возможных значений [А]. По
этому достаточно проверить только максимально возможное значение проверяемой статистики. Действительно, если гипотеза Н* отклоняется при любом [А], то гипотеза Но тоже отклоня
ется. Проделав ряд несложных преобразований, мы можем опре делить условия, при которых достигается максимальное значе ние статистического критерия для произвольного вектора [А]. Это приводит к введению ограничения [A] - [s2]- [А ]'=1 и появ лению определителей в основном уравнении. Далее, возводя обе части уравнения в квадрат, мы можем исключить причиняющие неудобство квадратные корни. Это приводит также к возведению в квадрат значения критерия, которое мы теперь обозначим Т2. Выполнив все преобразования, мы найдем, что статистический критерий можно представить в виде
Т2 = п [ Х - ц ] ' fs2J 1 [X -tx ], |
(7.13) |