Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Статистика и анализ геологических данных

..pdf
Скачиваний:
2
Добавлен:
12.11.2023
Размер:
21.12 Mб
Скачать

жно поставить в один ряд с одномерными задачами, связан­ ными с множественной регрессией или рассмотренными выше многомерными задачами проверки статистических гипотез. По­ этому он позволяет установить дополнительную связь между од­ номерной и многомерной статистикой.

Однако вначале мы определим понятие разделения, или дис­ криминации, и покажем, чем оно отличается от близкого к нему понятия классификации. Предположим, что мы собрали две группы проб сланца, о которых заранее известно, что они обра­ зовались в пресноводном и морском бассейнах. Это можно оп­ ределить на основании исследования остатков ископаемых ор­ ганизмов. В пробах измерено некоторое число геохимических переменных, а именно, содержание ванадия, бора, железа ит. д. Задача состоит в нахождении такой линейной комбинации этих переменных, которая даст максимально возможное различие между двумя ранее определенными группами. Если нам удастся найти такую функцию, то мы сможем использовать ее для раз­ мещения новых образцов в ту или другую исходную группу. Иными словами, новые образцы сланца, не содержащие диагно­ стических ископаемых остатков, можно будет разделить на мор­ ские и пресноводные на основе линейной дискриминантной функции, построенной по их геохимическим компонентам. (Эта задача рассматривалась Поттером, Шимпом и Уиттерсом [24].)

Задачу классификации можно проиллюстрировать на анало­ гичном примере. Предположим, что мы собрали большую раз­ нородную коллекцию образцов сланца, каждый из которых был подвергнут геохимическому анализу. Можно ли на основе значе­ ний измеренных переменных осуществить разделение выборки на относительно однородные группы (или кластеры, как их обычно называют), отличающиеся друг от друга. Численные методы решения такого рода задач достаточно хорошо развиты и при­ надлежат к разделу науки, называемому таксономией. Они бу­ дут рассмотрены в следующем разделе. Существует несколько явных различий между этими методами и методами дискрими­ нантного анализа. Классификация внутренне замкнута, т. е. в от­ личие от дискриминантного анализа она не зависит от априор­ ных сведений о соотношении между пробами. [В дискриминант­ ном анализе число групп задается заранее, в то время как число кластеров, которые получаются в результате классификации, не может быть заранее определено. Каждая проба из исходного множества в дискриминантном анализе считается принадлежа­ щей к одной из заданных группу В большинстве задач класси­ фикации проба может войти в любую из групп, возникающих в результате классификации. Другие различия станут очевид­ ными при рассмотрении этих двух процедур. Результатом

Фиг. 7.3. Графическое представление двух двумерных распределений.

Указаны перекрытия распределений для групп А и В вдоль осей А", и Х2; проектирование на дискриминантную линию позволяет различить две группы.

кластерного анализа сланцев является разделение проб на не­ сколько групп. Представляет интерес проведение геологического осмысливания найденных таким образом групп.

Простая линейная дискриминантная функция осуществляет преобразование исходного множества измерений, входящих в выборку, в единственное дискриминантное число. Это число, или преобразованная переменная, определяет положение образца на прямой, определенной дискриминантной функцией. Поэтому мы можем представлять себе дискриминантную функцию как способ «сжатия» многомерной задачи в одно­

мерную.

Г Основой дискриминантного анализа является нахождение преобразования, которое дает минимум отношения разности многомерных средних значений для некоторой пары групп к многомерной дисперсии в пределах двух групп. Если мы изо­ бразим наши две группы совокупностями точек в многомерном пространстве, то легко найти такое направление, вдоль которого эти совокупности явно разделяются и в то же время имеют наи­ меньшую выпуклость^Графически эта картина представлена на

фиг. 7.3. Если использовать переменные Xt и Х2, то провести удовлетворительное разделение групп А и В не удается. Однако можно найти направление, вдоль которого разделение пучков очевидно, а выпуклость минимальна. Координаты точек этого направления задаются уравнением линейной дискриминантной функции.

СОдин из методов нахождения линейной дискриминантной функции — построение уравнения регрессии, где зависимыми пе­ ременными являются разности между многомерными средними двух rpynnQB матричном обозначении мы должны решить урав­ нение вида

К ] • [4 = \D\,

(7.23)

где [s2p] — m x m-матрица дисперсий и ковариаций объединенной

выборки. Коэффициент дискриминантной функции представля­ ется вектор-столбцом неизвестных коэффициентов, для обозна­ чения которых принято использовать малые буквы (А,). Векторстолбец неизвестных дает коэффициенты дискриминантной функ­

ции, аналогично тому

как коэффициенты р используются

в уравнении регрессии.

Не надо путать эти коэффициенты (А,)

с теми, которые используются для обозначения собственных зна­ чений матриц в компонентном и факторном анализах.

В правой части этого уравнения стоит вектор-столбец раз­ ностей между средними значениями двух групп. Как указыва­ лось в гл. 4, такое уравнение решается с помощью операций об­ ращения и умножения матриц, т. е.

I M - t i ] - 1 [DJ.

(7.24)

для чего можно использовать программу 4.9.

Чтобы определить дискриминантную функцию, мы должны определить величины, входящие в матричное уравнение. Разно­ сти средних находятся по формуле

 

2

A‘j

nb

 

 

 

2

 

B,i

 

Dj Aj Bj

1 =

I

i = i

 

(7.25)

 

 

 

Пь

 

 

 

 

 

В этих обозначениях Ац — это i-e наблюдение j -й переменной

в группе A, Aj — среднее значение

j-й

переменной группы А,

или среднее по па наблюдениям. Те же обозначения использу­ ются для группы В. Многомерные средние переменных групп А и В можно считать двумя векторами. Поэтому разность ме­ жду ними .снова образует вектор

[DJM AJM BJ

или в расширенной записи

~ о г

“ Ai -

"Bi

D 2

а 2

в 2

 

_

_Dm_ —Ащ __ _Bm_

Для построения ковариационной матрицы объединенной вы­ борки мы должны вычислить матрицу сумм квадратов и сме-' шанных произведений для всех переменных в группе А и анало-^ гичную матрицу для группы В. Процедура вычисления такой матрицы рассмотрена в гл. 3. Например, если мы рассмотрим только группу А, то

 

п а

п а

 

2

A'tf 2

SPAjk= 2

J (AijAIk — 1= 1

n;=l— .

Здесь, как и ранее,

Ац— это i-e наблюдение j -й переменной

в группе А, а Аш — i-e

наблюдение

k-й

переменной в той же

группе. Конечно, при j = к эта величина даст сумму квадратов переменной с номером к. Аналогично можно найти матрицу сумм квадратов и смешанных произведений для группы В:

 

пь

пь

4 *

2

ВЦ 2 В1к

sPBjk = 2

(B,jBlk) — 1=1

;b=1— .

Для сокращения матрицу сумм произведений для группы А мы обозначим через [SPA], а для группы В — через [SPB]. Ко­ вариационную матрицу объединенной выборки теперь можно за­ писать в виде

Гл21 _

[SPA ] + [SPB]

(7.26)

lSpJ“

na + nb — 2 -

 

Легко видеть, что это определение дисперсионной матрицы объединенной выборки в точности такое же, как и использован­ ное при рассмотрении Т2-критерия для проверки гипотезы о ра­ венстве многомерных средних. Хотя объем вычислений, которые необходимо провести для того, чтобы получить коэффициенты дискриминантной функции, на первый взгляд и кажется боль­ шим, фактически он значительно меньше. В качестве примера мы построили дискриминантную функцию для двух групп дан­ ных, приведенных в табл. 7.8. Группа А представлена пробами

 

 

 

 

Т а б л и ц а 7.8

Измерения среднего размера зерен и коэффициента

 

сортированности двух проб песка

 

Г р у п п а А , п л я ж н ы й п е с о к -

Г р уп п а В, п е с о к , в з я т ы й

 

 

 

в а л е н о от б е р е г а

Средний

Каэффи -

 

циентл

размер

Ч^ентп

"г_

и и е н т

 

i%etP

—/---- г-

'зепен'

сортиро-

 

\ рприн

сортиро­

 

ванности

зеРен

данности

зеРен

данности

0,333

1,08

0,339

1,12

0,342

1,24

0,340

1,08

0,346

1,12

0,331

1,25

0,338

1,09

0,350

1,12

0,336

1,25

0,333

1,10

0,352

1,13

0,341

1,25

0,323

1,13

0,341

1,15

0,334

1,26

0,327

1,12

0,347

1,15

0,337

1,27

0,329

1,13

0,337

1,16

0,339

1,27

0,331

1,13

0,343

1,16

0,330

1,28

0,336

1,12

0,340

1,17

0,334

1,28

0,333

1,14

0,346

1,17

0,332

1,29

0,341

1,14

0,349

1,17

0,330

1,31

0,328

1,15

0,339

1,18

0,334

1,31

0,336

1,15

0,342

1,18

0,340

1,21

0,327

1,16

0,346

1,18

 

 

0,329

1,16

0,351

1,18

 

 

0,330

1,16

0,340

1.19

 

 

0,323

1,17

0,344

1.19

 

 

0,328

1,17

0,333

1.20

 

 

0,332

1,17

0,337

1,20

 

 

0,331

1,18

0,339

1,20

 

 

0,326

1,18

0,342

1,20

 

 

0,333

1,18

0,339

1,21

 

 

0,330

1,19

0,340

1,21

 

 

0,336

1,19

0,341

1,21

 

 

0,327

1,20

0,335

1,22

 

 

0,324

1,21

0,337

1,22

 

 

0,332

1,21

0,340

1,22

 

 

0,322

1,22

0,343

1,22

 

 

0,329

1,22

0,334

1,22

 

 

0,325

1,24

0,348

1,22

 

 

0,328

1,26

0,337

1,22

 

 

0,322

1,27

0,342

1.23

 

 

0,318

1,22

0,334

1.24

 

 

0,330

1,17

0,340

1.24

 

 

песка, взятого с морского пляжа; две переменные — это средний размер зерен и коэффициент сортированности. Группа В представлена пробами песка, взятого в отдалении от берега. Переменные в этом случае такие же, как и для группы А. Диа­ грамма рассеяния исходных наблюдений представлена на фиг. 7.4. Хотя два облака точек и перекрываются, совершенно очевидно, что разделяющая их линия проходит между ними так, что большинство наблюдений группы А находится по одну

сторону от нее, а большин­ ство наблюдений группы

В— по другую.

Втабл. 7.9 приведены ре­ зультаты вычислений двух

векторов многомерных сред­ них и двух матриц сумм квадратов и смешанных про­ изведений. На основании этих данных вычисляется дисперсионная матрица объ-, единенной выборки. Теперь у нас есть данные для на­ хождения дискриминантной функции

Фиг. 7.4. Зависимость медианы размеров зерен от коэффициента сортированности для проб песка.

Незаштрихованные кружочки — пробы пляж­ ного песка; заштрихованные — пробы, взятые в отдалении от берега. Большие кружочки соПрямая является графиком дискриминантной ответствуют двумерным средним двух групп,

функции.

 

[si] ' 1

[D] = [XJ

 

59112,280

4312,6461

[

4312,646

747,132J X

Г

0,0101

Г-783,63]

Х |_—0,043 | =

[ —75,62J .

Полученное множество коэффициентов % использу­ ется для построения дискри­ минантной функции вида

R = XJ|J)I -|-X2I})2+ . . . +^m4’m•

(7,27)

Это линейная функция; суммируя ее слагаемые, мы получаем число, называемое дискриминантной меткой. В двумерном слу­ чае мы можем изобразить дискриминантную функцию прямой линией на диаграмме рассеяния двух исходных переменных. Это прямая с угловым коэффициентом

(7.28)

Такая линия и изображена на фиг. 7.4.

Подставляя в уравнение дискриминантной функции среднее арифметическое, полученное из средних для двух выборок, мы получаем значение дискриминантного индекса R0. Иными сло­ вами, каждое значение ifj в формуле (7.27) мы полагаем равным

Aj + Bj

2

(7.29)

 

Т а б л и ц а 7.9

Матрицы, используемые при вычислении дискриминантной функции для двух групп наблюдений, приведенных в табл. 7.8

 

 

Вектор среднего группы А

[0,330

1,167]

 

 

Вектор среднего группы В

[0,340

1,210]

 

 

Вектор разностей средних

[-0 ,0 1 0

 

0,043]

 

Исправленная матрица сумм квадратов А

Г 0,00092

-0,004891

[-0,00489

0,07566J

Исправленная матрица сумм квадратов В

Г0,00138 -0,008441

L—0,00844 0,10700J

Ковариационная матрица объединенной выборки Г 0,00003 -0,000171

[-0 ,00017

0,00231J

Матрица, обратная к ковариационной матрице объединенной выборки

Г59 112,280

4312,6461

[ 4 312,646

747,132j

В нашем примере

 

R«»=

= -

783,63 (0,335) - 75,62 (1,189) = — 352,22.

Дискриминантный индекс Ro соответствует точке разделяю­ щей прямой, которая лежит в точности посередине между цент­ ром группы А и центром группы В. Мы можем подставить много­

мерное среднее группы А в уравнение, т. е. принять, что a|)j = Aj. Это даст нам значение RA. Аналогично подстановка среднего

группы В даст нам значение RB (при ^ = Bj). Эти значения оп­ ределяют центры двух исходных групп вдоль разделяющей прямой.

Для группы А

RA= ^ IAI + X 2A2=

=783,63 (0,330) — 75,62 (1,167) = — 346,64

идля группы В

RB= ^iBi -f-X2B2 =

= - 783,63 (0,340) - 75,62 (1,210) = — 357,81.

Эти три точки изображены на фиг. 7.5. Аналогично можно каждое наблюдаемое значение подставить в дискриминантное уравнение и затем нанести полученное число на график. Все это можно сделать на одной диаграмме; заметим, что несколько точек группы А попали в группу В, т. е. расположены по правую сторону от Ro, а несколько точек группы В попали в группу А. Это — точки, неправильно расклассифицированные с помощью дискриминантной функции.

Критерии значимости. Если поставить некоторые условия для данных, используемых при построении дискриминантной функ­ ции, можно провести проверку значимости разделения на две' группы. Основными условиями являются:

а) наблюдения в каждой группе выбираются случайно; б) вероятности того, что неизвестное наблюдение принадле­

жит любой из групп, равны между собой; в) внутри каждой из групп переменные рассматриваются как

случайные величины, распределенные нормально; г) ковариационные матрицы различных групп имеют одина­

ковый порядок; д) ни одно из наблюдений, используемых для построения

дискриминантной функции, не было ложно расклассифицировано. Наиболее трудно удовлетворимы условия «б—г». К счастью, дискриминантная функция меняется незначительно при малых отклонениях от нормальности или при малых отклонениях дис­ персий. Выполнение условия «б» зависит от априорно заданного уровня относительных вкладов исследуемых групп. Если усло­ вие о равенстве вкладов относительных содержаний не выпол­ няется, можно сделать некоторые другие допущения, которые приводят к смещению значения Ro. (Подробное изложение во­ просов принятия альтернативных решений в дискриминантном

анализе содержится в книге Андерсона [1].)

Критерий значимости для

дискриминантной

функции стро­

ится на основании Т2-статистики, рассмотренной

ранее. Мы вы­

числяем «расстояние»

между

двумя

многомерными средними,

т. е. просто вычитаем

R A из R B . Э то

эквивалентно подстановке

 

 

Ro

Re

 

Фиг. 7.5. Проекция выборок, представленных в табл. 7.8, на дискриминантную прямую, изображенную на фиг. 7.4.

R A проекция

двумерного

среднего

для пляжного песка; R B — проекция двумерного

среднего для

песка, удаленного

от

берега; R0 — дискриминантный индекс. Разность

 

между

R A и

R B — расстояние Махалонобиса D 2.

вектора разности между средними двух групп в дискриминант­ ную функцию, т. е. подстановке вместо переменных rpj значе­ ний Dj.

Для данных табл. 7.8 это расстояние равно

D2= — 783,63 (0,010) - 75,62 (-0,043) = 11,17

и называется расстоянием Махалонобиса, или обобщенным рас­ стоянием D2. Это мера разделения между двумя многомерными средними, выраженная в единицах дисперсии объединенной вы­ борки. Критерий Т2 через это расстояние выражается следую­ щим образом:

J2

nanb

(7.30)

na 4” nb

Этот критерий можно преобразовать в F-критерий по фор­ муле (7.17):

/

па + пь — m — 1

\ /

naiib

\ п2

(7.31)

\

(na + пь — 2) т

) [

па + пь

/ и '

 

Числа степеней свободы полученной статистики равны m и (па+ пь — ш — 1). Проверяемая с помощью этой статистики ну­ левая гипотеза заключается в том, что два многомерных сред­ них значения равны между собой или что расстояние между ними равно нулю, т. е. гипотеза

Н0 : JDj] = 0

при альтернативе

Н ,: [DjJ > 0 .

Пригодность метода дискриминантного анализа для проверки этой гипотезы не вызывает сомнений. Если средние значения двух групп очень близки друг к другу, то их трудно разделить, особенно если обе группы имеют большой разброс. Наоборот, если два средних значения легко разделяются и рассеяние во­ круг средних мало, разделение осуществляется относительно просто. В качестве примера поучительно проверить значимость дискриминантной функции, которую мы только что построили.

Поскольку не все переменные, включенные в дискриминант­ ную функцию, в равной степени полезны при отделении групп друг от друга, желательно найти эти переменные и исключить их из дальнейшего рассмотрения. Так как дискриминантный ана­ лиз тесно связан с множественной регрессией, то большинство процедур, предназначенных для выбора наиболее эффективных переменных в регрессионном анализе, применимо и в дискрими­ нантном анализе для отбора переменных, позволяющих осуще­ ствить наиболее эффективное разделение групп. Однако мы не будем останавливаться на этих вопросах, а ограничимся тем,

31 Заказ № 455

что рассмотрим одну простую процедуру, позволяющую устанав­ ливать степень «важности» переменной. Читателю, интересую­ щемуся более точными процедурами, можно порекомендовать руководство Шульца и Гоггенса [26].

Относительный вклад j -й переменной в расстояние между средними двух групп измеряется величиной

XjDj

Е , — p f .

(7 .3 2 )

где Dj — разность между средними по j -й переменной для двух групп. Это мера прямого вклада только одной переменной с но­ мером j; она не учитывает взаимодействия между переменными. Если две или более переменные, входящие в дискриминантную функцию, не являются независимыми, то их совместный вклад в функцию D2 может быть более значительным, чем это следует из величин E j . Эту меру можно считать прямым аналогом стан­ дартизованных коэффициентов частной регрессии в уравнении

множественной

 

регрессии. Простое

умножение значений

E j на

100 позволяет выразить их в процентах.

 

 

 

 

 

С

PROGRAM

7 . 5

 

 

 

 

 

 

 

 

 

 

 

 

с

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

С

R O U T I N E D IS C R M

 

 

 

 

 

 

 

 

 

 

 

С

T H E PROGRAM COMPU TE S

T H E

L I N E A R D I S C R I M I N A N T F U N C T I O N

BETWEEN

C

C

TWO GROUPS.

GROUP

AI S

AN

N1

BY

M

D A T A

M A T R I X

WHERE

N1 I S

T H E

C

NUMBER

O F

O B S E R V A T I O N S

AND

M

I S

T H E NUMBER

OF

V A R I A B L E S .

 

C

GROUP

В

I S

AN

N 2 BY

M

D A T A

M A T R I X .

N1

AND N2 ARE NO T

 

 

C

N E C E S S A R I L Y

E Q U A L .

V A L U E S OF

R O ,

R l ,

AND

R2 ARE P R I N T E D ,

 

C

W IT H

T H E

L I N E A R D I S C R I M I N A N T

F U N C T I O N

AND

S T A T I S T I C S

FOP

 

C

T E S T I N G T H E S I G N I F I C A N C E OF T H E F U N C T O N .

 

 

 

 

C

S U B R O U T IN E S R E Q U I R E D

A RE

R EADM , P R I N T M ,

AND S L E

 

 

C

 

 

C

 

 

 

 

 

 

 

 

 

 

 

 

_

 

 

 

 

 

D I M E N S I O N X ( l 0 0 , 2 0 , 2 ) , A ( 2 0 , 2 0 ) , B ( 2 0 ) , C ( 2 , 2 0 ) , N S ( 2 )

 

 

 

ND=1 0 0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

M D = 2 0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

C

M M =2 0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

C

I N I T I A L I Z E

 

 

 

 

 

 

 

 

 

 

 

 

C

DO

1 0 0

1 = 1 , MM

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

C ( l

, I ) =

0 . 0

 

 

 

 

 

 

 

 

 

 

 

 

 

C ( 2 , I ) = 0 . 0

 

 

 

 

 

 

 

 

 

 

 

 

 

DO

1 0 0

J = 1 , MM

 

 

 

 

 

 

 

 

 

 

 

 

A ( I , J ) = 0 . 0

 

 

 

 

 

 

 

 

 

 

 

 

C

1 0 0 C O N T IN U E

 

 

 

 

 

 

 

 

 

 

 

 

 

READ

 

I N

D ATA

AND A C C U M U LA T E

SUMS

 

 

 

 

 

 

C

 

 

 

 

 

 

 

C

DO

1 01

1 = 1 , 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

C A L L R E A D M ( X ( 1 , 1 , I > , N , M , N D , M D >

 

 

 

 

 

 

 

 

C A L L P R I N T M t X d , I , I ) , N , . M , N D , M D )

 

 

 

 

 

 

 

W R I T E ( 6 , 2 0 0 7 ) I

 

 

 

 

 

 

 

 

 

 

 

 

NSC I > = N

 

 

 

 

 

 

 

 

 

 

 

 

 

 

DO

1 0 2

J = 1 , N

 

 

 

 

 

 

 

 

 

 

 

 

DO

1 0 2

K = 1 , M '

 

 

 

 

 

 

 

 

 

 

 

 

C ( I , K ) = C ( I , K ) + X ( J , K , I )

 

 

 

 

 

 

 

 

 

 

DO

1 0 2

L = l , M

 

 

 

 

 

 

 

 

 

 

 

 

A ( K , L ) = A ( K , L ) + X ( J , K , I ) * X ( J , L , I j