книги / Статистика и анализ геологических данных
..pdfжно поставить в один ряд с одномерными задачами, связан ными с множественной регрессией или рассмотренными выше многомерными задачами проверки статистических гипотез. По этому он позволяет установить дополнительную связь между од номерной и многомерной статистикой.
Однако вначале мы определим понятие разделения, или дис криминации, и покажем, чем оно отличается от близкого к нему понятия классификации. Предположим, что мы собрали две группы проб сланца, о которых заранее известно, что они обра зовались в пресноводном и морском бассейнах. Это можно оп ределить на основании исследования остатков ископаемых ор ганизмов. В пробах измерено некоторое число геохимических переменных, а именно, содержание ванадия, бора, железа ит. д. Задача состоит в нахождении такой линейной комбинации этих переменных, которая даст максимально возможное различие между двумя ранее определенными группами. Если нам удастся найти такую функцию, то мы сможем использовать ее для раз мещения новых образцов в ту или другую исходную группу. Иными словами, новые образцы сланца, не содержащие диагно стических ископаемых остатков, можно будет разделить на мор ские и пресноводные на основе линейной дискриминантной функции, построенной по их геохимическим компонентам. (Эта задача рассматривалась Поттером, Шимпом и Уиттерсом [24].)
Задачу классификации можно проиллюстрировать на анало гичном примере. Предположим, что мы собрали большую раз нородную коллекцию образцов сланца, каждый из которых был подвергнут геохимическому анализу. Можно ли на основе значе ний измеренных переменных осуществить разделение выборки на относительно однородные группы (или кластеры, как их обычно называют), отличающиеся друг от друга. Численные методы решения такого рода задач достаточно хорошо развиты и при надлежат к разделу науки, называемому таксономией. Они бу дут рассмотрены в следующем разделе. Существует несколько явных различий между этими методами и методами дискрими нантного анализа. Классификация внутренне замкнута, т. е. в от личие от дискриминантного анализа она не зависит от априор ных сведений о соотношении между пробами. [В дискриминант ном анализе число групп задается заранее, в то время как число кластеров, которые получаются в результате классификации, не может быть заранее определено. Каждая проба из исходного множества в дискриминантном анализе считается принадлежа щей к одной из заданных группу В большинстве задач класси фикации проба может войти в любую из групп, возникающих в результате классификации. Другие различия станут очевид ными при рассмотрении этих двух процедур. Результатом
Фиг. 7.3. Графическое представление двух двумерных распределений.
Указаны перекрытия распределений для групп А и В вдоль осей А", и Х2; проектирование на дискриминантную линию позволяет различить две группы.
кластерного анализа сланцев является разделение проб на не сколько групп. Представляет интерес проведение геологического осмысливания найденных таким образом групп.
Простая линейная дискриминантная функция осуществляет преобразование исходного множества измерений, входящих в выборку, в единственное дискриминантное число. Это число, или преобразованная переменная, определяет положение образца на прямой, определенной дискриминантной функцией. Поэтому мы можем представлять себе дискриминантную функцию как способ «сжатия» многомерной задачи в одно
мерную.
Г Основой дискриминантного анализа является нахождение преобразования, которое дает минимум отношения разности многомерных средних значений для некоторой пары групп к многомерной дисперсии в пределах двух групп. Если мы изо бразим наши две группы совокупностями точек в многомерном пространстве, то легко найти такое направление, вдоль которого эти совокупности явно разделяются и в то же время имеют наи меньшую выпуклость^Графически эта картина представлена на
или в расширенной записи
~ о г |
“ Ai - |
"Bi |
D 2 |
а 2 |
в 2 |
— |
|
_ |
_Dm_ —Ащ __ _Bm_
Для построения ковариационной матрицы объединенной вы борки мы должны вычислить матрицу сумм квадратов и сме-' шанных произведений для всех переменных в группе А и анало-^ гичную матрицу для группы В. Процедура вычисления такой матрицы рассмотрена в гл. 3. Например, если мы рассмотрим только группу А, то
|
п а |
п а |
|
|
2 |
A'tf 2 |
|
SPAjk= 2 |
J (AijAIk — 1= 1 |
n;=l— . |
|
Здесь, как и ранее, |
Ац— это i-e наблюдение j -й переменной |
||
в группе А, а Аш — i-e |
наблюдение |
k-й |
переменной в той же |
группе. Конечно, при j = к эта величина даст сумму квадратов переменной с номером к. Аналогично можно найти матрицу сумм квадратов и смешанных произведений для группы В:
|
пь |
пь |
4 * |
2 |
ВЦ 2 В1к |
sPBjk = 2 |
(B,jBlk) — 1=1 |
;b=1— . |
Для сокращения матрицу сумм произведений для группы А мы обозначим через [SPA], а для группы В — через [SPB]. Ко вариационную матрицу объединенной выборки теперь можно за писать в виде
Гл21 _ |
[SPA ] + [SPB] |
(7.26) |
|
lSpJ“ |
na + nb — 2 - |
||
|
Легко видеть, что это определение дисперсионной матрицы объединенной выборки в точности такое же, как и использован ное при рассмотрении Т2-критерия для проверки гипотезы о ра венстве многомерных средних. Хотя объем вычислений, которые необходимо провести для того, чтобы получить коэффициенты дискриминантной функции, на первый взгляд и кажется боль шим, фактически он значительно меньше. В качестве примера мы построили дискриминантную функцию для двух групп дан ных, приведенных в табл. 7.8. Группа А представлена пробами
|
|
|
|
Т а б л и ц а 7.8 |
|
Измерения среднего размера зерен и коэффициента |
|||||
|
сортированности двух проб песка |
|
|||
Г р у п п а А , п л я ж н ы й п е с о к - |
Г р уп п а В, п е с о к , в з я т ы й |
||||
|
|
|
в а л е н о от б е р е г а |
||
Средний |
Каэффи - |
|
циентл |
размер |
Ч^ентп |
"г_ |
и и е н т |
|
|||
i%etP |
—/---- г- |
'зепен' |
сортиро- |
“ |
— |
|
\ рприн |
сортиро |
|||
|
ванности |
зеРен |
данности |
зеРен |
данности |
0,333 |
1,08 |
0,339 |
1,12 |
0,342 |
1,24 |
0,340 |
1,08 |
0,346 |
1,12 |
0,331 |
1,25 |
0,338 |
1,09 |
0,350 |
1,12 |
0,336 |
1,25 |
0,333 |
1,10 |
0,352 |
1,13 |
0,341 |
1,25 |
0,323 |
1,13 |
0,341 |
1,15 |
0,334 |
1,26 |
0,327 |
1,12 |
0,347 |
1,15 |
0,337 |
1,27 |
0,329 |
1,13 |
0,337 |
1,16 |
0,339 |
1,27 |
0,331 |
1,13 |
0,343 |
1,16 |
0,330 |
1,28 |
0,336 |
1,12 |
0,340 |
1,17 |
0,334 |
1,28 |
0,333 |
1,14 |
0,346 |
1,17 |
0,332 |
1,29 |
0,341 |
1,14 |
0,349 |
1,17 |
0,330 |
1,31 |
0,328 |
1,15 |
0,339 |
1,18 |
0,334 |
1,31 |
0,336 |
1,15 |
0,342 |
1,18 |
0,340 |
1,21 |
0,327 |
1,16 |
0,346 |
1,18 |
|
|
0,329 |
1,16 |
0,351 |
1,18 |
|
|
0,330 |
1,16 |
0,340 |
1.19 |
|
|
0,323 |
1,17 |
0,344 |
1.19 |
|
|
0,328 |
1,17 |
0,333 |
1.20 |
|
|
0,332 |
1,17 |
0,337 |
1,20 |
|
|
0,331 |
1,18 |
0,339 |
1,20 |
|
|
0,326 |
1,18 |
0,342 |
1,20 |
|
|
0,333 |
1,18 |
0,339 |
1,21 |
|
|
0,330 |
1,19 |
0,340 |
1,21 |
|
|
0,336 |
1,19 |
0,341 |
1,21 |
|
|
0,327 |
1,20 |
0,335 |
1,22 |
|
|
0,324 |
1,21 |
0,337 |
1,22 |
|
|
0,332 |
1,21 |
0,340 |
1,22 |
|
|
0,322 |
1,22 |
0,343 |
1,22 |
|
|
0,329 |
1,22 |
0,334 |
1,22 |
|
|
0,325 |
1,24 |
0,348 |
1,22 |
|
|
0,328 |
1,26 |
0,337 |
1,22 |
|
|
0,322 |
1,27 |
0,342 |
1.23 |
|
|
0,318 |
1,22 |
0,334 |
1.24 |
|
|
0,330 |
1,17 |
0,340 |
1.24 |
|
|
песка, взятого с морского пляжа; две переменные — это средний размер зерен и коэффициент сортированности. Группа В представлена пробами песка, взятого в отдалении от берега. Переменные в этом случае такие же, как и для группы А. Диа грамма рассеяния исходных наблюдений представлена на фиг. 7.4. Хотя два облака точек и перекрываются, совершенно очевидно, что разделяющая их линия проходит между ними так, что большинство наблюдений группы А находится по одну
Эти три точки изображены на фиг. 7.5. Аналогично можно каждое наблюдаемое значение подставить в дискриминантное уравнение и затем нанести полученное число на график. Все это можно сделать на одной диаграмме; заметим, что несколько точек группы А попали в группу В, т. е. расположены по правую сторону от Ro, а несколько точек группы В попали в группу А. Это — точки, неправильно расклассифицированные с помощью дискриминантной функции.
Критерии значимости. Если поставить некоторые условия для данных, используемых при построении дискриминантной функ ции, можно провести проверку значимости разделения на две' группы. Основными условиями являются:
а) наблюдения в каждой группе выбираются случайно; б) вероятности того, что неизвестное наблюдение принадле
жит любой из групп, равны между собой; в) внутри каждой из групп переменные рассматриваются как
случайные величины, распределенные нормально; г) ковариационные матрицы различных групп имеют одина
ковый порядок; д) ни одно из наблюдений, используемых для построения
дискриминантной функции, не было ложно расклассифицировано. Наиболее трудно удовлетворимы условия «б—г». К счастью, дискриминантная функция меняется незначительно при малых отклонениях от нормальности или при малых отклонениях дис персий. Выполнение условия «б» зависит от априорно заданного уровня относительных вкладов исследуемых групп. Если усло вие о равенстве вкладов относительных содержаний не выпол няется, можно сделать некоторые другие допущения, которые приводят к смещению значения Ro. (Подробное изложение во просов принятия альтернативных решений в дискриминантном
анализе содержится в книге Андерсона [1].)
Критерий значимости для |
дискриминантной |
функции стро |
||
ится на основании Т2-статистики, рассмотренной |
ранее. Мы вы |
|||
числяем «расстояние» |
между |
двумя |
многомерными средними, |
|
т. е. просто вычитаем |
R A из R B . Э то |
эквивалентно подстановке |
||
|
|
Ro |
Re |
|
Фиг. 7.5. Проекция выборок, представленных в табл. 7.8, на дискриминантную прямую, изображенную на фиг. 7.4.
R A — проекция |
двумерного |
среднего |
для пляжного песка; R B — проекция двумерного |
|
среднего для |
песка, удаленного |
от |
берега; R0 — дискриминантный индекс. Разность |
|
|
между |
R A и |
R B — расстояние Махалонобиса D 2. |
что рассмотрим одну простую процедуру, позволяющую устанав ливать степень «важности» переменной. Читателю, интересую щемуся более точными процедурами, можно порекомендовать руководство Шульца и Гоггенса [26].
Относительный вклад j -й переменной в расстояние между средними двух групп измеряется величиной
XjDj
Е , — p f . |
(7 .3 2 ) |
где Dj — разность между средними по j -й переменной для двух групп. Это мера прямого вклада только одной переменной с но мером j; она не учитывает взаимодействия между переменными. Если две или более переменные, входящие в дискриминантную функцию, не являются независимыми, то их совместный вклад в функцию D2 может быть более значительным, чем это следует из величин E j . Эту меру можно считать прямым аналогом стан дартизованных коэффициентов частной регрессии в уравнении
множественной |
|
регрессии. Простое |
умножение значений |
E j на |
|||||||||||||
100 позволяет выразить их в процентах. |
|
|
|
|
|
||||||||||||
С |
PROGRAM |
7 . 5 |
|
|
|
|
|
|
|
|
|
|
|
|
|||
с |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
С |
R O U T I N E D IS C R M |
|
|
|
|
|
|
|
|
|
|
|
|||||
С |
T H E PROGRAM COMPU TE S |
T H E |
L I N E A R D I S C R I M I N A N T F U N C T I O N |
BETWEEN |
|||||||||||||
C |
|||||||||||||||||
C |
TWO GROUPS. |
GROUP |
AI S |
AN |
N1 |
BY |
M |
D A T A |
M A T R I X |
WHERE |
N1 I S |
T H E |
|||||
C |
NUMBER |
O F |
O B S E R V A T I O N S |
AND |
M |
I S |
T H E NUMBER |
OF |
V A R I A B L E S . |
|
|||||||
C |
GROUP |
В |
I S |
AN |
N 2 BY |
M |
D A T A |
M A T R I X . |
N1 |
AND N2 ARE NO T |
|
|
|||||
C |
N E C E S S A R I L Y |
E Q U A L . |
V A L U E S OF |
R O , |
R l , |
AND |
R2 ARE P R I N T E D , |
|
|||||||||
C |
W IT H |
T H E |
L I N E A R D I S C R I M I N A N T |
F U N C T I O N |
AND |
S T A T I S T I C S |
FOP |
|
|||||||||
C |
T E S T I N G T H E S I G N I F I C A N C E OF T H E F U N C T O N . |
|
|
|
|
||||||||||||
C |
S U B R O U T IN E S R E Q U I R E D |
A RE |
R EADM , P R I N T M , |
AND S L E |
|
|
|||||||||||
C |
|
|
|||||||||||||||
C |
|
|
|
|
|
|
|
|
|
|
|
|
_ |
|
|
|
|
|
D I M E N S I O N X ( l 0 0 , 2 0 , 2 ) , A ( 2 0 , 2 0 ) , B ( 2 0 ) , C ( 2 , 2 0 ) , N S ( 2 ) |
|
|
||||||||||||||
|
ND=1 0 0 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
M D = 2 0 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
C |
M M =2 0 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
C |
I N I T I A L I Z E |
|
|
|
|
|
|
|
|
|
|
|
|
||||
C |
DO |
1 0 0 |
1 = 1 , MM |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
C ( l |
, I ) = |
0 . 0 |
|
|
|
|
|
|
|
|
|
|
|
|
||
|
C ( 2 , I ) = 0 . 0 |
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
DO |
1 0 0 |
J = 1 , MM |
|
|
|
|
|
|
|
|
|
|
|
|||
|
A ( I , J ) = 0 . 0 |
|
|
|
|
|
|
|
|
|
|
|
|
||||
C |
1 0 0 C O N T IN U E |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
READ |
|
I N |
D ATA |
AND A C C U M U LA T E |
SUMS |
|
|
|
|
|
|
||||||
C |
|
|
|
|
|
|
|
||||||||||
C |
DO |
1 01 |
1 = 1 , 2 |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
C A L L R E A D M ( X ( 1 , 1 , I > , N , M , N D , M D > |
|
|
|
|
|
|
|
|||||||||
|
C A L L P R I N T M t X d , I , I ) , N , . M , N D , M D ) |
|
|
|
|
|
|
||||||||||
|
W R I T E ( 6 , 2 0 0 7 ) I |
|
|
|
|
|
|
|
|
|
|
|
|||||
|
NSC I > = N |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
DO |
1 0 2 |
J = 1 , N |
|
|
|
|
|
|
|
|
|
|
|
|||
|
DO |
1 0 2 |
K = 1 , M ' |
|
|
|
|
|
|
|
|
|
|
|
|||
|
C ( I , K ) = C ( I , K ) + X ( J , K , I ) |
|
|
|
|
|
|
|
|
|
|||||||
|
DO |
1 0 2 |
L = l , M |
|
|
|
|
|
|
|
|
|
|
|
|||
|
A ( K , L ) = A ( K , L ) + X ( J , K , I ) * X ( J , L , I j |
|
|
|
|
|
|