![](/user_photo/_userpic.png)
книги / Статистика и анализ геологических данных
..pdf70 |
30 |
10 |
0 |
720 |
140 |
200 |
0Т01 |
30 |
82 |
10 |
20 |
1 580 |
160 |
70 |
0,01 |
10 |
61 |
10 |
0 |
340 |
40 |
50 |
0,02 |
30 |
77 |
10 |
0 |
650 |
90 |
80 |
0,02 |
50 |
154 |
20 |
0 |
1 240 |
140 |
80 |
0,01 |
20 |
63 |
20 |
0 |
720 |
80 |
110 |
0,00 |
30 |
45 |
20 |
10 |
1 100 |
120 |
60 |
0,01 |
10 |
40 |
30 |
20 |
1 480 |
70 |
40 |
0,00 |
20 |
104 |
20 |
0 |
420 |
80 |
70 |
0,00 |
60 |
48 |
10 |
20 |
780 |
150 |
50 |
0,02 |
30 |
65 |
10 |
20 |
710 |
100 |
40 |
0,01 |
10 |
69 |
0 |
30 |
1 310 |
110 |
30 |
0,02 |
20 |
63 |
0 |
10 |
480 |
80 |
50 |
0,00 |
20 |
58 |
10 |
20 |
730 |
120 |
80 |
0,01 |
10 |
37 |
0 |
10 |
140 |
30 |
80 |
0,01 |
20 |
121 |
20 |
20 |
1 200 |
210 |
160 |
0,00 |
40 |
59 |
20 |
30 |
480 |
230 |
120 |
0,02 |
20 |
40 |
10 |
20 |
690 |
140 |
60 |
0,00 |
30 |
82 |
20 |
10 |
710 |
170 |
70 |
0,00 |
10 |
99 |
0 |
0 |
760 |
80 |
90 |
0,01 |
60 |
128 |
30 |
30 |
460 |
110 |
80 |
0,02 |
40 |
72 |
50 |
20 |
320 |
90 |
160 |
0,01 |
80 |
39 |
40 |
90 |
210 |
200 |
180 |
0,01 |
10 |
102 |
0 |
10 |
160 |
30 |
80 |
0,00 |
40 |
60 |
20 |
10 |
1 100 |
160 |
40 |
0,02 |
10 |
28 |
0 |
0 |
1 320 |
20 |
60 |
0,00 |
Если использовать уже созданную библиотеку подпрограмм, то написать программу вычисления дискриминантной функции совсем нетрудно. Программа 7.5 DISCRM как раз предназна чена для этого, и в ней использовано большинство подпрограмм, содержащихся в гл. 4. Мы применим программу DISCRM для решения следующей задачи.
Правительственная разведочная группа проводила поиски месторождений тяжелых металлов в густо заросших лесом го рах северной Швеции. Данные, собранные аэромагнитометром, оказались недостаточными, и поэтому было проведено геохими ческое исследование, основанное на анализах водных потоков. Было выбрано семь переменных и проведено две последователь ности измерений. Группа А состоит из измерений, сделанных в потоках, дренирующих площади, на которых имеются дейст вующие шахты и подтвержденные рудные тела. Группа В со стоит из аналогичных измерений на площадях, на которых ору денение не обнаружено. Данные по этим площадям приведены в табл. 7.10. Вычислите для них дискриминантную функцию для продуктивного и непродуктивного районов. Определите, явля ются ли различия между двумя группами значимыми, и иссле дуйте относительное влияние используемых переменных. Для удобства в этом примере предполагается, что изучаемые совокупности этих двух групп подчиняются многомерному нор мальному распределению. В табл. 7.10 проведен также ряд измерений, сделанных на площадях, относительно которых не известно, разведывались ли они когда-нибудь. Используя ди скриминантную функцию, можно ли рекомендовать какую-либо из этих площадей в качестве перспективной для разведки?
Анализ групп
Классификация — распределение объектов по более или ме нее однородным группам и установление соотношений между группами — важная особенность работы таксономистов, зани мающихся определением происхождения живых организмов на основании их характеристик и сходства. Таксономия — в высшей степени субъективная наука, в которой выводы определяются интуицией ученого, выработанной годами опыта. В этом отно шении таксономия очень сходна с многими разделами геологии. Ряд ученых, в том числе геологи, неудовлетворенные субъектив ностью и капризностью традиционных методов, разработали но вые способы классификации, которые находятся в соответствии с возможностями современных вычислительных машин. Эта группа исследователей называет себя численными таксономис-
тами, и им мы обязаны многими достижениями в численных ме тодах классификации.
В настоящее время численная таксономия является предме том ожесточенных споров среди биологов, очень напоминающих острые дебаты психологов вокруг вопросов факторного анализа, имевших место в 30—40-х годах нашего века. В этих обсужде ниях некоторые практики рьяно отстаивают методы численной таксономии, заявляя, что они позволяют понять происхождение групп организмов лучше, чем любой другой метод классифика ции. Конечно, доказательств они представить не могут, так как в настоящее время теоретическое обоснование анализа групп не является достаточно удовлетворительным, плохо исследованы статистические основы методов численной таксономии, нет со ответствующих критериев значимости. По-видимому, здесь дело обстоит так же, как и в случае факторного анализа. Однако уже многие методы численной таксономии нашли применение в гео логических исследованиях, в особенности при классификации ископаемых беспозвоночных и при изучении палеообстановок.
Предположим, что мы располагаем некоторым множеством объектов, которые желательно иерархически расклассифициро вать. В биологии эти объекты обычно называются «операцион ными таксономическими единицами» или ОТЕ. На каждом объ екте мы производим ряд измерений, которые составляют наше множество данных. Если мы имеем п объектов и измеряем m характеристик, то множество данных образует матрицу порядка nxm . Далее между каждой парой объектов вычисляется неко торая мера сходства или подобия. Коэффициенты сходства мо гут быть разными, как, например, коэффициент корреляции или стандартизованное m-мерное евклидово расстояние d\y Послед нее вычисляется по формуле
(7.33)
где Xik — значение k-й переменной на i-м объекте и Xjk— значе ние k-й переменной на j -м объекте. Естественно ожидать, что малое значение этого расстояния указывает на то, что объекты подобны или «близки друг другу», в то время как большое значение указывает на отсутствие подобия. Обычно матрица ис ходных данных до вычисления расстояний подвергается стан дартизации. Это позволяет учитывать каждую переменную с оди наковым весом. В противном случае расстояние определялось бы переменной, имеющей наибольшее значение. В некоторых случаях это даже желательно, однако неразумный выбор единиц измерения может иногда привести к нежелательным
ными — характеристики |
структу |
{.о |
А |
В |
|
|
|
||||||||
ры породы, включающие показа |
и |
|
|
|
|||||||||||
|
|
|
|
||||||||||||
тели |
размеров и |
формы |
зерен, |
0,5 |
|
|
|
||||||||
размеров |
|
и формы |
пор |
и |
плот |
|
|
|
|
|
|
||||
ности заполнения. В этом приме |
0,0 |
|
|
|
|
|
|||||||||
ре в качестве меры сходства взят |
|
|
|
|
|
|
|||||||||
коэффициент корреляции. |
групп |
-0,5 |
|
|
|
|
|
||||||||
Первый шаг |
анализа |
- 1,0 |
|
|
|
|
|
||||||||
методом |
попарного |
объединения |
|
|
|
|
|
||||||||
состоит в нахождении в корреля |
|
|
В |
|
|
|
|||||||||
ционной матрице |
небольших |
ко |
1.0 |
|
|
|
|
||||||||
эффициентов корреляции с целью |
|
Ш 4i |
|||||||||||||
выделения |
центров |
групп. |
Наи |
0,5 |
|||||||||||
высшие |
коэффициенты |
корреля |
0,0 - |
||||||||||||
ции в каждом |
столбце |
матрицы |
|
|
|
|
|
||||||||
(табл. 7.11) |
выделены |
жирным |
-0,5 |
|
|
|
|
|
|||||||
шрифтом. Объекты А и В об |
|
|
|
|
|
||||||||||
разуют |
пару |
с высокой |
мерой |
- 1,0 |
|
|
|
|
|
||||||
сходства, |
|
так |
как |
А |
наиболее |
|
|
|
|
|
|
||||
близок к В и В наиболее близок |
/п |
А |
В |
С |
D |
Е |
|||||||||
к А. Однако |
С и В не обра |
||||||||||||||
зуют пары с высокой мерой сход |
|
MI |
ч. |
||||||||||||
ства, |
так |
как, |
хотя |
С |
близок |
0,5 |
|||||||||
к В, В ближе к А, чем к С. Для |
: |
||||||||||||||
выделения |
пары |
с |
высокой |
ме |
0,0 |
|
|
|
|
|
|||||
рой сходства коэффициенты с^ и |
-0,5 |
|
|
|
|
|
|||||||||
су должны |
иметь |
наибольшие |
|
|
|
|
|
||||||||
значения |
|
в |
соответствующих |
- 1,0 |
|
|
|
|
|
||||||
столбцах. |
|
|
л |
|
|
|
|
|
|
|
|
|
|
||
Пары |
|
с |
наивысшими |
мера |
|
|
Фиг. 7.6. |
|
|
||||||
ми |
сходства |
изображены |
на |
а — первый |
ш аг |
построения |
дендро |
||||||||
фиг. 7.6, а. Объект |
А связан |
с В |
граммы; |
|
б — построение |
групп для |
|||||||||
на уровне 0,57, указывающем ме |
остальных объектов; в — окончание по |
||||||||||||||
строения |
дендрограммы; |
две |
группы |
||||||||||||
ру их взаимного сходства. Таким |
связываю тся |
между собой. |
|||||||||||||
|
|
|
|
|
|
же образом связаны D и Е. Это
первый шаг в построении дендрограммы, или «дерева», позво ляющего наглядно изобразить результаты разбивки на группы.
Далее матрица сходства должна быть вычислена снова, при чем сгруппированные элементы при этом считаются одним эле ментом. Существует несколько методов выполнения этой про цедуры. Мы будем использовать наиболее простой из них, со стоящий в том, что новые коэффициенты корреляции между всеми группами и объектами, не включенными в группы, вычис ляются заново с помощью простого усреднения. Например, но вый коэффициент корреляции между группой АВ и объектом С равен сумме коэффициентов корреляции элементов, входящих
как в АВ, так и в С, деленной на 2. В табл. 7.12 приведены ре зультаты этих вычислений. Наиболее высокие значения коэффи циентов корреляции в каждом столбце указаны жирным шриф том.
Процедура образования групп снова повторяется: находим пары с сильными связями и объединяем. На этом этапе объект
С |
присоединяется |
к группе АВ, а объект F присоединяется |
к |
группе DE (фиг. |
7.6, б). Процесс продолжается до тех пор, |
пока все группы не объединятся вместе. Окончательная матрица
сходства, как показано в |
табл. |
7.13, будет иметь порядок 2 x 2 |
||||||
|
|
|
Т а б л и ц а |
7.12 |
|
Т а б л и ц а 7.13 |
||
|
Матрица |
коэффициентов |
|
Матрица усредненных |
||||
корреляции между двумя |
|
|||||||
усредненными |
группами |
и двумя |
коэффициентов корреляции |
|||||
|
песчаниками |
|
|
между двумя последними |
||||
|
|
|
|
|
|
|
группами |
|
|
АВ |
С |
DE |
F |
|
|
|
|
АВ |
1,00 |
0,29 |
-0 ,7 0 |
-0 ,5 5 ' |
|
АВС |
DEF |
|
С |
0,29 |
1,00 |
-0 ,5 9 |
-0 ,5 2 |
АВС |
Г 1,00 |
-0 ,5 9 ] |
|
DE |
-0 ,7 0 |
-0 ,5 9 |
1,00 |
0,41 |
||||
F -0 ,5 5 |
-0 ,5 2 |
0,41 |
1,00. |
DEF |
1-0,59 |
1,00j |
и соответствовать двум последним группам. |
Очевидно, что |
||||
группа |
АВС |
имеет |
с группой |
DEF коэффициент сходства |
|
—0,59. |
На |
этом |
построение |
дендрограммы |
заканчивается |
(фиг. 7.6, в).
Построение групп является эффективным способом представ ления сложных соотношений между объектами. Однако процесс усреднения по элементам группы и их трактовка в качестве единственного нового объекта приводят к изменениям дендро граммы. Это изменение становится все более очевидным по мере роста уровня усредняемых и объединяемых групп. Можно оце нить степень этого изменения, исследуя матрицу, которая в так сономии носит название матрицы кофенетических значений. Это не что иное, как матрица коэффициентов корреляции дендро граммы. Например, коэффициенты корреляции между группами D, Е и F, с одной стороны, и А, В, С — с другой, в дендрограмме на фиг. 7.6 равны —0,59. Аналогично коэффициент корреляции между F и D, а также между F и Е равен 0,41. Наиболее силь ные связи отмечаются только между парами А и В, а также D и Е. В табл. 7.14 приведена полная матрица кофенетических значений, соответствующих дендрограмме. Мы можем получить наглядное представление о степени изменения в дендрограмме, сопоставив на графике каждый элемент исходной корреляцион ной матрицы с каждым элементом кофенетической матрицы (фиг. 7.7.). Если обе матрицы совпадут, то график этой зави-
Таблица 7.14
Матрица кофенетических коэффициентов корреляции, полученных из дендрограммы фиг. 7.6
|
А |
В |
С |
D |
Е |
F |
"А |
1,00 |
0,57 |
0,12 |
-0 ,6 5 |
-0 ,6 2 |
-0,39" |
В |
0,57 |
1,00 |
0,46 |
-0 ,7 9 |
-0,72 |
-0,72 |
С |
0,12 |
0,46 |
1,00 |
-0,58 |
-0,61 |
-0,52 |
D -0 ,6 5 |
-0,79 |
-0,58 |
1,00 |
0,66 |
0,41 |
|
Е |
-0,62 |
-0,72 |
-0,61 |
0,66 |
1,00 |
0,40 |
F |
-0,39 |
-0,72 |
-0,52 |
0,41 |
0,40 |
1,00 |
симости будет представлен прямой линией. Отклонения от нее указывают на изменения в дендрограмме: если точка оказыва ется выше прямой, то корреляция, соответствующая дендро грамме, оказывается слишком высокой. Наоборот, если точка попадет в область под прямой, то усреднение коэффициентов корреляции приводит к более низкому значению корреляции по сравнению с истинным. Численную меру сходства между двумя матрицами можно найти в результате простого вычисле ния коэффициентов корреляции между одинаково расположен
ными |
элементами. Так |
как |
|
|
|
||||
обе матрицы |
симметричны |
|
|
|
|||||
относительно |
диагонали, |
то |
|
|
|
||||
для этой |
цели |
достаточно |
|
|
|
||||
использовать |
только |
одну |
|
|
|
||||
половину элементов |
матри |
|
|
|
|||||
цы либо выше, |
либо |
ниже |
|
|
|
||||
диагонали. В |
нашем |
случае |
|
|
|
||||
коэффициент |
|
корреляции |
|
|
|
||||
равен |
0,98. |
существенные |
|
|
|
||||
Наиболее |
|
|
|
||||||
черты этого метода анализа |
|
|
|
||||||
групп |
заключаются |
в сле |
|
|
|
||||
дующем: |
Коэффициент кор |
|
|
|
|||||
|
1. |
Исходные коэффициенты корреляции |
|||||||
реляции |
|
используется |
|||||||
|
|
|
|
||||||
в качестве |
меры сход |
Фиг. 7.7. Графическое построение зави |
|||||||
ства. |
|
|
|
|
|
симости |
кофенетических коэффициентов |
||
|
2. |
Объединение |
в |
корреляции для |
дендрограммы, пред |
||||
|
ставленной на фиг. 7.6, от эквивалент |
||||||||
группы |
начинается |
с |
ных им исходных коэффициентов корре |
||||||
объектов, имеющих наи |
ляции, |
значения |
которых приведены |
||||||
более высокие значения |
|
в табл. 7.11. |
|||||||
коэффициентов |
корре |
Если дендрограмма |
точно характеризует струк |
||||||
туру корреляционной матрицы, то все точки |
|||||||||
ляции, |
характеризую |
ния от этой линии представляют неточности |
|||||||
|
|
|
|
|
|
|
попадают на диагональную линию. Отклоне |
||
щих сходство. |
|
|
|
дендрограммы. |