Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Статистический анализ данных в геологии. Кн. 2

.pdf
Скачиваний:
0
Добавлен:
12.11.2023
Размер:
19.38 Mб
Скачать

Т а б л и ц а 6.17

Измерения (в мм) четырех образцов гониатитовых аммоноидей, представляющих виды из рода Manticoceras

матрицы [X] можно

найти две ортогональные матрицы [К]

и [£/], для которых

произведение [VY[X)[V] есть веществен­

ная диагональная матрица [Л] с неотрицательными элемента­ ми. Доказательство теоремы было дано Джонсоном [31]. Оста­ новимся на следствиях из этой теоремы, которые важны в фак­ торном анализе, используя числовой пример, первоначально рассмотренный Бертом [6].

Данные, приведенные в табл. 6.17, типичны для простого геологического исследования. Вообразим, что эти измерения были сделаны палеонтологом на раковинах четырех видов го­ ниатитовых аммоноидей. Рассматриваемые характеристики включают диаметр «пупка», т.е. части раковины не закрытой последней камерой, а также высоту и ширину этой камеры в устье. Среднее каждой переменной можно вычесть из каждо­ го наблюдения. В результате получим матрицу данных

6

 

3

з ■

2

 

1

—3

0

-

1

 

4

-

-3

-1

Используя теорему Эккарта — Юнга, покажем, что матрица данных может рассматриваться как произведение трех других матриц:

[X] = [V][A][U]',

(6.40)

262

где V — ( пхг ) -матрица, столбцы

которой

ортонормальны. Это

означает, что [ ^ '[ У ] = [/]. где

[/J г X/"-матрица. Аналогич­

но, U( тхг) - матрица, столбцы

которой

ортонормальны, так

что [U)'[U] = [I], где VI также

есть (гХ/О-матрица. [Л] —

квадратная (гХг)-матрица, имеющая г положительных элемен­ тов вдоль диагонали. Последние называются сингулярными значениями матрицы [X]; недиагональные элементы матрицы

[Л]

равны нулю.

 

 

 

 

 

 

поря­

Меньшая

матрица-произведение [£J = [X'J [Х\ имеет

док

т х т

и

содержит

г

ненулевых

собственных

значений

и т —г собственных значений, равных

нулю. Ненулевые

собст­

венные значения

равны

квадратам

сингулярных

значений

.патрицы [А], т. е. [Л]2 = [/] [X]',

или эквивалентно

 

 

 

 

 

 

 

[A] = [/][VT]/,

 

 

(6-41)

где

[Л] — вектор, содержащий г ненулевых собственных

значе­

ний

матрицы

[Я].

Большая

матрица-произведение

[Q] =

= [Х][Х]'

порядка пХп также

имеет только г ненулевых соб­

ственных значений. Они идентичны собственным значениям, по­ лученным по [Я], исключая те дополнительные собственные значения, которые равны нулю, если п (число объектов) превос­ ходит т (число переменных).

Далее, столбцы матрицы [Н] содержат собственные векто­ ры матрицы [/?], которые связаны с каждым собственным век­

тором %■ Столбцы

[V] содержат собственные векторы матри­

цы [Q]. Так как

собственные значения обеих матриц [£>]

п [Q] одинаковы, то должно существовать соотношение менаду двумя наборами собственных векторов [U] и [У]. Это соотно­ шение таково:

т = [х ][н ]г л ]-‘,

(6.42)

[Д] = [Х]'[У],[Л ]-1

 

В факторном анализе вектор, образованный умножением обстзенного вектора на соответствующее ему сингулярное знаlenue, называется фактором. Напомним, что собственные векгоры вычисляются так, чтобы сумма квадратов их элементов была равна 1,0, т. е. собственные векторы имеют единичную длину. Если их умножить на соответствующие им сингулярные значения (или квадратные корни из их собственных значений), ю пх длины будут пропорциональны величинам их сингуляр­ ных значений. Индивидуальные элементы некоторого фактора называются нагрузками и связывают факторы с исходными пе­ ременными. В матричном обозначении факторы /^-метода имеют

Н М Д

[А*] = [Н][Л].

(6.43)

Нагрузки представляют пропорции или веса, которые должны

263

быть в качестве нагрузок приписаны каждой переменной для того, чтобы спроектировать объекты на факторные оси. Они также представляют коэффициенты корреляции индивидуаль­ ных переменных с факторами. Соответствующее уравнение для Q-метода факторного анализа имеет вид

И «] = [У][Л].

(6.44)

и нагрузки пропорциональны

вкладу каждого индивидуального

объекта, возникающему при

проектировании

переменных на

факторные оси.

 

 

Факторные метки ^-метода находятся умножением данных

на факторные нагрузки или

 

 

[SR] = [Х][А«],

(6.45)

что соответствует проектированию п индивидуальных объектов на факторные оси. Для конкретного наблюдения получим

S i k — ^ id m k X m i

ИЛИ

S ik = ( l l k X i i - \ ' C l 2 k X 2 i Jt- C la k X 3 i'h

■■■ + C l m k X m i,

где sik— нагрузка t-го наблюдения на

k-n фактор; хт— значе­

ние т-й переменной, измеренное на объекте £; аш* — нагрузка m-й переменной на k-ft фактор. В свою очередь, ат * есть про­ изведение элемента т на fe-й собственный вектор, умноженный на квадратный корень из /г-го собственного значения.

Аналогично, метки Q-метода находят умножением транспо­ нированной матрицы данных на факторные нагрузки Q-метода;

[S«] = [Jfl'[A«].

(6.46)

Это уравнение определяет проекции т переменных на фактор­

ные оси.

алгебраические преобразования

показывают

Некоторые

связь между

факторными нагрузками и метками в

и Q-ме-

тодах. Уравнение

(6.43) определяет

факторные нагрузки /?-ме-

тода по формуле

[А*] = [Л], по

теореме Эккарта —Юнга

матрица [U]

определяется как

 

 

[ U] = [ X Y [ V ] [ Л ] - .

Умножая обе стороны на [Л], получаем

[U] [Л] = [ Г Г т [А]-‘[А];

[А«] = [ Х ] 'т .

Метки Q-метода определяются уравнением (6.46):

т = [ х у т ,

2 6 4

нагрузки Q-метода [Л*3] определяются по формуле:

[Л«] = [К][А].

 

После подстановки получаем

 

[S«] = [ J ] '[ n [А].

 

Но [X]'[V] = [AR], поэтому

(6.47)

[S«] = H*] [Л].

палогичные действия показывают, что

 

[S*] = [A*][A].

(6.48)

Таким образом, метки Q-метода пропорциональны

нагрузкам

# -метода, н наоборот. Коэффициент пропорциональности равен

[Л], т.е. сингулярным значениям. Эквивалентные

выражения

имеют вид

 

[4*] = [S«][A]“I;

(6.49)

[AQ] = [SR] [Л]-1.

(6.50)

Это означает, что если провести Я-метод факторного анализа, то автоматически будет проведен и Q-метоД, так как и нагруз* ки. и метки Q-метода можно получить из результатов Я-метода.

Проиллюстрируем эти соотношения, используя измерения приведенных ранее аммоноидей. Меньшая матрица произведе­ нии Р-метода получается умножением матрицы данных слева па се транспозицию

[* 'Н * Ы Я ]

" - 6

2

со

 

3

- 3

0

4 "I

- - 6

3

3

'

7

со 1

2

1

— 3

 

1

- 1

0

- 1

1

 

 

 

4

— 3

— 1

 

'56 -2 8 —28

—28 20 8 —28 8 20

Собственные значения [/?] есть Xi = 84, ta=12, Лз = 0. Так как последнее собственное значение равно нулю, то матрица имеет ранг 2, а не 3, т. е.

[А]2 —

'84

0'

Л =

9,165

0,0

О

12

0,0

3,464. •

 

 

265

Собственные векторы

[/?] —

 

 

 

0,8165

0,0

0, 0'

[Щ =

-0,4082

0,7071

0,0

 

-0,4082

-0,7071

0,0

Так как последнее собственное значение равно нулю, то по­ следний столбец матрицы исчезает, и мы получаем матри­ цу порядка 3X2:

 

0,8165

0,0

—0,4082

0,7071

-0,4082

—0,7071

 

Матрица факторных нагрузок ^-метода [ЛЛ] задается уравне­ нием (6.43):

‘ 0,8165

0,0

'

 

'

7,4832

0,0

'

-0,4082

0,7071

9,165

0,0

-3,7412

2,4494

 

—0,4082

-0,7071

0,0

3,464

 

—3,7412

—2,4494

 

Теперь можно спроектировать 4 вида на оси /?-метода фактор­ ного анализа, вычисляя их факторные метки по формуле (6.45);

7,4832

0,0

!

67,3

0,0

22,4

9,8

-3,7412

2,4494

j

0.0

-3,7412

- 2,4494

J

-4 ,9

44,9

-4 ,9

 

 

 

Метки можно графически изобразить в пространстве, опреде­ ленном ортонормальными факторными осями. На рис. 6.14 представлены четыре образца аммоноидей в проекции на плос­ кость первой и второй факторных осей.

д

о.

о

Рис. 6.14. Факторные метки /^-метода

Рис. 6.15. Факторные метки Q-метода

для четырех видов аммоноидей

для трех переменных, измеренных на

 

изученных видах аммоноидей

266

Q-метод факторного анализа можно начать с умножения справа на матрицу, являющуюся транспозицией матрицы ис­ ходных данных:

 

 

 

 

[XI [AT

 

[Qi

 

0

--36"

- б

3

3

"—6

2

0

4

■ 54

—18

2

1

- 3

—18

14

- 4

8

3

1

-1

3

О —1

1

0

—4

2

2

3

—3

1

- 1

4 —3

- 1

- 3 6

8

2

26

 

 

 

 

Матрицу V можно преобразовать в матрицу Q-метода фак­ торного анализа с помощью уравнения (6.44):

 

 

[У][Л] =

[Д«]

 

0,0

*

—0,8018

0,0

"

 

 

“ —7,3485

0,2673

0,8165

‘ 9,165

0,0

2,4498

2,8284

 

0,0

—0,4082

0,0

3,464

0,0

-1,4140

 

0,5345

-0,4082

 

 

 

4,8987

-1,4140

 

Метки Q-метода являются проекциями переменных на фактор­ ные оси и находятся умножением транспозиции матрицы дан­ ных на факторные нагрузки:

 

 

 

[Л7 И«] =

[5С]

0,0

6

2

0

4

-7,3485

2,4498

2,8284

3

1

- 1

—3

 

 

0,0

-1,4140

3

- 3

1

—1

 

 

4,8987

—1,4140

 

 

 

 

 

 

 

 

 

68,8

0,0'

 

 

 

 

-

34,3

8,5 .

 

 

 

 

-34,3

-8 ,5

 

Рис. 6.15 представляет

три

переменные образцов аммоноидей

в проекции на плоскость, определенную первыми двумя факто­ рами Q-метода.

Используя уравнение (6.47), можно утверждать, что метки /?-метода пропорциональны нагрузкам Q-метода:

7,4832

0,0

И*] [Aj =

[5«l

' 68,6

0,0'

'9,165

0,0 '

-3,7412

2,4494

-3 4 ,3

8,5 ,

. 0,0

3,464

-3,7412

—2,4494

-34,3

—8,5

 

 

Окончательно можно продемонстрировать справедливость тео­

267

ремы Эккарта — Юнга, восстановив матрицу данных [X] по­ рядка 7x3 по ее ортонормальным частям:

т

= т

\ м м

 

—0,8018

0,0

 

 

0,2673

0,8165

"9,165

0,0

0,0

—0,4082

. 0,0

3,464

0,5345

—0,4082

 

 

 

 

 

г —6

3

3“

0,816о

-0,4082

-0,4082

2

1

—3

X Lо,о

0,7071

-0,7071

0

—1

1 •

 

 

 

4

- 3

—1_

В этом простом численном примере многомерное множество наблюдений было преобразовано в меньшее число факторов. Также показано, что решения /^-метода эквивалентны решени­ ям Q-метода. Оба они представляют критические ситуации и будут повторяться в следующих параграфах, где придется рас­ сматривать некоторые усложнения, накладывающиеся на отно­ сительно простые структуры, которые мы только что иссле­ довали.

В начале этого раздела отмечалось, что «факторный ана­ лиз»—это привычный термин, включающий множество мето­ дов, основанных на нахождении собственных значений и соб­ ственных векторов матрицы парных произведений набора дан­ ных. Факторный анализ также использовался (более правиль­ но) в строгом смысле как статистическая процедура, при кото­ рой матрица данных разлагается на заранее заданное число некоррелированных факторов и набор «уникальных» случайных компонент. Другие важные методы, основанные на собственных значениях, включают метод главных компонент (МГК), анализ соответствия и Q-метод, анализ главных векторов и главных координат.

Характеристики различных процедур вычисления собствен­ ных значений проиллюстрируем на искусственном примере, ана­ логичном приведенному Кули и Лонесом [11]. Мы все хорошо знаем, что значит определить «размеры» чего-либо. Можно ли измерить длину, ширину, площадь, объем или какое-либо отно­ шение этих величин? Как установить различие между понятия­ ми «размер» и «форма»? Чтобы получить ответы на эти во­ просы, рассмотрим набор 25 объектов, имеющих форму парал­ лелепипедов. Значения трех измерений этих тел выбирались случайно в пределах 10 единиц. В полученном наборе все размеры и формы были равновероятными, от куба со стороной, меньшей единицы, до призмы и плоской пластины или до куба размером 10ХЮХ10 единиц. Совокупности измерений, сделан­

268

ных на каждом из таких блоков, составили множество значе­ ний наших переменных. Они были выражены следующим об­ разом:

Xi — д л и н н ая

ось;

 

Х 2 — с р е д н я я

ось;

 

Х 3 — к ор отк ая

ось;

 

Х^ — сам ая д ли н ная д иагон аль;

 

 

р а д и у с н аим ень ш ей

оп исан н ой сф еры

Х 5= о т н о ш е н и е р адНу С н а и б 0льш ей

впи санной сф еры

 

д л и н н ая о с ь + с р е д н я я ось

^ о т н о ш е н и е ьороткая ось

т о щ а д ь п овер хн ост и

Х 7= отн ош ен и е

Табл. 6.18 содержит 25 наблюдений семи переменных; на­ бор блоков представлен на рис. 6.16. Заметим, что это множе­ ство данных обладает некоторыми интересными свойствами;

 

 

 

 

 

 

Т а б л и ц а

6 .18

Р е зу л ь т а т ы

и зм ерен и я 25

п а р а л л ел еп и п е д о в

со сл уч ай н ой

д л и н ой

сторон*

 

X i

Х 2

*3

X,,

Х Ъ

 

 

Х-,

а

3 ,7 6 0

3 ,6 6 0

0 , 5 4 0

5 ,2 7 5

9 ,7 6 8

13,741

4 ,7 8 2

ь

8 ,5 9 0

4 , 9 9 0

1 ,3 4 0

1 0 ,0 2 2

7 ,5 0 0

1 0 ,1 6 2

2

130

С

6 ,2 2 0

6 , 1 4 0

4 , 5 2 0

9 ,8 4 2

2 , 1 7 5

2 ,7 3 2

1 ,0 8 9

d

7 . 6 7 0

7 . 2 8 0

7 ,0 7 0

1 2 .6 6 2

1 .7 9 !

2 , ! 01

0

822

е

9 . 0 3 0

7 . 0 8 0

2 . 5 9 0

1 ! .762

4 . 5 3 9

6 , 2 1 7

!

,2 7 6

f

5 ,5 1 0

3 . 9 8 0

1 .33!,

6 ,3 2 4

5 , 3 2 6

7 ,3 0 4

2 , 4 0 3

е

3 ,2 7 0

0 , 6 2 0

0 . 4 1 0

3 . 3 5 7

7 ,6 2 9

8 , 8 3 8

8 ,3 8 9

п

8 ,7 4 0

7,6,00

3 . 3 1 0

1 1 ,6 7 5

3 . 5 2 9

4 . 7 5 7

1 ,1 1 9

i

9 ,6 4 0

9 . 4 9 0

1 ,030

1 3 ,5 6 7

1 3 ,1 3 3

1 8 ,5 1 9

2 ,3 5 4

/

9 , 7 3 0

1 ,3 3 0

; ,0 0 0

9 ,871

9 ,8 7 1

1 1 ,0 6 4

3 ,7 0 4

к

8 ,5 9 0

2 ,9 8 0

1 ,1 7 0

9 ,1 7 0

7 ,8 5 1

9 , 9 0 9

2 ,6 1 6

i

7 ,1 2 0

5 ,4 9 0

3 ,6 8 0

9 ,7 1 6

2 ,6 4 2

3 , 4 3 0

1 ,1 8 9

гп

4 ,6 9 0

3 ,0 1 0

2 ,1 7 0

5 ,9 8 3

2 ,7 6 0

3 , 5 5 4

2 ,0 1 3

п

5 ,5 1 0

1 ,3 4 0

1 ,2 7 0

5 ,8 0 8

4 ,5 6 6

5 ,3 8 2

3 , 4 2 7

О

1 ,6 6 0

1 ,6 1 0

1 ,5 7 0

2 ,7 9 9

1 ,7 8 3

2 , 0 8 7

3 ,7 1 6

р

5 ,9 0 0

5 ,7 6 0

1 ,5 5 0

8 , 3 8 8

5 ,3 9 5

7 ,4 9 7

1 ,9 7 3

ч

9 ,8 4 0

9 , 2 7 0

1 ,5 1 0

1 3 ,6 0 4

9 ,0 1 7

1 2 ,6 6 8

1 ,7 4 5

г

8 , 3 9 0

4 , 9 2 0

2 , 5 4 0

1 0 ,0 5 3

3 , 9 5 6

5 ,2 3 7

1 ,4 3 2

S

4 , 9 4 0

4 , 3 8 0

1 ,0 3 0

6 ,6 7 8

6 ,4 9 4

9 ,0 5 9

2 , 8 0 7

t

7 ,2 3 0

2 , 3 0 0

1 ,7 7 0

7 ,7 9 0

4 ,3 9 3

5 ,3 7 4

2 ,2 7 4

и

9 ,4 6 0

7 ,3 1 0

1 ,0 4 0

1 1 ,9 9 9

1 1 ,5 7 9

1 6 ,1 8 2

2; 415

V

9 ,5 5 0

5 ,3 5 0

4 , 2 5 0

1 1 ,7 4 2

2 , 7 6 6

3 ,5 0 9

1 ,0 5 4

W

4 ,9 4 0

4 , 5 2 0

4 ,5 0 0

8 ,0 6 7

1 ,7 9 3

2 ,1 0 3

1 ,2 9 2

X

8 ,2 1 0

3 ,0 8 0

2 , 4 2 0

9 ,0 9 7

3 ,7 5 3

4 ,6 5 7

1 ,7 1 9

У

9 ,4 1 0

6 ,4 4 0

5 ,1 1 0

1 2 ,4 9 5

2 ,4 4 6

3 ,1 0 3

0 ,9 1 4

* Названия переменных см. в тексте.

269

Рис. 6.16. Двадцать пять блоков со случайными значениями длины, ширины

ивысоты.

а— у — см. в табл . 6 .18

оно имеет самое большее три независимых измерения, так как переменные X4 и X? являются линейными комбинациями дли­ ны, ширины и высоты. Аналогично, данные содержат некото­ рый вклад наведенной корреляции, определяемой внутренними особенностями переменных. Длинная ось каждого блока по оп­ ределению должна быть длиннее, чем промежуточная ось, кото­ рая в свою очередь длиннее, чем короткая ось. Это означает, что если, например, длина и ширина нанесены на график вместе, то представляющие их точки окажутся расположенны­ ми ниже диагонали (рис. 6.17). Это индуцирует положительную корреляцию, т.е. значительно больше (г= 0,58) ожидаемой кор­ реляции для двух независимых переменных.

Конечно, обычно измерения, о которых известно, что они зависят друг от друга, не изучаются. К сожалению, чаще слу­ чается, что не те геологические переменные взаимосвязаны; составные переменные содержат индуцированные корреляции, так как они являются частью целого, и таксономические изме-

2 7 0

Рис. 6.17. Представление зависимости ш ирины сл учайн ы х б л о к о в о т их длины.

Так как ширина меньше длины, то все блоки расположены в нижней части диаграммы под диагональю. Такое положение соответствует корреляции г= = 0,58 между длиной п шириной. Длина и ширина приведены в произвольных единицах

рения могут быть связаны друг с другом в силу эффекта раз­ мера. В этом искусственном примере мы заранее знаем, что взаимозависимость существует, и можем надеяться, что в ре­ зультатах анализа эти связи обнаружатся. Этот пример может помочь понять результаты, которые получаются из анализа реальных данных, где существование подобных зависимостей нельзя установить заранее.

МЕТОД ГЛАВНЫХ КОМПОНЕНТ

Первая важная процедура, которую мы рассмотрим в этом разделе — это метод главных компонент (МГК). Главные ком­ поненты— это не что иное как собственные векторы ковариа-

271