Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Статистика и анализ геологических данных

..pdf
Скачиваний:
2
Добавлен:
12.11.2023
Размер:
21.12 Mб
Скачать

т. е. произвольный вектор [А] оказывается равным вектору раз­

ности между средними [X — р]. Таким образом, для вычисления критерия мы находим матрицу, обратную ковариационной мат­

рице, умножаем ее слева на вектор-строку [X — р]'и затем вы­ полняем умножение справа на вектор-столбец той же разности. Полученная статистика является многомерным обобщением t-статистики и называется Т2-статистикой Хотеллинга в честь математика, который впервые ее использовал. Критические зна­ чения Т2 определяются с помощью соотношения

F

п — m

Т2,

(7.14)

m (п — 1)

где п — число наблюдений, а ш — число переменных. Эта фор­ мула позволяет для определения критических значений вместо специальных таблиц Т2-распределения использовать более удоб­ ные таблицы F -распределения. Более полное изложение вопро­ сов, связанных с Т2-критерием, дается во многих руководствах, как, например, в монографии Моррисона [22].

Хотя формула Т2-критерия (7.13) имеет очень простой вид, его вычисление для заданных числовых характеристик может оказаться очень трудоемким. Например, предположим, что мы измерили содержание четырех элементов в семи пробах лунного грунта. Мы хотим проверить гипотезу, что эти пробы извлечены из совокупности, имеющей то же среднее значение, как и конти­ нентальные базальты. Предположим, что мы взяли наши сред­ ние значения из «Справочника физических констант» [3]. Кри­ терий Хотеллинга Т2 оказывается вполне пригодным для про­ верки гипотезы о том, что вектор средних значений лунных проб не отличается от вектора средних значений базальтов, приве­ денных в справочнике.

Сначала мы вычисляем вектор четырех выборочных средних и матрицу дисперсий и ковариаций порядка 4X4. Далее вычис­ ляется вектор разностей между выборочными средними и сред­

ними значениями совокупности [X — р]. Затем производится обращение матрицы ковариаций и дисперсий, т. е. вычисляется [s2]"1. Наконец, мы выполняем два матричных умножения:

[X — р]' [s2]-1. [X — р], после чего умножение результата на п дает значение Т2. Из этого описания легко видеть, что объем вы­ числений быстро растет с увеличением числа переменных. Од­ нако для больших массивов данных мы можем провести вычис­ ления, используя подпрограммы, приведенные в гл. 4. Данные по семи лунным пробам, так же как и вектор средних, приве­ дены в табл. 7.5. В этой таблице даны также промежуточные результаты вычислений и окончательное значение Т2. Вычислите

эквивалентное значение F -критерия с ш и п — ш степенями сво­ боды и проверьте гипотезу, заключающуюся в том, что вектор средних значений лунных проб равен вектору средних значений совокупности континентальных базальтов. Желательно также написать короткую основную программу, использующую под­ программы гл. 4, и проверить численные.значения, приведенные в табл. 7.5.

Т а б л и ц а 7.5

Содержание четырех элементов в семи лунных пробах и средние значения содержаний тех же элементов в континентальных базальтах, % [30]

 

 

Лунные

пробы,

%

 

SI

А1

Fe

M g

1

19,4

5,9

14,7

5,0

2

21,5

4,0

15,7

3,7

3

19,2

4,0

15,4

4,3

4

18,4

5,4

15,2

3,4

5

20,6

6,2

13,2

5,5

6

19,8

5,7

14,8

2,8

7

18,7

6,0

13,8

4,6

Средние значения

19,66

5,31

14,69

4,19

Средние значения в базальтах

22,10

7,40

10,10

4,00

Разности

- 2 ,4 4

- 2 ,0 9

4,59

0,19

 

Ковариационная матрица

 

" 1,1795350

-0,3076159

0,0593007

0,0792885

-0,3076159

0,8680964

-0,6830902

0,3019053

0,0593007

-0,6830902

0,8014425

-0,5469023

0,0792885

0,3019053

-0,5469023

0,8914289

Матрица, обратная ковариационной матрице

” 1,0614130

0,9946304

0,8169364

0,0699353”

0,9946304

5,2086160

5,3354270

1,4208490

0,8169364

5,3354270

7,6584370

2,8189000

0,0699353

1,4208490

2,8189000

2,3637960

Т 2 = 11,93

Мы подробно остановились на рассмотрении Т2-критерия для проверки гипотезы о среднем не потому, что этот критерий ис-

пользуется в геологии чаще, чем другие многомерные критерии, а для того, чтобы показать тесную связь между обычными и мно­ гомерными статистическими методами. Для большинства одно­ мерных критериев можно прямо указать соответствующие мно­ гомерные аналоги вместе с соответствующими основными допу­ щениями. Однако при переходе от обычной алгебры к матричной связь между ними зачастую становится не столь явной. Так как многомерные статистические методы являются обобщением одномерных, то последние являются частным случаем много­ мерных.

В оставшейся части этого раздела мы рассмотрим многомер­ ные критерии, являющиеся m-мерными эквивалентами некото­ рых критериев, рассматривавшихся в гл. 3. Однако мы не будем указывать детали обобщенного перехода от одномерного вари­ анта к многомерному, как это было сделано при построении Т2-критерия. Подобные рассуждения можно найти во многих руководствах по многомерному статистическому анализу. Неко­ торые из них указаны в списке литературы в конце этой главы.

Проверка гипотезы о равенстве двух векторов средних значе­ ний. Рассмотренный только что критерий предназначен для про­ верки предположения, что вектор среднего значения, оцененный по одной выборке, равен заданному вектору. Теперь мы рас­ смотрим следующую задачу. Предположим, что мы располагаем двумя независимыми случайными выборками и хотим проверить гипотезу о равенстве истинных значений их векторов средних. Допуская, что две выборки взяты из многомерных нормальных совокупностей с одинаковыми неизвестными ковариационными матрицами г а , наша нулевая гипотеза будет

Н0 : [ft 1= Ы

при множестве альтернатив

H i: [fh]

Согласно гипотезе, вектор средних значений совокупности, из которой взята первая выборка, такой же, как и аналогичный вектор второй совокупности.

Для проверки этой гипотезы используется многомерный эк­ вивалент критерия (3.23). Ранее при вычислении t мы исполь­ зовали объединенную оценку дисперсии совокупности, построен­ ную по двум выборкам. В многомерном же варианте нужно вы­ числить объединенную оценку [sp]2 ковариационной матрицы для наших двух многомерных выборок. Для этого вычисляется мат­ рица сумм квадратов и смешанных произведений по каждой вы­ борке. Мы будем использовать такую же терминологию, как и в гл. 3, и обозначим матрицу сумм квадратов и смешанных произведений первой выборки через [SPi], а аналогичную

30 З ак аз № 455

матрицу для второй

выборки — через [SP2]. Объединенная

оценка ковариационной

матрицы имеет следующий вид:

 

H

] - 7 7 + W

(|SP|| +

|SPjI)-

 

 

(7',5)

После

того

как найдем

разность

между

двумя

векторами

средних

[Xi] и

[Х2], или

[Xi — Х2], Т2-критерий

примет следую­

щий вид:

 

 

 

 

 

 

 

 

 

T 2 =

^ ^ - [ X

I - X 2]' [ S * ] " 1 • [Xi

Х 2].

(7.16)

Для определения критического значения Т2-статистики можно воспользоваться F -распределением, т. е.

П1 + П2— m — 1 гр2

 

(ni + П2— 2) m

 

(7.17)

 

 

 

 

с ш и (ni + n2 — ш — 1) степенями свободы

[22J.

 

 

 

 

 

Т а б л и ц а

7.6

Содержание четырех элементов в семи пробах океанических базальтов,

%

 

Si

А1

Fe

M g

 

1

22,5

9,6

6 , 6

3,4

 

2

22,1

8,4

7,8

3,6

 

3

25,9

8,7

4 , 8

4,0

 

4

23,5

8,1

5,0

5,2

 

5

21,7

10,0

8,2

4,9

 

6

21,9

8,2

9,3

4,9

 

7

23,7

7,2

9,5

3,3

 

Средние

23,04

8,60

7,31

4,19

 

Разности между средними таб­

- 3 ,2 9

7,37

0,00

 

лиц 7.5 и 7.6

- 3 ,3 9

 

 

Ковариационная матрица

 

 

 

2,1828820

-0,4399923

-1,7223760

-0,2409477

 

 

-0,4399923

0,8966687

-0,4199982

0,1266680

 

 

-1,7223760

-0,4199982

3,6547640

—0,2480939

 

 

-0,2409477

0,1266680

-0,2480939

0,6380959

 

 

Объединенная ковариационная матрица для табл. 7.5 и 7.6

1,6812080

-0,3738041

-0,8315379

-0,0808296

-0,3738041

0,8823825

-0,5515442

0,2142866

-0,8315379

-0,5515442

2,2281030

-0,3974981

-0,0808296

0,2142866

-0,3974981

0,7647624

Матрица, обратная объединенной ковариационной матрице

1,1213670

0,8356105

0,6665248

0,2308193

0,8356105

1,9991410

0,7963902

-0,0579050

0,6665248

0,7963902

0,9561165

0,3442555

0,2308193

-0,0579050

0,3442555

1,5271490

Т 2 = 135,30

В табл. 7.6 приведены данные семи анализов океанических базальтов Тихого океана на те же четыре элемента, что и в табл. 7.5. Предполагая, что обе выборки извлечены из много­ мерных совокупностей с нормальным распределением и с оди­ наковыми ковариационными матрицами, проверим гипотезу о том, что векторы средних значений лунных и тихоокеанских образцов одинаковы. В таблице приведены необходимые вычис­ ления. Является ли нулевая гипотеза о равенстве многомерных средних приемлемой при 5%-ном уровне значимости (а = 0,05)?

Равенство ковариационных матриц. Основное допущение, на котором основаны два предыдущих критерия, заключается в том, что выборки считаются взятыми из совокупностей, имеющих одну и ту же ковариационную матрицу. Это многомерный ана­ лог предположения о равенстве дисперсий, лежащем в основе применения t-критерия для проверки гипотезы о равенстве сред­ них значений. На практике предположение о равенстве может нарушаться, так как выборки, имеющие высокое среднее значе­ ние, часто имеют также и большую дисперсию. Как указыва­ лось в гл. 5, такое поведение характерно для многих геологиче­ ских характеристик, таких, например, как значения содержаний редких элементов. Равенство ковариационных матриц можно проверить с помощью «критерия обобщенных дисперсий», яв­ ляющегося многомерным эквивалентом F -критерия [22].

Предположим, что мы имеем к групп наблюдений и в каж­ дой из них m переменных. Для группы с номером i вычислим ковариационную матрицу [s2] и проверим нулевую гипотезу

Н, :[£?]=■ [ £ ? ] -

. - И

при альтернативе

 

Н ,:[ е П ^ № ] .

Согласно нулевой гипотезе, все совокупности имеют одина­ ковые ковариационные матрицы. Альтернатива заключается в том, что хотя бы две из них различны. Каждая матрица [s2]

является оценкой соответствующей

ковариационной матрицы

[ 2 2] изучаемой совокупности. Если

исходные совокупности к

выборок идентичны, то выборки можно объединить с целью по­ лучения обобщенной оценки ковариационной матрицы. Такая оценка вычисляется по формуле

 

 

К 1 -

2 - f t -

4

м

.

(7.18)

 

 

 

1= 1 ' 2

 

п,

- к

 

 

где П)— объем

i-й выборки, a 2

ni — общий объем к выборок.

Это

определение алгебраически

эквивалентно

определению

(7.15)

при к =

2, так как

[s2] =

[SPi]/ (щ — 1).

 

Используя обобщенную оценку ковариационной матрицы, вы­ числим статистику

М = ( l ^ n . j - k j l n l «21

2

[(n ,-l)ln |s?|j.

(7.19)

 

I : - I

 

 

В этом критерии за основу принята разность между лога­ рифмом определителя обобщенной оценки ковариационной матрицы и средним значением логарифмов определителей выбо­ рочных ковариационных матриц. Если все выборочные матрицы одинаковы, то эта разность будет несущественной. По мере уве­ личения отклонений дисперсий и ковариаций выборок друг от друга эта статистика возрастает. Так как таблицы критических значений статистики М не очень доступны, то обычно использу­

ется ее аппроксимация ^-распределением с v = — (к — 1)шХ

Х (гп+1) степенями свободы:

где

Х2= МС-1,

 

(7.20)

 

к

 

 

 

(2m2 + 3 m - l)(k + l),

 

 

с - > = 1

V

 

 

6 (m + 1) к (п —1)

^

щ — I

 

 

 

Если выборки содержат одинаковое число

наблюдений п,

то формула (7.21) упрощается:

 

 

 

c - ! = i

(2ш2 + Зш - 1)(к + 1)

(7.22)

6 (ш +1) к (п — 1)

 

В тех случаях, когда к и m не превышают 5 и каждая оценка ковариационной матрицы строится на основании не менее 20 наблюдений, %2-аппроксимация является наиболее точной. Ис­ пользуя этот критерий, проверьте гипотезы о равенстве ковари­ ационных матриц по двум выборкам, приведенным в табл. 7.5 и 7.6. Для вычисления значения критерия необходимо подсчи­ тать определители трех матриц четвертого порядка [s2], [s2] и

[s2p]. Это можно сделать с помощью подпрограммы MINV

(программа 4.8) или с помощью какого-либо другого алгоритма. Как только определители будут вычислены, получение значения критерия уже не вызывает затруднений. Для удобства мы пред­ положим, что объемы выборок достаточно велики для того, чтобы %2-аппроксимация была точной.

С целью иллюстрации процедуры проверки гипотез с исполь­ зованием многомерных статистик мььрешим следующую задачу. При этом заранее предположим, что число выборок допускает возможность применения некоторой аппроксимации.

В восточном Канзасе на некоторой территории вся питьевая вода добывается из скважин. Одни из них пробурены в аллю­ виальных отложениях долин рек, в то время как другие про­ низывают водоносный известняковый горизонт, являющийся ис­ точником многочисленных ключей в данном районе. Население предпочитает использовать воду из аллювиальных отложений, так как считает, что она вкуснее. Однако водные ресурсы ал­ лювия ограниченны, и иногда желательно было бы пополнить их за счет известнякового водоносного горизонта.

Для того чтобы доказать, что качество воды из этих двух источников одинаково, были взяты пробы в разных скважинах. Пробы анализировались на содержание тех химических ком­ понентов, которые определяют качество воды. Некоторые из этих анализов приведены в табл. 7.7. В ней приведены также кова­ риационные матрицы, их обратные матрицы и определители для двух заданных совокупностей и для объединенной выборки. По этим данным можно проверить гипотезу о равенстве векторов средних значений. Мы предполагаем, что выборки взяты случайно из многомерных совокупностей с нормальным распределением.

Используя статистику М, определенную по формуле (7.19), проверим сначала гипотезу о равенстве ковариационных матриц двух совокупностей:

М = (2 0 + 2 0 - 2 ) In2,0725 • 10s - (1 9 In 1,8838X X 108+ 1 9 In 2,2582 • 10®) = 0,1835.

Чтобы использовать %2-аппроксимацию, вычислим множитель

2.52 +

3 • 5 - 1

/

1

19

40 Г ^ - ) = 0,861.

б (5 +

1) ( 2 - 1 )

\

19

Значение %2-статистики равно 0,158, а число степеней сво­ боды

V = 4 - ( 2 - 1 ) ( 5 ) ( 5 + 1 ) = 1 5 .

Критическое значение х 2 при V = 1 5 * H 5 % - н о м уровне зна­ чимости равно 25. Вычисленное значение намного ниже этой ве-

 

 

 

 

Т а б л и ц а 7.7

Катионный состав

проб воды, взятых

из

скважин в восточном

 

 

Канзасе, %

 

 

Xt

х 2

Х3

Х<

х 5

А. Пробы из скваж ин

в аллю вии

 

26,1

15,9

20,0

27,i8

41,8

16,5

14,1

38,3

20,7

21,9

9,6

15,6

10,0

32,3

44,5

11,5

15,2

34,8

21,4

29,4

12,0

21,3

38,9

34,6

7,3

13,1

26,1

59,0

23,9

20,6

12,7

15,9

38,8

21,3

29,3

15,8

15.9

52,7

13,0

2,2

11,6

19,8

30,8

17,9

24,4

11,2

17,2

22,3

41,0

28,0

8,2

19,5

31,6

26,6

33,6

10,8

16,8

39,2

20,9

7 /

10,8

8,2

29,1

27,1

33,1

15,5

15,5

35,3

29,6

62,6

10,2

6,1

32,6

35,0

60,3

9,6

18,1

30,6

19,2

11,6

12,2

15,1

32,3

42,6

7,4

8,9

18,0

40,3

42,9

25,3

123,0

6,4

37,3

35,5

18,3

12,7

16,8

27,6

50,9

7,5

В. Пробы из скважин В известняковом водоносном' горизонте

13,2

17,5

23.4

38,5

36,3

13.9

11,2

34,8

18,0

30,4

7,1

13,5

7,8

27,0

52,7

9,6

13,2

31,3

17,3

36,5

10,6

19,0

35,8

32,5

18,0

10,2

23,4

56,8

19,6

27,9

10,0

14,7

35,1

18,1

37,7

13,1

13,1

47,3

Ю,1

4,6

9,9

18,4

26,6

14,1

34,9

9,8

14.8

17,2

37,4

34,4

6,0

16,6

26,1

21,1

40,8

8,2

14.6

34,9

17,7

15,8

8,3

6,6

27,1

21,6

43,5

13,4

13,9

33,3

24,9

70,4

8,0

4,6

30,0

29,4

70,5

7,4

16,1

28,2

17,2

17,5

 

 

 

X:

 

X,

 

 

V

 

х<

 

х5

 

 

 

 

 

 

лз

 

 

 

 

 

9,4

 

13,6

 

 

28,3

 

37,4

 

16,6

 

 

 

6,8

 

15,6

 

 

36,6

 

37,8

 

30,7

 

 

 

10,3

 

4,7

 

 

33,9

 

33,2

 

27,7

В ект о р

 

10,0

 

14,0

 

 

24,2

 

45,7

 

18,5

с р е д н и х

з н а ч е н и й

 

д л я

группы

А

 

 

В ект о р

 

12,055

16,08

 

34,465

 

29,91

 

24,835

ср е д н и х з н а ч е н и й

 

дл я

группы

В

 

 

 

 

 

9,76

 

13,955

30,935

 

25,93

33,27

К о в ар и ац и о н н ая м а т р и ц а А

 

2,25822 x 1 0 е

с

о п р е д е л и т е л е м , р а в н ы м

 

------------

 

5,6394620

 

0,7332828

 

8,6868000

 

-2,9821260

-5,5767340

 

0,7332828

23,1732900

 

12,7656400

 

-4,5592230

-26,9460700

 

8,6868000

12,7656400

 

103,3983000

 

-42,3948000

-62,3459900

 

-2,9821260

-4,5592230

-42,3948000

 

106,9526000

13,1360100

 

-5,5767340

-26,9460700

-62,3459900

 

13,1360100 286,8151000

Ковариационная

м а т р и ц а В

 

 

 

1,88381 хЮ®

 

с

о п р е д е л и т е л е м , р а в н ы м

 

 

 

 

"5,1614800 0,5133812 7,3683410 -1,4102910 -3,4401890

0,5133812 21,0247300 10,6948600 -4,0895870 -25,3971700

7,3683410 10,6948600 102,8046000 -38,5268000 -58,1688200

-1,4102910

-4,0895870 -38,5268000

98,8654500

7,2520690

3,4401890

-25,3971700 -58,1688200

 

7,2520690

290.8707000

К о в а р и а ц и о н н а я

м а т р и ц а

объединенной

-2,07252x10®

В ы борки

с о п р е д е л и т ел е м ,

р а в н ы м ------

" 5,4004710

0,6233320

8,0275700

-2,1962090

-4,5084610

0,6233320

22,0990100

11,7302500

-4,3244050

-26,1716200

8,0275700

11,7302500

103,1014000 -40,4608000

-60,2574000

-2,1962090

-4,3244050

-40,4608000

102,9090000

10,1940400

L -4,5084610

-26,1716200

-60,2574000

10,1940400

288,8429000

М ат р и ц а ,

обратная ковариационной матрице

объединенной. *выборки

0,2100476

0,0029156 -0,0176276 -0,0023202

-5,27736е—05“

0,0029156

0,0518892

-0,0036462

 

0,0004157

0,0039718

-0,0176276

-0,0036462

0,0148257

 

0,0050709

0,0023084

-0,0023202

0,0004157

0,0050709

 

0,0116147

0,0006494

L 5,27737е-05

0,0039718

0,0023084

 

0,0006494

0,0.042798

Xi — кремнезем; Х2 — железо; Х3 — магний; Х4 — натрий+кальций; Хб— кальций.

личины, и потому мы можем заключить, что ничто не мешает нам принять гипотезу о равенстве ковариационных матриц изу­ чаемых совокупностей. Далее, используя Т2-критерий (7.16), мы можем проверить гипотезу о равенстве многомерных средних:

т2= - ж т ж 1 1’5661 = 15’66-

В скобках указан результат, полученный после выполнения соответствующих матричных умножений, указанных в формуле

(7.16). Используя формулу (7.17), мы вычислим соответствую­ щее значение F -статистики:

20 +

2 0 - 5 - 1

15,66 = 2,80.

(20 +

20 - 2) 5

Числа степеней свободы таковы: v1= 5,

V 2 = 2 0 + 2 0 - 5 - 1 = 3 4 .

Критическое значение F -критерия при 5 и 34 степенях сво­ боды и 5% -ном уровне значимости равно 2,49. Так как вычис-' ленная нами статистика превосходит это критическое значение, то мы можем заключить, что наши выборки указывают на су­ ществование различия между векторами средних двух изучае­ мых совокупностей. Иными словами, имеется статистически зна­ чимое различие в составе воды из двух водоносных горизонтов. Этот простой критерий не позволяет выделить те переменные, которые обусловливают различие в химическом составе воды, но он позволяет подтвердить мнение населения о том, что вода из этих двух источников различается по своим свойствам.

Можно также использовать многомерные методы, являю­ щиеся обобщением процедур дисперсионного анализа, изложен­ ных в гл. 3. Все они основаны на сравнении двух матриц по­ рядка m X m , являющихся многомерными эквивалентами внут­ ригрупповых и межгрупповых сумм квадратов, используемых в обычном дисперсионном анализе. Проверяемая статистика ос­ нована на наибольшем собственном значении матрицы, исполь­ зуемой для сравнения. Мы не будем рассматривать этих кри­ териев здесь, так как их формулировка сложна, а приложение к геологическим задачам весьма ограничено. Из этого, однако, не следует делать вывод, что потенциальные возможности этих методов уже исчерпаны. Заинтересованные читатели могут обра­ титься к книге Кули и Лонеса [4], в которой имеются вычис­ лительные программы многомерного дисперсионного анализа и примеры его использования, а также к книгам Моррисона [22], Коха и Линка [14], в которых содержится краткое изложение процедуры исследования геохимических данных с помощью мно­ гомерного дисперсионного анализа.

Дискриминантные функции

Одним из наиболее широко используемых в науках о Земле многомерных методов является дискриминантный анализ. Мы рассматриваем его здесь по двум причинам: во-первых, он является мощным статистическим методом и, во-вторых, его мо­