Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Статистика и анализ геологических данных

..pdf
Скачиваний:
2
Добавлен:
12.11.2023
Размер:
21.12 Mб
Скачать

Т а б л и ц а 7.4

Числовые характеристики нефтегазоносного бассейна в Арканзасе

 

Y

 

Х2

Х3

 

х,

110 273,0

1,0

3

520,0

0,0

 

760,0

111

105,0

4,0

3 125,0

28 183,0

 

853,0

114 992,0

8,0

2 910,0

46 536,0

 

906,0

119 437,0

12,0

2 785,0

60 302,0

 

939,0

118 961,0

16,0

2 650,0

73 604,0

 

960,0

116 968,0

20,0

2 505,0

87 513,0

 

990,0

119 663,0

24,0

2 425,0

98 738,0

1

018,0

117514,0

28,0

2 290,0

112 597,0

1 070,0

117 292,0

32,0

2 125,0

126 192,0

1

200,0

114 776,0

36,0

1

950,0

139 981,0

1

310,0

113 969,0

40,0

1

785,0

153 219,0

1 440,0

111 881,0

44,0

1

670,0

161 327,0

1

500,0

114 455,0

48,0

1

601,0

173 485,0

1 516,0

116 196,0

52,0

1

537,0

185 832,0

1

520,0

Переменные: Y — оцениваемое

содержание

нефти в ис­

следуемом районе (Х103 баррелей);

Х| — время заполнения ре­

зервуара (месяцы);

Х2 — давление в резервуаре (фунт/дюйм2);

Х3 — кумулятивная

добыча нефти

(Х102 баррелей); Х4 — ку­

мулятивное отношение содержания газа к

содержанию

нефти (фут3/баррель).

 

 

изучаемых переменных сильно различаются, то элементы мат­ рицы смешанных произведений также сильно отличаются по ве­ личине. Эти данные образуют многомерный временной ряд. Так же, как и в других рядах этого типа, таких, как кривые роста экономики или использования трудовых ресурсов, переменные сильно коррелированы. Если использовать столь схематичную программу корреляции, как программа MULTR (программа 7.1), то сохранять достаточное количество значащих цифр при вы­ числении матриц и точность в процессе их обращения несколько затруднительно. Чтобы понять, какое влияние на коэффици­ енты регрессии могут оказывать различные вычислительные

СPROGRAM 7 . 2

с

с

R O U T IN E

RMULT

 

 

 

 

 

 

 

 

 

 

С

 

 

 

 

 

 

 

 

 

 

 

 

 

С

S T A N D A R D IZ E D

M U L T I P L E

REGR ESSIO N

W IT H IN C R E A SE D

P R E C I S I O N

C

 

 

 

 

 

 

 

 

 

 

 

 

 

C

TH E PROGRAM ACCEPTS AN

N BY M DATA M A T R IX WHERE N

I S THE

C

NUMBER

OF O B S E R V A T IO N S

AND

M I S

T H E NUMBER

OF

V A R I A B L E S . TH E

C

DATA M A T R IX

I S S T A N D A R D IZ E D

BY O LU M N S .

V A R I A B L E

I

I S THE

C

DE PENDENT V A R I A B L E AND

V A R I A B L E S

2 THROUGH

M

ARE

IN D E P E N D E N T .

C

PROGRAM COMPUTES ( M - 1 )

BY

( M - l )

M A T R IX

OF

C O R R E L A T IO N S BETWEEN

C

IN D E P E N D E N T V A R I A B L E S

BY

T H E D E F I N I T I O N A L E O U A T I O N .

 

THE

C

S T A N D A R D IZ E D

P A R T I A L REGRESSIO N C O E F F I C I E N T S

AREC A LC U L A T ED

C

AND TH E

P A R T I A L

REGRESSIO N

C O E F F I C I E N T S

FOUND

FROM

T H E S E .

C

S T A T I S T I C S FOR

T E S T I N G

S I G N I F I C A N C E AND

L I S T S

OF

Y ,

C

Y - E S T . ,

AND

D E V I A T I O N

FOR

EACH O B S E R V A T IO N

ARE P R I N T E D .

C

C

S U B R O U T IN E S R E Q U I R E D

ARE RE AD M ,

P R I N T M , S T A N D , R C O E F , AND S LE «

C

 

 

 

 

 

 

 

 

 

 

D I M E N S I O N X ( I 0 0 , 2 0 ) , X M ( I O O , I O ) , D ( 1 0 0 , 3 )

 

D I M E N S I O N A ( 2 0 , 2 0 ) , B ( 2 0 ) , C ( 2 0 )

 

 

 

N D = I 0 0

 

 

 

 

 

 

 

M D = 2 0

 

 

 

 

 

 

 

C

MM=20

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

C . . .

READ

AND P R I N T

I N P U T

DATA

M A T R I X

 

C

C A L L R E A D M ( X , N , M , N D ,M D )

 

 

 

 

 

 

 

 

C A L L P R I N T M ( X , N , M , N D , M D )

 

 

 

C

W R IT E ( 6 , 2 0 0 5 )

 

 

 

 

 

S T A N D A R D IZ E AND TH EN

P R I N T

I N P U T

DATA M A T R I X

C . . .

C

DO

2 0 1

1 = 1 ,N

 

 

 

 

 

 

 

 

 

 

 

 

DO

2 0 1

J = l , M

 

 

 

 

 

 

X M ( I , J ) = X ( I , J )

 

 

 

 

 

2 0 1 C O N T IN U E

 

 

 

 

 

 

C A L L S T A N D ( X M , N , M , N D , M D )

 

 

 

 

C A L L P R I N T M ( X M , N , M , N D , M D )

 

 

 

C

W R IT E ( 6 , 2 0 0 6 )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

C . . .

C A L C U L A T E AND

P R I N T

M A T R I X

OF

C O R R E L A T IO N S BETWEEN COLUMNS

C

C A L L R C O E F ( X M , N , M , N D , M D , A , M M )

 

 

 

 

 

 

C A L L

P R I N T M ( A , M , M , MM, MM)

 

 

 

C

W R IT E ( 6 , 2 0 0 7 )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

C . . .

S ET

UP

AND SOLVE S IM U L T A N E O U S

E Q U A T IO N S

C

DO

1 0 0

I = 2 , M

 

 

 

 

 

 

 

 

 

 

 

 

С П - I ) = A ( I , I )

 

 

 

 

 

 

DO

1 0 0

J = 2 , M

 

 

 

 

 

 

A ( I — 1 , J - I ) = A ( I , J )

 

 

 

 

1 0 0 C O N T IN U E

 

 

 

 

 

C

 

 

 

 

 

 

 

 

 

C . . .

SOLVE

 

S L E

 

 

 

 

 

C

C A L L S L E ( A , C , M - I , M M , 1 . 0 E - 0 8 )

 

 

C

 

 

 

 

 

 

 

 

 

 

 

C . . .

C A L C U L A T E P A R T I A L R E G R E S S IO N C O E F F I C I E N T S

C

DO

101

1 = 1 , M

 

 

 

 

 

 

 

 

 

 

 

 

A ( 1 , 1 ) = 0 . 0

 

 

 

 

 

 

A ( 2 , I ) = 0 . 0

 

 

 

 

 

 

DO

101

J = 1 , N

 

 

 

 

 

A ( 1 , I ) = A ( 1 , I ) + X ( J , I )

A ( 2 , I ) = A ( 2 , I ) + X ( J , I ) * * 2

101C O N T IN U E AA=N

A B = N - I

A C = S Q R T ( ( A ( 2 , I ) - A ( 1 , 1 ) * A ( I , I ) / A A ) / A B ) В ( I ) = A ( 1 , I ) / A A

DO 1 0 2 I = 2 , M

B ( I ) = C ( I - 1 ) * A C / S Q R T ( ( A ( 2 , I ) - A ( 1 , I ) * A ( 1 , I ) / A A ) / A B ) В ( 1 ) = B ( I ) - B ( I ) * A ( l , I ) / A A

1 0 2 C O N T IN U E

C

C . . . C A L C U L A T E E S T I M A T E D V ALU E AND D E V I A T I O N FOR EAC H O B S E R V A T I O N C

DO 1 0 3 1 = 1 , N

DC 1 , 1 ) * X ( I , I ) D ( 1 , 2 ) = B ( I )

О О О

 

DO 1 0 4 J = 2 , М

 

D ( I , 2 ) = D ( I , 2 ) + B ( J ) * X ( I , J )

Г 0 4

C O N T I N U E

 

D ( I , 3

) = D ( I , I ) - D ( I , 2 )

1 0 3

C O N T I N U E

. . .

P R I N T

Y , E S T I M A T E D Y , AND D E V I A T I O N

О О О

. . .

C A L L P R I N T M ( D , N , 3 , N D , 3 )

W R I T E ( 6 , 2 0 0 8 )

P R I N T P A R T I A L R E G R E S S I O N C O E F F I C I E N T S

О О О О О О

. . .

. . .

C A L L P R I N T M C B , M , I , М М , I )

W R I T E ( 6 , 2 0 0 9 )

P R I N T S T A N D A R D I Z E D P A R T I A L R E G R E S S I O N C O E F F I C I E N T S

C A L L P R I N T M ( C , M - I , 1 , M M , 1 )

W R I T E ( 6 , 2 0 1 0 )

C A L C U L A T E ERROR M E A S U R E S '

S Y = 0 . 0

S Y Y - 0 . 0

S Y C = 0 . 0

S Y Y C = 0 . 0

DO 1 0 5 1 = 1 , N

S Y = S Y * D ( 1 , 1 )

S Y Y = S Y Y + D ( I , I ) * * 2

S Y C = S Y C + D ( 1 , 2 )

S Y Y C = S Y Y C + D ( I , 2 ) * * 2

О О О

1 0 5 C O N T IN U E

S S T = S Y Y - S Y * S Y / F L O A T ( N )

S S R = S Y Y C - S Y C * S Y C / F L O A T ( N )

S S D = S S T - S S R

N D F 1 = M - I

AM S R = S S R / F L O A T ( N D F I )

N D F 2 = N - M

AM SD= S S D / F L O A T ( N D F 2 )

R 2 = S S R / S S T

R = S Q R T ( R 2 )

F = A M S R / A M S D

N D F 3 = N - I

. . .

 

P R I N T

ERROR

MEASURES

 

 

 

 

 

 

 

W R IT E ( 6 , 2 0 0 0 )

 

 

 

 

 

 

 

W R IT E ( 6 , 2 0 0 1 ) S S R , N D F I , A M S R , F

 

 

 

 

 

W R IT E ( 6 , 2 0 0 2 ) S S D , N D F 2 , A M S D

 

 

 

 

 

 

W R IT E ( 6 , 2 0 0 3 ) S S T , N D F 3

 

 

 

 

 

 

W R IT E ( 6 , 2 0 0 4 ) R 2 , R

 

 

 

 

 

2 0 0 0

 

C A L L E X I T

 

 

 

DEGREES OF

M E A N , / ,

 

FORMAT

(1 ОН I SOURCE O F , 13 X , 2 5 H S U M OF

 

11 OH V A R I A T I O N , 1 3 X , 3 7 H S Q U A R E S

FREEDOM

SQUARES

F - T E S T , / ,

 

2 1 X , 6 0 ( 1 H - ) )

 

 

 

 

 

 

2 0 0 1

 

FORMAT

( I 1 H

R E G R E S S I O N , 10 X , F 1 0 . 2 , 1 8 , 2 X , F 1 0 . 2 , / , 5 1 X , F I 0 . 4 )

2 0 0 2

 

FORMAT

( I OH

D E V I A T I O N ,

1 1X , F I

0 . 2 , 1 8 , 2 X , F I O . 2 )

 

2 0 0 3

F O R M A T ( I 6 H 0 T 0 T A L V A R I A T I 0 N . 5 X , F I 0 . 2 , 1 8 )

 

 

2 0 0 4

 

FORMAT

( 'O G O O D N E S S OF

F I T =

' , F I 0 . 4 , / t

 

 

 

I 'O C O R R E L A T I O N C O E F F I C I E N T = ' , F I 0 . 4 )

 

 

2 0 0 5

I

FORMAT

( I H 0 , 4 X , ' I N P U T

DATA M A T R IX - ' , 1 X ,

 

 

 

'C O L U M N S =

V A R I A B L E S ,

ROWS

= O B S E R V A T I O N S ' )

 

2 0 0 6

 

FORMAT

( I Н О , 4 X , ' S T A N D A R D I Z E D

I N P U T

DATA

M A T R IX - ' , I X ,

 

I

'C O L U M N S =

V A R I A B L E S ,

ROWS

= O B S E R V A T I O N S ' )

 

2 0 0 7

FORMAT

( I Н О * 4 Х * ' C O R R E L A T I O N

M A T R I X .

V A R I A B L E 1 I S Y M

2 0 0 8

FORMAT

< I Н О , 4 X , ' C O L U M N I =

Y ,

COLUMN

2 = E S T I M A T E D

I 'C O L U M N 3 » D E V I A T I O N ' )

C O E F F I C I E N T S ' , 3 X ,

2 0 0 9

FORMAT

< I H 0 * 4 X , ' R E G R E S S I O N

I

' 1 »

C O N STA N T

T E R M ' )

 

P A R T I A L

R E G R E S S I O N ' , I X ,

2 0 1 0

FORM AT

( I H 0 . 4 X , ' S T A N D A R D I Z E D

1

' C O E F F I C I E N T S

C O N STA N T TERM = 0 . 0 ' )

 

END

 

 

 

 

 

Программа 7.2. RMULT

процедуры, полезно сравнивать между собой коэффициенты, по­ лученные по обеим программам MULTR (программа 7.1) и RMULT (программа 7.2) на основании данных табл. 7.4. Разли­ чие, которое вы обнаружите, возникает из-за ошибки округле­ ния в программе MULTR.

Несмотря на то что стандартизованные частные коэффици­ енты регрессии позволяют находить наиболее важные перемен­ ные, входящие в уравнение регрессии, они не могут служить не­ погрешимым указанием на то, что это уравнение выбрано наи­ лучшим образом. Предположим, что, исследуя уравнение регрессии, мы пришли к выводу, что две переменные дают несу­ щественный вклад в регрессию и их можно отбросить. Если одну из переменных устранить и снова построить уравнение регрессии, то качество подбора и само уравнение, конечно, изменятся. Если мы решили устранить вторую переменную, уравнение регрессии снова изменится, но изменение может быть совсем иным по срав­ нению с изменением, которое произойдет в том случае, если пер­ вая переменная сохранится в регрессии. Это происходит по той причине, что эффекты взаимодействия двух отбрасываемых пе­ ременных с другими переменными нельзя оценить без повторного построения регрессионного уравнения. Если необходимо провести исследование большого числа переменных и отбросить те пере­ менные, которые несущественны для данной задачи, то мы не должны ограничиваться простым исследованием уравнения регрессии.

Увеличение числа независимых переменных в уравнении ре­ грессии всегда ведет к увеличению S S R (исключая те случаи, когда новые переменные полностью коррелированы со старыми). Однако это увеличение не может быть значительным. Потерю степеней свободы отклонений можно компенсировать уменьше­ нием SS D, ч т о в действительности приводит к увеличению сред­

него значения квадратов отклонений. Если

это происходит, то

F -отношение уменьшается, что приводит к

сокращению числа

членов в уравнении регрессии. Для определения наилучшей воз­ можной регрессии (наиболее значимого F-отношения) прихо­ дится исследовать всевозможные комбинации переменных. Это легко сделать, если переменных немного и число их возможных комбинаций равно 2т . Однако, если т велико, эта процедура

требует значительных затрат машинного времени. Существуют другие процедуры, которые позволяют получать оптимальную регрессию со значительно меньшими затратами времени. Среди них можно назвать обратную процедуру исключения, прямую

C

PROGRAM

7 . 3

С

 

 

С

S U B R O U T IN E ТО C A LC U L A T E T H E M A T R IX O F C O R R E L A T IO N S

C

BETWEEN

COLUMNS OF DATA M A T R IX X

C

 

 

S U B R O U T IN E R C O E F ( X , N , M , N l , M l , A , М 2 ) D I M E N S IO N X ( N 1 , M I ) , A ( M 2 , M 2 )

AN=N

C

C . . . C A L C U L A T E C O R R E L A T IO N C O E F F I C I E N T BETWEEN COLUMNS' I AND J C

 

DO

IOO

1 = 1 , M

 

C

DO

I 0 0

J = I , M

 

 

 

 

 

 

C . . .

ZERO SUMS

 

 

C

S X I = 0 . 0

 

 

 

 

 

 

 

 

S X 2 = 0 . 0

 

 

 

 

S X I X I = 0 . 0

 

 

 

S X 2 X 2 = 0 . 0

 

 

C

S X I X 2 = 0 . 0

 

 

 

 

 

 

 

C . . .

C A L C U L A T E

SU M S ,

SUMS OF SQUARES AND SUM OF C R O S S - P R O D U C T

C

OF

COLUMNS

I AND

J

C

DO

101

K = 1 , N

 

 

 

 

S X I = S X I + X ( K , I )

 

 

S X 2 = S X 2 + X ( K , J )

 

SX 1XI =SX I XI +X ( К, I )* * 2

SX2X2=SX2X2+X(K,J>**2

SX I X2=SXI X2+X( К ,I ) * X ( K , J )

101 C O N T IN U E

C

C . . . C A L C U L A T E C O R R E L A T IO N C O E F F I C I E N T AND STORE I N M A T R IX A C

R = ( S X ! X 2 - S X l * S X 2 / A N ) /

I SORT( ( SXIX I-SX 1*S X 1/AN) * ( SX2X2-SX2*SX2/AN))

A ( I , J ) = R

A ( J , I ) = R

10 0 C O N T IN U E RETURN END

Программа 7.3. RCOEF

процедуру выбора, методы пошаговой и многошаговой регрес­ сии. При большом количестве исходных переменных эти методы не всегда приводят к одинаковым уравнениям регрессии, однако результаты, полученные на их основании, все же эквивалентны. Изложение этих методов не входит в наши задачи, и мы приве­ дем лишь краткое описание одного из них. Эти методы хорошо изложены в некоторых руководствах, например в книгах Дрей­ пера и Смита [6] и Эфроймсона [7].

Обратная процедура исключения сводится к построению уравнений регрессии, включающих все возможные переменные, и в последующем отборе наименее значимых аргументов. Отбор производится путем исследования стандартизированных коэффи­ циентов частной регрессии с наименьшими значениями и после­ дующего построения уравнения регрессии, из которого удалены эти переменные. Значимость отбрасываемых переменных прове-

СPROGRAM 7 . 4

с

С

S U B R O U T IN E ТО

S T A N D A R D IZ E T H E

COLUMNS

OF

A DATA M A T R IX

C

S U B R O U T IN E S T A N D ( X , N , M , N I , M I )

 

 

 

 

 

 

 

C

D I M E N S IO N X ( N 1 , M 1 )

 

 

 

 

S T A N D A R D IZ E EACH COLUMN OF

T H E

M A T R IX

 

 

C . . .

 

 

C

DO

IO O

1 = 1 , M

 

 

 

 

 

 

 

 

 

 

 

C

 

 

'

AND STANDARD

D E V I A T I O N

OF

COLUMN

C . . .

C A L C U L A T E MEAN

C

S X = 0 . 0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S X X = 0 , 0

 

 

 

 

 

 

 

DO

101

J = 1 , N

 

 

 

 

 

S X = S X + X ( J . I )

S X X = S X X + X ( J , I ) * * 2

101C O N T IN U E

X M = S X / F L O A T ( N )

S D = S Q R T ( ( S X X - S X * S X / F L O A T ( N ) ) / F L O A T ( N - t ) )

C

S U B TR A C T MEAN

FROM EACH E L E M E N T I N C O LU M N , T H E N

C . . .

C

D I V I D E

R E S U L T

BY TH E STANDARD D E V I A T I O N .

C

DO 1 0 2

J = 1 , N

 

 

 

X ( J , I ) = ( X ( J , I ) - X M ) / S D 1 0 2 C O N T IN U E

1 0 0 C O N T IN U E RETURN END

Программа 7.4. STAND

ряется с помощью приемов дисперсионного анализа, аналогич­ ных представленным в табл. 5.13. Если переменная не дает зна­ чимого вклада в регрессию, то она обыкновенно отбрасывается. Затем стандартизированные коэффициенты частной регрессии приведенного уравнения анализируются снова, и процесс повто­ ряется. На каждом шаге число переменных в уравнении регрес­ сии уменьшается на единицу до тех пор, пока все оставшиеся переменные не окажутся значимыми.

Весьма полезно исследование набора семи переменных, пред­ ставляющих характеристики бассейнов рек (табл. 7.1), с целью возможного исключения каких-либо переменных.

Исследуя стандартизированные частные коэффициенты ре­ грессии, получаемые по программе 7.2, и отбрасывая наимень­ шие из них с последующим построением уравнения регрессии,

мы можем найти минимальное множество аргументов регрессии. Повторное применение программы RMULT к данным явля­ ется несложной процедурой по сравнению с операционным ис­ пользованием вычислительной программы, специально предназ­ наченной для выбора наилучшего уравнения регрессии. Однако использование более сложной итеративной программы для этой

частной задачи едва ли целесообразно.

Хотя по внешним признакам теорию множественной регрес­ сии можно отнести к «многомерным» теориям, так как в ней уча­ ствует несколько переменных, измеренных на каждом объекте наблюдения, все же по существу своему она является одномер­ ной, так как мы имеем дело с дисперсией только одной зависи­ мой переменной Y. Поведение независимых переменных X не подвергается анализу. Процедуры, которые будут рассмотрены в оставшейся части этой главы, связаны с исследованием одно­ временного изменения нескольких переменных. Мы начнем с рас­ смотрения некоторых критериев проверки совпадения двух или более групп наблюдений, определяемых несколькими перемен­ ными. Затем мы рассмотрим оптимальные методы различения двух многомерных групп, связанных с двумя задачами. Первая из них называется задачей идентификации, вторая — задачей классификации. Последняя состоит в разбиении объектов на группы на основании значений их многомерных характеристик. Наконец, мы рассмотрим связанные между собой методы: ком­ понентный и факторный анализы.

Переход от одномерной

кмногомерной статистике

Вгл. 3 мы рассмотрели некоторые простые геологические за­ дачи, которые можно решать с помощью элементарных статисти­

ческих методов. Мы начнем изложение многомерных методов в геологии с рассмотрения прямых обобщений этих простых кри­ териев. Напомним, что характеристики изменчивости, связанные с наиболее естественными явлениями природы, обычно описыва­ ются нормальным распределением. Это является отражением так называемой центральной предельной теоремы, которая гла­ сит, что распределение случайной величины, являющейся суммой п независимых величин при больших п, можно приближенно счи­ тать нормальным. Именно это свойство позволяет нам использо­ вать нормальное распределение в качестве основы статистиче­ ских критериев и считать его отправным пунктом при построе­ нии других распределений, таких, как t-, F- и ^-распределения. Понятие нормального распределения можно распространить на ситуации, в которых наблюдения содержат много переменных.

Предположим, что мы отбираем образцы пород на некоторой площади и измеряем некоторый набор характеристик каждого из них. Измерения могут представлять собой значения химиче­ ских и минералогических характеристик, удельного веса, харак­ теристик магнитных и радиоактивных свойств, а также любые из бесчисленного множества возможных переменных. Множество измерений, сделанных на индивидуальном образце породы, можно записать в виде вектора

[Х] = [Х1( Х2,

X J ,

где m — число измеренных характеристик или переменных. Если множество измерений, представляющих вектор [X], случайно извлечено из совокупности, которая возникла в результате воз­ действия многих независимых факторов, то наблюдаемые век­ торы приближенно можно считать векторами, имеющими много­ мерное нормальное распределение. Каждая переменная, рас­ сматриваемая отдельно, имеет нормальное распределение со средним значением Цк и дисперсией а2к.' Совместное вероятност­

ное распределение является m-мерным эквивалентом нормаль­ ного распределения, имеющего вектор среднего [ц] = [pi, рг,

..., рш] и обобщенную дисперсию, которая может быть пред­ ставлена в виде диагональной матрицы:

Г -

2

0

0

0

0

 

01

 

0

2

0

0

0

 

02

_

0

0

0

0

2

° т

Кроме этих очевидных обобщенных характеристик одномер­ ного нормального распределения, для многомерного случая сле­ дует упомянуть коэффициенты ковариации COVjk, которые за­ нимают все недиагональные позиции в матрице [ 2 2]. Таким образом, многомерное нормальное распределение характеризу­ ется вектором среднего и матрицей дисперсий и ковариаций, яв­ ляющейся многомерным аналогом дисперсии одномерной нор­ мальной случайной величины. В простом случае при m = 2 форма поверхности нормального распределения напоминает ко­ локол, изображенный на фиг. 3.8, «контурная карта» которого представлена на фиг. 7.2. Хотя распределения переменных Xi и Хг изображены вдоль соответствующих осей, все же наиболее существенные черты совместного вероятностного распределения лучше характеризуются большой и малой осями эллипсоида.

-3

-2

-1

х2 о

2

3 L

-3 -2 -1 О

2 3

X,

 

Фиг. 7.2. Линии уровня двумерного нормального распределения.

См. трехмерную диаграмму того же распределения на фиг. 3.8.

Многие из многомерных задач, которые мы рассмотрим ниже, связаны с относительной ориентацией этих полуосей.

Одним из самых простых критериев, которые мы рассмотрели в гл. 3, был t-критерий, используемый для проверки предполо­ жений, что случайную выборку из п наблюдений можно считать извлеченной из нормальной совокупности с некоторым средним Цо и дисперсией о2. Критерий, заданный формулой (3.22), мо­ жет быть переписан в виде

. (X - ц0) /п

(7.12)

Очевидное обобщение этого критерия на многомерный слу­

чай состоит в

замене X

вектором выборочного среднего

[X],

Цо — вектором

среднего

совокупности [\х] и s2 — матрицей

дис­

персий и ковариаций. Мы обозначили вектор среднего совокуп­ ности через [i*i, поэтому вектор выборочного среднего обозна­

чен через [X]. Аналогично [2?] — матрица дисперсий и кова­

риаций. Мы будем считать [X] и [ц] вектор-столбцами, хотя можно было бы считать их и вектор-строками. Разность между вектором выборочного среднего и вектором среднего совокупно­ сти можно записать в виде

[х-и] = [х[-М .

Подставляя эти величины прямо в формулу (7.12), получаем IX — ixl У Г

V W Y

9

К сожалению, очевидных способов решения этого уравнения не существует, поэтому мы получаем с его помощью единствен­ ное значение t. Если мы хотим применить этот критерий, мы должны и в числителе и в знаменателе вместо вектора и мат­

рицы иметь числа. Если вектор-столбец [X — ц] умножить на вектор-строку, имеющую такое же число элементов, то в резуль­ тате получится число. Определим произвольную вектор-строку [А]. в результате транспонирования которой получается вектор-

столбец [А]' Умножение вектор-столбца разности [X — ц] на вектор-строку [А] дает число, и умножение [s2] слева на [А] и справа на [AJ' снова дает число, т. е. наш критерий прини­ мает вид

ГА] • [X — i*l • У ~

[A] V l s2] [А ]'

Однако при этом мы изменили также запись проверяемой гипотезы. Нулевая гипотеза вместо предыдущей записи

Но ‘ [lxil = [Pol

теперь будет записываться так:

Но: [AJ Ы = [А] Ы -

Первоначальная гипотеза Но верна только в том случае, если новая гипотеза Н* верна для всех возможных значений [А]. По­

этому достаточно проверить только максимально возможное значение проверяемой статистики. Действительно, если гипотеза Н* отклоняется при любом [А], то гипотеза Но тоже отклоня­

ется. Проделав ряд несложных преобразований, мы можем опре­ делить условия, при которых достигается максимальное значе­ ние статистического критерия для произвольного вектора [А]. Это приводит к введению ограничения [A] - [s2]- [А ]'=1 и появ­ лению определителей в основном уравнении. Далее, возводя обе части уравнения в квадрат, мы можем исключить причиняющие неудобство квадратные корни. Это приводит также к возведению в квадрат значения критерия, которое мы теперь обозначим Т2. Выполнив все преобразования, мы найдем, что статистический критерий можно представить в виде

Т2 = п [ Х - ц ] ' fs2J 1 [X -tx ],

(7.13)