книги / Статистический анализ данных в геологии. Кн. 2
.pdfРис. |
6.27. М етк и главны х |
к ом п онен т |
д ан н ы х по |
бл ок ам п р едс тав л ен ы |
не |
п л о |
|
ск ости главны х к ом п он ен т |
I и II |
|
|
||
|
|
1,0 |
|
|
|
|
|
|
0,5 |
|
|
|
|
|
|
О |
|
|
|
|
|
|
-0,5 |
|
|
|
|
|
|
-1Р |
|
|
|
|
Р и с . |
6.28 . П р ед ст а в л ен и е |
н а гр у зо к на |
главны е к ом п он ен ты д л я д а н н ы х |
п о |
с л у |
|
|
|
чайны м б л о к а м |
|
|
|
в качестве независимых переменных в эксперименте выбира лись значения длины осей. Хотя двух компонент достаточно для характеристики большей части изменчивости изучаемых данных, все же третья компонента необходима для выделения существенных деталей. Этот пример показывает, что МГК — мощный метод определения истинного числа линейно независи мых векторов, содержащихся в матрице. Поэтому он позволяет измерить избыточность множества переменных.
282
|
|
|
|
|
|
Т а б л и ц а |
6.22 |
П ятьдесят |
гран ул ом етр и ч еск и х |
ан ал и зов |
п р об |
(в % ) |
д о н н ы х о с а д к о в , |
||
|
взя ты х |
в зал и в е |
Б ар ат ар и я , |
ш тат |
Л у и зи а н а * |
|
|
Т и п ы |
|
|
Ф к а т е г о р и и |
|
|
|
|
|
|
|
|
|
|
|
|
осадков* * |
1 - 2 |
2 - 3 |
3 - 4 |
4 — 5 |
5 — 6 |
6 - 7 |
7 - 8 |
|
|||||||
I |
0 , 6 |
7 0 .2 |
2 9 , 2 |
0 , 0 |
0 , 0 |
0 , 0 |
0 , 0 |
|
1, 0 |
6 9 , 9 |
29.1 |
0 , 0 |
0 , 0 |
0 , 0 |
0 , 0 |
|
0 , 8 |
7 3 . 7 |
2 5 , 5 |
0 , 0 |
0 , 0 |
0 , 0 |
0 , 0 |
|
0 , 9 |
7 5 . 3 |
2 3 . 8 |
0 , 0 |
0 , 0 |
0 , 0 |
0 , 0 |
|
0 , 3 |
6 2 , 5 |
3 6 . 9 |
0 , 0 |
0 , 0 |
0 , 0 |
0 , 0 |
|
1,1 |
6 8 . 8 |
30. 1 |
0 , 0 |
0 , 0 |
0 , 0 |
0 , 0 |
|
0 , 8 |
10,2 |
7 9 . 2 |
9 . 8 |
0 , 0 |
0 , 0 |
0 , 0 |
|
1 ,0 |
16. 3 |
7 3 . 8 |
8 . 9 |
0 , 0 |
0 , 0 |
0 , 0 |
|
1 ,8 |
3 5 , 7 |
6 1 . 9 |
0 , 6 |
0 , 0 |
0 , 0 |
0 , 0 |
и |
9 , 5 |
15,8 |
5 9 , 0 |
8 , 4 |
0 , 9 |
0 , 9 |
1,4 |
|
2 , 4 |
14,5 |
5 3 , 9 |
12,2 |
5 , 5 |
1, 6 |
2 , 5 |
|
2 , 2 |
3 8 , 8 |
4 2 , 2 |
7 , 9 |
1,4 |
1, 8 |
1 ,0 |
|
1,7 |
3 0 , 4 |
4 4 , 5 |
11,2 |
3 , 0 |
1, 9 |
2 , 9 |
|
0 , 0 |
4 0 , 0 |
3 2 , 5 |
3 , 8 |
4 , 5 |
6 , 5 |
2 , 7 |
|
0 , 0 |
3 7 , 0 |
4 5 ,4 |
7 , 3 |
3 , 8 |
3 , 3 |
3 , 8 |
|
0 , 3 |
15 ,6 |
54,1 |
2 1 , 3 |
4,1 |
2 , 6 |
2 , 0 |
|
0 , 3 |
2 4 , 4 |
5 6 , 0 |
15,1 |
4 , 2 |
0 , 0 |
0 , 0 |
|
10 ,5 |
2 9 , 2 |
3 7 , 3 |
15,1 |
4 , 2 |
3 , 7 |
0 , 0 |
|
0 , 3 |
13 ,3 |
6 3 , 5 |
14,2 |
4 , 0 |
3 , 4 |
1 ,3 |
|
1,2 |
2 6 , 9 |
5 4 , 7 |
11, 0 |
3 , 9 |
2 , 3 |
0 , 0 |
ш |
0 , 4 |
3 , 9 |
4 5 , 2 |
2 4 , 7 |
3 , 7 |
8, 1 |
3 , 0 |
|
0 , 0 |
13,8 |
3 9 ,3 |
15, 4 |
9,1 |
4 , 5 |
6 , 4 |
|
0 , 4 |
4 , 0 |
3 8 ,2 |
2 8 , 5 |
6 , 0 |
4 , 3 |
4 , 7 |
|
1 ,9 |
11,5 |
4 9 , 5 |
2 2 , 4 |
5 , 7 |
4 , 5 |
2 , 0 |
|
0 , 4 |
5,1 |
3 1 , 8 |
3 0 , 3 |
5 , 4 |
7 , 8 |
3 , 0 |
|
0 , 5 |
5 , 9 |
3 2 ,2 |
3 2 ,7 |
4 , 9 |
5 , 4 |
2 , 7 |
|
1,1 |
4 , 9 |
31,1 |
4 1 , 9 |
13, 9 |
7 , 8 |
3 , 7 |
|
7 , 9 |
8 , 5 |
2 1 , 0 |
19,9 |
8 , 9 |
5 , 9 |
6 , 3 |
|
0 , 9 |
13,6 |
4 3 , 9 |
20,1 |
7 , 2 |
4 , 8 |
9 , 5 |
|
2 , 9 |
1 5, 5 |
3 7 , 0 |
3 0 , 3 |
5,1 |
1, 9 |
2 , 2 |
|
2,1 |
16 ,7 |
3 9 , 6 |
1 7, 7 |
8 , 3 |
8 , 3 |
7 , 3 |
|
0 , 3 |
2 0 , 6 |
5 5 ,4 |
16, 6 |
6 , 2 |
6, 1 |
5 , 5 |
IV |
1,2 |
1,6 |
15,3 |
3 8 , 4 |
13,0 |
9 , 5 |
5 , 6 |
|
2 , 3 |
7 , 9 |
2 3 , 9 |
2 5 , 5 |
9 , 2 |
7 , 9 |
7 , 7 |
|
1 , 0 |
3, 1 |
15,2 |
3 2 , 0 |
14, 3 |
10, 0 |
7 , 2 |
|
0 , 0 |
11,5 |
2 8 , 4 |
19,1 |
7 , 3 |
7 , 8 |
4 , 8 |
|
0 , 8 |
7 , 0 |
3 1 , 6 |
21,1 |
10, 2 |
9 , 0 |
6 , 3 |
|
0 , 5 |
2,1 |
14, 0 |
3 7 , 2 |
19, 9 |
11,4 |
6, 1 |
|
0 , 0 |
3 , 4 |
19, 7 |
2 5 , 4 |
15, 7 |
10, 2 |
9 , 9 |
|
1 ,4 |
1,9 |
14,4 |
4 0 , 2 |
8 , 5 |
8 , 4 |
7,1 |
|
0 , 4 |
3 , 5 |
18, 8 |
2 9 , 5 |
11, 2 |
10,4 |
7 , 5 |
|
0 , 8 |
6 , 3 |
18, 2 |
2 8 , 0 |
9 ,1 |
9 , 7 |
9 , 9 |
283
Продолжение табл. 6.22
Типы |
|
|
|
Ф к а т е г о р и и |
|
|
|
осадков** |
1 - 2 |
2 - 3 |
3 - 4 |
4 - 5 |
5 - 6 |
6—7 |
7 - 8 |
|
|||||||
V |
1 , 0 |
2 , 3 |
6 , 6 |
1 6 , 2 |
1 2 , 0 |
1 1 , 4 |
1 3 , 3 |
|
3 , 2 |
3 , 9 |
1 0 , 5 |
2 4 , 1 |
1 4 , 2 |
1 5 , 4 |
1 3 , 5 |
|
2 , 1 |
2 , 1 |
1 0 , 7 |
2 3 , 6 |
15, 1 |
1 4 , 0 |
1 1 , 8 |
|
4 , 4 |
8 , 1 |
8 , 9 |
1 9 , 9 |
1 2 , 0 |
1 1 , 4 |
1 0 , 8 |
|
0 , 0 |
3 , 6 |
4 , 2 |
1 7 , 8 |
1 2 , 4 |
1 0 , 8 |
9 , 9 |
|
0 , 5 |
4 , 1 |
9 , 8 |
2 7 , 9 |
1 3 , 5 |
1 3 , 5 |
. 7 , 4 |
|
0 , 7 |
2 , 3 |
5 , 2 |
2 3 , 2 |
1 9 , 4 |
14,1 |
10,1 |
|
3 , 4 |
1,6 |
4 , 4 |
1 8 , 0 |
1 4 , 7 |
1 5 , 3 |
15,1 |
* М о д и ф и ц и р о в а н н ы е д а н н ы е К р а м б е й н а и Э б е р д и н а [ 3 7 ] .
** I — п л я ж е в ы е и п р и б р е ж н ы е п е с к и ; П — а л е в р и т о в ы е р у с л о в ы е п е с к и ; Ш — а л е в р и т о в ы е б е р е г о в ы е п е с к и ; IV — о р г а н и ч е с к и й д о н н ы й а л е в р и т ; V — о р г а н и ч е с к и е и л ы .
В качестве примера применения МГК к геологическим зада чам рассмотрим данные, взятые у Крамбейна и Эбердина [37], приведенные в табл. 6.22. Они представляют собой результаты 50 гранулометрических анализов проб осадков, взятых со дна залива Баратария в западной части дельты Миссисипи (штат Луизиана). Эти пробы принадлежат различным донным фа дн ям, соответствующим разным типам седиментации. ■нтовой анализ проводился с помощью комплекса сит с интервалом I—Ф. Полученные данные представляли собой весовые процент ные отношения фракций различного размера.
В качестве изучаемых переменных рассматривались про центные содержания фракций определенного размера в каждой пробе. Те же переменные использовались при вычислении та ких статистических характеристик, как среднее значение, коэф фициент отсортированности и асимметрия распределения раз мера зерен. С помощью МГК. молено исследовать взаимосвязь между различными фракциями и найти наиболее эффективную их комбинацию, причем термин «наиболее эффективный» соот ветствует фактору, дающему наибольший вклад в суммарную дисперсию. Мы вправе ожидать, что нагрузки на первую глав ную компоненту некоторым образом можно считать аппрокси мацией среднего значения, так как обычно эта статистика — наиболее эффективная их всех возможных статистик.
Анализ начинается с вычисления элементов ковариационной матрицы (табл. 6.23). Стандартизация в этом случае необяза тельна, так как исходные данные измерены в одних и тех же единицах для всех переменных. Необходимо отметить, что дан ные представляют собой приближенно замкнутую матрицу (т. е. в большинстве случаев сумма переменных составляет 100%), которая снова напоминает нам о теоретически интересном и важном вопросе, связанном с индуцированными отрицательны ми корреляциями. Ковариационная матрица «переопределена»,
2 8 4
t’HL. (i.i'9. |
Н агрузк и п ер ем ен н ы х н а п ервы е д в е |
главны е ком п онен ты п о дан н ы м |
|
илу ;ения о с а д к о в и з за л и в а |
Б ар ат ар н я |
л е. она |
содержит больше строк и столбцов, чем это необходи |
|
мо. Очевидно, если мы знаем А, В и |
С и сумму Л +B-j-C, то |
имеем информации больше, чем нам нужно в действительности, и одна переменная является избыточной. Неизбежно, что одно собственное значение матрицы, построенной по таким данным, будет обязательно нулевым. В рассмотренном примере сумма по всем переменным не составляет в точности 100%, так как наблюдения меньше 8Ф отбрасываются. Последнее собственное значение ковариационной матрицы поэтому очень мало, но не равно нулю, как это было бы в случае замкнутой матрицы.
Главные компоненты, т.е. собственные векторы по данным залива Баратария, приведены в табл. 6.24. Отметим, что две первые компоненты учитывают 90% изменчивости данных. На грузки по переменным для двух компонент представлены на рис. 6.29. Из этого графика видно, что первая главная компо нента характеризует относительные доли тонких и очень тонких фракций в осадке, т.е. отношение песок/(глина+ил). Вторая компонента характеризуется отношением содержаний мелкого и очень мелкого песка, а все другие переменные имеют веса, близкие к нулю. Этих двух компонент вполне достаточно для описания почти всей изменчивости исходных данных, из которо-
285
Т а б л и ц а 6.23
Ковариационная матрица гранулометрических анализов осадков из залива
|
Баратария, штат Луизиана (приведена |
только нижняя часть |
|
|||||
|
|
|
симметричной матрицы) |
|
|
|||
|
|
Хг |
Хг |
Хя |
X i |
Хя |
Хв |
X? |
X, |
4 |
, 8 4 4 3 |
|
|
|
|
|
|
X , |
— 2 , 6 2 3 4 |
4 6 8 ,8 4 8 0 |
|
|
|
|
|
|
х , |
— 0 ,0 0 1 1 |
8 1 ,3 9 4 1 |
3 5 3 ,1 2 5 5 |
|
|
|
|
|
х 4 |
— 1 ,5 4 4 9 |
- - 2 0 0 , 2 1 0 9 |
— 8 4 ,6 1 6 5 |
130,2741 |
3 0 ,4 3 5 0 |
|
|
|
X - |
— 0 ,5 9 7 2 |
— 8 4 ,2 5 9 7 — 7 3 ,0 4 3 5 |
4 4 ,7 6 1 6 |
2 2 ,4 1 8 9 |
|
|||
X в |
— 0 ,3 8 0 5 |
— 7 1 ,2 0 9 7 — 6 6 ,5 4 3 3 |
3 4 ,9 9 2 7 |
2 3 ,7 5 6 5 |
|
|||
х7 — 0 ,0 2 2 2 |
— 5 7 ,8 5 7 8 — 5 6 ,1 5 3 3 |
2 3 ,9 1 3 6 |
1 9 ,3 9 0 7 |
1 7 ,9 3 8 8 |
1 7 ,9 6 7 0 |
|||
|
К л ю ч : |
1— 2Ф , Х , = 2 — ЗФ , Х 3= 3 — 4 Ф , Х 4 = 4-- 5 Ф , Х 5 = 5 — 6 Ф , |
X, = 6 — 7 Ф , А% = 7-- 8 Ф,
|
|
|
|
|
|
|
|
Т а б л и ц а 6.24 |
|
|
Собственные значения и собственные векторы (главные компоненты) |
||||||||
|
|
ковариационной |
матрицы, приведенной в табл. 6.23 |
|
|||||
|
Вектор |
|
Собственное зна* |
Вклад в диспер |
Сумма |
вкладов |
|||
|
|
чение |
сию, |
% |
в дисперсию |
||||
1 |
|
|
|
6 5 9 ,7 7 5 9 |
6 4 , 1 8 |
6 4 , 1 9 |
|||
И |
|
|
|
3 1 8 ,4 3 8 4 |
3 0 , 9 8 |
9 8 , 1 7 |
|||
ш |
|
|
|
3 5 ,1 9 5 9 |
3 , 4 2 |
9 8 , 5 9 |
|||
IV |
|
|
|
6 ,7 5 2 8 |
0 , 6 6 |
9 9 , 2 5 |
|||
V |
|
|
|
3 ,8 1 9 3 |
0 , 3 7 |
9 9 , 6 2 |
|||
VI |
|
|
|
2 ,3 7 6 3 |
0 , 2 3 |
9 9 , 8 5 |
|||
VII |
|
|
|
1 ,5 5 4 0 |
0 , 1 5 |
100,00 |
|||
Перемен- |
|
|
|
Собственный вектор |
|
|
|||
|
|
|
|
|
|
|
|
||
ная |
1 |
| |
п |
III |
IV |
V |
VI |
VII |
|
|
|
||||||||
Хг |
— 0 ,0 0 1 9 |
|
0 ,0 0 3 9 — 0 ,0 6 8 9 — 0 , 5 8 2 9 |
0 , 7 5 5 4 |
0 , 2 7 9 8 |
0 , 0 8 1 8 |
|||
А , |
|
0 ,7 7 1 0 — 0 ,4 7 7 7 |
0 ,3 1 9 4 |
0 ,1 8 8 5 |
0 ,1 1 6 9 |
0 ,1 5 8 1 |
0 ,0 3 2 6 |
||
Хз |
|
0 ,4 1 6 7 |
|
0 ,8 6 4 7 |
0 ,0 5 3 1 |
0 ,2 1 1 6 |
0 ,1 1 2 3 |
0 ,1 2 9 4 |
0 ,0 4 2 1 |
х 4 |
— 0 ,3 9 0 7 |
|
0 ,0 7 6 1 |
0 ,8 8 4 4 |
0 ,0 7 0 4 |
0 ,0 4 9 0 |
0 ,2 2 8 0 |
0 , 0 0 2 8 |
|
X, |
— 0 ,1 8 9 5 — 0 ,0 7 9 4 — 0 ,0 7 7 5 |
0 ,6 3 0 8 |
0 ,6 2 5 5 — 0 ,3 2 4 0 — 0 ,2 4 0 1 |
||||||
х„ |
— 0 ,1 6 1 8 — 0 ,0 8 1 3 — 0 ,1 6 2 9 |
0 ,3 3 3 0 |
0 , 0 5 2 6 |
0 ,2 5 7 0 |
0 , 8 7 2 3 |
||||
х 7 |
— 0 ,1 3 0 8 — 0 ,0 7 3 5 — 0 ,2 7 5 0 |
0 ,2 5 7 0 — 0 ,0 8 1 5 |
0 ,8 1 0 7 - 0 , 4 1 4 6 |
||||||
|
К л ю ч : |
X, = 1 — 2Ф , * 2 = 2 — З Ф , Х 3= 3 — 4Ф , Х 4= 4 — 5 Ф , Х 5 = 5 — 6Ф , |
|||||||
Х 6= 6 - 7 Ф , |
Хт— 7 — 8Ф . |
|
|
|
|
|
286
20
|
О |
|
|
|
|
|
|
|
|
|
О |
|
|
|
|
|
|
|
|
|
10 ~ о |
|
|
|
|
|
|
|
|
|
% |
|
|
|
|
|
|
|
|
|
О |
|
|
|
|
|
V * |
||
|
|
|
|
|
|
|
|||
|
-10 |
|
|
|
|
|
|
|
|
|
-20 |
|
|
|
|
|
|
|
|
|
П |
|
|
|
|
|
|
|
|
|
-за |
|
|
|
|
|
|
|
|
|
- 4 0 |
|
|
|
|
|
|
|
|
|
- 5 0 |
|
|
|
|
|
|
©-1 |
|
|
|
|
|
|
|
|
|
• |
- 2 |
|
|
|
|
|
|
|
|
* |
-5 |
|
- 6 0 |
|
|
|
|
|
|
i |
- 4 |
|
|
|
|
|
|
|
0 |
-ф-- 5 |
|
|
- 7 0 |
|
|
|
|
|
______ i_____ |
||
|
- 7 0 - 6 0 |
- 5 0 |
- 4 0 |
- 3 0 I - 2 0 |
- 10 |
0 |
10 |
2 0 |
|
Рис. |
6.30. П р оек ц и и |
а н а л и зо в о с а д к о в |
за л и в а |
Б а р а т а р и я на |
п л оск ость первы х |
||||
д в у х |
главны х к ом п онен т . |
Р азл и ч н ы е |
си м в ол ы |
соо т в е т с т в у ю т |
пяти разл ичн ы м |
||||
|
|
тип ам |
ос а д о ч н ы х п о р о д [37]: |
|
|
|
1 — пляжевые и прибрежные пески; 2 — илистые русловые пески; 3 — илистые береговые пески: 4 — органические донные илы; о — органические плы с под ветренной стороны островов
го вытекает, что разделение на илистую п глинистую фракции несущественно. Основные различия между осадками можно почти полностью описать только с помощью двух переменных.
Мы можем проверить результаты нашего анализа путем по строения проекций наблюдений на первые две главные компо ненты (рис, 6.30). Сравните различие между типами осадочных пород на рис. 6.30 и на рис. 6.31, на котором показана зависи мость медианы размеров зерен от коэффициента отсортирован ное™ (квартильное отклонение). Вероятно, что еще больший интерес представляет рис. 6.32, где изображено отношение со держания мелкой и очень мелкой песчаных фракций. Все эти диаграммы имеют приблизительно одинаковую эффективность с точки зрения разделения пяти типов осадков, хотя для по строения диаграммы рис. 6.32 требуется больше эксперимен тальных данных, чем для построения рис. 6.31. Таким образом, для разделения образцов на семь разных классов по размеру достаточно только двух операций просеивания. Кроме того, результаты анализа с использованием МГК показывают, что
287
2,Ь
2J00
X |
|
▲ |
* * |
Д |
4* |
I |
150 |
i |
\ + |
|
|
Ц |
|
|
|
|
|
Д |
|
|
|
|
|
a |
1,25 |
|
|
|
|
л |
|
|
|
|
|
я |
|
|
|
|
|
£ 1,00 |
|
|
|
|
|
a |
|
|
|
|
|
(0 |
|
|
|
|
|
rt, |
0,75 |
• • |
|
|
|
* |
|
|
|
||
e- |
|
|
|
|
|
|
0,50 |
|
|
|
|
|
0,25 h |
3,00 °е |
|
|
|
0
45
Ф- медиана
Рис. 6.31. Диаграмма зависимости квартиля от медианы в осадках залива Баратария в ф-единицах.
С и м волы те ж е , что и на рис. 6.30
осадки в бассейне можно рассматривать как смесь двух типов: песка и илисто-глинистой фракции. В этом примере метод главных компонент заставляет не только по-новому оценить со став изучаемых осадков, но и внести в методику исследования необходимые изменения, позволяющие значительно сократить расходы при минимальной потере информации. Такой экспери мент с незначительными изменениями был проведен Девисом [13]. Полезно сравнить эти результаты с результатами, полу ченными для тех же данных Клованом [35] с помощью Q-ме тода факторного анализа.
Интересно провести сравнение относительной эффективности среднего, первой главной компоненты и содержания песчаной фракции для различения пяти типов осадочных пород в зали ве. Это можно сделать, применив однофакторный дисперсион ный анализ к группам, образованным пятью типами осадочных пород. Отношение сумм квадратов между группами к общей сумме квадратов служит мерой того, насколько сильно группы связаны или отдалены друг от друга. Переменная, дающая наибольшее отношение SSA/SST, оказывается наиболее эффек-
2 8 8
Рис. 6.32. Диаграмма зависимости содержания песка от отношения содержа ния тонкозернистого песка к очень тонкозернистому в осадках залива Баратария.
Символы т е ж е , что и на рис. 6 .30
тивной для различения типов осадочных пород. Используя соответствующий из критериев ANOVA, указанных в гл. 2, оп ределите, которая из трех переменных является наиболее эф
фективной.
Возможны ц другие методы исследования, которые под тверждают пользу набора статистик и квазистатистик, приме няемых для характеристики осадочных отложений. Вычислив эти статистики, можно использовать их в качестве переменных в МГК, а также выбрать из них те комбинации, интерпретация которых позволит получить эффективную характеристику осад ков. Определения различных статистик, применяемых при изу чении размеров зерен, приведены во многих справочных изда ниях по осадочной петрологии, например в работе Фолка [18]. Эти характеристики можно вычислить для необработанных данных, приведенных в табл. 6.22. Анализ главных компонент новых переменных оказывается очень поучительным. Аналогич ные исследования были проведены Гриффитсом и Ондриком [21].
19— 115 |
2 8 9 |
tf-МЕТОД ФАКТОРНОГО АНАЛИЗА
Основой метода главных компонент является линейное пре образование т исходных переменных в т новых переменных, где каждая новая переменная — линейная комбинация старых. Этот процесс осуществляется таким образом, чтобы каждая но вая переменная давала возможно больший вклад в суммарную дисперсию. При вычислении новых переменных учитываются все исходные дисперсии. Так как МГК, вообще говоря, не ста тистический метод, мы ничего не можем сказать о вероятности, связанной с проверкой гипотез. Это просто матехматическнй ме тод. Однако при принятии решений об отбрасывании некоторых переменных или компонент, дающих очень малый вклад в сум марную дисперсию, приходится использовать некоторые статис тические критерии, несмотря на то что последние имеют силь ные ограничения и редко применимы (обзор этих критериев приводит Моррисон [51J ). Метод главных компонент, как и анализ групп, относится к той категории методов, о пригоднос ти которых судят после их применения, а не на основании тео ретических рассуждений.
Факторный анализ, который принято считать статистическим методом, несколько отличается от этих методов, так как в его основе лежат некоторые предположения о природе изучаемой совокупности. Эти предположения позволяют указать те опера ции, которые должны быть выполнены, а также путь, по кото рому надо следовать при интерпретации результатов. Для не которых процедур факторного анализа созданы даже критерии значимости [40], но они редко используются.
В факторном анализе предполагается, что связь между т переменными можно считать отражением корреляционной за висимости каждой из переменных с р взаимно некоррелирован ными факторами. Обычное допущение состоит в том. что р<.т. Поэтому дисперсию для т переменных можно вычислить с помощью дисперсии р-факторов плюс вклад, происхождение которого одинаково для всех т исходных переменных. В фак торном анализе р независимых факторов носят название общих факторов, а независимая от них суммарная добавка обычно называется фактором специфичности. Факторная модель выра жается в следующем виде:
J/= E a t-rfr+ e/P |
(6.51) |
где fr — r-й общий фактор; р — заранее заданное |
число факто |
ров и е — случайная компонента, присущая исходной перемен ной Xj. Так как имеется m исходных переменных Хр то суще ствует и m случайных переменных е;-; рассматриваемые вместе, они составляют вектор факторов специфичности. Коэффициент op называется нагрузкой /-й переменной на r-й фактор. В ком-
290
лонентном анализе этому понятию соответствуют нагрузки или веса на главные компоненты.
Предположим, что переменные X/ имеют многомерное нор мальное распределение. Дисперсии и ковариации образуют матрицу порядка тхт. Из формулы (6.51) вытекает, что диа
гональные элементы этой |
матрицы — дисперсии т |
перемен |
ных— можно выразить формулой |
|
|
|
р |
|
s)j = |
a ) r + var eJf, |
(6.52) |
г- 1
анедцзгональные элементы, или ковариации, имеют вид
р |
(6.53) |
соу} к = £ а 1га кг- |
|
г= 1 |
|
Основную гипотезу факторного анализа в матричной форме молено сформулировать следующим образом. Наблюдаемая ко вариационная матрица, которую мы обозначим через [s2], яв ляется произведением матрицы порядка тХр факторных на грузок (которую мы обозначим [7Н] п ее транспозиции плюс диагональная матрица порядка пгХт дисперсий факторов спе цифичности [var е//]:
[s2] = [А-*] • [А-R]' + [var е//] |
(6.54) |
В результате умножения матрицы порядка тХр |
на ее |
транспонированную получим матрицу порядка тХт, которая, однако, будет иметь только р положительных собственных зна чений п соответствующих им собственных векторов. Если р = т. то матрица [var 8//] оказывается тождественной и наша задача з точности эквивалентна МГК- В тех случаях, когда р<.т , мы лоджии оцепить матрицу параметров [Л*], т.е. матрицу фак торных нагрузок, и дисперсии факторов специфичности, т.е. матрицу [varец]. Отметим, что в факторном анализе предпо лагается, что число факторов р известно до анализа, так как исследователь, исходя из некоторых предварительных рассуж дений, в состоянии предсказать число факторов, от которых зависит изучаемая модель. Если число факторов р заранее предсказать нельзя, то разделение дисперсий между общими факторами и фактором специфичности становится неопределен ным. Этот важный момент иногда остается незамеченным экс периментаторами, которые пытаются использовать факторный анализ для «ловли рыбы». Определенное другим способом чис ло факторов р, [Л*], матрица факторных нагрузок и дисперсии специфических факторов [var е//] оказываются взаимосвязан ными. Их нельзя оценить одновременно, поэтому для нахожде ния единственного решения необходимо вводить различные ог
!9* |
291 |