Скачиваний:
60
Добавлен:
01.05.2014
Размер:
1.52 Mб
Скачать

1. Модель факторного анализа, ее интерпретация

Как и в предыдущем параграфе, будем для удобства полагать ис­следуемые наблюдения X1 X2, ..., Хn центрированными. Переход от исходных наблюдений к центрированным осущест­вляется с помощью простого переноса начала координат в «центр тя­жести» исходного множества наблюдений, т.е. (I=1,2, …,n).

Тогда описанная выше линейная модель факторного анализа фор­мализуется с помощью соотношений

X=QY+U,

или в покомпонентной записи, (4.20) (i= 1, …,p).

Здесь Q = (q ij) — прямоугольная матрица размера р x p коэф­фициентов линейного преобразования (нагрузок общих факторов на исследуемые признаки), связывающего исследуемые признаки x(i) с ненаблюдаемыми (скрытыми) общими факторами y(1), y(2), …, y(p’), а век­тор-столбец U= (u(1), u(2), …, u(p’)) определяет ту часть исследуемых признаков, которая не может быть объяснена общими факторами, в том числе u(i)) включает в себя, как правило, ошибки измерения признака x(i).

Применительно к каждому конкретному наблюдению Xv (v = 1, 2, ..., n) соотношение (4.20) дает

Xv=QYv+Uv,

или в покомпонентной записи, (4.20’) (i= 1, …,p;v=1, …,n).

Будем предполагать, что вектор остаточных специфических факто­ров U подчиняется p-мерному нормальному распределению N (О, V), не зависит от Y и состоит из взаимно независимых компонент, т. е. его ковариационная матрица V=M(UU') имеет диагональный вид, где но диагонали стоят элементы vii == Du(i).

Вектор общих факторов Y =(y(1), ..., (p’))', в зависимости от со­держания конкретной задачи, может интерпретироваться либо как p-мерная нормальная случайная величина со средним MY = 0 (в си­лу центрированности исходных наблюдений) и с ковариационной мат­рицей специального вида MYY=I6, либо как вектор неизвестных неслучайных параметров, вспомогательных переменных, значения ко­торых меняются от наблюдения к наблюдению. При последней интер­претации вектора общих факторов более правильной является запись модели в виде (4.20'), причем условия центрированности независимости и нормированности дисперсий компонент вектора У в этом случае имеют вид:

Однако при обоих вариантах интерпретации вектора общих фак­торов Y исследуемый вектор наблюдений Х оказывается нормально распределенной p'-мерной случайной величиной: при первом варианте как линейная комбинация двух нормальных случайных векторов (Y и U), а при втором варианте за счет нормальности специфических факторов и(i). При этом из (4.20) и из сделанных выше допущений не­медленно следует, что

(4.21)

или в матричной записи

МX =0, =QQ’+V.

Примером достаточно прозрачной интерпретации модели факторно­го анализа может служить ее формулировка в терминах так называе­мых интеллектуальных тестов. При этом наблюдение по признаку выражает отклонение оценки, например, в баллах, даннойi-му индивидууму на экзамене по i-му тесту, от некоторого среднего уровня. Естественно предположить, что в качестве ненаблюдаемых общих фак­торов y(1), ...,y (p’), от которых будут зависеть, оценки индивидуумов по всем р тестам, выступят такие факторы, как характеристика общей одаренности индивидуума y(1), характеристики его математических y(2), технических y(3) или гуманитарных y(4) способностей.

Отметим, что соотношения (4.20) в точности воспроизводят модели множественной регрессии и дисперсионного анализа [26], в которых под y(i) (i = 1, 2, …, р') понимаются так называемые независимые переменные (факторы-аргументы). Однако принципиальное отличие модели факторного анализа от регрессионных схем и дисперсионного ана­лиза состоит в том, что переменные y(i), выступающие в роли аргументов во всех этих моделях, не являются непосредственно наблюдаемыми в моделях факторного анализа, в то время как в регрессионном и в дис­персионном анализе значения y(i) измеряются на исследуемых объ­ектах .

Замечание. Связь метода главных компонент и метода фактор­ного анализа. Рассмотрим следующую общую схему, включающую в себя в качестве частных случаев обе сравниваемые модели. Примем гипотезу, что существуют такие взаимно некоррелированные факторы y(1), y (2), ... (быть может, в неограниченном число), что

(4.22)

или в матричной записи

Х = AY,

где о случайных переменных у(1), у(2), … без ограничения общности можно предположить, что

(i) = 1.

Очевидно, представление (4.22), если оно существует, не единственно, так как переходя от Y с помощью произвольного ортогонального преобразования C к новым переменным Z=CY будем иметь вместо (4.22)

Х = BZ. (4.23)

Исследователю не известны коэффициенты аij, но он хочет научить­ся наилучшим (в некотором смысле) образом аппроксимировать приз­наки x(1), x(2), …, x(p) с помощью линейных функции or небольшого (за-ранее определенного) числа т факторов y(1)(т), y(2)(т), ..., уm(т), которые поэтому естественно назвать главными или общими. Аппроксимация признаков Х с помощью y(1)(т), y(2)(т), ..., уm(т) означает представление Х в виде (4.22), но с «урезанной» суммой, стоящей в правой части, т. е.

,

где Аm - матрица, составленная из первых т столбцов матрицы A, а Y(m) = (y(1)(т), y(2)(т), ..., у(m)(т))'.

Оказывается, что по-разному формулируя критерий оптимальности аппроксимации Х с помощью Y (m), мы придем либо к главным компо­нентам, либо к общим факторам. Так, например, если определение эле­ментов матрицы Am подчинить идее минимизации отличия ковариа­ционной матрицы  исследуемого вектора Х от ковариационной мат­рицы аппроксимирующего вектора (в смысле ми­нимизации евклидовой нормы || || ), то у(i)(т) определяется пропорционально i-й главной компоненте вектора X, в частности у(i)(т) = , где i - i-й по величине характеристический ко­рень ковариационной матрицы , a у(i)i-я главная компонента X; i-й столбец матрицы A(т) (i = 1, ..., т) есть где — собст­венный вектор матрицы , соответствующий характеристическому корню i.

Если же определение аппроксимирующего вектора Х(т) = ВmY(m) подчинить идее максимального объяснения корреляции между исходными признаками х(i) и х(j) с помощью вспомогательных (ненаблюдаемых) факторов y(1)(т), y(2)(т), ..., у(m)(т) и, в част­ности, идее минимизации величины

(4.24)

при условии неотрицательности величин , то можно показать [29], [16], что i-я строка оптимальной в этом смысле матрицы преобразования Вm состоит из т факторных нагрузок общих факторов y(1)(т), y(2)(т), ..., у(m)(т) на i-и исходный признак x(i) в модели факторного анализа вида (4.20). Другими словами, сущность задачи минимизации (по Вm и Y(т)) величины (4.24) состоит и следующем. Первый из т общих факторов y(1)(т) находится из условия, чтобы попарные корреля­ции между исходными признаками были как можно меньше, если влия­ние на них этого фактора y(1)(т) учтено. Следующий общий фактор у(2)(т) находится из условия максимального ослабления попарных корреляционных связей между исходными признаками, оставшихся после учета влияния первого общего фактора у(1)(т) и т. д.

Из сказанного, в частности, следует, что методы главных компонент и факторного анализа должны давать близкие результаты в тех случа­ях, когда главные компоненты строятся по корреляционным матрицам исходных признаков, а остаточные дисперсии vii сравнительно невелики.

1 Последовательность функций Fn(x), в частности последовательность функций распределения, называется слабо сходящейся (при п  ) к функ­ции F (х), если Fn(x) сходится к функции на множестве ее точек непрерывности.

2Данные заимствованы из работы [3]. В ней, в частности, исследовалась возможность разбиения испытываемых экземпляров растений (помидоров) в пространстве признаков, характеризующих различные процессы роста растении, на однородные группы.Этигруппы должны были выявить, и конечном счете, наличие трудноулавливаемых различий в исходных условиях выращивания (при постановке эксперимента эти условия предполагались, —и как выяснилось, небезосновательно! —одинаковыми для всех растений). Кстати, при исследовании было обнаружено, что первые две главные компоненты ^(1)иi/21содержат 80%от общей суммарной дисперсии всех 18 исходных признаков. При этом первую главную компоненту(1))удалось интерпретировать как характеристикуобщего состояниярастения, в то время как вторая главная компонента (y(2)) характеризовалапроцесс фотосинтеза.

3 Постановка задачи обсуждалась и принималась совместно с Н. М. Римашевской. Подбор и оформление исходных данных этого примера, их содержатель­ный анализ был проведен Л. А. Левковой. В вычислительной части работы при­нимал участие П. Ф. Андрукович.

4Данные заимствованы из [4], а также из работы П. Ф. Андруковича, М. В. Друцкой, К. С. Кузнецовой, А. А. Назарова «Применение метода главных компонент для анализа производительности труда рабочих». — Сб.: Проблемы уровня жизни. М., ЦЭМИ АН СССР, 1972.

55Распространенный в литературе перевод «commen factor» как простой фактор, а не общий фактор, не несет в себе главной смысловой нагрузки этого термина: ведь смысл каждой из переменных в том, что она являетсяобщей для всех исходных признаковx(1), x(2), …,x(p)

66Требование независимости компонент у'11 и нормированности их диспер­сий объясняется в основном соображениями идентификации модели, (см. выше).