- •§ 1. Meтод главных компонент
- •1. Определение главных компонент
- •2. Экстремальные свойства главных компонент. Их интерпретация
- •3. Статистические свойства выборочных главных компонент; статистическая проверка некоторых гипотез
- •4. Главные компоненты в задачах классификации
- •§ 2.Факторный анализ
- •1. Модель факторного анализа, ее интерпретация
1. Модель факторного анализа, ее интерпретация
Как и в предыдущем параграфе, будем для удобства полагать исследуемые наблюдения X1 X2, ..., Хn центрированными. Переход от исходных наблюдений к центрированным осуществляется с помощью простого переноса начала координат в «центр тяжести» исходного множества наблюдений, т.е. (I=1,2, …,n).
Тогда описанная выше линейная модель факторного анализа формализуется с помощью соотношений
X=QY+U,
или в покомпонентной записи, (4.20) (i= 1, …,p).
Здесь Q = (q ij) — прямоугольная матрица размера р x p’ коэффициентов линейного преобразования (нагрузок общих факторов на исследуемые признаки), связывающего исследуемые признаки x(i) с ненаблюдаемыми (скрытыми) общими факторами y(1), y(2), …, y(p’), а вектор-столбец U= (u(1), u(2), …, u(p’)) определяет ту часть исследуемых признаков, которая не может быть объяснена общими факторами, в том числе u(i)) включает в себя, как правило, ошибки измерения признака x(i).
Применительно к каждому конкретному наблюдению Xv (v = 1, 2, ..., n) соотношение (4.20) дает
Xv=QYv+Uv,
или в покомпонентной записи, (4.20’) (i= 1, …,p;v=1, …,n).
Будем предполагать, что вектор остаточных специфических факторов U подчиняется p-мерному нормальному распределению N (О, V), не зависит от Y и состоит из взаимно независимых компонент, т. е. его ковариационная матрица V=M(UU') имеет диагональный вид, где но диагонали стоят элементы vii == Du(i).
Вектор общих факторов Y =(y(1), ..., (p’))', в зависимости от содержания конкретной задачи, может интерпретироваться либо как p’-мерная нормальная случайная величина со средним MY = 0 (в силу центрированности исходных наблюдений) и с ковариационной матрицей специального вида MYY’=I6, либо как вектор неизвестных неслучайных параметров, вспомогательных переменных, значения которых меняются от наблюдения к наблюдению. При последней интерпретации вектора общих факторов более правильной является запись модели в виде (4.20'), причем условия центрированности независимости и нормированности дисперсий компонент вектора У в этом случае имеют вид:
Однако при обоих вариантах интерпретации вектора общих факторов Y исследуемый вектор наблюдений Х оказывается нормально распределенной p'-мерной случайной величиной: при первом варианте как линейная комбинация двух нормальных случайных векторов (Y и U), а при втором варианте за счет нормальности специфических факторов и(i). При этом из (4.20) и из сделанных выше допущений немедленно следует, что
(4.21)
или в матричной записи
МX =0, =QQ’+V.
Примером достаточно прозрачной интерпретации модели факторного анализа может служить ее формулировка в терминах так называемых интеллектуальных тестов. При этом наблюдение по признаку выражает отклонение оценки, например, в баллах, даннойi-му индивидууму на экзамене по i-му тесту, от некоторого среднего уровня. Естественно предположить, что в качестве ненаблюдаемых общих факторов y(1), ...,y (p’), от которых будут зависеть, оценки индивидуумов по всем р тестам, выступят такие факторы, как характеристика общей одаренности индивидуума y(1), характеристики его математических y(2), технических y(3) или гуманитарных y(4) способностей.
Отметим, что соотношения (4.20) в точности воспроизводят модели множественной регрессии и дисперсионного анализа [26], в которых под y(i) (i = 1, 2, …, р') понимаются так называемые независимые переменные (факторы-аргументы). Однако принципиальное отличие модели факторного анализа от регрессионных схем и дисперсионного анализа состоит в том, что переменные y(i), выступающие в роли аргументов во всех этих моделях, не являются непосредственно наблюдаемыми в моделях факторного анализа, в то время как в регрессионном и в дисперсионном анализе значения y(i) измеряются на исследуемых объектах .
Замечание. Связь метода главных компонент и метода факторного анализа. Рассмотрим следующую общую схему, включающую в себя в качестве частных случаев обе сравниваемые модели. Примем гипотезу, что существуют такие взаимно некоррелированные факторы y(1), y (2), ... (быть может, в неограниченном число), что
(4.22)
или в матричной записи
Х = AY,
где о случайных переменных у(1), у(2), … без ограничения общности можно предположить, что
Dу(i) = 1.
Очевидно, представление (4.22), если оно существует, не единственно, так как переходя от Y с помощью произвольного ортогонального преобразования C к новым переменным Z=CY будем иметь вместо (4.22)
Х = BZ. (4.23)
Исследователю не известны коэффициенты аij, но он хочет научиться наилучшим (в некотором смысле) образом аппроксимировать признаки x(1), x(2), …, x(p) с помощью линейных функции or небольшого (за-ранее определенного) числа т факторов y(1)(т), y(2)(т), ..., уm(т), которые поэтому естественно назвать главными или общими. Аппроксимация признаков Х с помощью y(1)(т), y(2)(т), ..., уm(т) означает представление Х в виде (4.22), но с «урезанной» суммой, стоящей в правой части, т. е.
,
где Аm - матрица, составленная из первых т столбцов матрицы A, а Y(m) = (y(1)(т), y(2)(т), ..., у(m)(т))'.
Оказывается, что по-разному формулируя критерий оптимальности аппроксимации Х с помощью Y (m), мы придем либо к главным компонентам, либо к общим факторам. Так, например, если определение элементов матрицы Am подчинить идее минимизации отличия ковариационной матрицы исследуемого вектора Х от ковариационной матрицы аппроксимирующего вектора (в смысле минимизации евклидовой нормы || || ), то у(i)(т) определяется пропорционально i-й главной компоненте вектора X, в частности у(i)(т) = , где i - i-й по величине характеристический корень ковариационной матрицы , a у(i) — i-я главная компонента X; i-й столбец матрицы A(т) (i = 1, ..., т) есть где — собственный вектор матрицы , соответствующий характеристическому корню i.
Если же определение аппроксимирующего вектора Х(т) = ВmY(m) подчинить идее максимального объяснения корреляции между исходными признаками х(i) и х(j) с помощью вспомогательных (ненаблюдаемых) факторов y(1)(т), y(2)(т), ..., у(m)(т) и, в частности, идее минимизации величины
(4.24)
при условии неотрицательности величин , то можно показать [29], [16], что i-я строка оптимальной в этом смысле матрицы преобразования Вm состоит из т факторных нагрузок общих факторов y(1)(т), y(2)(т), ..., у(m)(т) на i-и исходный признак x(i) в модели факторного анализа вида (4.20). Другими словами, сущность задачи минимизации (по Вm и Y(т)) величины (4.24) состоит и следующем. Первый из т общих факторов y(1)(т) находится из условия, чтобы попарные корреляции между исходными признаками были как можно меньше, если влияние на них этого фактора y(1)(т) учтено. Следующий общий фактор у(2)(т) находится из условия максимального ослабления попарных корреляционных связей между исходными признаками, оставшихся после учета влияния первого общего фактора у(1)(т) и т. д.
Из сказанного, в частности, следует, что методы главных компонент и факторного анализа должны давать близкие результаты в тех случаях, когда главные компоненты строятся по корреляционным матрицам исходных признаков, а остаточные дисперсии vii сравнительно невелики.
1 Последовательность функций Fn(x), в частности последовательность функций распределения, называется слабо сходящейся (при п ) к функции F (х), если Fn(x) сходится к функции на множестве ее точек непрерывности.
2Данные заимствованы из работы [3]. В ней, в частности, исследовалась возможность разбиения испытываемых экземпляров растений (помидоров) в пространстве признаков, характеризующих различные процессы роста растении, на однородные группы.Этигруппы должны были выявить, и конечном счете, наличие трудноулавливаемых различий в исходных условиях выращивания (при постановке эксперимента эти условия предполагались, —и как выяснилось, небезосновательно! —одинаковыми для всех растений). Кстати, при исследовании было обнаружено, что первые две главные компоненты ^(1)иi/21содержат 80%от общей суммарной дисперсии всех 18 исходных признаков. При этом первую главную компоненту(у(1))удалось интерпретировать как характеристикуобщего состояниярастения, в то время как вторая главная компонента (y(2)) характеризовалапроцесс фотосинтеза.
3 Постановка задачи обсуждалась и принималась совместно с Н. М. Римашевской. Подбор и оформление исходных данных этого примера, их содержательный анализ был проведен Л. А. Левковой. В вычислительной части работы принимал участие П. Ф. Андрукович.
4Данные заимствованы из [4], а также из работы П. Ф. Андруковича, М. В. Друцкой, К. С. Кузнецовой, А. А. Назарова «Применение метода главных компонент для анализа производительности труда рабочих». — Сб.: Проблемы уровня жизни. М., ЦЭМИ АН СССР, 1972.
55Распространенный в литературе перевод «commen factor» как простой фактор, а не общий фактор, не несет в себе главной смысловой нагрузки этого термина: ведь смысл каждой из переменных в том, что она являетсяобщей для всех исходных признаковx(1), x(2), …,x(p)
66Требование независимости компонент у'11 и нормированности их дисперсий объясняется в основном соображениями идентификации модели, (см. выше).