Добавил:

Studfiles2 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Санкт-Петербургский государственный электротехнический университет "ЛЭТИ"

Предмет:

Анализ и интерпретация данных

Файл:

Классификация / glava4 / FOKINA / 1.DOC

Скачиваний:

Добавлен:

01.05.2014

Размер:

1.52 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 67 / 77

1. Модель факторного анализа, ее интерпретация

Как и в предыдущем параграфе, будем для удобства полагать исследуемые наблюдения X₁ X₂, ..., Х_nцентрированными. Переход от исходных наблюдений к центрированным осуществляется с помощью простого переноса начала координат в «центр тяжести» исходного множества наблюдений, т.е. (I=1,2, …,n).

Тогда описанная выше линейная модель факторного анализа формализуется с помощью соотношений

X=QY+U,

или в покомпонентной записи, (4.20) (i= 1, …,p).

Здесь Q = (q _ij) — прямоугольная матрица размера р x p’ коэффициентов линейного преобразования (нагрузок общих факторов на исследуемые признаки), связывающего исследуемые признаки x⁽ⁱ⁾ с ненаблюдаемыми (скрытыми) общими факторами y⁽¹⁾, y⁽²⁾, …, y⁽^p^’), а вектор-столбец U= (u⁽¹⁾, u⁽²⁾, …, u⁽^p^’)) определяет ту часть исследуемых признаков, которая не может быть объяснена общими факторами, в том числе u⁽ⁱ⁾) включает в себя, как правило, ошибки измерения признака x⁽ⁱ⁾.

Применительно к каждому конкретному наблюдению X_v (v = 1, 2, ..., n) соотношение (4.20) дает

X_v=QY_v+U_v,

или в покомпонентной записи, (4.20’) (i= 1, …,p;v=1, …,n).

Будем предполагать, что вектор остаточных специфических факторов U подчиняется p-мерному нормальному распределению N (О, V), не зависит от Y и состоит из взаимно независимых компонент, т. е. его ковариационная матрица V=M(UU') имеет диагональный вид, где но диагонали стоят элементы v_ii == Du⁽ⁱ⁾.

Вектор общих факторов Y =(y⁽¹⁾, ...,⁽^p^’))', в зависимости от содержания конкретной задачи, может интерпретироваться либо как p’-мерная нормальная случайная величина со средним MY = 0 (в силу центрированности исходных наблюдений) и с ковариационной матрицей специального вида MYY’=I^⁶, либо как вектор неизвестных неслучайных параметров, вспомогательных переменных, значения которых меняются от наблюдения к наблюдению. При последней интерпретации вектора общих факторов более правильной является запись модели в виде (4.20'), причем условия центрированности независимости и нормированности дисперсий компонент вектора У в этом случае имеют вид:

Однако при обоих вариантах интерпретации вектора общих факторов Y исследуемый вектор наблюдений Х оказывается нормально распределенной p'-мерной случайной величиной: при первом варианте как линейная комбинация двух нормальных случайных векторов (Y и U), а при втором варианте за счет нормальности специфических факторов и⁽ⁱ⁾. При этом из (4.20) и из сделанных выше допущений немедленно следует, что

(4.21)

или в матричной записи

МX =0, =QQ’+V.

Примером достаточно прозрачной интерпретации модели факторного анализа может служить ее формулировка в терминах так называемых интеллектуальных тестов. При этом наблюдение по признаку выражает отклонение оценки, например, в баллах, даннойi-му индивидууму на экзамене по i-му тесту, от некоторого среднего уровня. Естественно предположить, что в качестве ненаблюдаемых общих факторов y⁽¹⁾, ...,y⁽^p^’), от которых будут зависеть, оценки индивидуумов по всем р тестам, выступят такие факторы, как характеристика общей одаренности индивидуума y⁽¹⁾, характеристики его математических y⁽²⁾, технических y⁽³⁾ или гуманитарных y⁽⁴⁾ способностей.

Отметим, что соотношения (4.20) в точности воспроизводят модели множественной регрессии и дисперсионного анализа [26], в которых под y⁽ⁱ⁾ (i = 1, 2, …, р') понимаются так называемые независимые переменные (факторы-аргументы). Однако принципиальное отличие модели факторного анализа от регрессионных схем и дисперсионного анализа состоит в том, что переменные y⁽ⁱ⁾, выступающие в роли аргументов во всех этих моделях, не являются непосредственно наблюдаемыми в моделях факторного анализа, в то время как в регрессионном и в дисперсионном анализе значения y⁽ⁱ⁾ измеряются на исследуемых объектах .

Замечание. Связь метода главных компонент и метода факторного анализа. Рассмотрим следующую общую схему, включающую в себя в качестве частных случаев обе сравниваемые модели. Примем гипотезу, что существуют такие взаимно некоррелированные факторы y⁽¹⁾, y⁽²⁾, ... (быть может, в неограниченном число), что

(4.22)

или в матричной записи

Х = AY,

где о случайных переменных у⁽¹⁾, у⁽²⁾, … без ограничения общности можно предположить, что

Dу⁽ⁱ⁾ = 1.

Очевидно, представление (4.22), если оно существует, не единственно, так как переходя от Y с помощью произвольного ортогонального преобразования C к новым переменным Z=CY будем иметь вместо (4.22)

Х = BZ. (4.23)

Исследователю не известны коэффициенты а_ij, но он хочет научиться наилучшим (в некотором смысле) образом аппроксимировать признаки x⁽¹⁾, x⁽²⁾, …, x⁽^p⁾ с помощью линейных функции or небольшого (за-ранее определенного) числа т факторов y⁽¹⁾(т), y⁽²⁾(т), ..., у^m(т), которые поэтому естественно назвать главными или общими. Аппроксимация признаков Х с помощью y⁽¹⁾(т), y⁽²⁾(т), ..., у^m(т) означает представление Х в виде (4.22), но с «урезанной» суммой, стоящей в правой части, т. е.

где А_m - матрица, составленная из первых т столбцов матрицы A, а Y(m) = (y⁽¹⁾(т), y⁽²⁾(т), ..., у⁽^m⁾(т))'.

Оказывается, что по-разному формулируя критерий оптимальности аппроксимации Х с помощью Y (m), мы придем либо к главным компонентам, либо к общим факторам. Так, например, если определение элементов матрицы A_m подчинить идее минимизации отличия ковариационной матрицы  исследуемого вектора Х от ковариационной матрицы аппроксимирующего вектора (в смысле минимизации евклидовой нормы || || ), то у⁽ⁱ⁾(т) определяется пропорционально i-й главной компоненте вектора X, в частности у⁽ⁱ⁾(т) = , где _i - i-й по величине характеристический корень ковариационной матрицы , a у⁽ⁱ⁾ — i-я главная компонента X; i-й столбец матрицы A(т) (i = 1, ..., т) есть где — собственный вектор матрицы , соответствующий характеристическому корню _i.

Если же определение аппроксимирующего вектора Х(т) = В_mY(m) подчинить идее максимального объяснения корреляции между исходными признаками х⁽ⁱ⁾ и х⁽^j⁾ с помощью вспомогательных (ненаблюдаемых) факторов y⁽¹⁾(т), y⁽²⁾(т), ..., у⁽^m⁾(т) и, в частности, идее минимизации величины

(4.24)

при условии неотрицательности величин , то можно показать [29], [16], что i-я строка оптимальной в этом смысле матрицы преобразования В_m состоит из т факторных нагрузок общих факторов y⁽¹⁾(т), y⁽²⁾(т), ..., у⁽^m⁾(т) на i-и исходный признак x⁽ⁱ⁾ в модели факторного анализа вида (4.20). Другими словами, сущность задачи минимизации (по В_m и Y(т)) величины (4.24) состоит и следующем. Первый из т общих факторов y⁽¹⁾(т) находится из условия, чтобы попарные корреляции между исходными признаками были как можно меньше, если влияние на них этого фактора y⁽¹⁾(т) учтено. Следующий общий фактор у⁽²⁾(т) находится из условия максимального ослабления попарных корреляционных связей между исходными признаками, оставшихся после учета влияния первого общего фактора у⁽¹⁾(т) и т. д.

Из сказанного, в частности, следует, что методы главных компонент и факторного анализа должны давать близкие результаты в тех случаях, когда главные компоненты строятся по корреляционным матрицам исходных признаков, а остаточные дисперсии v_ii сравнительно невелики.

1 Последовательность функций F_n(x), в частности последовательность функций распределения, называется слабо сходящейся (при п  ) к функции F (х), если F_n(x) сходится к функции на множестве ее точек непрерывности.

2Данные заимствованы из работы [3]. В ней, в частности, исследовалась возможность разбиения испытываемых экземпляров растений (помидоров) в пространстве признаков, характеризующих различные процессы роста растении, на однородные группы.Этигруппы должны были выявить, и конечном счете, наличие трудноулавливаемых различий в исходных условиях выращивания (при постановке эксперимента эти условия предполагались, —и как выяснилось, небезосновательно! —одинаковыми для всех растений). Кстати, при исследовании было обнаружено, что первые две главные компоненты ^⁽¹⁾иi/²¹содержат 80%от общей суммарной дисперсии всех 18 исходных признаков. При этом первую главную компоненту(у⁽¹⁾)удалось интерпретировать как характеристикуобщего состояниярастения, в то время как вторая главная компонента (y⁽²⁾) характеризовалапроцесс фотосинтеза.

3 Постановка задачи обсуждалась и принималась совместно с Н. М. Римашевской. Подбор и оформление исходных данных этого примера, их содержательный анализ был проведен Л. А. Левковой. В вычислительной части работы принимал участие П. Ф. Андрукович.

4Данные заимствованы из [4], а также из работы П. Ф. Андруковича, М. В. Друцкой, К. С. Кузнецовой, А. А. Назарова «Применение метода главных компонент для анализа производительности труда рабочих». — Сб.: Проблемы уровня жизни. М., ЦЭМИ АН СССР, 1972.

5⁵Распространенный в литературе перевод «commen factor» как простой фактор, а не общий фактор, не несет в себе главной смысловой нагрузки этого термина: ведь смысл каждой из переменных в том, что она являетсяобщей для всех исходных признаковx⁽¹⁾, x⁽²⁾, …,x⁽^p⁾

6⁶Требование независимости компонент у'¹¹ и нормированности их дисперсий объясняется в основном соображениями идентификации модели, (см. выше).

<<< < Предыдущая 1 2 3 4 5 67 / 77