Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Факторный анализ.doc
Скачиваний:
11
Добавлен:
25.08.2019
Размер:
761.86 Кб
Скачать

Условное представление модели факторного анализа

На рисунке 5.1 F1, F2, F3 – факторы, каждый из которых влияет на определенную совокупность переменных; x1, x2,.. ,x7 – переменные, формируемые на основании ответов опрашиваемых; U1, U2,...,U7 – уникальные факторы, влияющие на соответствующие переменные.

На рисунке 5.1 F1, F2, F3 – факторы, каждый из которых влияет на определенную совокупность переменных; x1, x2,.. ,x7 – переменные, формируемые на основании ответов опрашиваемых; U1, U2,...,U7 – уникальные факторы, влияющие на соответствующие переменные.

Факторы F построены так, чтобы наилучшим способом (с минимальной погрешностью) представить Х. В этой модели "скрытые" переменные Fk называются общими факторами, а переменные Ui специфическими факторами ("специфический" -это лишь один из переводов применяемого в англоязычной литературе слова Unique, в отечественной литературе в качестве определения Ui встречаются также слова "характерный", "уникальный"). Значения aik называются факторными нагрузками.

Обычно (хотя и не всегда) предполагается, что Xi стандартизованы ( =1, Xi=0), а факторы F1,F2,…,Fm независимы и не связаны со специфическими факторами Ui (хотя существуют модели, выполненные в других предположениях). Предполагается также, что факторы Fi стандартизованы.

В этих условиях факторные нагрузки aik совпадают с коэффициентами корреляции между общими факторами и переменными Xi. Дисперсия Xi раскладывается на сумму квадратов факторных нагрузок и дисперсию специфического фактора:

, где

Величина называется общностью, - специфичностью. Другими словами, общность представляет собой часть дисперсии переменных, объясненную факторами, специфичность - часть не объясненной факторами дисперсии.

В соответствии с постановкой задачи, необходимо искать такие факторы, при которых суммарная общность максимальна, а специфичность - минимальна.

Анализ главных компонент.

Один из наиболее распространенных методов поиска факторов, метод главных компонент, состоит в последовательном поиске факторов. Пример, в котором две коррелированные переменные объединены в один фактор, показывает главную идею факторного анализа или, более точно, анализа главных компонент (это различие будет обсуждаться позднее). Если пример с двумя переменными распространить на большее число переменных, то вычисления становятся сложнее, однако основной принцип представления двух или более зависимых переменных одним фактором остается в силе.

Вначале ищется первый фактор, который объясняет наибольшую часть дисперсии, затем независимый от него второй фактор, объясняющий наибольшую часть оставшейся дисперсии, и т.д.

Смысл рисунка 5.2 в следующем. Для построения первого фактора берется прямая, проходящая через начало координат и облако рассеяния данных. Объектам можно сопоставить расстояния их проекций на эту прямую до центра координат, причем для одной из половин прямой (по отношению к нулевой точке) можно взять эти расстояния с отрицательным знаком. Такое построение представляют собой новую переменную, которую мы назовем осью. При построении фактора отыскивается такая ось, чтобы дисперсия переменных вокруг оси была минимальна. (Заметим, что в определенном смысле эта первая ось строится по той же модели, что регрессионная прямая в регрессионном анализе). Это означает, что этой осью объясняется максимум дисперсии переменных. Найденная ось после нормировки используется в качестве первого фактора. Если облако данных вытянуто в виде эллипсоида (имеет форму "огурца"), фактор совпадет с направлением, в котором вытянуты объекты, и по нему (по проекциям) с наибольшей точностью можно предсказать значения исходных переменных.

Условное представление модели главных компонент.

Рисунок 5.2

Для поиска второго фактора ищется ось, перпендикулярная первому фактору, также объясняющая наибольшую часть дисперсии, не объясненной первой осью. После нормировки эта ось становится вторым фактором. Если данные представляют собой плоский элипсоид ("блин") в трехмерном пространстве, два первых фактора позволяют в точности описать эти данные.

Таким образом, факторы последовательно выделяются один за другим. Так как каждый последующий фактор определяется так, чтобы максимизировать изменчивость, оставшуюся от предыдущих, то факторы оказываются независимыми друг от друга. Другими словами, некоррелированными или ортогональными.

Сколько факторов следует выделять? Максимально возможное число главных компонент равно количеству переменных. Иными словами, если мы хотим на 100% описать значения n переменных, то для этого потребуется столько же, то есть n главных компонент. Сколько главных компонент необходимо построить для оптимального представления рассматриваемых исходных переменных? Имеются некоторые рекомендации, позволяющие рационально выбрать число факторов.

Обозначим k объясненную главной компонентой Fk часть суммарной дисперсии совокупности исходных факторов. По умолчанию, в пакете предусмотрено продолжать строить факторы, пока к>1. Напомним, что переменные стандартизованы, и поэтому нет смысла строить очередной фактор, если он объясняет часть дисперсии, меньшую, чем приходящуюся непосредственно на одну переменную. При этом следует учесть, что 1>2>3,….

К сведению читателя заметим, что значения k являются собственными значениями корреляционной матрицы Xi, поэтому в выдаче они будут помечены текстом "EIGEN VALUE" (собственные значения).

Целесообразно отбирать столько факторов, сколько существует собственных чисел корреляционной матрицы, больших единицы. Данный критерий называется критерием Кайзера.

Второй подход базируется на том, что мы сами будем отбирать число факторов, ориентируясь на то, что бы это число факторов объясняло требуемый процент общей исходной дисперсии. Например, если исследователь решает, что факторная модель должна объяснять не менее 75% общей дисперсии исходных переменных. На какой процент объясненной дисперсии необходимо ориентироваться? Не существует каких-то убедительных рекомендаций по определению этого процента, кроме одной, вполне очевидной: «Чем больше, тем лучше». В социологии, как правило, встречаются факторные модели, в которых объясняется 60-75% дисперсии, хотя можно примеры и с большими, и с меньшими процентами.

Существует еще один подход, который базируется на методе, так называемой, «каменной осыпи». Суть метода в следующем. Строится график, в котором по оси абсцисс откладываются номера факторов, а по оси ординат – значения собственных чисел, для каждого из факторов. Пример такого рода графика для модели таблицы 5.1 показан на рисунке 5.5. Как говорилось в начале, все собственные числа в методе главных компонент вычисляются в порядке убывания, поэтому график будет представлять собой понижающуюся кривую. Далее на этом графике ищутся точки, в которых происходит более, или менее резкое понижение. Но этот метод часто носит субъективный характер.

Важно понимать, что ни один из изложенных подходов к определению числа факторов не дает нам доказательных оснований по отбору числа факторов.