7.1.1. Метод главных компонент

Один из наиболее распространенных методов факторного анализа – метод главных компонент – состоит в последовательном поиске факторов. Вначале ищется первый фактор, который объясняет наибольшую часть дисперсии, затем не зависимый от него второй фактор, объясняющий наибольшую часть оставшейся дисперсии, и т. д. Описание всей математики построения факторов слишком сложно, поэтому для пояснения сути мы прибегнем к зрительным образам (рис. 7.2).

Геометрически это выглядит следующим образом. Для построения первого фактора берется прямая, проходящая через центр координат и облако рассеяния данных. Объектам можно сопоставить расстояния их проекций на эту прямую до центра координат, причем для одной из половин прямой (по отношению к нулевой точке) можно взять эти расстояния с отрицательным знаком. Такое построение представляет собой новую переменную, которую мы назовем осью. При построении фактора отыскивается такая ось, чтобы ее дисперсия была максимальна. Это значит, что данной осью объясняется максимум дисперсии переменных. Найденная ось после нормировки используется в качестве первого фактора. Если облако данных вытянуто в виде эллипсоида (имеет форму «огурца»), фактор совпадет с направлением, в котором вытянуты объекты, и по нему (по проекциям) с наибольшей точностью можно предсказать значения исходных переменных.

Для поиска второго фактора определяется ось, перпендикулярная первому фактору, также объясняющая наибольшую часть дисперсии, не объясненную первой осью. После нормировки эта ось становится вторым фактором. Если данные представляют собой плоский эллипсоид («блин») в трехмерном пространстве, два первых фактора позволяют в точности описать эти данные.

Максимально возможное число главных компонент равно количеству переменных. Сколько главных компонент необходимо построить для оптимального представления рассматриваемых исходных факторов?

Обозначим _kобъясненную главной компонентойF_kчасть суммарной дисперсии совокупности исходных факторов. По умолчанию в пакете предусмотрено продолжение построения факторов до тех пор, пока_к>1. Напомним, что переменные стандартизованы, и поэтому нет смысла строить очередной фактор, если он объясняет часть дисперсии, меньшую, чем приходящаяся непосредственно на одну переменную. При этом следует учесть, что₁>₂>₃, … .

К сведению читателя заметим, что значения _kявляются также собственными значениями корреляционной матрицыX_i, поэтому в выдаче они будут помечены текстомEIGEN VALUE, что в переводе означает «собственные значения».

Заметим, что техника построения главных компонент расходится с теоретическими предположениями о факторах: имеется m + nнезависимых факторов (включая уникальные), полученных методом главных компонент вn-мерном пространстве, что невозможно.

7.1.2. Интерпретация факторов

Как же понять, что скрыто в найденных факторах? Основной информацией, которую использует исследователь, являются факторные нагрузки. Для интерпретации необходимо приписать фактору термин. Этот термин появляется на основании анализа корреляций фактора с исходными переменными. Например, при анализе успеваемости школьников фактор имеет высокую положительную корреляцию с оценкой по алгебре, геометрии и большую отрицательную корреляцию с оценками по рисованию – он характеризует точное мышление.

Не всегда такая интерпретация возможна. Для повышения интерпретируемости факторов добиваются большей контрастности матрицы факторных нагрузок. Метод такого улучшения результата называется методом вращения факторов. Его суть состоит в следующем: если мы будем вращать координатные оси, образуемые факторами, мы не потеряем в точности, представляя данные через новые оси, и не беда, что при этом факторы не будут упорядочены по величине объясненной ими дисперсии, зато у нас появляется возможность получить более контрастные факторные нагрузки. Вращение состоит в получении новых факторов – в виде специального вида линейной комбинации имеющихся факторов:

Чтобы не вводить новые обозначения, факторы и факторные нагрузки, полученные вращением, будем обозначать их теми же символами, что и до вращения. Для достижения цели интерпретируемости существует достаточно много методов, которые состоят в оптимизации подходящей функции от факторных нагрузок. Мы рассмотрим реализуемый пакетом метод varimax.Этот метод состоит в максимизации «дисперсии» квадратов факторных нагрузок для переменных:

Чем сильнее разойдутся квадраты факторных нагрузок к концам отрезка [0,1], тем больше будет значение целевой функции вращения, тем четче интерпретация факторов.

<<< < Предыдущая 45 46 47 48 49 50 51 52 53 54 55 5657 / 6957 58 59 60 61 62 63 64 65 66 67 68 69 > Следующая >>>