
- •9 Факторный анализ
- •9.1 Общие представления о факторном анализе
- •Сущность факторного анализа
- •Проверка целесообразности выполнения факторного анализа
- •Основные модели факторного анализа
- •Метод главных компонент (мгк): основные формулы и процедуры
- •Проблема числа факторов
- •Методы (алгоритмы) факторного анализа
- •Проблема вращения и интерпретации
- •Главные факторы в сравнении с главными компонентами.
- •Данные для проведения факторного анализа (учебный пример)
- •3. Примеры факторного анализа
- •Предварительно преобразуем исходные значения признаков выборочной совокупности к нормированному и центрированному виду (таблица 6).
- •Корреляционная матрица
- •Литература
Метод главных компонент (мгк): основные формулы и процедуры
Исходной для анализа является матрица данных
размерности
,
i-я строка которой характеризует i-е
наблюдение (объект) по всем k показателям
.
Исходные данные нормируются , для чего
вычисляются средние значения показателей
,
а также значения стандартных отклонений
.
Тогда матрица нормированных значений
с
элементами
Рассчитывается матрица парных коэффициентов корреляции:
На
главной диагонали матрицы расположены
единичные элементы
.
Модель компонентного анализа строится путем представления исходных нормированных данных в виде линейной комбинации главных компонент:
где
—
«вес», т.е. факторная нагрузка
-й
главной компоненты на
-ю
переменную;
—значение
-й
главной компоненты для
-го
наблюдения (объекта), где
.
В матричной форме модель имеет вид
здесь
- матрица главных компонент размерности
,
-
матрица факторных нагрузок той же
размерности.
Матрица
описывает
наблюдений в пространстве
главных компонент. При этом элементы
матрицы
нормированы, a главные компоненты не
коррелированы между собой. Из этого
следует, что
,
где
– единичная матрица размерности
.
Элемент
матрицы
характеризует тесноту линейной связи
между исходной переменной
и главной компонентой
,
следовательно, принимает значения
.
Корреляционная
матрица
может быть выражена через матрицу
факторных нагрузок
.
По
главной диагонали корреляционной
матрицы располагаются единицы и по
аналогии с ковариационной матрицей они
представляют собой дисперсии используемых
-признаков,
но в отличие от последней, вследствие
нормировки, эти дисперсии равны 1.
Суммарная дисперсия всей системы
-признаков
в выборочной совокупности объема
равна сумме этих единиц, т.е. равна следу
корреляционной матрицы
.
Корреляционная матриц может быть преобразована в диагональную, то есть матрицу, все значения которой, кроме диагональных, равны нулю:
,
где
- диагональная матрица, на главной
диагонали которой находятся собственные
числа
корреляционной матрицы,
- матрица, столбцы которой – собственные
вектора корреляционной матрицы
.
Так как матрица R положительно определена,
т.е. ее главные миноры положительны, то
все собственные значения
для любых
.
Собственные
значения
находятся как корни характеристического
уравнения
Собственный
вектор
,
соответствующий собственному значению
корреляционной матрицы
,
определяется как отличное от нуля
решение уравнения
Нормированный
собственный вектор
равен
Превращение
в нуль недиагональных членов означает,
что признаки становятся независимыми
друг от друга (при
).
Суммарная
дисперсия всей системы
переменных в выборочной совокупности
остается прежней. Однако её значения
перераспределяется. Процедура нахождения
значений этих дисперсий представляет
собой нахождение собственных значений
корреляционной матрицы для каждого из
-признаков.
Сумма этих собственных значений
равна следу корреляционной матрицы,
т.е.
,
то есть количеству переменных. Эти
собственные значения и есть величины
дисперсии признаков
в условиях, если бы признаки были бы
независимыми друг от друга.
В
методе главных компонент сначала по
исходным данным рассчитывается
корреляционная матрица. Затем производят
её ортогональное преобразование и
посредством этого находят факторные
нагрузки
для всех
переменных и
факторов (матрицу факторных нагрузок),
собственные значения
и определяют веса факторов.
Матрицу
факторных нагрузок А можно определить
как
,
а
-й
столбец матрицы А — как
.
Вес
факторов
или
отражает долю в общей дисперсии, вносимую
данным фактором.
Факторные
нагрузки изменяются от –1 до +1 и являются
аналогом коэффициентов корреляции. В
матрице факторных нагрузок необходимо
выделить значимые и незначимые нагрузки
с помощью критерия Стьюдента
.
Сумма
квадратов нагрузок
-го
фактора во всех
-признаках
равна собственному значению данного
фактора
.
Тогда
-вклад
i-ой переменной в % в формировании j-го
фактора.
Сумма
квадратов всех факторных нагрузок по
строке равна единице, полной дисперсии
одной переменной, а всех факторов по
всем переменным равна суммарной дисперсии
(т.е. следу или порядку корреляционной
матрицы, или сумме её собственных
значений)
.
В
общем виде факторная структура i–го
признака представляется в форме
,
в которую включаются лишь значимые
нагрузки. Используя матрицу факторных
нагрузок можно вычислить значения всех
факторов для каждого наблюдения исходной
выборочной совокупности по формуле:
,
где
– значение j-ого фактора у t-ого
наблюдения,
-стандартизированное
значение i–ого признака у t-ого наблюдения
исходной выборки;
–факторная нагрузка,
–собственное значение, отвечающее
фактору j. Эти вычисленные значения
широко используются для графического
представления результатов факторного
анализа.
По
матрице факторных нагрузок может быть
восстановлена корреляционная матрица:
.
Часть дисперсии переменной, объясняемая главными компонентами, называется общностью
,
где
- номер переменной, а
-номер главной компоненты. Восстановленные
только по главным компонентам коэффициенты
корреляции будут меньше исходных по
абсолютной величине, а на диагонали
будут не 1, а величины общностей.
Удельный
вклад
-й
главной компоненты определяется по
формуле
.
Суммарный
вклад учитываемых
главных компонент определяется из
выражения
.
Обычно
для анализа используют
первых главных компонент, вклад которых
в суммарную дисперсию превышает 60—70%.
Матрица факторных нагрузок А используется для интерпретации главных компонент, при этом обычно рассматриваются те значения, которые превышают 0,5.
Значения главных компонент задаются матрицей