Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
9_факторный анализ.doc
Скачиваний:
197
Добавлен:
01.02.2015
Размер:
823.81 Кб
Скачать
    1. Метод главных компонент (мгк): основные формулы и процедуры

Исходной для анализа является матрица данных

размерности , i-я строка которой характеризует i-е наблюдение (объект) по всем k показателям. Исходные данные нормируются , для чего вычисляются средние значения показателей, а также значения стандартных отклонений. Тогда матрица нормированных значений

с элементами

Рассчитывается матрица парных коэффициентов корреляции:

На главной диагонали матрицы расположены единичные элементы .

Модель компонентного анализа строится путем представления исходных нормированных данных в виде линейной комбинации главных компонент:

где — «вес», т.е. факторная нагрузка-й главной компоненты на-ю переменную;

—значение -й главной компоненты для-го наблюдения (объекта), где.

В матричной форме модель имеет вид

здесь - матрица главных компонент размерности,

- матрица факторных нагрузок той же размерности.

Матрица описываетнаблюдений в пространствеглавных компонент. При этом элементы матрицынормированы, a главные компоненты не коррелированы между собой. Из этого следует, что, где– единичная матрица размерности.

Элемент матрицыхарактеризует тесноту линейной связи между исходной переменнойи главной компонентой, следовательно, принимает значения.

Корреляционная матрица может быть выражена через матрицу факторных нагрузок.

По главной диагонали корреляционной матрицы располагаются единицы и по аналогии с ковариационной матрицей они представляют собой дисперсии используемых -признаков, но в отличие от последней, вследствие нормировки, эти дисперсии равны 1. Суммарная дисперсия всей системы-признаков в выборочной совокупности объемаравна сумме этих единиц, т.е. равна следу корреляционной матрицы.

Корреляционная матриц может быть преобразована в диагональную, то есть матрицу, все значения которой, кроме диагональных, равны нулю:

,

где - диагональная матрица, на главной диагонали которой находятся собственные числакорреляционной матрицы,- матрица, столбцы которой – собственные вектора корреляционной матрицы. Так как матрица R положительно определена, т.е. ее главные миноры положительны, то все собственные значениядля любых.

Собственные значения находятся как корни характеристического уравнения

Собственный вектор , соответствующий собственному значениюкорреляционной матрицы, определяется как отличное от нуля решение уравнения

Нормированный собственный вектор равен

Превращение в нуль недиагональных членов означает, что признаки становятся независимыми друг от друга (при).

Суммарная дисперсия всей системы переменных в выборочной совокупности остается прежней. Однако её значения перераспределяется. Процедура нахождения значений этих дисперсий представляет собой нахождение собственных значенийкорреляционной матрицы для каждого из-признаков. Сумма этих собственных значенийравна следу корреляционной матрицы, т.е., то есть количеству переменных. Эти собственные значения и есть величины дисперсии признаковв условиях, если бы признаки были бы независимыми друг от друга.

В методе главных компонент сначала по исходным данным рассчитывается корреляционная матрица. Затем производят её ортогональное преобразование и посредством этого находят факторные нагрузки для всехпеременных ифакторов (матрицу факторных нагрузок), собственные значенияи определяют веса факторов.

Матрицу факторных нагрузок А можно определить как , а-й столбец матрицы А — как.

Вес факторов илиотражает долю в общей дисперсии, вносимую данным фактором.

Факторные нагрузки изменяются от –1 до +1 и являются аналогом коэффициентов корреляции. В матрице факторных нагрузок необходимо выделить значимые и незначимые нагрузки с помощью критерия Стьюдента .

Сумма квадратов нагрузок -го фактора во всех-признаках равна собственному значению данного фактора. Тогда-вклад i-ой переменной в % в формировании j-го фактора.

Сумма квадратов всех факторных нагрузок по строке равна единице, полной дисперсии одной переменной, а всех факторов по всем переменным равна суммарной дисперсии (т.е. следу или порядку корреляционной матрицы, или сумме её собственных значений) .

В общем виде факторная структура i–го признака представляется в форме , в которую включаются лишь значимые нагрузки. Используя матрицу факторных нагрузок можно вычислить значения всех факторов для каждого наблюдения исходной выборочной совокупности по формуле:

,

где – значение j-ого фактора у t-ого наблюдения,-стандартизированное значение i–ого признака у t-ого наблюдения исходной выборки;–факторная нагрузка,–собственное значение, отвечающее фактору j. Эти вычисленные значенияшироко используются для графического представления результатов факторного анализа.

По матрице факторных нагрузок может быть восстановлена корреляционная матрица: .

Часть дисперсии переменной, объясняемая главными компонентами, называется общностью

,

где - номер переменной, а-номер главной компоненты. Восстановленные только по главным компонентам коэффициенты корреляции будут меньше исходных по абсолютной величине, а на диагонали будут не 1, а величины общностей.

Удельный вклад -й главной компоненты определяется по формуле

.

Суммарный вклад учитываемых главных компонент определяется из выражения

.

Обычно для анализа используют первых главных компонент, вклад которых в суммарную дисперсию превышает 60—70%.

Матрица факторных нагрузок А используется для интерпретации главных компонент, при этом обычно рассматриваются те значения, которые превышают 0,5.

Значения главных компонент задаются матрицей

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]