
Количественные методы аншtиза данных в СИ
Факторный анализ.
В пространстве признаков можно решать задачи двух видов:
исследование структуры переменных (например, ценностей, мотивов, предпочтений и т.п.);
«снижение размерности» - конструирование относительно небольшого количества новых переменных, которые содержали бы в себе основную часть информации из имеющихся переменных (например, построение шкал психологического теста.)
У2
Yl
Два основных подхода к решению задачи снижения размерности:
1. геометрический: преобразовать имеющиеся переменные средствами математики (метод главных компонент - Principal Coтponents);
2. статистический: найти скрытые (латентные) факторы, которые влияют на ответы респондентов и, соответственно, на корреляцию между переменными (факторный анапиз=Еааое Analysis).
Модель метода г лавных компонент:
У1 =a11Z1 +a12Z2 + +a1nzn
У2 =a21Z1 +a22Z2 + +a2nZn
Yk = aklz1 + ak2Z2 + ... + aknzn или, в более общем виде:
11
У;= Lauz1' J=I
где z1 - стандартизированная переменная х1 , i = 1, k , причем k значительно меньше п.
Коэффициенты alf выбираются таким образом, чтобы выполнялись следующие условия:
1. s2 (У;)= А;, где А; - i -тое собственное значение матрицы корреляций для переменных
п
х1 , ••• , х11, сумма собственных значений L А; = п; i=]
s2(Y1)~s2(yJ~ ... ~s2(yk);
Переменные у; не коррелируют друг с другом.
Терещенко О .В. Факторный анализ
1
Количественные методы анализа данных в СИ
Модель факторного анализа:
х1
Существуют k скрытых (латентных) факторов (установок, мотивов и т.п.), от которых зависят все ответы респондентов на все вопросы (переменные), поэтому переменные можно представить как линейную комбинацию этих факторов:
Z1 = а11У1 + а21У2 + ··· + ak1Yk
Z2 = а12У1 + а22У2 + ··· + ak2Yk
zп = ak11Y1 + аkпУ2 + ··· + aknyk или, в более общем виде:
k
z1 = IauY;' i=I
где zJ - стандартизированная переменная х J , i = 1, k , причем k значительно меньше п.
Метод главных компонент может работать с количественными, порядковыми и дихотомическими переменными, метод факторного анализа - только с количественными и порядковыми.
Коэффициенты аи называются нагрузками исходных переменных Хр х2 , ••• , х11 на главные компоненты или факторы у1, у 2 , ••• ,у k • Результаты метода главных компонент и факторного анализа одинаково представляются и интерпретируются.
р
Терещенко О .В. Факторный анализ
|
" ·~ |
__ -- --1 .... - .......•..•. М_ ..1..'t'.&."""".1.IJz..1.цn.1. Ll.UJ. µ_yJU.1\.. |
|
|
|
|||||||||||||||||
- |
|
|
|
Yk |
|
h2 |
||||||||||||||||
|
|
Yl |
У2 |
... |
|
|
} |
|||||||||||||||
|
|
|
|
|
|
|
k |
|
||||||||||||||
Zl |
а11 |
а21 |
... |
ak1 |
Iai~ |
|||||||||||||||||
|
|
|
|
|
|
|
i=I |
|||||||||||||||
|
|
|
|
|
|
|
k |
|
||||||||||||||
Z2 |
а12 |
а22 |
... |
ak2 |
,La}2 |
|||||||||||||||||
|
|
|
|
|
|
|
i=I |
|||||||||||||||
|
|
|
|
|
. .. |
. .. |
|
. .. |
||||||||||||||
... |
. .. |
. .. |
|
|
|
|
||||||||||||||||
|
|
|
k |
|||||||||||||||||||
Zn |
aln |
а2п |
... |
akn |
,La;~, |
|||||||||||||||||
|
|
|
|
|
|
|
i=I |
|||||||||||||||
|
|
|
|
|
|
п |
|
k |
||||||||||||||
V; |
11 |
11 |
... |
,La~ |
,LV; |
|||||||||||||||||
Ia12 |
Ia~j |
|
||||||||||||||||||||
|
|
J |
|
J=I |
i=I |
|||||||||||||||||
|
|
j 1 |
j-1 |
|
|
|
||||||||||||||||
,LV;/п |
Vi/п |
(Vi + VJ/п |
... |
tV;/п |
tV;/п |
2
Количественные методы анализа данных в СИ
Дисперсия переменной является показателем (мерой) ее информативности: чем больше дисперсия, тем сильнее отличаются друг от друга объекты из выборки, тем больше информации мы получаем о каждом из них (если объекты друг от друга не отличаются, дисперсия равна О, и переменная никакой информации не несет).
Каждая из стандартизированных переменных zpz2,.",zn, соответствующих исходным переменным ХрХ2,".,хп, имеют дисперсию равную 1. Их суммарная дисперсия (общее количество содержащейся в них информации) равна п.
Сумма квадратов нагрузок по строке j ( h1 ) называется общностью переменной z 1 и показывает, какая доля информации из переменной z1 сохранилась в новых переменных уру2 ,".,yk.
Сумма квадратов нагрузок по столбцу i ( V;) является дисперсией новой переменной У; и показывает количество содержащейся в ней информации. Сумма дисперсий Vi, V2 ,"., Vk показывает общую информативность новых переменных у1' у 2 ,".,у k •