
Blizorukov_kolich_metodi
.pdf
Метод многомерной средней
между признаками. Обычно число существенных (независимых) факторов гораздо меньше числа измеряемых признаков. Суть факторного анализа состоит в переходе от описания системы большим набором косвенных признаков к описанию той же системы меньшим числом максимально информативных факторов. Важная отличительная черта факторного анализа – возможность одновременного исследования сколь угодно большого числа взаимозависимых переменных, что особенно значимо при описании со- циально-экономических явлений [12].
Идея метода состоит в сжатии матрицы признаков в матрицу с меньшим числом переменных, сохраняющую почти ту же самую информацию, что и исходная матрица.
71

Глава
Обычно применяется линейная модель факторного анализа, в которой полагается представление исходных переменных (признаков) в виде линейной комбинации факторов. С геометрической точки зрения задача факторного анализа аналогична поиску оптимального базиса (базиса наименьшей размерности с заданной точностью представления объектов).
Идея факторного анализа, по-видимому, принадлежит Карлу Пирсону [9]. В 1901 году он предложил метод главных компонент – наиболее используемый метод решения задач факторного анализа. Этот метод был вновь открыт Хоттелингом в 1933 году. Со второй половины прошлого века факторный анализ получил признание как универсальный метод компактного представления больших массивов статистических и экспериментальных данных. Ему
72

Метод многомерной средней
посвящено большое количество публикаций, обратившись к которым можно получить сведения различной степени детализации и строгости [14, 17, 21, 26]. В настоящее время факторный анализ широко используется для обработки данных в различных областях естествознания, в первую очередь, в математическом моделировании, экономике, социологии, психологии. Достаточно широкий круг практических задач, решаемых этим методом, описан в работах [12, 25]. Особенно следует подчеркнуть, что факторный анализ представляется чрезвычайно действенным методом борьбы с таким нежелательным явлением множественного регрессионного анализа и эконометрики, как мультиколлинеарность. Факторный анализ – неотъемлемая часть компьютерных систем обработки статистических данных, алгоритм главных компонент реализован практически во всех стандартных пакетах [2, 7, 9, 24].
4.1. Постановка задачи. Линейная модель факторного анализа
Пусть проводится р наблюдений над n признаками Х1, Х2, ..., Хn. Под наблюдениями понимаем набор из р однотипных объектов для каждого из которых фиксируются значения заданного набора из n признаков. Таким образом, исходными данными служит набор из n p-мерных векторов:
73

Глава
x |
|
x |
|
|
x |
|
|
||||
|
1 |
|
|
|
21 |
|
|
|
n1 |
|
|
x12 |
|
x2 |
|
xn2 |
|
||||||
X1 = |
|
|
X2 = |
|
|
Xn = |
|
|
|||
|
|
|
|
|
|
||||||
|
|
|
|
|
|||||||
x |
|
x |
|
|
|
x |
|
|
|
||
|
1p , |
|
2 p , … , |
|
np |
, |
которые, так же, как и в кластерном анализе, можно представить в виде матрицы
74

Метод многомерной средней
x |
x |
1 |
12 |
χ = x21 |
x2 |
|
xp2 |
xp1 |
...x1n
...x2n
...xpn
=(X1,X2 ,...,Xn )
.
При этом предполагается, что все данные подвергнуты нормированию и центрированию в соответствии с (3.2.1).
Допустим, есть основания полагать, что количество этих признаков избыточно и рассматриваемый феномен в принципе может быть охарактеризован меньшим набором из m (m < n) определяющих признаков, которые и будем в дальнейшем называть основными факторами, или просто
– факторами:
75

Глава
|
f |
|
|
|
f |
|
|
|
f |
|
|
|
|
1 |
|
|
|
21 |
|
|
|
m1 |
|
|
f12 |
|
|
f2 |
|
|
fm2 |
|
|||
F1 = |
|
|
F2 = |
|
|
Fm = |
|
|
|
||
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
fmp |
|
|
|
f1p , |
|
f2 p , … , |
|
. |
Основным предположением линейной модели факторного анализа является предположение о том, что признаки выражаются через факторы линейно:
76

Метод многомерной средней
m |
|
|
Xi = ∑aik Fk +aiUi |
, i = 1, 2, …, n, |
|
k=1 |
||
|
||
(4.1.1) |
|
77

Глава
78

Метод многомерной средней
где Ui – некоторые «добавки», введение которых обусловлено строгим равенством, с одной стороны, и тем фактом, что m-мерный базис из факторов не обязательно окажется полным для исходного описания явления через
79

Глава
n векторов-признаков. Факторы Fk называются общими факторами, а переменные Ui специфическими факторами («специфический» – это лишь один из переводов применяемого в англоязычной литературе слова «unique», в отечественной литературе в качестве определения Ui используются также «характерный», «уникальный»). Значения aik называются факторными нагрузками. Каждое из уравнений системы (4.1.1) является векторным и может быть заменено на р скалярных уравнений. Таким образом, (4.1.1) естьсистемаpnскалярныхуравнений.Задача,подлежащая решению, – определение факторных нагрузок aik, а затем и самих факторов Fk. Очевидно, ее решение будет неоднозначным. По постановке задачи факторы должны быть линейно независимыми. Если набор Fk образует полный базис, то все Ui равны нулю. В противном случае в (4.1.1) будут присутствовать Ui, отличные от нуля. Такая ситуация возникает в случаях, когда число факторов меньше размерности пространства косвенных признаков, а признаки не могут быть линейно выражены через факторы. Последнее свидетельствует о неточности линейной модели. В любом случае, естественно предположить, что Ui и Fk линейно независимы.
Для дальнейшего анализа важно подробнее рассмотреть величины дисперсий и корреляции в рамках модели линейного факторного анализа.
80