Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Blizorukov_kolich_metodi

.pdf
Скачиваний:
19
Добавлен:
23.02.2015
Размер:
1.43 Mб
Скачать

Метод многомерной средней

между признаками. Обычно число существенных (независимых) факторов гораздо меньше числа измеряемых признаков. Суть факторного анализа состоит в переходе от описания системы большим набором косвенных признаков к описанию той же системы меньшим числом максимально информативных факторов. Важная отличительная черта факторного анализа – возможность одновременного исследования сколь угодно большого числа взаимозависимых переменных, что особенно значимо при описании со- циально-экономических явлений [12].

Идея метода состоит в сжатии матрицы признаков в матрицу с меньшим числом переменных, сохраняющую почти ту же самую информацию, что и исходная матрица.

71

Глава

Обычно применяется линейная модель факторного анализа, в которой полагается представление исходных переменных (признаков) в виде линейной комбинации факторов. С геометрической точки зрения задача факторного анализа аналогична поиску оптимального базиса (базиса наименьшей размерности с заданной точностью представления объектов).

Идея факторного анализа, по-видимому, принадлежит Карлу Пирсону [9]. В 1901 году он предложил метод главных компонент – наиболее используемый метод решения задач факторного анализа. Этот метод был вновь открыт Хоттелингом в 1933 году. Со второй половины прошлого века факторный анализ получил признание как универсальный метод компактного представления больших массивов статистических и экспериментальных данных. Ему

72

Метод многомерной средней

посвящено большое количество публикаций, обратившись к которым можно получить сведения различной степени детализации и строгости [14, 17, 21, 26]. В настоящее время факторный анализ широко используется для обработки данных в различных областях естествознания, в первую очередь, в математическом моделировании, экономике, социологии, психологии. Достаточно широкий круг практических задач, решаемых этим методом, описан в работах [12, 25]. Особенно следует подчеркнуть, что факторный анализ представляется чрезвычайно действенным методом борьбы с таким нежелательным явлением множественного регрессионного анализа и эконометрики, как мультиколлинеарность. Факторный анализ – неотъемлемая часть компьютерных систем обработки статистических данных, алгоритм главных компонент реализован практически во всех стандартных пакетах [2, 7, 9, 24].

4.1. Постановка задачи. Линейная модель факторного анализа

Пусть проводится р наблюдений над n признаками Х1, Х2, ..., Хn. Под наблюдениями понимаем набор из р однотипных объектов для каждого из которых фиксируются значения заданного набора из n признаков. Таким образом, исходными данными служит набор из n p-мерных векторов:

73

Глава

x

 

x

 

 

x

 

 

 

1

 

 

 

21

 

 

 

n1

 

x12

 

x2

 

xn2

 

X1 =

 

 

X2 =

 

 

Xn =

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

x

 

 

 

x

 

 

 

 

1p ,

 

2 p , … ,

 

np

,

которые, так же, как и в кластерном анализе, можно представить в виде матрицы

74

Метод многомерной средней

x

x

1

12

χ = x21

x2

 

xp2

xp1

...x1n

...x2n

...xpn

=(X1,X2 ,...,Xn )

.

При этом предполагается, что все данные подвергнуты нормированию и центрированию в соответствии с (3.2.1).

Допустим, есть основания полагать, что количество этих признаков избыточно и рассматриваемый феномен в принципе может быть охарактеризован меньшим набором из m (m < n) определяющих признаков, которые и будем в дальнейшем называть основными факторами, или просто

– факторами:

75

Глава

 

f

 

 

 

f

 

 

 

f

 

 

 

 

1

 

 

 

21

 

 

 

m1

 

 

f12

 

 

f2

 

 

fm2

 

F1 =

 

 

F2 =

 

 

Fm =

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

fmp

 

 

f1p ,

 

f2 p , … ,

 

.

Основным предположением линейной модели факторного анализа является предположение о том, что признаки выражаются через факторы линейно:

76

Метод многомерной средней

m

 

Xi = aik Fk +aiUi

, i = 1, 2, …, n,

k=1

 

(4.1.1)

 

77

Глава

78

Метод многомерной средней

где Ui – некоторые «добавки», введение которых обусловлено строгим равенством, с одной стороны, и тем фактом, что m-мерный базис из факторов не обязательно окажется полным для исходного описания явления через

79

Глава

n векторов-признаков. Факторы Fk называются общими факторами, а переменные Ui специфическими факторами («специфический» – это лишь один из переводов применяемого в англоязычной литературе слова «unique», в отечественной литературе в качестве определения Ui используются также «характерный», «уникальный»). Значения aik называются факторными нагрузками. Каждое из уравнений системы (4.1.1) является векторным и может быть заменено на р скалярных уравнений. Таким образом, (4.1.1) естьсистемаpnскалярныхуравнений.Задача,подлежащая решению, – определение факторных нагрузок aik, а затем и самих факторов Fk. Очевидно, ее решение будет неоднозначным. По постановке задачи факторы должны быть линейно независимыми. Если набор Fk образует полный базис, то все Ui равны нулю. В противном случае в (4.1.1) будут присутствовать Ui, отличные от нуля. Такая ситуация возникает в случаях, когда число факторов меньше размерности пространства косвенных признаков, а признаки не могут быть линейно выражены через факторы. Последнее свидетельствует о неточности линейной модели. В любом случае, естественно предположить, что Ui и Fk линейно независимы.

Для дальнейшего анализа важно подробнее рассмотреть величины дисперсий и корреляции в рамках модели линейного факторного анализа.

80

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]