- •§ 1. Meтод главных компонент
- •1. Определение главных компонент
- •2. Экстремальные свойства главных компонент. Их интерпретация
- •3. Статистические свойства выборочных главных компонент; статистическая проверка некоторых гипотез
- •4. Главные компоненты в задачах классификации
- •§ 2.Факторный анализ
- •1. Модель факторного анализа, ее интерпретация
1. Определение главных компонент
Будем предполагать, что исследуемые наблюдения X1, Х2, ..., ,... Хn извлечены из некоторой р-мерной генеральной совокупности (т.е. совокупности всех мыслимых наблюдений), определяемой соответствующей вероятностной мерой. Однако для приводимых здесь понятий из всех характеристик исследуемой генеральной совокупности существенное значение имеет лишь ковариационная матрица , где
Здесь a(i) компоненты вектора a средних значений признаков x(i). Поскольку, как легко видеть, элементы , матрицы не изменятся при замене признаков x(i) признаками (— произвольные постоянные числа), то будем в дальнейшем считать, что вектор средних значенийа = 0, чего всегда можно добиться, рассматривая в качестве исходных признаков x(1), x(2), …,x(p) не сами измерения (v = 1, 2, ..., п), а их отклонения от своих выборочных средних значений, т.е. полагая
где (4.1)
Назовем первой главной компонентой исследуемой генеральной совокупности наблюдений такую нормированную линейную комбинацию p исходных признаков x(1), x(2), …,x(p),
(4.2)
(здесь , причем ), которая среди всех прочих нормированных линейных комбинаций x(1), x(2), …,x(p) обладает наибольшей дисперсией.
И вообще, i-й главной компонентой исследуемой генеральной совокупности (i = 2,3, ..., р) будем называть такую нормированную линейную комбинацию р исходных признаков x(1), x(2), …,x(p),
(4.3)
которая среди всех прочих линейных нормированных комбинаций, некоррелированных со всеми предшествующими главными компонентами y(1), y(2), …,y(I-1) (т.е. cov (y(i), y(j)) = M(y(i)y(j))) = 0 для j<i), обладает наибольшей дисперсией.
Из определения следует, что, во-первых, главные компоненты y(1), y(2), …,y(p) занумерованы в порядке убывания их дисперсий, т.е. D y(1) D y(2) … D y(p), причем легко подсчитать
(4.4)
и, во-вторых, вектор, определяющий преобразование перехода от x(1), x(2), …,x(p) к y(i) является так называемым i-м собственным вектором ковариационной матрицы , т.е. его компоненты li1 ,li2 ,…,lip определяются как нормированное решение системы уравнений
(4.5)
где — i-й по величине корень уравнения
(4.6)
Под подразумевается определитель матрицы М, под I—так называемая единичная матрица, а под — неизвестное число. Из сопоставления (4.4), (4.5) и (4.6) вытекает, что
(4.7)
Таким образом, ковариационная матрица Y главных компонент y(1), y(2), …,y(p) будет иметь вид
(4.8)
Опираясь на то, что преобразование
с помощью которого осуществляется переход от исходных компонент Х к главным компонентам У (Y = LX), является ортогональным, нетрудно выразить исходные переменные x(1), x(2), …,x(p) через главные компоненты
(4.9)
(в матричной записи Х = L'Y), а также показать, что обобщенная дисперсия и сумма дисперсий (Dy(1) + D y(2) + … + D y(p)) главных компонент равны обобщенной дисперсии и сумме дисперсий (Dx(1) + D x(2) + … + D x(p)) исходных признаков.
Это дает исследователю некоторую основу, опорную точку зрения, при вынесении решения о том, сколько последних главных компонент можно без особого ущерба изъять из рассмотрения, сократив тем самым размерность исследуемого пространства.
Действительно, анализируя изменение относительной доли дисперсии
(4.10)
, вносимой первыми р' главными компонентами, в зависимости от числа этих компонент, можно разумно определить число компонент, которое целесообразно оставить в рассмотрении- Так, при изменении q (р'"), изображенном на рис. 4.2, очевидно целесообразно было бы сократить размерность пространства с р = 10 до р' = 3, так как добавление всех остальных семи главных компонент может повысить суммарную характеристику рассеяния не более чем на 10%.
Рис.
4.2. Изменение относительной доли
суммарной дисперсии исследуемых
признаков, обусловленной первыми p’
главными компонентами, в зависимости
отр’(случайр=10)
Замечание 1. В реальных задачах точное знание ковариационной матрицы является скорее исключением, чем правилом. Поэтому в тех случаях, когда неизвестна, данное выше определение следует использовать применительно к выборочной ковариационной матрице , элементы которой ij подсчитываются на основании имеющихся у нас наблюдений по формуле
, (4.11)
в которой — значение i-й компоненты исследуемого вектора X, замеренное на v-м объекте, — соответствующее центрированное наблюдение, а — среднее значение i-ой компоненты по всем обследованным объектам, т.е. .
Главные компоненты, вычисленные на основании элементов ij, выборочной матрицы , называют обычно выборочными главными компонентами, или главными компонентами выборки, в отличие от главных компонент генеральной совокупности. В тех случаях, когда нам важно будет отличать главные компоненты выборки от главных компонент генеральной совокупности, мы будем снабжать первые (и все их характеристики) «крышками» сверху, например, и т. д.
Замечание 2. Использование главных компонент оказывается наиболее естественным и плодотворным в ситуациях, в которых все компоненты x(1), x(2), …,x(p) исследуемого вектора Х имеют общую физическую природу и соответственно измерены в одних и тех же единицах. К таким примерам можно отнести исследование структуры бюджета времени индивидуумов (все x(i) измеряются в единицах времени), исследование структуры потребления семей (все x(i) измеряются в денежных единицах), исследование общего развития и умственных способностей индивидуумов с помощью специальных тестов (все x(i) измеряются в баллах), разного рода антропологические исследования индивидуумов (все x(i) измеряются в единицах меры длины) и т.д. Если же различные признаки x(1), x(2), …,x(p) измеряются в различных единицах, то результаты исследования с помощью главных компонент будут существенно зависеть от выбора масштаба и природы единиц измерения. Поэтому в подобных ситуациях исследователь предварительно переходит к вспомогательным безразмерным признакам x*(i), например, с помощью нормирующего преобразования
, (4.12)
где ii соответствует обозначениям формул (4.1) и (4.11), а затем строит главные компоненты относительно этих вспомогательных признаков X* и их ковариационной матрицы X, которая, как легко видеть, является одновременно выборочной корреляционной матрицей R исходных наблюдений Х.
Замечание З. В некоторых задачах оказывается полезным понятие так называемых обобщенных главных компонент, при определении которых оговаривают более общие (чем ) ограничения на коэффициенты lij, т. е. требуют, чтобы
где ij — некоторые дополнительно введенные веса. Очевидно, при kj = 1 при k =j и kj = 0 при мы имеем обычное условие нормировки коэффициентов lij и обычные главные компоненты. Можно показать[29], что при такой модификации условий нормировки коэффициенты , с помощью которых обобщенные главные компоненты у(i) выражаются через исходные признаки x(1), x(2), …,x(p) (4.1 и 4.2), определяются как решения уравнений
(4.5')
где — i-й по величине корень уравнения
(4.6')
а матрица = (ij), i, j = 1,2, ..., р, — некоторая положительно определенная матрица весов. При этом, как и прежде, дисперсия обобщенной главной компоненты у(i) равна , a у(i) и у(j) при i j взаимно некоррелированы.
Заметим, кстати, что если в качестве матрицы весов выбрать матрицу
,
то как легко показать, обобщенные компоненты (в метрике ), построенные по исходным признакам x(1), x(2), …,x(p) совпадут с обычными компонентами, построенными по вспомогательным безразмерным (нормированным) признакам x(1), x(2), …,x(p) (4.12),
Проиллюстрируем определение главных компонент на численном примере, заимствованном из [26].
Пример 1. По данным измерений (в мм) длины (), ширины () и высоты () панциря 24 особей (п = 24) одного из видов черепах по формуле (4.11) определена выборочная ковариационная матрица
.
Решая, в соответствии с (4.6), кубичное уравнение (относительно ) вида
находим
1=680,40; 2=6,50; 3=2,86.
Подставляя последовательно численные значения 1, 2 и 3 в систему (4.5) и решая эти системы относительно неизвестных li = (li1, li2, li3)' (i = 1, 2, 3), получаем
В качестве главных компонент получаем
y(1)=0,81x(1)+0,50x(2)+0,31x(3),
y(2)=0,55x(1)+0,83x(2)+0,10x(3),
y(2)=0,21x(1)+0,25x(2)+0,95x(3).
Здесь под x(1), x(2) и x(3)подразумеваются в соответствии с (4.1) отклонения размеров длины (), ширины () и высоты () панциря от своих средних значений.
Вычисление относительной доли суммарной дисперсии, обусловленной одной, двумя и тремя главными компонентами, в соответствии с формулой (4.10) дает
Отсюда можно сделать вывод, что почти вся информация о специфике размеров панциря данного вида черепах содержится в одной лишь первой главной компоненте, которую и естественно использовать при соответствующей классификации исследуемых особей.