2.6. Геометрическая интерпретация главных компонент на плоскости
Пусть в соответствии со статистической гипотезой порождения матрицы данных Х в n-мерном пространстве признаков существует многомерное нормальное распределение с плотностью вероятности f(x/,). Для стандартизованной матицы Х мы полагаем, что
![]()
Проведем ортогональное преобразование матрицы данных Х в новую матрицу данных Y = ХА, где А - матрица, столбцами которой являются собственные векторы корреляционной матрицы R. Тем самым мы перешли в новое признаковое пространство, образованное ортонормированным базисом линейного преобразования R. Очевидно, что в новом признаковом пространстве задано нормальное распределение с плотностью вероятности
![]()
Так как =ATRA, то -1=( ATRA)-1= A-1R-1(AТ)-1=AТR-1A,

Пусть n == 2, тогда двухмерное нормальное распределение имеет вид

Рассмотрим
уравнение
=p,
p>0.
Из курса аналитической геометрии
известно, что
это
уравнение линии второго порядка. При
заданном
p и найденных
и
данная линия является линией постоянного
значения плотности вероятности
Преобразуем
данное уравнение линии второго порядка
к каноническому виду
Так как
>
>0,
то
данное
уравнение является каноническим
уравнением эллипса в системе координат,
образованной собственными векторами,
которые соответствуют собственным
числам
и .
Если r>0, то =1+г и = I -r и система главных компонент y10y2 повернута на 45" относительно исходной системы координат x10x2. Если г<0, то =1-г и = 1+r и система
39
главных компонент y10y2 повернута на 135° относительно x10x2.
Если г==0, то
=
=1.
Тогда уравнение эллипса представляет
собой уравнение окружности
радиуса
.
В этом случае система главных компонент
y10y2
может быть ориентирована в любом
направлении, то есть любое направление
является главным для такого линейного
преобразования
R.
Если r=
1, то
=2,
=0.
Тогда уравнение эллипса для линии
постоянного значения плотности
вероятности вырождается в уравнение
для двух точек, расположенных на оси
0y1,
вида ![]()
(Рис.
2.1).
Определим уравнение максимального эллипса в соответствии с правилом "трех сигм", согласно которому 99.73% всех наблюдений сосредоточено внутри него.
Согласно свойствам
канонического уравнения эллипса его
главная ось совпадает с направлением
первой главной компоненты
0y1.
Длина главной полуоси составляет
величину
.
В то же
время
максимальное положительное случайное
отклонение величины у1
на оси 0y1
от центра координат с вероятностью
0.9973 не
превышает величины
.
Следовательно,
=
,
откуда p=9.
Проведя те же
рассуждения для второй оси максимального
эллипса, получим, что уравнение
имеет вид
и описывает
линию постоянного значения плотности
вероятности на уровне
Так как
длина главной полуоси

Рис. 2.1. Главные компоненты
составляет величину
то при увеличении значения г длина
главной полуоси
40
увеличивается. В
то же время длина второй полуоси эллипса
уменьшается при увеличении к.
Следовательно, чем сильнее связаны
признаки Х1
и
X2
корреляционной зависимостью, тем больше
дисперсия
признака
Y1
и меньше дисперсия
признака
Y2
при неизменной
суммарной
дисперсии
=2.
