Скачиваний:
123
Добавлен:
01.05.2014
Размер:
228.86 Кб
Скачать

2.6. Геометрическая интерпретация главных компонент на плоскости

Пусть в соответствии со статистической гипотезой порождения матрицы данных Х в n-мерном пространстве признаков существует многомерное нормальное распределение с плотностью вероятности f(x/,). Для стандартизованной матицы Х мы полагаем, что

Проведем ортогональное преобразование матрицы данных Х в новую матрицу данных Y = ХА, где А - матрица, столбцами которой являются собственные векторы корреляционной матрицы R. Тем самым мы перешли в новое признаковое пространство, образованное ортонормированным базисом линейного преобразования R. Очевидно, что в новом признаковом пространстве задано нормальное распределение с плотностью вероятности

Так как =ATRA, то -1=( ATRA)-1= A-1R-1(AТ)-1=AТR-1A,

Пусть n == 2, тогда двухмерное нормальное распределение имеет вид

Рассмотрим уравнение =p, p>0. Из курса аналитической геометрии известно, что это уравнение линии второго порядка. При заданном p и найденных  и  данная линия является линией постоянного значения плотности вероятности Преобразуем данное уравнение линии второго порядка к каноническому виду Так как  >  >0, то данное уравнение является каноническим уравнением эллипса в системе координат, образованной собственными векторами, которые соответствуют собственным числам  и .

Если r>0, то =1+г и  = I -r и система главных компонент y10y2 повернута на 45" относительно исходной системы координат x10x2. Если г<0, то =1-г и  = 1+r и система

39

главных компонент y10y2 повернута на 135° относительно x10x2.

Если г==0, то = =1. Тогда уравнение эллипса представляет собой уравнение окружности радиуса . В этом случае система главных компонент y10y2 может быть ориентирована в любом направлении, то есть любое направление является главным для такого линейного преобразования R.

Если r= 1, то =2, =0. Тогда уравнение эллипса для линии постоянного значения плотности вероятности вырождается в уравнение для двух точек, расположенных на оси 0y1, вида (Рис. 2.1).

Определим уравнение максимального эллипса в соответствии с правилом "трех сигм", согласно которому 99.73% всех наблюдений сосредоточено внутри него.

Согласно свойствам канонического уравнения эллипса его главная ось совпадает с направлением первой главной компоненты 0y1. Длина главной полуоси составляет величину . В то же время максимальное положительное случайное отклонение величины у1 на оси 0y1 от центра координат с вероятностью 0.9973 не превышает величины . Следовательно, =, откуда p=9.

Проведя те же рассуждения для второй оси максимального эллипса, получим, что уравнение имеет вид и описывает линию постоянного значения плотности вероятности на уровне Так как длина главной полуоси

Рис. 2.1. Главные компоненты

составляет величину то при увеличении значения г длина главной полуоси

40

увеличивается. В то же время длина второй полуоси эллипса уменьшается при увеличении к. Следовательно, чем сильнее связаны признаки Х1 и X2 корреляционной зависимостью, тем больше дисперсия признака Y1 и меньше дисперсия признака Y2 при неизменной суммарной дисперсии =2.

Соседние файлы в папке Основы обработки данных