Добавил:

Studfiles2 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Санкт-Петербургский государственный электротехнический университет "ЛЭТИ"

Предмет:

Анализ и интерпретация данных

Файл:

Основы обработки данных / 31-40.doc

Скачиваний:

123

Добавлен:

01.05.2014

Размер:

228.86 Кб

Скачать

☆

<<< < Предыдущая 1 23 / 43 4 > Следующая >>>

2.6. Геометрическая интерпретация главных компонент на плоскости

Пусть в соответствии со статистической гипотезой порождения матрицы данных Х в n-мерном пространстве признаков существует многомерное нормальное распределение с плотностью вероятности f(x/,). Для стандартизованной матицы Х мы полагаем, что

Проведем ортогональное преобразование матрицы данных Х в новую матрицу данных Y = ХА, где А - матрица, столбцами которой являются собственные векторы корреляционной матрицы R. Тем самым мы перешли в новое признаковое пространство, образованное ортонормированным базисом линейного преобразования R. Очевидно, что в новом признаковом пространстве задано нормальное распределение с плотностью вероятности

Так как =A^TRA, то ^-1=( A^TRA)^-1= A^-1R^-1(A^Т)^-1=A^ТR^-1A,

Пусть n == 2, тогда двухмерное нормальное распределение имеет вид

Рассмотрим уравнение =p, p>0. Из курса аналитической геометрии известно, что это уравнение линии второго порядка. При заданном p и найденных _ и _ данная линия является линией постоянного значения плотности вероятности Преобразуем данное уравнение линии второго порядка к каноническому виду Так как _ > _ >0, то данное уравнение является каноническим уравнением эллипса в системе координат, образованной собственными векторами, которые соответствуют собственным числам _ и _.

Если r>0, то _=1+г и _ = I -r и система главных компонент y₁0y₂ повернута на 45" относительно исходной системы координат x₁0x₂. Если г<0, то _=1-г и _ = 1+r и система

главных компонент y₁0y₂ повернута на 135° относительно x₁0x₂.

Если г==0, то _= _=1. Тогда уравнение эллипса представляет собой уравнение окружности радиуса . В этом случае система главных компонент y₁0y₂ может быть ориентирована в любом направлении, то есть любое направление является главным для такого линейного преобразования R.

Если r= 1, то _=2, _=0. Тогда уравнение эллипса для линии постоянного значения плотности вероятности вырождается в уравнение для двух точек, расположенных на оси 0y₁, вида (Рис. 2.1).

Определим уравнение максимального эллипса в соответствии с правилом "трех сигм", согласно которому 99.73% всех наблюдений сосредоточено внутри него.

Согласно свойствам канонического уравнения эллипса его главная ось совпадает с направлением первой главной компоненты 0y₁. Длина главной полуоси составляет величину . В то же время максимальное положительное случайное отклонение величины у₁ на оси 0y₁ от центра координат с вероятностью 0.9973 не превышает величины . Следовательно, =, откуда p=9.

Проведя те же рассуждения для второй оси максимального эллипса, получим, что уравнение имеет вид и описывает линию постоянного значения плотности вероятности на уровне Так как длина главной полуоси

Рис. 2.1. Главные компоненты

составляет величину то при увеличении значения г длина главной полуоси

увеличивается. В то же время длина второй полуоси эллипса уменьшается при увеличении к. Следовательно, чем сильнее связаны признаки Х₁ и X₂ корреляционной зависимостью, тем больше дисперсия признака Y₁ и меньше дисперсия признака Y₂ при неизменной суммарной дисперсии =2.

<<< < Предыдущая 1 23 / 43 4 > Следующая >>>

Соседние файлы в папке Основы обработки данных

#
01.05.2014415.74 Кб1191-30.doc
#
01.05.2014228.86 Кб12331-40.doc
#
01.05.20141.38 Mб11541-120new.doc