- •Часть II. Методы снижения размерности исследуемого многомерного признака Пункт 1. Сущность задач снижения размерности
- •§2.2. Вычисление главных компонент.
- •У линейного преобразования могут отсутствовать собственные векторы
- •О тсюда и из (2.6) следует
- •§2.3 Основные числовые характеристики главных компонент и критерий информативности метода главных компонент
- •Посмотрим на поведение меры информации:
- •§2.4 Матрица «нагрузок» главных компонент на исследуемые признаки и ее свойства
- •§2.5. Геометрическая интерпретация и оптимальные свойства главных компонент
- •§2.5.1 Свойство наименьшей ошибки «автопрогноза» или наилучшей самовоспроизводимости
- •По методу наименьших квадратов имеем
- •§2.5.2. Свойства наименьшего искажения геометрической структуры множества исходных р-мерных наблюдений при их проектировании пространства р’ первых главных компонент:
- •Обозначим
- •§2.6Статистические свойства выборочных главных компонентов
- •Пункт 3. Факторный анализ (краткая характеристика) §3.1 Сущность модели факторного анализа
- •§3.2 Общий вид линейной модели. Ее связь с главными компонентами
По методу наименьших квадратов имеем
,
откуда
,
i=1,2,3.
; - берутся из матрицы ковариаций.
Отсюда
В качестве относительной ошибки прогноза исходного признака по первой главной компоненте будем использовать величину:
Суммарная относительная ошибка подсчитывается по формуле:
§2.5.2. Свойства наименьшего искажения геометрической структуры множества исходных р-мерных наблюдений при их проектировании пространства р’ первых главных компонент:
(без доказательства)
Сумма квадратов расстояний от исходных наблюдений до подпространства, натянутого на р’ первых главных компонент, наименьшая относительно всех других подпространств размерности р’, полученных с помощью произвольных линейных преобразований исходных координат.
среди всех подпространств заданной размерности , полученных из исходного пространства с помощью произвольно линейного преобразования исходных координат, в подпространстве, натянутом на первые p’ главных компонент, наименее искажается сумма квадратов расстояний между всевозможными парами точек рассматриваемых наблюдений.
Поясним это:
Обозначим
- сумма квадратов евклидовых расстояний
После проецирования точек в р’-мерное пространство, определяемое первыми р’ компонентами линейного преобразования:
Можно показать, что при
Кроме того,
где – вектор первых р’ главных компонент.
(iii) Среди всех подпространств заданной размерности р’ , полученных с помощью линейного преобразования исходных координат ,…, в пространстве, натянутом на р’ первых главных компонент наименее искажаются расстояния от рассматриваемых точек наблюдений до их общего центра тяжести.
§2.6Статистические свойства выборочных главных компонентов
Вероятно-статистический подход заключается в том, что мы по некоторой части генеральной совокупности ( по выборке) делаем выводы о генеральной совокупности( о распределении из которых берем выборки).
Итак, в случае, когда неизвестно теоретическое распределение (неизвестно ковариационная матрица ∑ )многомерного вектора Х=Х ,Х ,...,Х , мы по наблюдениям Х1, Х2,...,Хn ; Хv =X ,...,X .строим выборочную ковариационную матрицу , находим ее собственные значения 1,..., n являющиеся оценками теоретических собственных значений λ1... λp, и собственного вектора j соответствующего значениям J . J= Приведем без доказательства несколько утверждений, справедливых в случае, когда все теоретические значения λj различны.
Собственные значения J ; J = 1...p, и соответствующие им собственные вектора j выборочной ковариационной матрицы являются оценками максимального правдоподобия для соответствующих теоретических характеристик.(т.е. для λj и Lj соответственно) и обладают всеми хорошими свойствами этих оценок(состоятельность, асимптотическая эффективность). Если среди характеристических корней λj встречаются одинаковые, то оценки максимального правдоподобия определяются несколько иначе. Следовательно, выбор главных компонент j = j X Можно интерпретировать, как оценки теоретических главных компонент = j X
Случайная величина ( - λj) , J= , при n→ ∞ асимптотически нормальна с параметрами(0; λj√2). Используя этот факт можно построить доверительный интервал для собственных значений λj.
Подведем итоги
Главные компоненты являются полезным инструментом в задачах “ автопрогноза” большого числа анализируемых показателей по сравнительно малому числу вспомогательных переменных, визуализации многомерных данных, построении типообразующих признаков, при классификации многомерных объектов, при предварительном анализе геометрической и вероятностной природы исходных данных.