Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекция 7-8.doc
Скачиваний:
9
Добавлен:
25.08.2019
Размер:
1.52 Mб
Скачать

Метод главных компонент

Один из наиболее распространенных методов поиска факторов, метод главных компонент, состоит в последовательном поиске факторов. Вначале ищется первый фактор, который объясняет наибольшую часть дисперсии, затем независимый от него второй фактор, объясняющий наибольшую часть оставшейся дисперсии, и т.д. Математическая реализация метода главных компонент достаточно сложна, поэтому для пояснения идеи метода мы прибегнем к ее условному изображению (рисунок 5.2).

Смысл рисунка 5.2 в следующем. Для построения первого фактора берется прямая, проходящая через начало координат и облако рассеяния данных. Объектам можно сопоставить расстояния их проекций на эту прямую до центра координат, причем для одной из половин прямой (по отношению к нулевой точке) можно взять эти расстояния с отрицательным знаком. Такое построение представляют собой новую переменную, которую мы назовем осью. При построении фактора отыскивается такая ось, чтобы дисперсия переменных вокруг оси была минимальна. (Заметим, что в определенном смысле эта первая ось строится по той же модели, что регрессионная прямая в регрессионном анализе). Это означает, что этой осью объясняется максимум дисперсии переменных. Найденная ось после нормировки используется в качестве первого фактора. Если облако данных вытянуто в виде эллипсоида (имеет форму "огурца"), фактор совпадет с направлением, в котором вытянуты объекты, и по нему (по проекциям) с наибольшей точностью можно предсказать значения исходных переменных.

Рисунок 5.2

Условное представление модели главных компонент.

Для поиска второго фактора ищется ось, перпендикулярная первому фактору, также объясняющая наибольшую часть дисперсии, не объясненной первой осью. После нормировки эта ось становится вторым фактором. Если данные представляют собой плоский элипсоид ("блин") в трехмерном пространстве, два первых фактора позволяют в точности описать эти данные.

Максимально возможное число главных компонент равно количеству переменных. Иными словами, если мы хотим на 100% описать значения n переменных, то для этого потребуется столько же, то есть n главных компонент. Сколько главных компонент необходимо построить для оптимального представления рассматриваемых исходных переменных?

Обозначим k объясненную главной компонентой Fk часть суммарной дисперсии совокупности исходных факторов. По умолчанию, в пакете предусмотрено продолжать строить факторы, пока к>1. Напомним, что переменные стандартизованы, и поэтому нет смысла строить очередной фактор, если он объясняет часть дисперсии, меньшую, чем приходящуюся непосредственно на одну переменную. При этом следует учесть, что 1>2>3,.

К сведению читателя заметим, что значения k являются собственными значениями корреляционной матрицы Xi, поэтому в выдаче они будут помечены текстом "EIGEN VALUE" (собственные значения).

Техника построения главных компонент расходится с теоретическими предположениями о факторах: имеется m+n независимых факторов, полученных методом главных компонент в n-мерном пространстве, что невозможно.