
- •Часть II. Методы снижения размерности исследуемого многомерного признака Пункт 1. Сущность задач снижения размерности
- •§2.2. Вычисление главных компонент.
- •У линейного преобразования могут отсутствовать собственные векторы
- •О тсюда и из (2.6) следует
- •§2.3 Основные числовые характеристики главных компонент и критерий информативности метода главных компонент
- •Посмотрим на поведение меры информации:
- •§2.4 Матрица «нагрузок» главных компонент на исследуемые признаки и ее свойства
- •§2.5. Геометрическая интерпретация и оптимальные свойства главных компонент
- •§2.5.1 Свойство наименьшей ошибки «автопрогноза» или наилучшей самовоспроизводимости
- •По методу наименьших квадратов имеем
- •§2.5.2. Свойства наименьшего искажения геометрической структуры множества исходных р-мерных наблюдений при их проектировании пространства р’ первых главных компонент:
- •Обозначим
- •§2.6Статистические свойства выборочных главных компонентов
- •Пункт 3. Факторный анализ (краткая характеристика) §3.1 Сущность модели факторного анализа
- •§3.2 Общий вид линейной модели. Ее связь с главными компонентами
§2.3 Основные числовые характеристики главных компонент и критерий информативности метода главных компонент
Пусть
вектор
главных компонент, полученных в
соответствии с указанным выше алгоритмом.
Рассмотрим его числовые характеристики.
(a)
(компоненты исходного вектора признаков
центрированы).
(b) ковариационная матрица
,
где
ковариационная матрица вектора x.
Умножая
соотношение (2.13) слева на
,
j=1,…,p,
получим:
, (2.14)
поскольку
при j=k
отсюда снова следует взаимная
некоррелированность главных компонент.
(c) сумма дисперсий исходных признаков равна сумме дисперсий главных
всех р компонент, т.е. сумме всех р собственных значений ковариационной
матрицы .
В силу (2.14)
Здесь
использовано свойство
(в силу ортогональности),
; tr(AB)=tr(BA)
.
(d) обобщенная дисперсия исходных признаков равна дисперсии р главных
компонент
.
Действительно,
из (2.14) имеем
.
Следствие 1: Из (b) и (c) следует, что критерий информативности метода главных компонент
может быть построен с использованием следующей формулы
,
(2.15)
где
матрица с р1
ортонормированной строкой.
Действительно,
если
,
то в силу изложенного выше
(2.16)
по
всем
(2.161)
из (2.15) и (2.16) следует (2.161)
множество
матриц
(р1р)
с ортонормированными строками.
Соотношение (2.16) дает исследователю основу при выяснении вопроса, сколько последних главных компонент можно без особого ущерба изъять из рассмотрения, сократив тем самым размерность исследуемых признаков.
Замечание
1: В дальнейшем
знак
в обозначении вектора главной компоненты
матрицы будем опускать.
Замечание 2: Поскольку на практике точное знание ковариационной матрицы является
скорее исключением, чем правилом, то в тех случаях, когда неизвестна, все
предыдущие рассуждения и выкладки следует использовать приближенно к выбранной
матрице .
Пример: Для формирования типообразующих признаков предприятий отрасли были обследованы
24 предприятия по 3-м технико-экономическим показателям:
объем выпускаемой продукции;
основные фонды;
себестоимость (все признаки выражены в денежных единицах).
По полученным в результате обследования ИСД
i=1,….,24,
была получена ковариационная матрица , характеризующая уравнение, для которого имеет вид:
нецентрированные
наблюдения:
Далее было получено:
- центрированные
отклонения от оси среднего.
Посмотрим на поведение меры информации:
Т. о. отсюда можно сделать вывод, что вся информация о специфике предприятия содержится в одной лишь первой главной компоненте, которая, естественно, используется при типологизации предприятия.
§2.4 Матрица «нагрузок» главных компонент на исследуемые признаки и ее свойства
Пусть
Определение: матрицей «нагрузок» называется матрица:
,
(2.18)
где
(2.19)
-
новая матрица вектора и главной компоненты
Z.
Пусть анализируемые
переменные
не только процентрированы, но и
пронормированы, то есть мы имеем вектор
, где
.
Так как
,
то
,
(2.20)
Потому что L – ортогональная матрица.
Пронормируем вектор главных компонент Z.
Рассмотрим
,
т.к.
,
то
Тогда из (2.19) получим:
(2.21)
Из (2.18), (2.20), (2.21) следует:
(2.22)
Если это расписать по компонентам, то получим:
(2.22’)
Т.о., элемент
матрицы «нагрузок» А определяет удельный
вес влияния j-той
нормированной главной компоненты
на i–ый
нормированный и центрированный исходный
признак
.
Поскольку коэффициент корреляции пары случайных величин не меняется при линейном преобразовании этих случайных величин:
;
;
,
то из (2.22’) получим коэффициент корреляции:
(2.23)
поскольку
при
.
Т.о., элемент
матрицы «нагрузок» А определяет величину
коэффициента корреляции
.
Из (2.18) имеем:
.
Отсюда следует, что
(2.24)
(сумма квадратов по столбцу)
Далее из (2.22’):
(2.25)
(сумма квадратов по строке)
Указанные свойства используются при содержательной интерпретации главных компонент.
Пример:
Компонентный анализ по данным 20 сельскохозяйственных районов некой области:
- число колесных
тракторов на 100 га,
- число зерноуборочных
комбайнов на 100 га,
-
количество удобрений на 100 га,
- число орудий
поверхностной обработки почвы на 100 га,
- количество средств
защиты на 100 га.
Требуется выделить
главных компонент и дать интерпретацию.
Исходные данные разных размеров, поэтому расчеты производились по центрированным и нормированным данным:
Таблица
Главные компоненты
|
|
|
|
|
|
Соответствующие
значения
|
3,04 |
1,41 |
0,43 |
0,10 |
0,02 |
Вклад i-той компоненты в суммарную дисперсию, (%) |
60,8 |
28,2 |
8,6 |
2,0 |
0,4 |
Суммарная величина первых главных компонент в суммарной дисперсии, (%) |
60,8 |
89,0 |
97,6 |
99,6 |
100 |
Для анализа возьмем
две первые главные компоненты:
.
Построим матрицу «нагрузок»:
Если рассматривать граничное значение 0,6, то из этой матрицы мы должны рассмотреть только первые 2 главные компоненты.
Первая главная
компонента
наиболее тесно связана со следующими
показателями:
(поэтому можно интерпретировать как уровень механизации работ).
Вторая главная
компонента
наиболее тесно связана со следующими
признаками:
( можно интерпретировать как уровень химизации растениеводства).