Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ЧастьII.doc
Скачиваний:
2
Добавлен:
27.09.2019
Размер:
1.01 Mб
Скачать

§2.3 Основные числовые характеристики главных компонент и критерий информативности метода главных компонент

Пусть вектор главных компонент, полученных в соответствии с указанным выше алгоритмом. Рассмотрим его числовые характеристики.

(a) (компоненты исходного вектора признаков центрированы).

(b) ковариационная матрица

, где

 ковариационная матрица вектора x.

Умножая соотношение (2.13) слева на , j=1,…,p, получим:

,                                                                                                     (2.14)

поскольку при j=k отсюда снова следует взаимная некоррелированность главных компонент.

(c) сумма дисперсий исходных признаков равна сумме дисперсий главных

всех р компонент, т.е. сумме всех р собственных значений ковариационной

матрицы .

В силу (2.14)

Здесь использовано свойство (в силу ортогональности), ; tr(AB)=tr(BA)

.

(d) обобщенная дисперсия исходных признаков  равна дисперсии р главных

компонент  .

Действительно, из (2.14) имеем     .

Следствие 1: Из (b) и (c) следует, что критерий информативности метода главных компонент

может быть построен с использованием следующей формулы

,                                                            (2.15)

где  матрица с р1 ортонормированной строкой.

Действительно, если , то в силу изложенного выше

                                            (2.16)

по всем (2.161)

из (2.15) и (2.16) следует (2.161)

 множество матриц (р1р) с ортонормированными строками.

Соотношение (2.16) дает исследователю основу при выяснении вопроса, сколько последних главных компонент можно без особого ущерба изъять из рассмотрения, сократив тем самым размерность исследуемых признаков.

Замечание 1: В дальнейшем знак  в обозначении вектора главной компоненты

матрицы будем опускать.

Замечание 2: Поскольку на практике точное знание ковариационной матрицы  является

скорее исключением, чем правилом, то в тех случаях, когда  неизвестна, все

предыдущие рассуждения и выкладки следует использовать приближенно к выбранной

матрице .

Пример: Для формирования типообразующих признаков предприятий отрасли были обследованы

24 предприятия по 3-м технико-экономическим показателям:

  1. объем выпускаемой продукции;

  2. основные фонды;

  3. себестоимость (все признаки выражены в денежных единицах).

По полученным в результате обследования ИСД

i=1,….,24,

была получена ковариационная матрица , характеризующая уравнение, для которого имеет вид:

 нецентрированные наблюдения:

Далее было получено:

- центрированные отклонения от оси среднего.

Посмотрим на поведение меры информации:

Т. о. отсюда можно сделать вывод, что вся информация о специфике предприятия содержится в одной лишь первой главной компоненте, которая, естественно, используется при типологизации предприятия.

§2.4 Матрица «нагрузок» главных компонент на исследуемые признаки и ее свойства

Пусть

Определение: матрицей «нагрузок» называется матрица:

,                                       (2.18)

                                                     где

                                      (2.19)

- новая матрица вектора и главной компоненты Z.

Пусть анализируемые переменные не только процентрированы, но и пронормированы, то есть мы имеем вектор , где .

Так как , то ,                                       (2.20)

Потому что L – ортогональная матрица.

Пронормируем вектор главных компонент Z.

Рассмотрим , т.к. , то

Тогда из (2.19) получим:

                                                                                                                                    (2.21)

Из (2.18), (2.20), (2.21) следует:

                                                                                                                      (2.22)

Если это расписать по компонентам, то получим:

                                                       (2.22’)

Т.о., элемент матрицы «нагрузок» А определяет удельный вес влияния j-той нормированной главной компоненты на i–ый нормированный и центрированный исходный признак .

Поскольку коэффициент корреляции пары случайных величин не меняется при линейном преобразовании этих случайных величин:

;

;

,

то из (2.22’) получим коэффициент корреляции:

                                       (2.23)

поскольку при .

Т.о., элемент матрицы «нагрузок» А определяет величину коэффициента корреляции .

Из (2.18) имеем:

.

Отсюда следует, что

                                 (2.24)

(сумма квадратов по столбцу)

Далее из (2.22’):

                           (2.25)

(сумма квадратов по строке)

Указанные свойства используются при содержательной интерпретации главных компонент.

Пример:

Компонентный анализ по данным 20 сельскохозяйственных районов некой области:

- число колесных тракторов на 100 га,

- число зерноуборочных комбайнов на 100 га,

- количество удобрений на 100 га,

- число орудий поверхностной обработки почвы на 100 га,

- количество средств защиты на 100 га.

Требуется выделить главных компонент и дать интерпретацию.

Исходные данные разных размеров, поэтому расчеты производились по центрированным и нормированным данным:

Таблица

Главные компоненты

Соответствующие значения

3,04

1,41

0,43

0,10

0,02

Вклад i-той компоненты в суммарную дисперсию, (%)

60,8

28,2

8,6

2,0

0,4

Суммарная величина первых главных компонент в суммарной дисперсии, (%)

60,8

89,0

97,6

99,6

100

Для анализа возьмем две первые главные компоненты: . Построим матрицу «нагрузок»:

Если рассматривать граничное значение 0,6, то из этой матрицы мы должны рассмотреть только первые 2 главные компоненты.

Первая главная компонента наиболее тесно связана со следующими показателями:

(поэтому можно интерпретировать как уровень механизации работ).

Вторая главная компонента наиболее тесно связана со следующими признаками:

( можно интерпретировать как уровень химизации растениеводства).