- •42 Двоенко с.Д. Методы анализа бмд
- •2. Основы анализа связей
- •Предположение о природе связи
- •2.2. Нормальное распределение
- •2.3. Корреляционная матрица и ее основные свойства
- •2.4. Собственные векторы и собственные числа корреляционной матрицы
- •2.5. Приведение корреляционной матрицы к диагональной форме
- •2.6. Геометрическая интерпретация главных компонент на плоскости
- •2.7. Модель главных компонент
- •2.8. Приближенное вычисление собственных чисел и векторов корреляционной матрицы
- •Понятие об измерении связи между качественными признаками. Статистический подход
- •2.10. Теоретико-информационный подход
- •2.11. Проблема интерпретации значений коэффициентов связи
2.7. Модель главных компонент
Пусть новая матрица
данных получена путем ортогонального
преобразования
.
Такая матрица является стандартизованной,
то есть
.
Тогда преобразование некоторого вектораxк векторуyвыполняется как
или
.
Выполним обратное преобразование
.
Тем самым мы выразили матрицу исходных
данных через матрицуY.
Согласно гипотезе
скрытых факторов, значение каждого
исходного признака, измеренного на
некотором объекте, зависит от влияния
некоторых “скрытых” неизмеряемых
факторов и определяется совокупностью
их вкладов, пропорциональных силе
влияния. Тогда матрицу Yбудем
считать матрицейnскрытых факторов,
а матрицу
- матрицей факторных нагрузок.
Тогда каждая компонента
некоторого вектора x, измеренного
на некотором объекте, представляется
как совокупность значений факторов на
этом объекте
или
:
.
Тогда корреляционная матрица имеет вид
![]()
=
.
Рассмотрим взаимные корреляции между признаками из Xи факторами из матрицыY
.
Следовательно, матрица Uфакторных
нагрузок является матрицей взаимных
корреляций между исходными признаками
и скрытыми факторами, где элемент
равен величине взаимной корреляции
между признакомXiи факторомYj.
Рассмотрим структуру корреляционной матрицы
.
Дисперсия
некоторого признакаXkесть величина, состоящая из вкладов
соответствующих главных компонент.
Полный вклад всех главных компонент в
дисперсии всех признаков составляет
величину
.
При преобразовании к главным компонентам
вместо nисходных признаков получается
такое же число факторов. Но вклад довольно
большой части главных компонент в
суммарную дисперсию признаков является
небольшим. Поэтому часто целесообразно
исключить те главные компоненты, вклад
которых невелик. При этом оказывается,
что при помощиmпервых наиболее
весомых главных компонент, гдеm<n,
можно объяснить основную долю суммарной
дисперсии признаков. Эта доля называется
объясняемой долей дисперсии
,
где обычно
.
2.8. Приближенное вычисление собственных чисел и векторов корреляционной матрицы
В задачах обработки часто возникает необходимость в определении собственных векторов корреляционной матрицы, соответствующих тем или иным собственным числам.
Как было показано, для
нахождения собственных чисел и векторов
следует найти корни характеристического
полинома порядка nотносительноЗатем для каждого
следует найти свой собственный вектор,
который мы обозначим как
,
как решение однородной системы линейных
уравнений относительно этого собственного
вектора при ограничении на его длину
.
Но хорошо известно,
что точные методы поиска корней полинома
и корней системы линейных уравнений
представляют собой громоздкие процедуры
при больших n, практически начиная
с
.
Поэтому данная задача часто решается
итерационными методами вычислительной
математики. Итерационные методы для
одновременного поиска всех собственных
чисел и векторов представляют собой
методы преобразования симметричной
матрицы в диагональную форму.
При обработке данных на ЭВМ широко используется, в частности, программа EIGEN, включенная первоначально в состав библиотеки научных программ на языке ФОРТРАН (библиотека SSP) для ЭВМ IBM-360/370. В настоящее время данная программа в том или ином виде присутствует в составе математических библиотек (аналогов SSP либо новых разработок) практически для всех языков программирования высокого уровня на всех типах ЭВМ (в частности, на ПЭВМ). В этой программе реализован метод Якоби преобразования действительной симметричной матрицы в диагональную форму. При отсутствии математической библиотеки с данной программой можно использовать ее опубликованный текст, переписав в соответствии с правилами выбранного языка программирования.
Часто требуется вычислить только максимальное собственное число и соответствующий ему собственный вектор. Рассмотрим известный итерационный метод приближенного вычисления максимального собственного числа и соответствующего собственного вектора.
Пусть все собственные
числа различны и упорядочены
.
Пусть
- некоторый вектор. Совокупность
собственных векторов
корреляционной матрицыRобразует
ортонормированный базис, в пространстве
которого векторxпреобразуется в
векторy, где
.
Отсюда векторxпредставлен разложением по базису
.
Тогда
.
Выделим первое слагаемое
.
Умножим это равенство еще раз слева на R:


.
Тогда для некоторого sполучим
.
Так как
и
,
то
.
Тогда при
первый собственный вектор определяется
достаточно далеким членом последовательности
. Но при
получим, что
,
а при
получим, что
.
Следовательно, вектор
стремится по направлению к векторуa1,
но его длина значительно отличается от
единичной.
Поэтому строят две
другие последовательности
и
,
где
,
начиная с некоторого вектораx0единичной длины. Следовательно,
при любомs, а предел последовательности
стремится по направлению к векторуa1.
Следовательно,
.
Тогда
и
.
