
- •42 Двоенко с.Д. Методы анализа бмд
- •2. Основы анализа связей
- •Предположение о природе связи
- •2.2. Нормальное распределение
- •2.3. Корреляционная матрица и ее основные свойства
- •2.4. Собственные векторы и собственные числа корреляционной матрицы
- •2.5. Приведение корреляционной матрицы к диагональной форме
- •2.6. Геометрическая интерпретация главных компонент на плоскости
- •2.7. Модель главных компонент
- •2.8. Приближенное вычисление собственных чисел и векторов корреляционной матрицы
- •Понятие об измерении связи между качественными признаками. Статистический подход
- •2.10. Теоретико-информационный подход
- •2.11. Проблема интерпретации значений коэффициентов связи
2.7. Модель главных компонент
Пусть новая матрица
данных получена путем ортогонального
преобразования
.
Такая матрица является стандартизованной,
то есть
.
Тогда преобразование некоторого вектораxк векторуyвыполняется как
или
.
Выполним обратное преобразование
.
Тем самым мы выразили матрицу исходных
данных через матрицуY.
Согласно гипотезе
скрытых факторов, значение каждого
исходного признака, измеренного на
некотором объекте, зависит от влияния
некоторых “скрытых” неизмеряемых
факторов и определяется совокупностью
их вкладов, пропорциональных силе
влияния. Тогда матрицу Yбудем
считать матрицейnскрытых факторов,
а матрицу- матрицей факторных нагрузок.
Тогда каждая компонента
некоторого вектора x, измеренного
на некотором объекте, представляется
как совокупность значений факторов на
этом объектеили
:
.
Тогда корреляционная матрица имеет вид
=.
Рассмотрим взаимные корреляции между признаками из Xи факторами из матрицыY
.
Следовательно, матрица Uфакторных
нагрузок является матрицей взаимных
корреляций между исходными признаками
и скрытыми факторами, где элементравен величине взаимной корреляции
между признакомXiи факторомYj.
Рассмотрим структуру корреляционной матрицы
.
Дисперсия
некоторого признакаXkесть величина, состоящая из вкладов
соответствующих главных компонент.
Полный вклад всех главных компонент в
дисперсии всех признаков составляет
величину
.
При преобразовании к главным компонентам
вместо nисходных признаков получается
такое же число факторов. Но вклад довольно
большой части главных компонент в
суммарную дисперсию признаков является
небольшим. Поэтому часто целесообразно
исключить те главные компоненты, вклад
которых невелик. При этом оказывается,
что при помощиmпервых наиболее
весомых главных компонент, гдеm<n,
можно объяснить основную долю суммарной
дисперсии признаков. Эта доля называется
объясняемой долей дисперсии,
где обычно
.
2.8. Приближенное вычисление собственных чисел и векторов корреляционной матрицы
В задачах обработки часто возникает необходимость в определении собственных векторов корреляционной матрицы, соответствующих тем или иным собственным числам.
Как было показано, для
нахождения собственных чисел и векторов
следует найти корни характеристического
полинома порядка nотносительноЗатем для каждогоследует найти свой собственный вектор,
который мы обозначим как
,
как решение однородной системы линейных
уравнений относительно этого собственного
вектора при ограничении на его длину
.
Но хорошо известно,
что точные методы поиска корней полинома
и корней системы линейных уравнений
представляют собой громоздкие процедуры
при больших n, практически начиная
с.
Поэтому данная задача часто решается
итерационными методами вычислительной
математики. Итерационные методы для
одновременного поиска всех собственных
чисел и векторов представляют собой
методы преобразования симметричной
матрицы в диагональную форму.
При обработке данных на ЭВМ широко используется, в частности, программа EIGEN, включенная первоначально в состав библиотеки научных программ на языке ФОРТРАН (библиотека SSP) для ЭВМ IBM-360/370. В настоящее время данная программа в том или ином виде присутствует в составе математических библиотек (аналогов SSP либо новых разработок) практически для всех языков программирования высокого уровня на всех типах ЭВМ (в частности, на ПЭВМ). В этой программе реализован метод Якоби преобразования действительной симметричной матрицы в диагональную форму. При отсутствии математической библиотеки с данной программой можно использовать ее опубликованный текст, переписав в соответствии с правилами выбранного языка программирования.
Часто требуется вычислить только максимальное собственное число и соответствующий ему собственный вектор. Рассмотрим известный итерационный метод приближенного вычисления максимального собственного числа и соответствующего собственного вектора.
Пусть все собственные
числа различны и упорядочены
.
Пусть
- некоторый вектор. Совокупность
собственных векторов
корреляционной матрицыRобразует
ортонормированный базис, в пространстве
которого векторxпреобразуется в
векторy, где
.
Отсюда векторxпредставлен разложением по базису
.
Тогда
.
Выделим первое слагаемое
.
Умножим это равенство еще раз слева на R:
.
Тогда для некоторого sполучим
.
Так как
и
,
то
.
Тогда при
первый собственный вектор определяется
достаточно далеким членом последовательности
. Но при
получим, что
,
а при
получим, что
.
Следовательно, вектор
стремится по направлению к векторуa1,
но его длина значительно отличается от
единичной.
Поэтому строят две
другие последовательности
и
,
где
,
начиная с некоторого вектораx0единичной длины. Следовательно,
при любомs, а предел последовательности
стремится по направлению к векторуa1.
Следовательно,
.
Тогда
и
.