- •42 Двоенко с.Д. Методы анализа бмд
- •2. Основы анализа связей
- •Предположение о природе связи
- •2.2. Нормальное распределение
- •2.3. Корреляционная матрица и ее основные свойства
- •2.4. Собственные векторы и собственные числа корреляционной матрицы
- •2.5. Приведение корреляционной матрицы к диагональной форме
- •2.6. Геометрическая интерпретация главных компонент на плоскости
- •2.7. Модель главных компонент
- •2.8. Приближенное вычисление собственных чисел и векторов корреляционной матрицы
- •Понятие об измерении связи между качественными признаками. Статистический подход
- •2.10. Теоретико-информационный подход
- •2.11. Проблема интерпретации значений коэффициентов связи
2.3. Корреляционная матрица и ее основные свойства
При анализе связей важное значение имеет структура взаимосвязей между признаками. Как известно, измерителем линейной связи между признаками служит коэффициент корреляции или, в более общем случае, коэффициент ковариации. С другой стороны, вектор средних и матрица ковариаций являются исчерпывающими характеристиками нормального закона распределения. Поэтому остановимся более подробно на свойствах корреляционной матрицы.
Корреляционная матрица
является симметричной, с единичной
главной диагональю, положительно
полуопределенной матрицей.
Напомним из линейной
алгебры, что квадратная матрица, не
обязательно симметричная, называется
положительно полуопределенной, если
для любого вектора
квадратичная форма
не отрицательна. Квадратная матрицаRположительно определена, если для любыхyквадратичная форма
строго положительна. В данном свойстве
матрицыR легко убедиться:

,
где
,
-коэффициент корреляции, вычисленный
как скалярное произведение признаковXiиXjв
стандартной матрицеX.
Заметим, что при
ненулевом векторе yквадратичная
форма
может обратиться в нуль, только если
признаки
линейно зависимы между собой.
Но признаки Xiпредставляют собой результаты измерений, где часто число объектовNмного больше числа признаковn. Поэтому, в силу возможных ошибок и неточностей измерений, не говоря уже о случайных помехах, линейная зависимость признаковXi маловероятна. Поэтому, как правило, данная квадратичная форма оказывается строго положительной при любом ненулевом вектореy.
Поэтому корреляционная матрица Rна практике считается положительно определенной. В этом случае detRвсегда ненулевой, а корреляционная матрица всегда имеет обратную, то есть является невырожденной.
2.4. Собственные векторы и собственные числа корреляционной матрицы
Собственным вектором
корреляционной матрицы R, соответствующим
собственному числу,
называется ненулевой вектор
,
удовлетворяющий уравнению
.
Как известно из линейной алгебры, матрица Rрассматривается в данном случае как матрица линейного преобразования вектораxв векторx. Это означает, что для данного линейного преобразованияRвn-мерном пространстве существует такое направление, что преобразованиеR только растягивает векторxвраз, сохраняя его ориентацию.
Векторное уравнение
можно переписать в виде однородного
уравнения относительно x:
.
Данное уравнение имеет ненулевое
(нетривиальное) решение только тогда,
когда определитель
равен нулю. Данный определитель
представляет собой уравнение относительнои
является полиномомn степени вида
.
Данный полином
называется характеристическим полиномом
(многочленом), а уравнение
- характеристическим уравнением.
Характеристическое уравнение имеетn,
вообще говоря, различных корней. При
этом его корниiявляются собственными числами
преобразованияR.
В качестве собственных
векторов
линейного преобразованияR,
соответствующих собственным числам
,
берутся векторы единичной длины
,
каждый из которых удовлетворяет
соответствующему характеристическому
уравнению
.
Рассмотрим случай n=2. Тогда получим
.
Решением квадратного уравнения
относительноявляются корни
и
.
Отметим следующие свойства собственных чисел.
1)
.
Так как корреляционная матрицаRпрактически положительно определена,
то при произвольномnвсе ее
собственные числа являются действительными
и строго положительными
.
2)
.
Вычислим след матрицыRкак сумму
ее диагональных элементов
.
Следовательно,
,
то есть сумма собственных чисел
корреляционной матрицы равна ее следу.
При произвольномnполучим
.
3)
.
Определитель корреляционной матрицы
равен
.
Следовательно,
.
При произвольномnполучим
.
Следовательно, произведение собственных
чисел равно определителю корреляционной
матрицы, взятому со знаком плюс, так как
все собственные числа положительны.
Найдем собственные векторы x1иx2, соответствующие собственным числами2. Из характеристического уравнения следует, что первый вектор найдется из уравнения
.
Согласно определению
.
Тогда получим систему уравнений

Из решения данной системы следует, что
.
Два решения указывают на противоположные
направления вдоль диагонали первого
и третьего квадрантов плоскости
координат:

Второй вектор найдется из уравнения
.
В результате получим два решения, указывающие на противоположные направления вдоль диагонали второго и четвертого квадрантов плоскости координат

Как сразу нетрудно заметить, собственные векторы матрицы R, то есть вещественной симметричной матрицы, соответствующие различным собственным числам, ортогональны между собой. Покажем это для произвольногоn.
Рассмотрим уравнения
и
,
где
.
Домножим каждое из уравнений на собственный вектор другого уравнения и получим
.
Так как
,
то, вычтя одно уравнение из другого, получим
.
Отсюда следует, что
.
Следовательно, собственные векторы
линейного преобразованияRобразуют
ортонормированный базис вn-мерном
пространстве. Такие векторы называются
главными компонентами корреляционной
матрицы.
Главные компоненты корреляционной матрицы обладают весьма важными свойствами, которые имеют содержательный смысл в обработке данных и поэтому широко используются. Ниже мы покажем геометрический смысл главных компонент на плоскости.
