1.5. Матрица объект – объект и признак – признак, расстояние и близость

Пусть имеется матрица данных X(N х п). Если рассматривать строки данной матрицы как N векторов x_i, в пространстве п признаков, то естественно рассмотреть расстояние между двумя некоторыми векторами. Расстояния между всевозможными парами векторов дают матрицу R(N x N) расстояний типа объект - объект.

Напомним, что метрикой или расстоянием между векторами в пространстве признаков

называется некоторая величина d, удовлетворяющая следующим условиям:

1.d(x₁, x₂)>0, d(x₁, x₁)=0 ;

2. d(x₁, x₂)= d(x₂, x₁)

3. d(x₁, x₂)+ d(x₂, x₃) d(x₁, x₃) (неравенство треугольника).

Таким образом, матрица расстояний является симметричной с нулевой главной диагональю. Существуют различные метрики, но наиболее известной вообще и наиболее применяемой в обработке данных, в частности, является евклидова метрика

Часто используется линейная метрика вида

Применение линейной метрики оправдано, когда расстояние определяется как расстояние между домами в городе по кварталам, а не напрямик. Возможны и другие виды расстояний.

Часто рассматривается величина, обратная в некотором смысле расстоянию - близость. На практике часто используют функции близости вида

или

где  определяет крутизну функции близости. Очевидно, что матрица близостей также является симметричной с единичной главной диагональю, так как (x₁, x₁)= 1.

Если рассмотреть признаки как п векторов в N-мерном пространстве объектов, то получим другое преобразование матрицы данных в матрицу R(n х п) типа признак - признак. Элементом r_ij такой матрицы является значение расстояния или близости между признаками X_i и X_j. Наиболее распространено представление в виде матрицы близостей между признаками, где под близостью понимается, например, корреляция соответствующих признаков.

Легко заметить, что содержательные задачи на матрице данных X(N х n) интерпретируются на квадратных матрицах R(N х N) и R(n х п) как выделение блочно - диагональной структуры путем одновременной перегруппировки строк и столбцов. Тогда в каждом диагональном блоке группируются элементы, близкие в соответствующем пространстве и далекие от элементов других блоков. Такая задача группировки известна как задача диагонализации матрицы связей (Рис. 1.8). Задача о диагонализации матрицы связей является наиболее общей для матриц связей произвольной природы. Особенно интересным является случай, когда матрица связей является корреляционной матрицей. Именно для этого случая разработаны и широко применяются на практике специальные алгоритмы, известные как алгоритмы экстремальной группировки признаков (параметров).

X₁_{.
. .}X_nX₁_{.
. .}X_n

X₁ _