Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
МИРЭА / ЛЕКЦИИ 2012 / МОРФОЛОГИЯ / Сравнение и корреляция.ppt
Скачиваний:
162
Добавлен:
10.05.2015
Размер:
5.73 Mб
Скачать

Мера различий: Метрики (расстояния)

Метрики, не определяемые нормой

Редакционным предписанием называется последовательность действий, необходимых для получения из первой строки второй кратчайшим образом.

Обычно действия обозначаются так: D (delete) — удалить, I (insert) — вставить, R (replace) — заменить, M (match) — совпадение.

Например, для 2-х строк «CONNECT» и «CONEHEAD» можно построить следующую таблицу преобразований:

M M M R R R R I

C O N N E C T

C O N E H E A D

Цены операций могут зависеть от вида операции (вставка, удаление, замена) и/или от участвующих в ней символов, отражая разную вероятность мутаций в биологии, разную вероятность разных ошибок при вводе текста и т. д. В общем случае:

w(a, b) — цена замены символа a на символ b w(ε, b) — цена вставки символа b

w(a, ε) — цена удаления символа a

Меры сходства

Коэффициент сходства — безразмерный показатель, применяемый для

количественного определения степени сходства объектов (данных). Большинство коэффициентов нормированы и находятся в диапазоне от 0

(сходство отстутствует) до 1 (полное сходство).

Теоретико-множественные меры сходства

Наиболее простым коэффициентом сходства является мера абсолютного сходства, которая является числом общих элементов (признаков) двух

сравниваемых объектов:

Коэффициент сходства Жаккара:

или

.

A

 

 

B

Меры включения

Это несимметричные меры, которые показывают степень сходства (включения) одного объекта относительно другого:

меры включения Сёренсена

меры включения Жаккара

.

Меры сходства на основе скалярного произведения

Скалярное произведение — операция над двумя векторами, результатом которой является число (скаляр), не зависящее от системы координат и характеризующее длины векторов-сомножителей и угол между ними.

Данной операции соответствует умножение длины данного вектора x на проекцию другого вектора y на данный вектор x.

Эта операция обычно рассматривается как коммутативная и линейная по каждому сомножителю.

Обычно используется одно из следующих обозначений:

или (обозначение Дирака, часто применяемое в квантовой механике для векторов состояния):

. Обычно предполагается что скалярное

произведение положительно определено, то есть для всех .

A B = |A| |B| cos(θ)

Меры сходства на основе скалярного произведения

Неравенство Коши — Буняковского

Нормированная линейная корреляция

Нормированный коэффициент линейной корреляции:

KN(A,B) =

 

A,B

 

 

|| A || || B ||

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

|| A || = A,A ;

|| B || = B,B

A B = |A| |B| cos(θ)

 

 

Нормированная линейная корреляция

Нормированный коэффициент линейной корреляции функций

KN(f - f0,g - g0) = f - f0,g - g0 / (|| f - f0 || || g - g0 ||)

есть скалярное произведение нормированных центрированных функций:

 

f*(x) = (f(x) - f0) / || f(x) - f0 ||,

 

Функции имеют

 

g*(x) = (g(x) - g0) / || g(x) - g0 ||,

существенные различия

 

KN(f*,g*) = (f*,g*).

 

 

 

 

g(x) = a + bf(x)

 

f(x), g(x)

 

 

 

 

f(x)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

f0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

g0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Нормированная линейная корреляция

Нормированный коэффициент линейной корреляции функций

KN(f - f0,g - g0) = f - f0,g - g0 / (|| f - f0 || || g - g0 ||)

есть скалярное произведение нормированных центрированных

 

функций:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Центрированные и нормированные

 

f*(x) = (f(x) - f0) / || f(x) - f0 ||,

 

 

 

 

 

 

 

функции совпадают

 

g*(x) = (g(x) - g0) / || g(x) - g0 ||,

 

 

 

 

 

 

 

 

f*(x), g*(x)

 

KN(f*,g*) = (f*,g*).

 

 

 

 

g(x) = a + bf(x)

 

 

 

 

 

 

 

 

x

 

 

 

 

f(x)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

f0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

g0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Меры сходства и меры различия

Нормированный коэффициент линейной корреляции

KN(f - f0,g - g0) = (f - f0,g - g0) / (|| f - f0 || || g - g0 ||)

есть скалярное произведение нормированных центрированных изображений:

f*(x,y) = (f(x,y) - f0) / || f(x,y) - f0 ||, g*(x,y) = (g(x,y) - g0) / || g(x,y) - g0 ||, KN(f*,g*) = (f*,g*).

Метрика точек на единичной окружности (т.е. на сфере S1) есть метрика нормированных центрированных изображений, имеющая смысл угла (длины дуги единичной окружности) между ними. Значит, между метрикой и коэффициентом корреляции имеется элементарное монотонное (на полуокружности) соотношение:

d(F,G) = f* g*,

KN(f,g) = cos(f g) = cos(d(F,G)).

Меры сходства и меры различия

| KN(f,g) | = | cos(f g) | = | cos( d(F,G) ) |, откуда следует

неравенство треугольника для коэффициентов корреляции:

| KN(f,g) | KN(f,w) KN(w,g) – (1 – K2N(f,w)) (1 – K2N(w,g)), поскольку

cos(a + b) = cos(a) cos(b) – sin(a) sin(b), sin(a) = (1 – cos2(a)).

Пример. Если

KN(f,w) = KN(w,g) = 1/ 2 = 0,707…,

то корреляция двух крайних изображений между собой может оказаться даже нулевой:

| KN(f,g) | 0.

Это объясняет многие известные примеры «плохого» поведения теоретически «хороших» мер сходства на реальных данных.