Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
МИРЭА / ЛЕКЦИИ 2012 / МОРФОЛОГИЯ / Сравнение и корреляция.ppt
Скачиваний:
162
Добавлен:
10.05.2015
Размер:
5.73 Mб
Скачать

Мера различий: Метрики (расстояния)

Метрики в нормированных линейных пространствах

Мера различий: Метрики (расстояния)

Метрики в нормированных линейных пространствах

Обобщённая мера расстояний предложенная Германом Минковским:

Мера различий: Метрики (расстояния)

Метрики в нормированных линейных пространствах

Расстояние Хэмминга — число позиций, в которых соответствующие символы двух слов одинаковой длины различны. В более общем случае расстояние Хэмминга применяется для строк одинаковой длины любых q- ичных алфавитов и служит метрикой различия (функцией, определяющей расстояние в метрическом пространстве) объектов одинаковой размерности.

Х

Y

d(X,Y) = S(X Y) - S(X Y)

Примеры:

"Манхэттенская метрика" (метрика городских кварталов)

Мера различий: Метрики (расстояния)

Метрики в нормированных линейных пространствах

Евклидово расстояние между точками p и q это длина отрезка pq. В Декартовых координатах, если p = (p1, p2,…, pn) и q = (q1, q2,…, qn) две точки в Евклидовом пространстве, длина отрезка p q равна:

Расстояние Чебышева

Мера различий: Метрики (расстояния)

Метрики в нормированных линейных пространствах

Единичный шар в метриках Минковского:

Мера различий: Метрики (расстояния)

Метрики в нормированных линейных пространствах

Расстояния между функциями:

метрика L1

 

(f1,f2) = x [a,b] | f1(x) – f2 (x) | dx

 

метрика L2

 

 

 

 

(f1,f2) = x [a,b] ( f1(x) – f2 (x) )2 dx

 

метрика L

Мера различий: Метрики (расстояния)

Метрики в нормированных линейных пространствах

Метрика Хаусдорфа есть естественная метрика, определённая на множестве всех непустых компактных подмножеств метрического пространства.

Пример:

Расстояние между кривыми

Мера различий: Метрики (расстояния)

Метрики в нормированных линейных пространствах

Метрика Хаусдорфа есть естественная метрика, определённая на множестве всех непустых компактных подмножеств метрического пространства.

Х

Y

DH(Х,Y)

Мера различий: Метрики (расстояния)

Метрики, не определяемые нормой

Французская железнодорожная метрика является необычным примером метрики. Название этой метрики произошло из-за очень централизованно проложенной (особенно раньше) железнодорожной сети Франции, в которой чуть ли не все пути сходились в Париже. Например, чтобы добраться по железной дороге из Страсбурга в Лион, нужно сделать крюк в 400 км через Париж в связи с тем, что нет прямого сообщения.

В невырожденном случае, то есть когда существуют неколлинеарные векторы, французская железнодорожная метрика — простейший пример метрики, которая не порождается нормой.

Мера различий: Метрики (расстояния)

Метрики, не определяемые нормой

Расстояние Левенштейна (также редакционное расстояние и) между двумя строками в теории информации и компьютерной лингвистие — это минимальное количество операций вставки одного символа, удаления одного символа и замены одного символа на другой, необходимых для превращения

одной строки в другую.

Впервые задачу упомянул в 1965 году советский математик Владимир Иосифович Левенштейн.

Если к списку разрешённых операций добавить транспозицию (два соседних символа меняются местами), получается расстояние Дамерау — Левенштейна.

Расстояние Левенштейна и его обобщения применяются:

для исправления ошибок в слове (в поисковых системах, базах данных, при вводе текста, при автоматическом распознавании отсканированого текста или речи).

для сравнения текстовых файлов утилитой diff и ей подобными. Здесь роль «символов» играют строки, а роль «строк» — файлы.

в биоинформатике для сравнения генов, хромосом и белков.