Скачиваний:
275
Добавлен:
15.06.2014
Размер:
2.04 Mб
Скачать

Поиск состоит из двух этапов:

1)поиск всех ассоциаций, отвечающих поисковому аргументу (год, 1998).

Врезультате поиска сформируется набор возможных значений x;

2)отбираются все отношения, которые соответствуют поисковому аргументу (тема, ИИ). Образуется второй набор значений x.

Выделив элементы, которые присутствуют одновременно в обоих наборах, найдем требуемые статьи.

Поиск может выполняться и другими способами (программным или с применением аппаратуры для параллельных вычислений) [3] .

1.3.4.Классические законы ассоциаций

Обобщая наблюдения над явлениями человеческой памяти, греческий философ Аристотель (384–322 гг. до н.э.) выдвинул ряд постулатов, впоследствии послуживших основой при построении классических законов ассоциаций [3].

Между объектами мышления (идеями, восприятиями, ощущениями, чувствами) в памяти человека устанавливаются связи при наличии следующих ус-

ловий (законов):

1)если они возникли одновременно («пространственный контакт»);

2)если они возникли с небольшим разрывом во времени («временный контакт»);

3)если между ними имеется сходство;

4)если они противоположны.

По современным представлениям, с учетом принципов действия средств электронной вычислительной техники, в работе памяти физической системы можно обнаружить проявление этих законов на этапах записи (1 и 2 законы) и считывания (3 и 4 законы) информации.

Действительно, чтобы в физической системе два сигнала оказались связанными (совместно закодированными), они должны появиться либо одновременно, либо с небольшим сдвигом относительно друг друга, а считанный элемент (или его часть) может, например, иметь значительную положительную корреляцию (сходство) или отрицательную корреляцию (различие) с элементом, используемым в качестве входного ключа или поискового аргумента.

Следует напомнить еще об одном факторе человеческой памяти, которому она обязана своей громадной емкостью и способностью к селекции, о контексте, или об обстоятельствах, при которых произошло первичное восприятие объекта. В памяти человека восприятие любого объекта из внешнего мира сопровождается возникновением эмоций и запоминается не только ин-

18

формация об объекте, но и о вызванных им эмоциональных ощущениях и времени. В памяти физической системы в процессе запоминания изображения объекта не происходит какой-либо обработки.

Отметим наиболее важные особенности памяти человека [3]:

1) поиск информации в памяти основывается на некоторой мере, определяющей меру сходства с ключевым образом;

2)память способна хранить образы структурированных последователь-

ностей;

3)выборка информации из памяти представляет собой динамический процесс, подобный процессам, протекающим в различных физических системах непрерывного типа.

1.4. Отношения сходства между информационными объектами

Если рассматривать определение ассоциации как установление отношений соответствия между представлениями двух или большего числа объектов или событий, то определяющим свойством ассоциативной памяти является реализация в ней процедуры сравнения на основе выбранной меры сходства, трактуемой как расстояние между информационными объектами, представленными в виде упорядоченных наборов элементов некоторых множеств.

Далее рассмотрим различные информационные меры сходства и способы определения отношений сходства/различия между информационными объекта-

ми [3, 5].

Хэммингово расстояние. Данная мера применяется для сравнения любых упорядоченных наборов равной длины, принимающих дискретные значения.

Пусть имеется два набора: x = (x1 ,….,xN ) и y = (y1 ,…,yN). Хэммингово расстояние для них можно получить путем подсчета числа несовпадающих элементов в одинаковых позициях наборов, так что для бинарных наборов можно записать

ρH (x,y) = bc{(

x

K yK ) (xK

y

k)| k =1,…,N}.

(1.1 )

Функция bc{S} здесь определяется как число элементов набора S, принимающих значение логической «1».

Функция корреляции. Для двух упорядоченных наборов или двух последовательностей действительных чисел x = (x1 ,….,xN ) и y = (y1 ,….,yN). функция корреляции определяется следующим образом:

19

N

 

C = xK yK .

(1.2 )

k =1

 

Например, для двух действительных векторов x и y в евклидовом про-

странстве величина C равна их скалярному произведению.

Корреляционные методы часто применяются для сравнения непрерывных сигналов, а также при распознавании образов.

Если наборы могут сдвигаться друг относительно друга, для их сравнения можно использовать меру, инвариантную к такому, например, смещению, как максимум функции корреляции на заданном интервале:

 

N

Cm= max xK yK , i = –N, –N =1,….,N.

i

k =1

 

Расстояние пространства Бэра. Точки этого пространства – это всевозможные наборы m=(m1 ,….,mk ,…) и n=(n1 ,….,nk ,…) натуральных чисел. Расстояние пространства Бэра определяется

ρ (m,n ) = 1/h(m,n ),

(1.3)

где h(m,n ) – наименьшее натуральное число, для которого m ≠ n. Направляющие косинусы. Косинусом угла между двумя векторами x и y

в евклидовом пространстве называется величина

cos θ =

< x, y >

,

(1.4)

|| x || || y ||

где <x ,y> – скалярное произведение векторов x и y , а ||x|| – евклидова норма вектора x.

Если векторы промасштабированы так, что их нормы равны единице, то (1.4) перейдет в (1.2) и cos θ = C. Если cos θ = 0, то векторы взаимно ортогональны; если cosθ = 1, то вектор y = ax , а направления совпадают .

Евклидово расстояние. Для упорядоченных наборов x = (x1 ,….,xN ) и y=(y1,….,yN) из N действительных чисел определяется как

N

 

ρE (x,y)=||x–y||= (Xk Yk )2 .

(1.5)

k =1

 

Если векторы нормированы, так что их длины равны, то сравнение с помощью евклидова расстояния дает такие же результаты, что и методы корреляции и направляющих косинусов.

20

Расстояние по Манхэттену для двух упорядоченных наборов x действительных чисел представляет собой покоординатное смещение:

n

| .

ρ(x,y)= |xk yk

k =1

 

иy из N

(1.6)

Чебышевское расстояние – для двух упорядоченных наборов из N дейст-

вительных чисел x и y определяется выражением

 

ρ(x,y) = maxk

| xk yk | .

(1.7 )

Меры сходства в метрике Минковского

 

ρ (x,y) = ( n |xk yk | λ )1 / λ , λ≥1.

(1.8 )

k =1

 

 

При λ=1 получаем расстояние по Манхэттену, при λ=2 – евклидово расстояние, а при λ → – чебышевское расстояние.

Мера сходства Танимото. Она может использоваться для сравнения векторов различной длины

ρ (x,y) =

 

< x, y >

(1.9 )

|| x ||2

+ || y ||2

− < x, y >

 

 

или неупорядоченных наборов А и B нечисловых элементов (например, идентификаторов и дескрипторов в документах)

ρ (A,B)=

N (A B)

=

N(A B)

.

(1.10)

(N B)

N (A) + N(B) N(A B)

 

 

 

 

В рассмотренных мерах сходства компоненты наборов x и y считались независимыми. В [3, 5] рассматриваются также взвешенные меры сходства для статистически зависимых последовательностей, в этом случае в методах, где применялось скалярное умножение, оно должно быть заменено векторноматричным произведением, что требует большого количества вычислений.

Применяются меры сходства на основе бинарной многозначной и непрерывнозначной логики, нечеткие меры, сравнение по неизменным признакам, вариационные меры сходства (к ним тесно примыкает левенштейново расстояние).

Левенштейново расстояние используется для оценки степени различия символьных строк x и y и записывается в виде

ρ(x,y) = min (apk+bqk+crk),

(1.11)

k

21

где p,q,r – соответственно операции замены, включения и исключения символов для получения строки x из строки y в процессе редактирования, а коэффициенты a,b,c учитывают частоту этих замен (ошибок в строках) и постоянны для задач определенного класса.

22