Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Голицына Информационные системы 2004.pdf
Скачиваний:
323
Добавлен:
16.08.2013
Размер:
5.01 Mб
Скачать

- после окончания просмотра система автоматически изменяет веса терминов и ранги документов в соответствии с информацией обратной связи.

Интеграция указанных процессов не совсем удобна, поскольку пользователю приходится инициировать порой довольно большое число булевых запросов, поэтому более технологично применять процедуры автоматического или полуавтоматического расширения выражения запроса путем добавления терминов из релевантных документов.

Как видно, основная нагрузка при этом приходится на анализ весовых коэффициентов или различных мер близости терминов и документов.

В реальной практике информационно-поисковых систем, однако, основывать алгоритмы обратной связи на вычислении мер или функций сходства не всегда технологично, т.к. расчеты иногда требуют больших вычислительных и информационных ресурсов.

Другой путь – автоматическое расширение выдачи, т.е. предложение системой пользователю документов, похожих на ранее выбранные им и отмеченные как релевантные. Сходство в данном случае можно интерпретировать как расстояние между двумя информационными потоками: чем более похожи эти потоки, тем они ближе. Отличие такого способа заключается в том, что управление полностью осуществляется системой, а не пользователем.

Далее рассмотрим модели, которые позволяют реализовать механизм поиска документов по сходству.

4.3.4.1. Модель механизма поиска документов-аналогов

Аналогами некоторого документа назовем такие документы информационного массива, которые имеют заданное количество общих терминов с исходным, т.е. функция «похожести» реализуется простой количественной оценкой документов с точки зрения наличия в них терминов из некоторого подмножества словаря.

Источником для поиска аналогов служит некоторый отдельный документ информационного массива. Задача функции - отыскать «похожие» на него документы.

Выделим в матрице L0 столбец lk = (bik ,i =1, D), соответствующий

ПОДу рассматриваемого документа, и построим подматрицу LDoc, оставив в матрице L0 только те строки, в которых bik 0 . Далее, по

матрице LDoc строится результирующий вектор запроса на поиск аналогов (QDoc ) и, аналогично п.2.1, может быть получен поисковый результат с учетом (или без) некоторого заданного порога «близости»

(m).

114

В случае, когда универсальный словарь представляет собой набор отдельных словарей Di, построенных по лексике отдельных структурных единиц документов (например, полей), процедура поиска аналогов может быть усложнена заданием различных пороговых значений для структурных единиц и построением логического выражения над множеством критериев отбора, связывающих поле и соответствующее пороговое значение. Например, поиск библиографий-аналогов может быть сформулирован следующим образом: найти документы, где в библиографии встречается хотя бы одна из фамилий авторов исходного документа, и, по крайней мере, две тематические рубрики, общие с исходным документом.

Рассмотрим реализацию процедуры поиска аналогов для случая:

n

D = Di ,

i=1

 

i

 

i

 

i

 

 

 

b11b12

Κ b1n0

 

 

LD

bi

bi

Κ bi

 

 

= 21

 

22

 

2n0

 

i

Λ ΛΛ Λ Λ

 

 

 

 

 

bi

 

Κ bi

 

 

bi

 

 

 

 

Di 1

Di 2

 

Di n0

 

Тогда ПОД заданного документа представляет собой объединение ПОДов, построенных для различных структурных единиц:

n

lk = ΥlkDi , lkDi = (blk ,l =1, Di ),

i=1

аподматрица аналогов - соединение подматриц:

D1

 

 

 

LDoc

 

 

LD2

 

 

 

LDoc = Doc .

 

 

Μ

 

 

 

Dn

 

 

 

LDoc

 

 

Построим

 

 

матрицу

результирующих

векторов

QDoc = (qij ,i =

 

 

 

), где каждая

строка представляет собой

1,n, j =

1,n0

результирующий вектор одной из подматриц с учетом заданного порога близости:

 

 

 

 

 

 

 

Di

 

Qi = (q

i

i

 

i

i

1, еслиblji

mi

1 q

2

Λ qn0

), гдеql

=

l=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0 - впротивномслучае

Используя

теперь

матрицу

QDoc

вместо матрицы L0 в модели

поиска по логическому выражению, можно выполнять процедуры построения дерева запроса с последующим вычислением результата.

4.3.4.2. Модель механизма эвристического поиска

Эвристический поиск работает по принципу отыскания документов, «похожих» на усредненный «тематический» образ

115

некоторого множества релевантных документов, указанных пользователем, и реализуется следующей последовательностью шагов:

Шаг 1. Построение словника по массиву релевантных документов. Результатом этого шага является подматрица LRel матрицы L0, построенная путем выбора столбцов, характеризующих заданные

пользователем документы:

LRe l = (bijk ,i =1,D,k =1,n,1 jk n0 ), n – количество документов, отмеченных пользователем как релевантные.

Шаг 2. Оценка терминов словника и построение Поискового Образа Темы (ПОТ).

Результатом оценивания должно быть выделение только тех терминов, которые могут быть включены в ПОТ. Желательно, чтобы в основе формальной оценки лежали частотные характеристики, которые могут быть получены из матриц L0 и LRel:

n

 

Fi = 0

bij (или i-тый элемент главной диагонали матрицы L0 × L0T ),

j=1

 

Fi Re l =

bij (или i-тый элемент вектора L0 ×QRe l ),

 

j= j1 , j2 ,Κ , jk

где Fi – частота термина в информационном массиве, FiRel – частота термина в множестве релевантных документов, QRel – вектор релевантных документов (строка расширенной матрицы L0).

Например, для оценки степени соответствия термина ПОТ может быть использована мера точности термина - отношение частоты термина в множестве релевантных документов к частоте термина в информационном массиве, а в качестве порога для отбора в ПОТ – относительный коэффициент CR, вычисляемый в зависимости от эвристического параметра nS, характеризующего количество ожидаемых документов (т.е. максимальное количество документов результата поиска). С другой стороны, эвристический параметр характеризует минимальную (ненулевую) точность термина, возможную в ожидаемой выдаче:

CR =

1

.

 

 

 

 

 

 

ns

 

Тем самым, в ПОТ отбираются термины, для которых выполняется

неравенство:

 

 

Fi Re l

 

CR

(4.12)

 

F

 

 

 

 

 

i

 

 

 

Шаг 3. Построение матрицы «термин-документ» для функции поиска аналогов.

На этом шаге из матрицы LRel должны быть удалены строки, для которых не выполняется неравенство (4.12). В результате получаем матрицу LПОТ:

116

W = (wi ,i =1,k ),

LПОТ = (bijk ,i =1,M ,k =1,n), где M – количество терминов в ПОТ, определяющее порог «близости» для следующего шага.

Шаг 4. Выполнение функции поиска аналогов с пороговым значением M.

По матрице LПОТ строится результирующий вектор запроса на отбор документов-аналогов (QПОТ ) и формируется поисковый результат с учетом порога близости M. Если число документов полученного результата меньше, чем заданное в системе nS, то пороговое значение M уменьшается на 1, и повторяется процедура поиска аналогов с новым пороговым значением. Таким образом, на каждой i-ой итерации пороговое значение равно M–i.

Цикл заканчивается в одном из двух случаев: либо после выполнения очередной итерации число документов результата стало равно или превысило значение nS , либо пороговое значение стало равно

0.

4.3.4.3. Модель механизма поиска с использованием обратной связи по релевантности терминов

Обратная связь по релевантности на уровне отдельных терминов должна обеспечить пользователю возможность целенаправленно изменять поисковый запрос путем повышения роли одних и понижения роли других терминов, не вникая в тонкости составления запроса, определяемые особенностями документального массива и ИПС. При этом процесс поиска обычно разбивается на последовательность несложных шагов, ведущих к поставленной цели.

В рамках модели (в соответствии с которой определяется обратная связь) существуют различные стратегии изменения весовых коэффициентов терминов, предлагаемых системой для расширения запроса, на основании информации о релевантности/нерелевантности выданных документов.

Рассмотрим диалоговую модель механизма поиска по обратной связи, предлагаемую в ИПС IRBIS.

Диалоговая модель поиска «по обратной связи» отличается от модели эвристического поиска тем, что после выполнения системой очередного шага пользователю предоставляется возможность управлять дальнейшим процессом формирования результата, т.е. последовательность шагов в диалоговой модели дискретна и реализуется (с точки зрения продолжительности) в зависимости от предпочтений пользователя.

Шаг 1. Построение и ранжирование словника релевантных документов.

Результатом этого шага является вектор где k – количество терминов релевантных документов, а wi, соответственно,

117

значение весового коэффициента для i-го термина, удовлетворяющее неравенству wi wi+1 .

Расчеты весовых коэффициентов могут основываться на различных мерах близости и на этом шаге не влияют на количество выдаваемых пользователю терминов (пользователь в данном случае получает оценку всех терминов релевантных документов, которые находятся в частотном словаре, т.е. в ПОТ попадают все термины без исключения).

По завершении первого шага система передает управление пользователю, который самостоятельно (основываясь на выданных ему значениях весовых коэффициентов и упорядоченности терминов релевантных документов) отмечает термины, способные улучшить поисковый запрос.

Отмеченные термины пользователь далее может самостоятельно добавить в поисковый запрос (для реализации моделей поиска по совпадению терминов или по логическому выражению) или инициировать второй шаг поиска по обратной связи.

Шаг 2. Формирование матрицы поисковых результатов. Термины, отобранные пользователем на предыдущем шаге,

рассматриваются как исходные для проведения поиска по совпадению терминов. Модель этого механизма поиска реализуется в данном случае построением подматрицы запроса (Lq), в которой отдельные строки могут быть нулевыми.

Рассмотрим теперь подматрицу Lq как исходную для проведения процедуры поиска аналогов и последовательно для каждого ненулевого столбца построим вектор Qi – результат поиска аналогов с максимальным порогом близости (максимальный порог близости задается количеством единиц в столбце, а контекст результата задается перечислением самих терминов). Полученные векторы рассмотрим как строки матрицы поисковых результатов:

QTheme = (qij ,i =1,n, j =1,n0 ),

где n – количество ненулевых столбцов подматрицы Lq . Отметим, что каждая строка сформированной таким образом

матрицы снабжается контекстом – перечислением конкретных терминов, присутствующих в документах конкретного результата. Удалив из матрицы строки с одинаковым контекстом, получим кластеризованное пространство документов, где каждый кластер задается не только количеством терминов запроса, но и составом самих терминов.

Матрица поисковых результатов QTheme дает возможность обеспечить доступ к каждому отдельному результату для его просмотра и последовательного формирования нового множества релевантных документов.

118

4.4. Пример использования различных поисковых механизмов и оценка эффективности результатов

Рассмотрим примеры применения различных поисковых механизмов и проведем оценку эффективности поисковых стратегий на материале БД ВИНИТИ РАН «Информатика» с использованием ИПС

IRBIS.

Сформулируем поисковые запросы для отбора документов, отнесенных к рубрике Рубрикатора ВИНИТИ 201.23.17.03 «Структура массивов. Формирование массивов и баз данных».

Формализуем поисковую задачу следующим образом: пусть необходимо отобрать документы этой рубрики, используя поисковые образы документов, представленные полем ключевых слов. В этом случае множество истинно релевантных документов определяется как множество документов, заиндексированных экспертами данной рубрикой (1469 документов), а множество выданных документов формируется как результат отбора в соответствии с логическим выражением, операндами которого служат ключевые слова.

Использование механизма поиска по совпадению терминов. Для реализации стратегии поиска по совпадению терминов зададим поисковый запрос, включив в него термины «массивы», «базы данных», «формирование», «структура».

Поиск по совпадению терминов с пороговым значением 2 (т.е. поиск документов, имеющих не менее 2-х общих терминов с запросом) дает в результате 102 документа, из которых истинно релевантных – 33. В табл. 4.2 представлены результаты вычисления полноты и точности.

 

 

 

Таблица 4.2.

 

 

 

Стратегия

Полнота

Точность

Поиск по совпадению

0,02246

0,32353

терминов (порог 2)

 

 

Поиск по совпадению

0,52553

0,15028

терминов (порог 1)

 

 

Поиск по логическому

0,02246

0,34375

выражению

 

 

 

Поиск по совпадению

0,03744

0,36667

терминов

с

 

 

маскированием

(порог

 

 

2)

 

 

 

Поиск по совпадению

0,5488

0,14054

терминов

с

 

 

маскированием

(порог

 

 

1)

 

 

 

Поиск по логическому

0,03744

0,39287

 

 

119

 

выражению с маскированием

Поиск по совпадению терминов с пороговым значением 1 (т.е. поиск документов, имеющих хотя бы один общий термин с запросом) дает в результате 5137 документа, из которых истинно релевантных – 772. Легко заметить, что увеличение полноты поиска при этом влечет за собой понижение показателя точности.

Использование механизма поиска по логическому выражению.

Стратегия поиска с использованием булевой логики предполагает построение как можно более точного выражения запроса с применением лексики предметной области.

Ориентируясь на ту же лексику, что и в предыдущем случае, сформулируем выражение запроса с использованием логических операторов И и ИЛИ:

(KW:массивы ИЛИ KW:'базы данных') И (KW:формирование ИЛИ

KW:структура)

Поиск по логическому выражению в результате дал 96 документов, 33 из которых оказались релевантными (те же, что и при поиске по совпадению терминов с пороговым значением 2). При том же значении полноты, что и в случае использования предыдущей стратегии, был получен лучший показатель точности.

В приведенных примерах была использована нормализованная лексика, в точности совпадающая с лексикой названия рубрики. Улучшать показатели эффективности в данном случае можно, только путем модификации логического выражения.

Рассмотрим далее результаты обеих стратегий в случае использования аппарата маскирования терминов запроса.

Предложение запроса для стратегии поиска по совпадению терминов имеет следующий вид:

KW:(массив* и баз*данн* и формирован* и структур*)

Поиск по совпадению терминов с пороговым значением 2 в данном случае дает в результате 150 документов (55 релевантных), а с пороговым значением 1 – 5735 документов (806 релевантных).

Использование маскирования в стратегии поиска по логическому выражению привело к следующему результату: всего найдено 140 документов, из них 55 релевантных. Из табл.4.2 видно, что маскирование терминов повышает показатели и полноты, и точности.

Применение стратегий, основанных на вводе терминов поискового запроса, во многом зависит от полноты и точности отдельных терминов в рамках информационного массива и не может вывести пользователя за пределы используемой в запросе лексики. Рассмотрим применение

120