Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Голицына Информационные системы 2004.pdf
Скачиваний:
323
Добавлен:
16.08.2013
Размер:
5.01 Mб
Скачать

4.2. Математические модели оценки технической эффективности

Для качественной оценки технической эффективности используется подход, предполагающий имитацию основных функций системы с помощью математической модели (с дальнейшей выработкой количественных критериев для оценки работы системы).

Для построения формальной модели критериев эффективности приведем диаграммы Эйлера-Венна возможных отношений между множествами терминов и/или документов информационного массива

(рис.4.2).

 

L0

 

 

D

 

L2

 

 

П2

L1 (y)

L12 (x)

 

П1

П12

 

(z)

 

 

 

 

(v)

 

 

 

 

 

 

 

 

 

а).

 

 

б).

Рис. 4.2. Диаграммы Эйлера-Венна отношений множеств терминов/документов.

(а) - множества документов, (б) – множества терминов.

Здесь L1 и L2 - множества документов, L12 - их пересечение, L0 . –

множество документов информационного массива.

П1 и П2 - множества терминов (информационные профили

соответствующих множеств документов, т.е. все значимые термины, хотя бы один раз встречающиеся во множестве документов), П12

пересечение информационных профилей, D – универсальный словарь. Данные множества могут трактоваться следующим образом: L1 и L2 - множества документов, связанных по общему термину;

П1 и П2 - списки терминов каждого из двух документов (термины,

хотя бы раз встречающиеся в документах потока; или встречающиеся чаще чем некоторый порог fmin, или имеющие частоты, лежащие в

интервале, задаваемом как fmin - fmax).

Рассмотрим случай, когда L1 и L2 - множества документов,

связанных по общему термину. Выберем два произвольных термина T, t входящих в какие-либо документы из L0.

Пусть L1 - множество документов, содержащих термин T, L2 - множество документов, содержащих термин t, тогда (Рис. *.1а):

x = L12 = L1 L2 - количество документов, содержащих оба термина (T и t);

102

y = L1 \ L2 - количество документов, содержащих термин T, но не

содержащих термин t;

z = L2 \ L1 - количество документов, содержащих термин t, но не

содержащих T;

v = L0 \ ( L1 L2 ) - количество документов, не содержащих ни

одного из терминов T и t. x + y + z + v = L0 = n0

Проблема оценки эффективности информационного поиска формально сходна с задачей сопоставления множеств документов и множеств терминов. Для измерения эффективности системы используются разностные меры множеств истинно релевантных (с точки

зрения конечного потребителя) Lи и выданных (формально, с точки

зрения системы, релевантных) Lс документов.

Рассмотрим так называемые первичные координаты описания выхода ИПС, представляющие соотношение выданных и не выданных множеств документов (диаграмму Эйлера-Венна <L> и таблицу сопряженности <a,b,c,d>).

Диаграмма <L> представляет соотношение множеств L0 – всего

информационного потока, Lи – множества истинно релевантных документов (т.е. документов, отвечающих информационной

потребности пользователя) и Lс – множество документов, выданных системой в ответ на поисковый запрос (рис.4.3). Соотношение этих множеств и количественные оценки меры их близости могут характеризовать эффективность поискового механизма системы.

 

L0

Lи

Lс

Релевантные

Выданные

 

Рис. 4.3. Диаграмма <L>

Таблица сопряженности <a,b,c,d> отображает количественное соотношение выданных системой множеств релевантных (с точки зрения потребителя) и нерелевантных документов и не выданных множеств релевантных и нерелевантных документов (табл. 4.1).

103

Таблица 4.1.

Таблица сопряженности выдачи и релевантности

 

Релевантные

Нерелевантные

Выданные

a

b

(формально

релевантные)

 

 

Не выданные

c

d

 

 

 

Очевидна следующая взаимосвязь представленных координат:

-число выданных релевантных документов: a = x = Lи Lc ;

-oбщее число релевантных документов: a + c = x0 = Lи ;

-количество выданных документов: a +b = n = Lc ;

- общее число документов в L0 : a + b + c + d = n0 = L0 ;

-число выданных нерелевантных документов: b = n x = Lc \ Lи ;

-число не выданных релевантных документов: c = x0 x = Lи \ Lc ;

-число не выданных документов: c + d = n0 n = L0 \ Lc ;

- число нерелевантных документов: b + d = n

x

0

=

 

L \ Lи

 

;

 

 

0

 

 

 

0

 

 

- число не выданных нерелевантных документов:

d= n0 x0 (n x) = L0 \ ( Lи Lc )

Сприведенными первичными координатами связаны частные критерии оценки:

- полнота (доля выданных релевантных документов по сравнению

сих общим количеством в информационном массиве):

r =

a

=

x

=

 

 

Lи Lc

 

 

;

(4.1)

 

 

 

 

 

 

 

 

 

a + c

 

 

 

 

Lи

 

 

 

 

 

x0

 

 

 

 

 

 

 

- точность (доля релевантных документов среди выданных):

p =

a

=

x

=

 

 

Lи Lc

 

 

;

(4.2)

 

 

 

 

 

 

 

 

 

a + b

n

 

 

 

Lc

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

- специфичность (доля не выданных документов по сравнению с не выданными и выданными нерелевантными):

σ =

d

= 1

n x

=

 

L0

\ ( Lи Lc

 

;

(4.3)

 

 

 

 

 

 

 

 

 

b + d

n0 x0

 

 

L0 \ Lи

 

 

 

 

 

 

 

 

 

 

 

 

104

- общность (или точность массива L0), характеризует качество

комплектования поискового массива (доля релевантных документов в информационном массиве):

p 0

=

 

a + c

=

x 0

=

 

 

 

LЏ

 

 

.

(4.4)

 

 

 

a

+ b + c + d

n 0

 

 

 

L0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Каждая из переменных (4.1) - (4.4) изменяется в пределах от 0 до 1. Этот перечень может быть дополнен показателем относительного объема выдачи:

ν =

a +b

=

n

=

 

Lc

 

 

(4.5)

 

 

a +b + c + d

n

 

L

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

 

 

0

 

 

 

Значение показателей технической эффективности во многом зависит от характеристик поисковых механизмов – моделей и методов отбора документов, а также возможностей используемого лингвистического обеспечения.

4.3. Модели механизмов информационного поиска в документальных БД

Модели поиска в диалоговой АИПС должны быть ориентированы на то, что реальная информационная потребность не удовлетворяется одним множеством документов, найденных по единственному запросу, а требует проведения серии отдельных поисков и выделения нужных фрагментов информации на каждой стадии развития запроса. Такие модели должны учитывать следующие факторы:

-поисковые запросы являются не статичными, а развивающимися (в том числе и с изменением представлений пользователя о предмете и задачах поиска);

-пользователь отбирает информацию итеративно, по частям, а не всю сразу в ответ на единственный запрос;

-пользователю доступны разнообразные поисковые методы, включая не только поиск по дескрипторам поискового запроса, но и, например, поиск документов по сходству;

-пользователь для работы с лексикой предметной области может применять широкий круг вспомогательных средств – тезаурусы, отраслевые рубрикаторы, словари и т.п.

Отвечающие этим требованиям модели будут намного ближе к реальному поведению человека, чем традиционная модель информационного поиска, требующая формулировки одного, пусть даже и точного, запроса, и может лучше управлять проектированием эффективных интерфейсов.

105

Для определения требований к поисковым механизмам рассмотрим АИПС как средство отыскания пользователем (субъектом поиска) решения находящейся в сфере его основной деятельности задачи Pi, ассоциируемой с системой понятий Ci , путем поиска документов, содержащих описание искомого решения. В этом случае процесс непосредственного решения задачи заменяется процессом поиска решения или методов его построения, полученных и опубликованных ранее. То есть, как показано на рис. 4.4, для получения решения задачи Pi , представляемой системой понятий Ci, необходимо найти множество документов Di, используя в качестве поисковых (характеристических) признаков множество терминов Ti , представляющих понятия Ci.

 

Решение

Основная деятельность

 

 

Ci

задачи ОД

Pi

Ti

 

 

Поиск

 

 

 

 

 

 

документов

 

 

 

Di

 

 

 

 

 

 

(с решением)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Информационная деятельность

 

 

 

 

 

 

 

 

Рис. 4.4. Информационный поиск в процессе основной деятельности

Очевидно, что чем более структурирована и систематизирована предметная область основной деятельности (и система понятий как основа структуризации – отображение Ci<–>Pi), чем более устойчива терминологическая система (однозначность именования понятий и их композиций – отображение Ci<–>Ti), чем более «проработана» предметная область (полнота представления результатов ОД в пространстве документов – отображение Di<–>Pi), тем более детерминированным должен быть механизм отбора S, реализующий отображение Ti<–>Di . При использовании для индексирования нормализованной лексики (ключевых слов, обеспечивающих однозначность именования понятий) поиск эффективно реализуется на основе жесткой булевой логики.

«Нечеткость» приведенных отображений (конечно при требовании обязательного нахождения решения задачи) означает, что неточность любого из соответствий должна быть компенсирована увеличением полноты выдачи за счет уменьшения точности. Это может быть обеспечено следующими путями: 1) обогащением выражения запроса, 2)

106

использованием менее жесткого механизма отбора, 3) использованием многоэтапных итеративных процедур поиска, обеспечивающих последовательное расширение терминологического и документального пространства, например, по технологии обратной связи по релевантности. Обобщенная схема итеративного процесса поиска приведена на рис. 4.5.

 

Решение

 

Ci

задачи ОД

Pi

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Поиск

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Ti1

 

 

 

 

 

 

 

 

S1

 

 

 

 

 

 

Di1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Zd

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Ti2+

 

 

 

 

 

Реформулир

 

 

 

 

 

 

Di1+

 

 

 

 

ование S1-1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Zt

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Ti2+

 

 

 

 

 

 

 

Поиск

 

 

 

 

 

 

 

 

 

 

 

 

S2

 

 

 

 

 

 

Di2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рис. 4.5. Схема итеративного процесса поиска

Такая схема, обеспечивающая выполнение требования сопоставимости и оцениваемости результатов, включает в себя два типа обратной связи: внешнюю, отражающую оценку пользователя (выделение истинно релевантных документов Zd – отображение Di<– >Di+), а также внутреннюю, учитывающую статистические особенности использования терминов в конкретной базе данных (выделение информативных для данной предметной области терминов – процесс S1-1 , реализующий отображение Di+<–>Ti+). Отметим, что на схеме приведен и другой тип внешней обратной связи Zt, реализующий на уровне терминологии предметной области выделение информативных терминов

– процедуру отображения Ti<–>Ti+.

Результаты различных исследований, посвященных анализу методов и оценке эффективности поиска в интерактивных БД, позволяют сделать следующие выводы:

107

-стратегии, используемые при поиске информации, весьма разнообразны, и их анализ не позволяет однозначно выделить наиболее оптимальную;

-для повышения эффективности поиска поисковый аппарат должен включать развитые возможности как собственно поиска (использование контекстного расстояния, учет грамматических характеристик текстов и т. п.), так и отображения информации (форматы выдачи, удобные средства листания и пр.);

-полезно включение в состав лингвистического обеспечения ИС не только традиционных тезаурусов и рубрикаторов, но и дополнительных структур, являющихся результатом статистической обработки словарей БД.

Таким образом, для повышения эффективности поисковых процессов ИПС должна обеспечивать различные поисковые стратегии, позволяющие не только постоянно модифицировать исходный запрос, но и получать результаты, основываясь на статистической значимости лексики релевантных документов и на критериях, позволяющих искать «похожие» документы.

Далее будет рассмотрена совокупность моделей механизмов информационного поиска, в которых в качестве запроса используются как множества дескрипторов, так и множества документов (соответственно, модель механизма поиска по совпадению терминов, модели механизмов поиска по сходству), а также логические конструкции, построенные над этими множествами (модель механизма поиска по логическому выражению, модель механизма поиска с использованием контекстных операций, модель механизма поиска документов-аналогов).

Каждый из механизмов поиска предназначен для определенных типов БД, находится в соответствии с требованиями запросов и обладает уникальными достоинствами. В ИПС же особенно важно обеспечить возможность использования различных механизмов поиска (а также их комбинаций) для реализации всех типов поисковых задач.

4.3.1.Матрица «термин-документ»

Всоответствии с [Попов1996] используем понятие универсального словаря D (прообразом которого может быть, например, тезаурус, рубрикатор, УДК), содержащего множество лексических единиц всего потока документов. Таким образом,

li D для всех i,

где li – совокупность лексических единиц некоторого документа (сообщения), который является элементом некоторого потока L:

L ={l1 ,...li ,...ln },l L

108