Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Методическое пособие 701

.pdf
Скачиваний:
2
Добавлен:
30.04.2022
Размер:
4.94 Mб
Скачать

ношением включения следующим образом:

d1 ,d2 D

 

~

))(t Kt ) (t t ),

(3.4)

t(d1 ) t(d2 ) ( t t(d1 ))( t t(d2

~

 

 

т.е. каждый дескриптор из t(d1 ) представляет собой обобщение дескриптора

из t(d2 )или идентичен дескриптору из t(d2 ).

 

Отношение ~

позволяет сформулировать ответ Q на вопрос m M в виде:

 

Q (m) d :d D m ~ t(d) .

(3.5)

Пусть S1 , ,Sn локальные ИС, где Sj (Tj ,Dj ,Mj , j ), j 1,n, с составляющими, описанными в определении 1.

Объединим системы S1 , ,Sn в одну систему S, которую в дальнейшем будем называть распределенной ИС, базирующейся на глобальном тезаурусе

T Uj Tj .

Пусть у нас имеется распределенная ИС S=(T, D, M, ) c синонимическим отношением R и обобщающим отношением K. Тогда последовательность ИС можно определить следующим образом:

Sj

(Tj ,Dj ,M j , j ),

(3.6)

где Tj T;Dj D;M j M ; j

сужение на

Mj ; j

 

. Кроме того,

1,n

отношения Rj R (Tj Tj ) и K j K (T0 j T0 j ); T0 j

- множество дескрипто-

ров системы Sj

; отношение предпочтения

(M j M j );

 

 

 

~ j

~ j

 

 

m M j

(m) d :d Dj m t(d) . (3.7)

 

 

 

~

j

Множества Tj и Dj могут пересекаться.

Определим понятие подсистемы, которое позволит формализовать отно-

шение включения одной системы вдругую.

 

 

 

Определение 3.2.3. Пусть S1 (T1 ,D1 ,M 1 , 1 )

и S2 (T2 ,D2

,M 2 , 2 )

- ин-

формационные системы. Система S1

является подсистемой S2 , S1

S2 , если:

1)

(T1 T2 ) (K1 K2 (T01 T02 ))

(R1 R2 (T1

T1 ));

(3.8)

2)

D1 D2 ;

 

 

 

(3.9)

3)

(M1 M2 ) ( (M1 M1));

 

(3.10)

 

~ 1

~ 2

 

 

 

4)

1 (m) 2 (m) D1 ,m M1 .

 

 

(3.11)

Очевидно, что локальные ИС являются подсистемами распределенной ИС.

Поскольку множество документов распределенной ИС является объединением множеств документов локальных систем, можно выразить ответ на вопрос к распределенной системе как результат некоторых операций над ответами от локальных систем.

Пусть m m вопрос, содержащий один дескриптор, а (m)ответ на вопрос m . В подсистемеSj ответ на локальный вопрос m m согласно (3.5) описывается в следующей форме:

171

Q j (

 

) d:d Dj m t(d).

(3.12)

m

~ j

В свою очередь в распределенной системе S глобальный ответ на вопрос m {m}будет объединением локальных ответов (m) j j (m).

Ответ на произвольный вопрос m {m1, ,mk }в распределенной системе выражается формулой

 

 

k

 

 

 

i {mi}.

 

(

m

) (

m

i ),

m

(3.13)

 

 

i 1

 

 

 

Покажем справедливость этой формулы и ее согласованность с определением последовательности информационных систем:

 

 

 

k

 

 

 

 

 

k n

 

 

 

k

n

 

 

 

 

(

m

)

(

m

 

i ) j (

m

i ) d :d Dj

mi

t(d)

 

 

 

i 1

 

 

 

 

 

i 1 j 1

 

 

 

i 1

j 1

~

 

k

 

 

n

 

 

 

 

 

 

k

 

 

 

 

 

 

 

 

mi

 

 

 

 

 

 

 

d :d

Dj

t(d)

d :d D mj t(d) (3.14)

i 1

 

 

j 1

 

 

 

~

 

 

i 1

 

~

 

d :d D

 

~

t(d).

 

 

 

 

 

 

 

 

m

 

 

 

 

 

 

 

 

Отметим одно важное свойство распределенной ИС.

Определение 3.2.4. Распределенная ИС обладает свойством включения, если множество вопросов частично упорядочено отношением ~ и выполняется

условие

{

 

1,

 

2} M

 

1 ~

 

2 (

 

1) (

 

2 ).

(3.15)

m

m

m

m

m

m

Свойство включения позволяет формулировать цепь ответов на цепь вопросов, уточняя ответы более специализированными вопросами.

В некоторых случаях при выполнении свойств аддитивности операции над ответами локальных систем могут быть упрощены. В частности:

1) если множества документов локальных ИС попарно не пересекаются, то глобальный ответ распределенной системы представляется как объединение локальных ответов,

( Dk Dl ) (

 

{m1, ,mS }) (m)

 

n

 

);

(3.16)

m

j (

m

1 k l n

 

j 1

 

2) если все локальные ИС заданы на одном тезаурусе:

 

Sj (Tj ,Dj ,Mj , j ), j

 

,

(3.17)

1,n

а множества документов разнесены, то ответ на глобальный вопрос будет объединением локальных ответов, т.е. если m {m1, ,mS }- вопрос,

T T , тогда (

 

n

 

 

 

).

(3.18)

m

)

(

m

1 i n i

 

j 1

j

 

 

 

 

В плане дальнейшего обобщения представленной математической модели распределенной ИС [38] введем веса, которые будут описывать распределение информации на каждом слове. Информацию, заложенную в описании документа, будем рассматривать в виде некоторой единицы. Следовательно, вес wi со-

ответствует объему информации, попадающей на дескриптор ti , т.е.

172

 

t(d) { t1 ,w1 , t2 ,w2 , , tk ,wk },

(3.19)

и выполняются условия:

 

 

 

 

 

 

 

1) ti tj

ti Ktj ( wi [0,1])(ti ,wi )

 

t(d) wj [0,1])(tj ,wj )

 

t(d); (3.20)

 

 

2) k wi

1.

 

 

 

 

 

 

(3.21)

i 1

 

 

 

 

 

 

 

 

Рассмотрим подобие вопросов и описаний документов.

 

Определение 3.2.5. Пусть t(d1 ) ,

t(d2 )- описания документов:

 

 

t(d1) { t11,w11 , t12 ,w12

, , t1k1 ,w1k1 };

(3.22)

 

t(d2 ) { t21,w21

, t22 ,w22 , , t2k2 ,w2k2 }.

(3.23)

Описание t(d1 ) подобно описанию t(d2 )

с точностью (0 1), если

 

t(d1) t(d2 ) w1i w2 j ,

(3.24)

 

~

t1i ,w1i t(d1)

j:[t2 j I(t1i )]

 

 

 

 

где I(t1i ) {t2 j :t1i Kt2 j 1 j k1}.

 

 

 

 

Если t(d1 )

и t(d2 ) удовлетворяют условию(3.24),тозапишем t(d1) t(d2 ).

Рассмотримпример.

 

 

 

 

 

 

 

Пример.Пусть t1Kt4 ,t1Kt5 ,t1Kt6 ,t2 Kt7 ,t2 Kt8 ,t3 Kt9 .

 

Положим

t(d1 ) { t1 , 0,5 , t2 , 0,3 , t3 , 0,2 };

 

 

}.

t(d2 ) { t4 , 0,1 , t5 , 0,1 , t6 ,

0,2 , t7

, 0,2 , t8 , 0,1 , t9 , 0,3

Отношение t(d1 ) 0,4t(d2 )выполнено, если каждое неравенство в (3.25) вер-

но:

0,5 0,4 0,1 0,1 0,2;

 

 

 

 

 

 

 

 

 

 

 

(3.25)

 

0,3 0,4 0,2 0,1;

 

 

 

 

 

 

 

 

 

 

0,2 0,4 0,3.

 

Рассмотрим ряд свойств отношения подобия, доказательство которых

очевидно:

1. Если (t(d1) 1 t(d2 )) ( 1 2 ), то t(d1 ) 2 t(d2 ).

(3.26)

 

 

2. Если (t(d1) 1 t(d2 )) (t(d2 ) 2 t(d3 )),

(3.27)

 

то (t(d1 ) t(d3 ))

( 1 2 ).

(3.28)

Последнее свойство называется квазитранзитивностью.

Представляет интерес другая величина, характеризующая коэффициент подобия или меру корреляции пар векторов, удовлетворяющих отношению ~ .

Для векторов t(d1 ) , t(d2 ) таких, что t(d1 ) t(d2 ), мера корреляции

 

 

 

~

min(w1i , w2 j ),

(3.29)

 

(t(d1 ),t(d2 ))

 

 

 

i:(t1i ,w1i ) t(d1 )

j:[t2 j I (t1i )]

 

где I(t1i ) {t2S :t1i Kt2S

1 i k1}.

 

 

 

Фактически мера оценивает пересекающуюся информацию, заключен-

173

ную в описании документов t(d1 ) ,

t(d2 ).

 

 

Для описаний t(d1 ) и t(d2 )

в вышеприведенном примере мера корреля-

ции равна:

 

 

 

 

(t(d1 ),t(d2

)) min( 0,5; 0,1 0,1 0,2) min( 0,3;

0,2 0,1) min( 0,2; 0,3)

=0,4+0,3+0,2=0,9.

 

 

 

Рассмотрим основные свойства меры корреляции:

 

1. Мера корреляции неотрицательная величина, т.е.

 

 

 

(t(d1 ),t(d2 )) 0 .

 

(3.30)

2. Значение меры корреляции удовлетворяет неравенству

 

 

 

0 (t(d1 ),t(d2 )) 1.

 

(3.31)

3.

Если

для каждого

(t1i ,w1i ) t(d1 ) из

определения

подобия

w1i

w2 j , то мера корреляции равна точности подобия, т.е.

 

j:[t2 j I (t1i )]

 

 

 

 

 

 

 

(t(d1),t(d2 )) .

(3.32)

4. Если t(d1) t(d2 ), то (t(d1 ),t(d2 )) .

 

(3.33)

5. Если t(d1 ) t(d2 ) (t(d1 ),t(d2 )) 1 ,

 

(3.34)

 

 

~

 

 

 

то t(d1 ) t(d2 ) 2 1.

Теперь возможно определить ИС на тезаурусе с весами.

Определение 3.2.6. Информационной системой на тезаурусе с весами называется четверка (T, D, M, ), где T – тезаурус с дескрипторным множеством T0 T ; D – коллекция документов; М – множество вопросов; отображение,

:M [0,1] 2D [0,1] сопоставляет каждой паре (вопрос, точность подобия) множество пар (документ, мера корреляции).

Ответом системы на вопрос m с требуемой точностью cназывается множество

Q (m,c) (d, ):d D m ct(d) (m,t(d)) D [0,1]. (3.35)

При определении ответа N (m,c)отношение подобия c осуществляет выбор документов, точность подобия которых не менее с. Мера корреляции(m,t(d)) показывает, какая часть информации в документе соответствует от-

вету на вопрос.

Одно из фундаментальных свойств ответа связано с точностью и мерой корреляции вопроса к описанию документа, включенного в ответ. Предста-

вим это в виде соответствующей теоремы.

Теорема 1. Если документ d Dс мерой корреляции включен в ответ, т.е. (d, ) (m,c), то верно неравенство c.

Обратное утверждение неверно.

Разработанная математическая модель весовой распределенной информационной системы и ее представленные свойства позволяют составлять ответы на запросы более гибко с учетом неопределенности описания как документов,

174

так и запросов по сравнению с простой распределенной ИС.

Дальнейшим развитием данной модели является математическая модель весовой обработки информации на терминологическом портрете.

3.3. Математическая модель весовой обработки информации на терминологическом портрете

Терминологический портрет отличается от тезауруса, весовой взаимоувязкой терминов в нем и более высоким уровнем детализации рассматриваемой предметной области. Рассмотрим основные определения [113].

Определение 3.3.1. Терминологическим портретом будем называть конечное непустое множество Z терминов z, отвечающих следующим условиям:

1) имеется непустое подмножество Z0 Z множество терминов;

2) имеется

симметричное,

транзитивное рефлексивное

отношение

R Z Z, такое, что:

 

 

а) z1

z2 z1Rz2 (z1

Z \ Z0 ) (z2 Z \ Z0 );

(3.36)

б) z1 Z \ Z0 ( z Z0 )(zRz1 );

(3.37)

при этом отношение R называется синонимическим отношением, а термины z1 и z2 , отвечающие этому отношению, называются синонимическими термина-

ми;

3) имеется транзитивное и несимметричное отношение K Z0 Z0 , назы-

ваемое обобщающим отношением; 4) термины в терминологическом портрете имеют веса в зависимости от их

степени значимости. Вес gi определяет степень значимости термина zi

, т. е

Z(p) { z1,g1 , z2,g2

, , zk ,gk }.

(3.38)

При этом сумма всех весов (i: 1,…,N) терминологического портрета равна

1, т.е

 

 

N

 

 

gi =1.

 

(3.39)

i 1

На рис. 3.2 приведен пример графической интерпретации фрагмента терминологического портрета «Экономический кризис».

Экономический кризис (0,1)

Финансовый

 

Производственный

 

Внешний

кризис (0,3)

 

кризис (0,3)

 

долг (0,3)

Рис. 3.2. Фрагмент терминологического портрета «Экономический кризис»

Данный пример показывает, что в рамках рассматриваемого терминологического портрета термины «Финансовый кризис», «Производственный кризис» и «Внешний долг» по степени значимости равнозначны и имеют веса, равные 0,3. Однако каждый из них по степени значимости выше обобщающего термина «Экономический кризис», который имеет вес, равный 0,1. Формальная запись

175

данного терминологического портрета представляется следующим образом: Экономический кризис (0,1): финансовый кризис (0,3) производственный кризис (0,3) внешний долг (0,3).

Определение 3.3.2. Подсистемой весовой обработки информации на задан-

ном терминологическом портрете будем называть четверку:

 

(Z,D,M, ),

(3.40)

где Z – терминологический портрет Z0 T ; D – коллекция

документов;

М-множество запросов; отображение, :M [0,1] 2D [0,1] сопоставляет каж-

дойпаре(запрос,точностьподобия) множествопар(документ,меракорреляции). Остальные определения 3-6 и рассуждения, приведенные в [112], приемлемы для данного случая. Отличие заключается в механизме распределения запросов по подсистемам поиска. Применительно к тезаурусу [112] нагрузка на информационные подсистемы поиска равномерная. Применительно к терминологическому портрету нагрузка на информационные подсистемы поиска избирательная, зависящая от весов терминов. В данном случае ответ подсистемы

обработки информацииQ на запрос m = zi gi с точностью c будет определяться в соответствии с выражением

Q n

i (zi gi,c)

 

 

i 1

 

, (3.41)

n

( (d, ):d D zi gi ct(d) (zi gi,t(d)) ) D [0,1]

i 1

где c отношение правдоподобия. При определении ответа N (m,c) отношение подобия c осуществляет выбор документов, точность подобия которых не менее с. Мера корреляции (m,t(d)) показывает, какая часть информации в документе соответствует ответу на вопрос. Если документ d Dс мерой корреляции включен в ответ, т.е. (d, ) (m,c), то верно неравенство c.

Один из возможных алгоритмов реализации механизма обработки терминологического портрета заключается в следующем. На начальном этапе информационные подсистемы отыскивают и обобщают информацию до определенного порогового значения c для термина с максимальным весом. Затем для более меньшего веса, и т. д вплоть до термина с наименьшим весом.

Разработанная математическая модель подсистемы весовой обработки информации на заданном терминологическом портрете (3.41) позволяет составлять ответы на запросы более гибко, с учетом неопределенности описания как документов, так и запросов, по сравнению с простой распределенной информационной подсистемой, а также перераспределять нагрузку на локальные информационные подсистемы в зависимости от значимости обслуживаемых терминов.

Рассмотрим синтез структуры распределенной информационной системы.

176

3.4. Синтез структуры распределенной информационной системы

Пусть Sj = (Tj, Dj, Mj, j ), j 1, – локальные информационные систе-

мы, предназначенные для обеспечения функционирования сложной управляющей системы, состоящей из совокупности К = {1, …, } объектов. Информация

с каждой локальной информационной системы поступает в центр сбора информации для дальнейшей передачи ее управляющему органу. Одна локальная информационная система может обслуживать несколько объектов.

Распределенная информационная система S = (T, D, M, ) определяется

через локальные составляющие:

 

 

1)

T UTj ; Rj R (Tj Tj ); K j K (T0 j T0 j );

(3.42)

 

j

 

 

 

2)

D U Dj ;

 

 

(3.43)

 

j

 

 

 

3)

(K U Kj ) (

(M j M j ));

(3.44)

 

j

~ j

~ j

 

4)

m M j

(m) d :d D m t(d) .

(3.45)

 

 

 

~

 

Распределенная информационная система выступает в роли центра сбора и обработкиинформации,т.е.обработкиответовна запросы управляющихорганов.

Для формализации задачи введем обозначения: cjl – стоимость сбора информации о l-м объекте j-й локальной информационной системой; bjl – стои-

мость передачи единицы информации об 1-м объекте в центр из j-й информационной локальной системы; xjl – булева переменная, равна 1, если l-й объект

обслуживается j-й локальной информационной системой, и равна 0 – в противном случае.

Описание состояния каждого объекта представляется в виде своей информационной модели:

Slj (Tjl ,Dlj ,M lj , lj ), l K, j {1, , },

(3.46)

где Tjl – тезаурус с дескрипторным множеством T0lj , описывающий состояние l-го объекта; Dlj – коллекция возможных документов, которые требуются органам управления для принятия решения; M lj – множество допустимых за-

просов со стороны органов управления; jl :M lj 2Dlj отображение, сопостав-

ляющее каждому вопросу множество документов.

Индекс j указывает, что информационная модель 1-го объекта сформирована в j -й локальной информационной системе.

Если локальная система обслуживает несколько объектов, то она формально является распределенной системой "точечного" типа.

Информация об объектах представляется независимыми информационными моделями и, вместе с тем, она сосредоточена в одном месте, в одной "точке". Таким образом, информационные модели объектов являются подсис-

177

темами глобальной информационной модели. Это дает возможность формулироватьответы на запросы в виде

 

 

 

(3.47)

j(m) d:d Dj m

t(d) ,

 

~ j

 

 

где m M j .

Правильность ответа гарантируется свойствами распределенной системы, представленной в п. 3.3.

Для запросов сложного типа, включающих в себя несколько дескрипторов, выражение (3.47) имеет вид

k p

l

 

k p

 

l

l

 

,

(3.48)

 

j (m) j (m)

d : d D j m j

j

t(d)

i 1 l 1

 

 

i 1 l 1

 

~

 

 

 

где m {m1, mk}, mi {mi} –числообъектов,обслуживаемыхлюбойсистемой.

Объем передаваемой информации на запрос m из j-й локальной информационной системы равен

 

 

 

F ( j (

m

)) ,

(3.49)

m

где F оператор преобразования информации к виду, предназначенному для передачи в каналы связи.

Сформулируем задачу распределения объектов по локальным информационным подсистемам при множестве допустимых запросов в распределенной системе M {m1, mr}, на которые ответы формируются последовательно без

повторения запросов. Для удобства положим, что каждый запрос описывается однимдескриптором.

Требуется найти

min cjl xjl bjlF(lj (mi ))xjl

(3.50)

{xjl }

j

l

i j l

 

 

 

при ограничениях:

 

xjl 1, l K ;

(3.51)

 

 

 

 

j

 

 

xjl

( )Nj, j {1, }.

(3.52)

l

 

 

 

 

Ограничение (3.51) требует обслуживания каждого объекта только одной информационной системой. Условие (3.52) ограничивает количество объектов, подлежащих обслуживанию локальными подсистемами, либо, напротив, требует, чтобы их было не меньше заданного числа.

Усложним требования к распределенной системе. Потребуем, чтобы органы управления получали ответы на запросы даже в случае, если любая локальная информационная система перестанет функционировать.

Иначеговоря,возникаетпотребностьвдублированииинформацииобобъектах. Постановка задачи меняется только в части, касающейся изменения огра-

ничения (3.51). Оно принимает вид

178

xjl 2, l K.

(3.53)

j

 

Модифицируем еще раз постановку задачи. Будем считать, что после закрепления объектов за локальными информационными системами в задаче (3.50)-(3.51) перераспределения объектов не происходит.

Однако органам управления необходимо иметь информацию о предыдущих состояниях объектов даже после прекращения функционирования любой из локальных подсистем. Это означает, что происходит дублирование информационных моделей об объектах постоянно в процессе их функционирования и информациялокальныхинформационныхсистемперераспределяетсямеждуними.

Упростим ситуацию, полагая, что перераспределение информации осуществляется один раз. Хотя в реальной ситуации информация о состоянии объектов передается по мере ее поступления на всем интервале времени функционирования локальных информационных систем, указанное ограничение не снижает общих рассуждений, так как полная постановка задачи потребует просто дополнительного суммирования по дискретным моментам времени.

Введем следующие обозначения: ajs – стоимость передачи единицы информации из j-й локальной информационной системы в s-ю; yjsl – булева пере-

менная, равна 1, если информация об l-м объекте перераспределяется из j-й локальной информационной системы в s-ю.

Окончательно задача синтеза структуры распределенной информационной системы формулируется так:

необходимо найти

min

}

cjl xjl bjlF(lj (mi ))xjl ajs[F(Tjl ,Dlj ,Mlj ,lj )xjl ]yjsl

(3.54)

{x

,y

j l

i j s

j s l

 

jl

isl

 

 

при ограничениях

xjl 1, l K ;

(3.55)

 

 

 

 

 

 

 

 

 

 

j

 

 

 

 

 

xjl ( )N j , j{1, };

(3.56)

 

 

 

 

l

 

 

 

 

 

 

yjsl

1, l Kj {l:xjl 1}, j {1, }.

(3.57)

 

 

 

 

s

 

 

Ограничение (3.57) требует перераспределения информации об l-м объекте из j-й локальной информационной системы.

На основе задачи (3.54)-(3.57) можно сформулировать ряд задач, учитывающих те или иные требования относительно структуры распределенной системы. Для этого необходимо сформулировать требования в виде ограничений и ввести их в описание задачи.

Разработанная модель учитывает распределение информации по дескрипторам, описывающим документ. Это позволяет органам управления оценивать

179

неопределенность ответов на запросы.

Пусть документы в локальных информационных системах представляются в виде

t(dlj ) { t1lj ,w1 , t2lj ,w2 , , tklj ,wk },

(3.58)

dlj Dlj ,

Slj (Tjl ,Dlj ,M lj , lj ).

 

В реальных ситуациях при описании состояния объектов, разные локальные информационные системы, обеспеченные различными техническими средствами измерения и наблюдения за состоянием объектов, представляют не совпадающие между собой описания одних и тех же объектов. В формализованном виде это оз-

начает, что при запросе m органов управления о состоянии некоторого объекта l локальные информационныесистемыдадутответыс точностьюподобия :

lj (

 

, ) (dlj , lj ):dlj Dj

 

t(dlj ) lj (

 

,t(dlj )) , l K,

j

 

. (3.59)

m

m

m

1,

Очевидно, что показатели lj - могут быть использованы для уточнения

структуры распределенной системы, т. е. выбора такой структуры, которая бы обеспечивала получение ответов с максимальной мерой корреляции или с мерой корреляции не менее заданной. Последнее требование эквивалентно условию передачи информации с отвечающей запросу содержательной частью не менее заданной. Формализация этого условия применительно к постановке задачи (3.54)-(3.57) состоитво введении дополнительных ограничений:

lj (

 

,t(dlj )) j , l K,

j:xjl 1.

(3.60)

m

В интересах практической реализации терминологического поиска на основе разработанных моделей и синтезированной структуры распределенной информационной системы необходимо рассмотреть технологические аспекты решаемой задачи. Первый из них состоит в разработке алгоритма идентификации текстовой информации заданному терминологическому портрету.

3.5. Алгоритм идентификации текстов

Терминологический портрет может быть построен как для отдельного текста (терминологический портрет текста (ТПТ) так и для некоторой предметной области. Владельцем терминологического портрета предметной области может быть как пользователь, так и СППИР. Считая пользователя и СППИР единым целым, будем называть последний терминологическим портретом информационной системы (ТПИС). Пример ТПИС в виде иерархической структуры предметной области формирования и управления портфелем ЦБ приведен на рис.1. п. 1.5. Он содержится в специальном разделе витрины данных и является своеобразным фильтром, через который «пропускается» множество тематических текстов, поступающих из различных источников информации. Блок-схема алгоритма идентификации некоторого текста приведена на рис. 3.3.

180