Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Методическое пособие 701

.pdf
Скачиваний:
2
Добавлен:
30.04.2022
Размер:
4.94 Mб
Скачать

1

Начало

2

Ввод текста

3

Формализация текста

4

Выделение терминов

5Преобразование терминов

кканоническому виду

 

 

6

 

 

 

 

 

 

 

 

 

Фильтрация терминов

 

 

 

 

 

 

 

 

по стоп-словарю

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

7

 

 

 

 

 

 

 

 

 

 

Накопление частот

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

встречаемости используемых

 

 

 

 

 

 

 

 

 

терминов

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

8

 

 

 

 

 

 

 

 

 

 

Формирование ТПТ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

9

 

 

 

Нет

 

 

Идентификация

 

 

 

 

 

 

ТПТ

 

 

 

 

 

 

 

10

 

Да

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Вывод результатов

 

 

 

 

 

 

 

11

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Конец

Рис. 3.3. Блок-схема алгоритма идентификации текста

Блоки 1, 11 реализуют начало и окончание процесса идентификации тек-

ста.

Блок 2 обеспечивает ввод исходного текста.

В блоке 3 осуществляется формализация текста на основе соответсвующей модели - многоуровневой иерархической схемы текстовых данных (см. рис. 3.1) [42], реализованной в ряде информационных систем [73, 77, 87, 110, 151]. В ней используется 5 уровней иерархии: дискурс (связный текст); предложение; словосочетание; слово; морфема. Уровни с 6 по 8 предназначены для звукового анализа и в данной работе не рассматриваются.

181

В блоке 4 реализовано выделение терминов. Для выделения терминов и построения терминологического портрета текста используется специальный иерархический терминопостроитель, содержащий соответствующую систему моделей и алгоритмов терминологического поиска. Его детализация приведена в п. 3.6.

Блок 5 используется для преобразования выделенных терминов к каноническому виду с целью определения их морфологических форм (отрицательная форма, нестандартная ситуация, существительное, сравнительная степень прилагательного, краткое прилагательное, краткая форма прилагательного или причастия, прилагательное или причастие, наречие или сложное прилагательное с дефисом, деепричастие от глагола совершенного вида, деепричастие от глагола несовершенного вида, повелительное наклонение глагола, неправильный глагол, глагол, прошедшее время глагола, возвратная форма глагола).

Блок 6 обеспечивает фильтрацию выделенных терминов по стоп–словарю для исключения из рассмотрения заведомо неперспективных терминов (предлоги, частицы, союзы, местоимения и др).

В блоке 7 реализовано накопление и анализ частот встречаемости выявленных терминов с целью определения их весов.

Блок 8 формирует ТПТ, представляющий собой вектор весов информационных признаков (v1,…,vк), где vi – вес i-го признака i=1,…,k в тексте, k – число признаков. Вес i-го информационного признака соответствует частоте встречаемости терминов, из которых он состоит, и определяется в соответствии с выражением

v

ni

,

(3.61)

N

i

 

 

где ni – число терминов i-го признака в данном тексте; N – общее количество терминов.

В блоке 9 реализована идентификация ТПТ. Для принятия решения о соответствии данного текста исследуемой предметной области - ТПИС рассчитывается значение косинуса угла между весовыми векторами ТПТ и ТПИС. Порядок проведения расчетов следующий.

Рассмотрим в n-мерном пространстве два произвольных вектора АВ и CD

с координатами ai

, bi , ci , di :

 

 

AB b1 a1,b2 a2, ,bn an ,

(3.62)

 

CD d1 c1,d2 c2, ,dn cn .

(3.63)

Координаты

ai , bi , ci , di являются координатами случайных

величин

А= a1 ,a2 , ,an , В= b1 ,b2 , ,bn , С= c1,c2 , ,cn и D= d1,d2 , ,dn . На всей области определения , они имеютнормальное распределение.

Введем систему прямоугольных координат. Тогда случайные величины X и Y, равные A – B и C – D соответственно, будут представлять собой те же векторы, которые проведены из начала координат. Формально это записывается

182

следующим образом:

 

 

 

 

 

xi bi ai ,

 

 

 

 

 

Известно [19, 193],

 

что r X , Y

yi

di ci .

 

 

 

 

 

 

выборочный коэффициент корреляции

 

 

 

ˆ

 

 

 

 

 

 

 

 

 

 

 

двух независимых случайных величин X и Y, определяется в соответствии с

выражением

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

coˆv X,Y

 

 

 

 

n xi X yi Y

 

 

 

 

 

 

 

 

 

 

rˆX, Y

 

 

 

 

 

 

n i 1

 

 

 

,

(3.64)

 

ˆX ˆY

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

n

2

n

2

 

 

 

 

 

 

 

 

 

 

 

xi

X

yi

Y

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

i 1

 

i 1

 

 

 

где ˆX и ˆY – оценки средних квадратических отклонений величин Х и Y соответственно; coˆv X,Y – оценка второго смешанного центрального момента случайной величины (X,Y), также называемого корреляционным моментом; mˆx и mˆ y – оценки математических ожиданий величин Х и Y.

Более подробно выражение (3.64) может быть записано следующим обра-

зом [54]:

 

 

1 xi mˆX yi mˆY

 

 

 

 

 

1 bi ai mˆB A di ci mˆD C

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

n

 

 

 

 

 

 

rˆX, Y

 

n i 1

 

 

 

 

 

 

n i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

n

 

 

n

n

 

 

 

xi

2

 

2

 

 

 

mˆX 2 yi mˆY

 

bi ai mˆB A 2 di ci mˆD C

 

 

i 1

1

 

i 1

 

 

 

 

 

i 1

i 1

 

 

 

 

 

 

 

 

n bi ai mˆB

mˆA

di ci

mˆD mˆC

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n i 1

 

 

 

 

 

 

 

 

.

(3.65)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

bi ai mˆB mˆA 2 n di ci mˆD mˆC 2

 

 

 

 

 

 

 

 

i 1

 

 

 

 

 

i 1

 

 

 

 

 

 

Математические ожидания mˆ A , mˆB , mˆC , mˆD

равны нулю [54], поскольку

величины А, В, С и D имеют нормальное распределение. С учетом этого выражение (3.65) примет вид

 

 

1

 

n

bi ai di ci

 

 

 

1

 

n xi yi

 

 

 

 

 

 

 

 

 

 

 

 

 

rˆX, Y

 

 

n i 1

 

 

 

 

 

 

n i 1

 

 

.

(3.66)

 

 

 

 

 

 

 

 

 

 

 

n

bi

ai 2 n

di ci 2

n

xi2 n

 

 

 

 

 

 

yi2

 

 

 

i 1

 

i 1

 

 

 

 

i 1

i 1

 

 

 

 

Выражение (3.66) формально отражает тот факт, что для двух случайных векторов, координаты которых нормально распределены в пространстве, значение косинуса угла между этими векторами представляет собой значение коэффициента корреляции.

Если рассчитанное значение коэффициента корреляции меньше некоторого порогового значения, то управление передается в блок 11. В противном случае управление передается в блок 10.

Блок10выводитрезультатопринадлежностиисследуемоготекстаТПИС.

183

3.6. Характеристика иерархического терминопостроителя

Иерархический текстовый терминопостроитель (ИТТ) предназначен для формирования терминологического портрета исследуемого текста. Он базируется на системе моделей и алгоритмов формализации и проведения различных видов анализа текста (морфологического, синтаксического и семантического). Впервые подобная система моделей и алгоритмов была обоснована в [66, 129] и прошла практическую апробацию [76, 77] в интересах рубрицирования текстов. Ее структурная схема приведена на рис. 3.4.

Обрабатывае-

Алгоритм графематической об-

работки текста

мый текст

 

 

 

 

 

 

Набор лемм

 

Алгоритм морфологического

 

 

 

Набор имён собствен-

 

анализа текста

 

ных

 

 

 

 

 

 

 

 

 

 

Набор географических

 

 

 

 

 

имён собственных

 

 

 

 

 

 

 

 

 

 

 

 

 

Алгоритм

 

Алгоритм син-

Синтаксические пра-

 

фрагментаци-

 

таксической

вила объединения слов

онной обработ-

 

обработки тек-

 

и словосочетаний

 

ки текста

 

ста

 

 

 

 

 

 

 

 

 

 

 

 

 

Алгоритм объединения результа-

 

 

тов фрагментационной и синтак-

 

 

сической обработки текста

 

Модель семантической обработ-

ки текста

 

 

 

 

Перечень эталон-

 

 

Алгоритм формирования терми-

 

 

 

 

ных малоинфор-

 

 

нологического портрета текста

 

мативных слов

Терминологи-

 

 

 

 

 

 

 

 

 

Алгоритм рубрицирования тек-

 

 

ческие портре-

 

 

 

 

ста

 

 

ты рубрик

 

 

 

 

 

 

 

Содержание теку-

 

 

Дополнительные дан-

Алгоритм извлечения дополни-

щей информации по

тельных данных

ные, извлечённые из

данной тематике

 

 

текста

Рис. 3.4. Система моделей и алгоритмов формализации и анализа текста в интересах рубрицирования

184

Как видно из схемы, исходный текст поступает на вход алгоритма графематической обработки. Данный алгоритм предназначен для разбивки текста на абзацы и предложения, а также выделения аббревиатур, личных имён с инициалами, цифровой и символьной информации (даты, формулы и др.). Преобразованный в соответствии с данным алгоритмом текст в табличной форме поступает на вход алгоритма морфологического анализа текста.

Алгоритм морфологического анализа текста обеспечивает разбор слов в предложениях по частям речи и выделение специфических форм, получающих их статус, в зависимости от окончаний и структуры слов. Текст, прошедший морфологический анализ, поступает на вход алгоритма фрагментационной обработки текста.

Алгоритм фрагментационной обработки текста используется в интересах выделения в предложениях неразрывных синтаксических единств (фрагментов), больших или равных словосочетанию (синтаксической группе) и их иерархическому упорядочиванию. Применение данного алгоритма позволяет повысить эффективность проведения синтаксической обработки текста.

Алгоритм синтаксического анализа обеспечивает построение синтаксических структур предложений, учитывающих данные морфологического анализа и синтаксические правила объединения слов и словосочетаний. Синтаксическая структура отражает связи, существующие между словами предложения.

С целью сохранения смысловой целостности текста, необходимой для семантической обработки текста, иерархически упорядоченные фрагменты и синтаксические структуры предложений поступают на вход алгоритма объединения результатов фрагментационной и синтаксической обработки текста.

Алгоритм объединения результатов фрагментационной и синтаксической обработки текста предназначен для построения дерева зависимостей, узлами которого являются отдельные слова или так называемые “жёсткие” группынаборы слов, связанные синтаксическими отношениями. Дерево зависимостей используется в качестве основы для построения семантического графа текста, составляющего суть модели семантической обработки текста.

Модель семантической обработки текста обеспечивает формирование семантической сети, представляющей собой совокупность взаимосвязанных понятий (слов и словосочетаний), несущих основную смысловую нагрузку и наиболее часто встречающихся в тексте. Исходный текст, преобразованный в семантическую сеть, поступает на вход алгоритма формирования терминологического портрета-текста.

Алгоритм формирования терминологического портрета текста позволяет построить массив его статистических наиболее значимых параметров в виде вектора проранжированных весов информационных признаков. Терминологический портрет текста поступает на вход алгоритма рубрицирования текста.

Назначение алгоритма рубрицирования текста заключается в отнесении терминологического портрета к соответствующей рубрике. Поэтому на вход данного алгоритма поступают также терминологические портреты рубрик. В

185

случае принадлежности исследуемого текста данной рубрике последний поступает на вход алгоритма извлечения дополнительных данных.

Алгоритм извлечения дополнительных данных реализует сравнение содержания аннотированного текста с содержанием текущей информации и, в случае новизны, её вывод. Содержание текущей информации выделяется из терминологического портрета рубрики.

Входе дальнейшего развития системы моделей и алгоритмов формализации и анализа текста ее ядро, содержащее пять первых алгоритмов обработки текста, практически не изменялось, а модифицировались модель семантического анализа текста и алгоритмы формирования терминологического портрета текста и извлечения дополнительных данных. Так, в интересах аннотирования текстов [110] в алгоритме формирования терминологического портрета текста основной упор был сделан на определение частот встречаемости слов [140] и применение шинглов [124].

Вданной работе модификация модели семантического анализа текста заключалась в следующем.

3.7. Семантическая матрично-лексическая модель анализа текста

Целевое назначение данной модели заключается в выделении терминов заданного текста на основании смысла. Ее основу составляютлексемы.

Под лексемой (лексической единицей) будем понимать элементарную семантичеcки значимую единицу языка, представляющую собой слово, устойчивое словосочетание или другую языковую конструкцию, способную обозначать предметы, явления, их признаки и др [217].

Лексемы имеют ряд свойств.

Свойство 3.7.1. Две лексемы равны в том случае, если равно число составляющих их символов и символы в одинаковых позициях совпадают.

Свойство 3.7.2. Частота лексемы есть число ее повторений в различных фразах. Лексемы с единичной частотой встречаемости называются уникальными.

Свойство 3.7.3. Повторяющиеся лексемы составляют лексическое множество связей текста.

Свойство 3.7.3 показывает, что для каждого текста может быть построена своя матрица лексических связей (МЛС). Данная матрица строится следующим образом.

Пусть имеется текст, в котором присутствует множество лексем {L} {l1,…,li,…,lNk}. Они упорядочены последовательностью появления в тексте. Общее число лексем связи в тексте составляет Nk. Выявлены частоты встречаемости лексем F f1, , fi , , fNk . При этом fi 1 при любом i Nk, по-

скольку уникальные лексемы удалены.

Предложениям текста Pn , n {1,…,Jp} соответствует множество входящих в них лексем li M.

Введемдвоичныйпараметр qin ,определяемыйвсоответствиисвыражением

186

 

1, если l

 

 

Пn

 

 

qn

 

i

 

 

(3.67)

 

Пn

 

i

0,если l

i

 

 

 

 

 

 

 

 

Тогда Pn соответствуетвектор pn (qn, ,qn, ,qn

), а тексту МЛС –

 

1

 

 

i

Jm

 

q11

(qin) q1n

N

q1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

q1

q1

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

N

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

.

(3.68)

qn

 

qn

 

 

 

 

 

 

 

 

i

 

 

Ni

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

N

 

 

 

 

 

 

 

 

 

 

N

 

 

 

p

 

 

p

 

 

p

 

 

 

q

 

q

 

 

 

 

i

 

N

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

МЛС является одним из инструментов представления текста в виде ориентированного графа, позволяющего проводить его дальнейший анализ. Он строится следующим образом.

Имеется текст TK(R,D), представленный в виде множества вершинпредложений R и множества дуг, порождаемых лексическим множеством связей – D.

 

Пусть лексема mi

с частотой fi представляет число дуг Df2 , гдеDba – чис-

ло сочетаний из b по a.

 

i

 

 

 

Вершины rm и rb

лексемы mi из M связаны семантической (смысловой)

дугой

Dm,b , если

m b 1.

 

i

i

i

 

Кроме того, вершины Rm&Rb смежны, т.е. дугаDim,b инцидентна верши-

нам (rm ), (rb ). Она исходитиз rm и заходитвrb .

Число дуг, инцидентных i-й вершине, представляет собой сумму элементов i-й строки МЛС.

Построим матрицы инцидентности и смежности для текста TK(R,D). Матрица P(G) размером a b (a – число вершин, b – число ребер (дуг)

графа T), (i,j)-й элемент которой равен 1, если вершина oi инцидентна ребру lj в графе T, или если oi есть начало дугиlj , равен -1, если вершина oi есть конец дуги lj (только для орграфов), и равен 0 в остальных случаях, соответствует матрице инцидентности (0,1).

Матрица C(T) размером a a (a - число вершин в T), (i,j)-й элемент cij которой равен 1, если вершины oi и oj смежны, т.е. соединены дугой (или реб-

187

ром) (oi , o j ) , и равен 0 в противном случае, соответствует матрице смежности

- (0,1).

Процедура формирования данных матриц из МЛС заключается в следующем. Построим следующую матрицу:

Am

(3.69)

c(m,b) im * ib ,

i 1

 

где c(m,b) – элемент матрицы смежности размерности

Ar Dg , равный числу

дуг, идущих из вершины rm в вершинуrb .

Введем следующие обозначения: j – номер дуги, j+(1,…,Dg); m и b – номера вершин. Смысл записи Dim,b заключается в утверждении существования

mi-й лексемы, порождающей j-ю дугу, инцидентную rm , rb вершинам. При этом элемент p(m,b) матрицы инцидентности размерности Ar Dg будет иметь

вид

где D

 

 

Аm

i

!

g

 

 

2*(fь 2)

 

 

i 1

1, если Dm,j b,

p(m, j) 1,если Db,j m, , (3.70)

0 вдругих случаях,

.

В том случае, если последовательность вершин от rm до rb частично упорядочена таким образом, что последующая вершина смежна с предыдущей,

то имеет место путь изrm вrb , представляющий собой совокупность соответствующих дуг. При этом длина пути есть число дуг в последовательности. Длина

L между множествами лексем, входящих в rm и rb предложения, есть путь между двумя вершинами. Путь от предложения, порождающего аксиоматическую лексему, до предложения, порождающего произвольную терминальную лексему, есть полная ассоциация mi-й аксиоматической лексемы. Фактически локализованная тема mi, есть объединение всех ее полных ассоциаций без повторов.

Семантическое расстояние между двумя лексемами в пределах заданного текста (графа TK) определяется как минимум из длин всех путей, соединяющих предложения областей существования этих двух лексем.

Важной характеристикой ориентированного графа текста является ассоциативная мощность. Она позволяет определить нагрузку дуги (ее длину) и, что очень важно, оценить важность ассоциации.

Ассоциативное графовое представление текста заключается в виде последовательности предложений-вершин, а фактически лексем, связанных между собой смыслом. В процессе определения наиболее важных понятий, содер-

188

жащихся в тексте, необходимо соответствующее ассоциативное множество слов привести к нормальной форме. Для определения ассоциативного множества слов целесообразно использовать меры связности графа с аксиоматическими лексемами [111].

На практике наряду с представлением текста в виде графа используют семантическую сеть. Она позволяет представлять смысл текста в более естественной форме – в виде совокупности связанных между собой понятий (слов и словосочетаний), несущих основную смысловую нагрузку и наиболее часто, встречающихся в тексте. Она, как и граф, состоит из вершин и рёбер.

Имена, приписываемые вершинам и рёбрам семантической сети, совпадают с именами соответствующих сущностей и отношений, используемыми в естественном языке. Ребро и связанные им вершины образуют подграф семантической сети, несущий минимальную информацию - факт наличия связи определённого типа между соответствующими объектами.

Пример фрагмента семантической сети, описывающей кризисные состояния (предкризисное состояние, кризис, рецессия) внешней среды в сфере экономики, представлен на рис. 3.5.

 

Предкризисное

 

Кризис

 

Рецессия

 

 

состояние

 

 

 

 

 

 

 

 

 

 

 

 

имеет

 

 

 

 

 

 

 

 

Экономика

 

 

 

 

 

 

 

 

 

имеет

 

 

 

 

Безработица

Капитал

 

Внешний

 

ВВП

Бюджет

 

долг

 

 

имеет

 

 

 

имеет

 

 

 

имеет

Р

С

О

П

Р

С

Р

С

Д

Пф

 

Р - рост С - снижение

О-отток П-приток

Д-дефицит

Пф-профицит

 

 

 

Рис. 3.5. Фрагмент семантической сети

 

 

Пример, представленный на рис. 3.5, может быть проработан на любую глубину. При этом слова, используемые при обозначении объектов в семантической сети, могут быть продублированы в других названиях сколь угодно раз.

Воспользовавшись фрагментом вышеприведенной семантической сети, можно построить структуру «экономические показатели».

189

СОЗДАТЬ-СТРУКТУРУ(ИМЯСТРУКТУРЫ=ЭКОНОМИЧЕСКИЕПОКАЗАТЕЛИ ЧИСЛО АТРИБУТОВ = 5 АТРИБУТ = БЕЗРАБОТИЦА АТРИБУТ = КАПИТАЛ АТРИБУТ = ВНЕШНИЙ ДОЛГ АТРИБУТ = ВВП АТРИБУТ = БЮДЖЕТ).

Для реализации данной структуры целесообразно использовать аппарат фреймов [187]. Известно, что наибольшее распространение находят три типа фреймов: фреймы-структуры, фреймы-роли, фреймы-сценарии [187]. В [66] для построения модели семантического анализа русскоязычных текстов использовались фреймы-сценарии. В данной работе более перспективным является использование фреймов-структур в силу трех причин. Во-первых, они в максимальной степени соответствуют представлению информации по своему принципу построения. При заполнении их элементов-слотов определёнными значениями фрейм-структуры превращаются в описания конкретных фактов, событий, процессов [74, 221]. Во-вторых, фрейм-структуры обладают объектноориентированными свойствами инкапсуляции, наследования и полиморфизмом объектов [187], что гармонично сочетается с общей технологией разработки СППИР, в частности, использованием объектно-ориентированной среды разработки Delphi 7.0. В-третьих, табличная форма представления фрейм-структур оптимально вписывается в общую концепцию построения БД СППИР (как в рамках хранилища данных, так и в рамках витрины данных).

Недостатками фреймового подхода к проведению семантического анализа текста являются более жёсткое, чем при подходе, основанном на семантической сети, выделение объектов, ситуаций и их свойств, а также возрастание сложности фреймовой модели (появление разнотипных вложенных фреймов) при увеличении в тексте числа иерархически взаимосвязанных разноплановых понятий, терминов, фактов, событий, процессов и др. [194]. Данные недостатки приводят к существенным трудностям формирования терминологических портретов.

Для парирования данных недостатков использовалась гибридная модель семантического анализа, содержащая как семантическую сеть, так и фреймыструктуры. При этом составляющие данной модели использовались избирательно. Так, в интересах семантического анализа газетных статей приоритет в использовании отдавался фреймам.

Поскольку газетные статьи являются одним из источников снижения неопределенности внешней среды для ЛПР, исследование последних актуально. Проведенные исследования показали, что для их семантического анализа целеесообразно применять фреймы. Поскольку первейшей заботой журналиста является быстрая и не загружающая мозг передача информации, то, как правило, все характеристики, требующие применения медленных индуктивных или дедуктивных процессов, для семантического анализа которых необходимы се-

190