Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Белоногов Г.Г. Автоматизированные информационные системы

.pdf
Скачиваний:
9
Добавлен:
25.10.2023
Размер:
14.28 Mб
Скачать

В процессе ввода осуществляется перекодировка букв в код алфавитно-цифрового печатающего устройства, после чего тексты рефератов записываются на магнит­ ную ленту. Поисковые образы рефератов формируются автоматически на основе их дескрипторных описаний. Дескрипторные описания представляют собой перечни наименований понятий, встречающихся в заголовках и

втекстах рефератов. В их состав включаются также не­ которые библиографические сведения (полные библио­ графические описания документов приводятся в текстах рефератов). Наименования понятий отделяются друг от л руга запятыми.

Дескрипторные описания рефератов переносятся на перфоленту в международном телеграфном коде и вво­ дятся в ЭВМ. Далее с помощью процедур морфологиче­ ского анализа и отождествления наименований понятий исходные словосочетания заменяются на номера понятий по словарю. При необходимости словарь основ слов и словарь наименований понятий пополняются. В процес­ се формирования поисковых образов рефератов на пе­ чать выдается список «новых» наименований понятий вместе с их словарными номерами. Этот список служит

вдальнейшем в качестве исходного материала для уста­ новления смысловых связей между наименованиями

понятий и для пополнения классификационного словаря понятий.

Среднее значение коэффициента полноты поиска ре­ фератов в автоматизированной документальной инфор­ мационно-поисковой системе описанного типа оказалось равным 83%. Среднее значение коэффициента шума — 7%, причем в первом эшелоне выдачи оно было равно 3%, а во втором эшелоне— 18%. Коэффициент полноты поиска определялся как отношение числа релевантных рефератов, содержащихся в ответах на запросы, к числу релевантных рефератов, полученных путем объединения результатов ручного и автоматического поиска по запро­ сам, коэффициент шума — как отношение числа нереле­ вантных рефератов к общему числу рефератов, выдан­ ных в качестве ответов на запросы.

Анализ причин потерь информации при автоматиче­ ском поиске показал, что в основном это происходит из-за неполного учета смысловых связей между поня­ тиями в классификационном словаре. Наряду с улучше­ нием качества классификационного словаря могут быть

2 4 0

применены и другие способы увеличения полноты выда­ чи информации: введение в запрос вариантов формули­ ровок наименований понятий с указанием дизъюнктив­ ной логической связи между ними; разбиение словосоче­ таний запроса на более короткие словосочетания и от­ дельные слова с указанием конъюнктивной логической связи между выделенными элементами; уточнение фор­ мулировки запроса по результатам пробного поиска и др.

Разбиение словосочетаний запроса на более короткие словосочетания (равно как и поиск по ассоциированным понятиям) позволяет преодолеть влияние субъективных факторов при составлении поисковых образов рефератов (разные лица могут выделять из текстов рефератов сло­ восочетания различной длины) и увеличивает полноту выдачи информации. Но это одновременно приводит и к некоторому увеличению поискового шума.

Описанная документальная информационная система реализована на ЭВМ. Общий объем ее программ состав­ ляет около 12 000 команд*.

Деление информационно-поисковых систем на факто­ графические и документальные условно. Доказательст­ вом правильности этого тезиса является тот факт, что документальные системы дескрипторного типа могут быть успешно применены для поиска фактографической информации. Для этого необходимо ввести в память ЭВМ фактографические записи и их дескрипторные по­ исковые образы. Тогда тексты фактографических запи­ сей могут выдаваться потребителям информации по тем же правилам, что и тексты рефератов. С другой стороны, фактографическая система может быть использована для поиска документов. При этом поисковые образы ре­ фератов должны представляться в виде массива элемен­ тарных сообщений, а тексты рефератов интерпретиро­ ваться как значения характеристики с наименованием «текст реферата». Но в фактографических информацион­ но-поисковых системах обычно решаются более сложные задачи, чем в документальных, и они бывают оснащены более мощной системой программ.

* Наряду с авторами в разработке системы и ее практической реализации принимали участие Ю . А . Кожевников, В. И . Тихонов, И. И . Быстров и др.

16— 3 1 0

241

Г л а в а 14 АВТОМАТИЧЕСКИЙ СИНТАКСИЧЕСКИЙ АНАЛИЗ НЕФОРМАЛИЗОВАННЫХ ТЕКСТОВ

Одной из наиболее трудных задач, возникающих при создании систем автоматической обработки текстовой информации, является построение процедур синтаксиче­ ского анализа для естественных языков. Дело в том, что естественный язык является универсальным средством общения людей и в нем отображается все многообразие проявлений человеческой деятельности. Функционирова­ ние языка непосредственно связано с процессами мыш­ ления, которые еще недостаточно изучены. Над созда­ нием процедур синтаксического анализа естественных языков работает ряд ученых в нашей стране и за рубе­ жом (см., например, монографию И. А. Мельчука [89]). Тем не менее в настоящее время еще нет аппробированных процедур синтаксического анализа, учитывающих все явления естественного языка. Поэтому приходится пользоваться приближенными процедурами, ориентиро­ ванными на решение частных задач обработки текстовой информации. В настоящей главе описывается алгоритм приближенного синтаксического анализа русского языка, предназначенный для использования в системах автома­ тического индексирования деловых текстов.

При создании алгоритмов синтаксического анализа необходимо располагать сведениями о грамматической структуре текстов, на которые эти алгоритмы ориенти­ руются. Эффективным путем получения такого рода све­ дений является статистическое обследование текстов. Оно позволяет выявить различные элементы граммати­ ческой структуры и оценить их относительную значи­ мость.

В основу синтаксического анализа текстов была поло­ жена модель дерева зависимостей. Каждое предложение анализируемого текста представлялось в виде графа, в узлах которого помещались символы грамматических классов слов и информация о форме слова. Узлы соеди­ нялись стрелками, указывающими направление связи между словами (от подчиняющего слова к подчиненно­ му). При этом использовались следующие условные обозначения.

242

1. О с н о в н ы е и н д е к с ы (символы основных грамматиче­ ских классов слов):

С— существительное, количественное числительное;

П— полное прилагательное, полное причастие, порядковое чис­

лительное; Г — глагол, краткое прилагательное, краткое причастие;

Н— наречие, деепричастие, сравнительная степень прилагатель­ ного;

Р— предлог;

&■— союз;

Ч— частица.

2. В е р х н и е и н д е к с ы :

* — признак аббревиатур и неизменяемых существительных;

м— признак местоименности;

ч— признак числительного; мод — признак модальности;

in f — признак неопределенной формы глагола;

пр — признак глагола прошедшего времени;

t

— признак переходности (у глаголов, причастий и дееприча­

стий) ;

 

і— признак непереходности (у глаголов, причастий и деепри­ частий) ;

под — признак подчинительного союза.

Кроме перечисленных символов в качестве верхних индексов использовались также символы п, н, г (с тем же значением, что и символы П , Н , Г) для обозначения субстантивированных прилага­ тельных (Сп), союзных слов, относящихся к классу наречий (&лодН),

отглагольных

существительных

(Сг),

причастий

(П г), деепричастий

(Н г), кратких

прилагательных

(ГП),

кратких

причастий (Гпг) и

сравнительной степени прилагательного (Н п) . 3. Н и ж н и е и н д е к с ы ; р — родительный падеж;

д— дательный падеж;

в— винительный падеж; т — творительный падеж;

п — предложный падеж.

Эти признаки указываются только у существительных в косвен­ ных падежах.

После построения дерева предложения из его состава выделя­ лись все парные сочетания символов классов слов, находящихся в отношении подчинения, а при наличии предложного управления —

и трехчленные

сочетания

типа С — >-Р— >-Св,

Н — >-Р— >-СР,

Г 1'— >-Р— )-Сд и т.

п. Предварительно

уt , і символов,

классов управ­

ляющих слов опускались все нижние индексы, а у символов классов

управляемых слов — верхние

индексы г,

мод. Например, в пред­

ложении «На ряде предприятий обнаружены случаи нарушения стан­ дартов и технических условий», которому соответствует дерево

iР —►Сп l>Ср Рпг*l—►С —>Ср —►Ср& П <—Ср,I .

можно аыделить следующие сочетания символов;

ТI

Р*-СпГпг1 (на ряде обнаружены);

С>-Ср (ряде предприятий);

16'

243

Г пгі— »-С (обнаружены случаи);

С — ^Ср (случаи нарушения);

С — ^Ср (нарушения стандартов);

С — >-Ср (нарушения условий);

П «—С (технических условий).

Всего таким образом было обработано 1000 предложений, вы­ бранных из деловых текстов различного содержания, и был состав­ лен частотный словарь структурных формул словосочетаний объемом в 713 элементов. Длина предложений в текстах колебалась в преде­ лах от 6 до 78 слов. В среднем она была равна 19 словам.

Структурные формулы словосочетаний распределены в текстах весьма неравномерно. Если расположить их по убыванию частот встречаемости, то уже первые десять формул покрывают 55% их

общего числа, первые двадцать — 64%,

первые

сорок — 73%,

первые

сто — 85%, первые триста — 95%. Аналитическое выражение

для

функции распределения структурных

формул

приведено в

гл.

16.

В приложении 5 дан перечень сорока наиболее часто встречающихся структурных формул.

Исходные данные для алгоритма синтаксического анализа формируются путем морфологического анализа текстов. В результате работы алгоритма синтаксическо­ го анализа строится дерево предложения. В памяти ма­ шины дерево предложения записывается таким образом, что для каждого порядкового номера слова указываются перечни порядковых номеров подчиняющих и подчинен­ ных слов.

Работа алгоритма построения дерева предложения заключается в последовательном принятии решения о ха­ рактере синтаксической связи между двумя словами. Переход от одной пары слов к другой совершается с уче­ том результатов анализа предшествующей пары слов. Синтаксические связи определяются согласно правилам, приведенным в табл. 14.1. Эти правила вырабатывались на основе статистического анализа текстов.

В первой графе табл. 14.1 указывается сочетание символов грамматических классов слов, а во второй гра­ фе оговариваются условия, при которых могут иметь место различные виды связи между словами:

подчинение правого элемента сочетания левому (связь типа «->»);

подчинение левого элемента правому (связь типа «Ч-»);

отсутствие связи между элементами сочетания.

244

Т а б л и ц а 14.1

П р а в и л а уст а н о вл ен и я синт аксических св язей м еж ду классам и слов

Сочетание классов Правило установления синтаксической связи и вид связи

слов

П е р в ы й п р о х о д

СС1. Проверка первого элемента сочетания на местои-

 

менность: „да“—связь

не устанавливать;

„нет“—перей­

 

ти к п.2.

 

 

элемента

сочетания

на

наличие

 

2. Проверка второго

 

признака родительного, дательного или творительного па­

 

дежа: „да“—установить связь вида

„нет“—перей­

 

ти к п.З.

 

 

элемента

сочетания

на

наличие

 

3. Проверка второго

 

признака неизменяемого существительного:

„да“—устано­

 

вить связь

вида

► “ ;

„нет“—связь не устанавливать.

СП

Проверка

 

П е р в ы й п р о х о д

 

 

призна­

элементов сочетания на совпадение

 

ков рода, числа и падежа: „да“—установить

связь типа

 

нет“—связь не устанавливать.

 

 

 

В т о р о й п р о х о д

1.Проверка второго элемента сочетания на наличие признака местоименного субстантивированного прилага­ тельного: „да“—перейти к п.4; „нет“ —перейти к п .2 .

2.Проверка элементов сочетания на совпадение при­

 

знаков рода, числа и падежа: „да“ —установить связь ви­

 

да

„нет“—перейти к п.З .

сочетания

на

наличие

 

3.

Проверка первого

элемента

 

признака неизменяемого существительного:

„да“—устано­

 

вить

связь вида

„нет“ —связь не

устанавливать.

 

4.

Проверка элементов

сочетания на

совпадение

при­

 

знака

падежа: „да“ —установить связь вида

 

„нет“ —

 

связь

не устанавливать.

 

 

 

 

 

 

 

1.

П е р в ы й п р о х о д

контактное

рас­

СГ

Проверка элементов сочетания на

положение: „да“—перейти

к п.2;

„нет“ —связь

не

уста,

 

навливать.

элемента

сочетания

на

наличие

 

2. Проверка первого

 

признака именительного падежа:

„да“ —установить связь

 

вида

„нет“—перейти к п.З.

сочетания

на

наличие

 

3.

Проверка первого

элемента

 

признака творительного падежа: „да“ —перейти к п.4;

 

„нет“ —связь не устанавливать.

сочетания

на

наличие

 

4. Проверка второго элемента

 

признака инфинитива: „да“ —установить

связь вида

 

 

„нет“—связь не устанавливать.

 

 

 

 

 

245

Сочетание

классов

слов

С Р

сч

С&пол

П С

пг

пн

П Р

П р о д о л ж ен и е т а б л . 14.1

Правило установления синтаксической связи и вид связи

В т о р о й п р о х о д

Проверка первого элемента сочетания на наличие при­ знака „существительное, образованное от модального гла­

гола“ ,

а второго—на

наличие

признака инфинитива:

„да“—установить связь

вида

„нет“ —установить

связь

вида

 

 

При первом и втором проходе во всех случаях устанав­

ливается

связь вида „ —

 

 

 

 

 

П е р в ы й п р о х о д

 

 

распо­

Проверка элементов сочетания

на контактное

ложение: „да“—установить связь вида

 

„нет“—

связь не

устанавливать.

 

 

при вто­

При первом проходе связь не устанавливать,

ром проходе во всех случаях устанавливать

связь

вида

 

П е р в ы й п р о х о д

 

 

приз­

1. Проверка элементов сочетания на совпадение

наков рода, числа и падежа: „да“—установить

связь ви­

да

„нет“— перейти к п.2.

сочетания

на

наличие

2. Проверка второго элемента

признака неизменяемого существительного: „да“—уста­

новить связь вида

„нет“ —перейти к п.З.

наличие

3. Проверка

первого

элемента

сочетания

на

признака

глагольности: „да“ —установить связь вида

„нет“ —перейти

к п .4 .

элемента

сочетания на

наличие

4. Проверка

первого

признака

неизменяемого прилагательного:

„да“—устано­

вить связь

вида

„нет“—связь не устанавливать.

Связь

не

 

 

П е р в ы й п р о х о д

 

 

устанавливать.

 

 

 

 

 

 

В т о р о й п р о х о д

 

 

Проверка первого элемента сочетания на наличие при­ знака „прилагательное, образованное от модального гла­ гола“ , а второго элемента—на наличие признака инфи­ нитива: „да“ —установить связь вида „нет“— уста­ новить связь вида„<-“ .

П е р в ы й п, р о X о д

Проверка первого элемента сочетания на наличие при­ знака глагольности: „да“—установить связь вида „нет“ —связь не устанавливать.

П е р в ы й п р о х о д

1. Проверка первого элемента сочетания на наличие признака глагольности: „да“—установить связь вида „нет“ —перейти к п .2 .

246

Сочетание

классов

слов

п ч

П&под

ГС

гп

гг

ГН

ГР

г ч

Г&под

Н С

П родол ж с.нае т абл . 14.1

Правило установления синтаксической связи и вид связи

2. Проверка первого элемента сочетания на наличие признака „прилагательное, образованное от модального

глагола“ : „да“—установить связь

вида

„нет“—пе­

рейти

к п .З .

 

 

 

 

 

рас­

3. Проверка элементов сочетания на контактное

положение: „да“ —установить

связь

вида

 

„нет“—

связь

не устанавливать.

 

 

 

 

 

 

 

П е р в ы й п р о х о д

 

располо

Проверка элементов сочетания на контактное

жение: „да“— установить связь

вида

„нет“—связь

не устанавливать.

 

 

 

 

 

 

Первый проход—связь не устанавливать.

 

 

 

Второй проход—установить связь

вида

 

 

 

Во всех случаях установить

связь

вида

 

 

 

 

П е р в ы й п р о х о д

наличие при­

Проверка второго элемента сочетания на

знака творительного падежа: „дак—установить

связь

ви­

да

„нет“—связь не устанавливать.

 

 

 

П е р в ы й п р о х о д

1. Проверка второго элемента на наличие признака ин­

финитива: „да“—установить связь вида

„нет“— пе­

рейти к п .2 .

 

2. Проверка второго элемента сочетания на наличие

признака краткого прилагательного:

„да“— установить

связь

вида

„нет“—перейти

к п.З .

на

наличие

3.

Проверка второго элемента

сочетания

признака глагола

прошедшего

времени: „да“—устано­

вить

связь вида

 

„нет“—перейти

к п.4.

на

наличие

4.

Проверка первого элемента

сочетания

признака инфинитива: „да“—установить связь вида

„нет“—связь не устанавливать.

 

 

 

 

Во всех случаях установить связь вида

 

 

Во всех случаях установить связь вида

 

 

Во всех случаях установить связь вида

 

 

Первый проход—связь не устанавливать.

 

 

Второй проход—установить связь вида

 

 

 

 

П е р в ы й п р о х о д

 

наличие при­

Проверка первого элемента сочетания на

знака глагольности:

„да“— установить

связь

вида

„нет“ — установить

связь вида

 

 

 

 

247

П родолжение табл. 14.1

Сочетание

классов

слов

нп

Правило установления синтаксической связи и вид связи

П е р в ы й п р о х о д

Проверка элементов сочетания на контактное распо­ ложение: „да“—установить связь вида „нет“—связь не устанавливать.

П е р в ы й п р о х о д

ННПроверка элементов сочетания на контактное распо­

ложение: „да“ —установить связь вида

„нет“—связь

не устанавливать.

 

HP

нч

PC

РП

РГ

чс

чп

П е р в ы й и т р е т и й п р о х о д ы

Проверка первого элемента сочетания на признак гла­ гольности: „да“-—установить связь вида „нет“— связь не устанавливать.

 

П е р в ы й п р о х о д

 

распо­

Проверка элементов сочетания

на

контактное

ложение: „да“— установить связь

вида

 

„нет“—связь

не устанавливать. П е р в ы й п р о х о д

 

 

1.

Проверка элементов сочетания

на совпадение при­

знака

падежа: „да“— установить связь вида

 

„нет“—

перейти к п.2.

сочетания

на

наличие

2.

Проверка второго элемента

признака „неизменяемое существительное“ : „да“—устано­

вить связь

вида

„нет“—связь

не устанавливать.

Первый

проход—связь

не устанавливать.

 

Второй проход—связь

не устанавливать.

 

 

 

Т р е т и й п р о х о д

 

призна­

Проверка второго члена сочетания на наличие

ка глагольности: „да“—установить связь вида

„нет“— связь не

устанавливать.

 

 

Первый проход—связь не устанавливать.

устанав­

Второй и третий проходы— во всех

случаях

ливать связь вида

 

 

 

П е р в ы й п р о х о д

Проверка элементов сочетания на контактное распо­ ложение: „да“—установить связь вида „нет*— связь не устанавливать.

П е р в ы й п р о х о д

Проверка первого элемента сочетания на наличие при­ знака отрицательной частицы [(„не“ или „ни“): „да*— установить связь вида „нет*—установить связь ви­ да

2 4 8

Продолженае табл. 14.1

Сочетание классов Правило установления синтаксической связи и вид связи

слов

П е р в ы й и в т о р о й п р о х о д ы

чг

нг

1.

Проверка элементов сочетания

на контактное рас-

положение;

„да“— перейти к

п.2;

„нет“—установить

связь

вида

 

элемента

сочетания на

наличие

2.

Проверка первого

признака отрицательной

частицы

(„не“ или „ни“):

„да“—

установить связь вида

„нет“—установить связь ви­

даВо

всех

случаях установить

связь

вида

 

П е р в ы й п р о х о д

чн

положение:1. Проверка„да“элементов—перейти сочетанияк п.2; „нет“—на контактноесвязь не уста­рас-

 

навливать.

элемента

сочетания на наличие

 

2. Проверка первого

 

признака отрицательной

частицы

(„не“ или

„ни“):„ да“—

 

установить связь вида

„нет“—связь

не устанавли­

 

вать.

 

 

 

Синтаксический анализ предложения совершается за три прохода. П е р в ы й п р о х о д — предложение анали­ зируется начиная с его конца с постепенным продвиже­ нием к началу. При этом устанавливается большая часть связей между словами. Исходным положением является такое, когда анализу подвергаются два последних слова в предложении, заключительным — когда левым элемен­ том анализируемого сочетания слов оказывается первое слово предложения.

Переход от одного сочетания слов к другому осущест­ вляется по следующему правилу. Если левый элемент анализируемого сочетания является управляющим, то при переходе к следующему сочетанию слов он прини­ мается за правый элемент, а в качестве левого элемента нового сочетания берется соседнее слово, расположенное слева; аналогичным образом поступают, когда слова не связаны друг с другом. Если левый элемент анализируе­ мого сочетания является управляемым, то левый элемент следующего сочетания слов берется с номером, на еди­ ницу меньшим, а правый элемент оставляется неизмен­ ным. Исключение составляют сочинительные союзы и знаки препинания, которые при первом проходе служат

249

Соседние файлы в папке книги из ГПНТБ