![](/user_photo/_userpic.png)
книги из ГПНТБ / Белоногов Г.Г. Автоматизированные информационные системы
.pdfВ процессе ввода осуществляется перекодировка букв в код алфавитно-цифрового печатающего устройства, после чего тексты рефератов записываются на магнит ную ленту. Поисковые образы рефератов формируются автоматически на основе их дескрипторных описаний. Дескрипторные описания представляют собой перечни наименований понятий, встречающихся в заголовках и
втекстах рефератов. В их состав включаются также не которые библиографические сведения (полные библио графические описания документов приводятся в текстах рефератов). Наименования понятий отделяются друг от л руга запятыми.
Дескрипторные описания рефератов переносятся на перфоленту в международном телеграфном коде и вво дятся в ЭВМ. Далее с помощью процедур морфологиче ского анализа и отождествления наименований понятий исходные словосочетания заменяются на номера понятий по словарю. При необходимости словарь основ слов и словарь наименований понятий пополняются. В процес се формирования поисковых образов рефератов на пе чать выдается список «новых» наименований понятий вместе с их словарными номерами. Этот список служит
вдальнейшем в качестве исходного материала для уста новления смысловых связей между наименованиями
понятий и для пополнения классификационного словаря понятий.
Среднее значение коэффициента полноты поиска ре фератов в автоматизированной документальной инфор мационно-поисковой системе описанного типа оказалось равным 83%. Среднее значение коэффициента шума — 7%, причем в первом эшелоне выдачи оно было равно 3%, а во втором эшелоне— 18%. Коэффициент полноты поиска определялся как отношение числа релевантных рефератов, содержащихся в ответах на запросы, к числу релевантных рефератов, полученных путем объединения результатов ручного и автоматического поиска по запро сам, коэффициент шума — как отношение числа нереле вантных рефератов к общему числу рефератов, выдан ных в качестве ответов на запросы.
Анализ причин потерь информации при автоматиче ском поиске показал, что в основном это происходит из-за неполного учета смысловых связей между поня тиями в классификационном словаре. Наряду с улучше нием качества классификационного словаря могут быть
2 4 0
применены и другие способы увеличения полноты выда чи информации: введение в запрос вариантов формули ровок наименований понятий с указанием дизъюнктив ной логической связи между ними; разбиение словосоче таний запроса на более короткие словосочетания и от дельные слова с указанием конъюнктивной логической связи между выделенными элементами; уточнение фор мулировки запроса по результатам пробного поиска и др.
Разбиение словосочетаний запроса на более короткие словосочетания (равно как и поиск по ассоциированным понятиям) позволяет преодолеть влияние субъективных факторов при составлении поисковых образов рефератов (разные лица могут выделять из текстов рефератов сло восочетания различной длины) и увеличивает полноту выдачи информации. Но это одновременно приводит и к некоторому увеличению поискового шума.
Описанная документальная информационная система реализована на ЭВМ. Общий объем ее программ состав ляет около 12 000 команд*.
Деление информационно-поисковых систем на факто графические и документальные условно. Доказательст вом правильности этого тезиса является тот факт, что документальные системы дескрипторного типа могут быть успешно применены для поиска фактографической информации. Для этого необходимо ввести в память ЭВМ фактографические записи и их дескрипторные по исковые образы. Тогда тексты фактографических запи сей могут выдаваться потребителям информации по тем же правилам, что и тексты рефератов. С другой стороны, фактографическая система может быть использована для поиска документов. При этом поисковые образы ре фератов должны представляться в виде массива элемен тарных сообщений, а тексты рефератов интерпретиро ваться как значения характеристики с наименованием «текст реферата». Но в фактографических информацион но-поисковых системах обычно решаются более сложные задачи, чем в документальных, и они бывают оснащены более мощной системой программ.
* Наряду с авторами в разработке системы и ее практической реализации принимали участие Ю . А . Кожевников, В. И . Тихонов, И. И . Быстров и др.
16— 3 1 0 |
241 |
Г л а в а 14 АВТОМАТИЧЕСКИЙ СИНТАКСИЧЕСКИЙ АНАЛИЗ НЕФОРМАЛИЗОВАННЫХ ТЕКСТОВ
Одной из наиболее трудных задач, возникающих при создании систем автоматической обработки текстовой информации, является построение процедур синтаксиче ского анализа для естественных языков. Дело в том, что естественный язык является универсальным средством общения людей и в нем отображается все многообразие проявлений человеческой деятельности. Функционирова ние языка непосредственно связано с процессами мыш ления, которые еще недостаточно изучены. Над созда нием процедур синтаксического анализа естественных языков работает ряд ученых в нашей стране и за рубе жом (см., например, монографию И. А. Мельчука [89]). Тем не менее в настоящее время еще нет аппробированных процедур синтаксического анализа, учитывающих все явления естественного языка. Поэтому приходится пользоваться приближенными процедурами, ориентиро ванными на решение частных задач обработки текстовой информации. В настоящей главе описывается алгоритм приближенного синтаксического анализа русского языка, предназначенный для использования в системах автома тического индексирования деловых текстов.
При создании алгоритмов синтаксического анализа необходимо располагать сведениями о грамматической структуре текстов, на которые эти алгоритмы ориенти руются. Эффективным путем получения такого рода све дений является статистическое обследование текстов. Оно позволяет выявить различные элементы граммати ческой структуры и оценить их относительную значи мость.
В основу синтаксического анализа текстов была поло жена модель дерева зависимостей. Каждое предложение анализируемого текста представлялось в виде графа, в узлах которого помещались символы грамматических классов слов и информация о форме слова. Узлы соеди нялись стрелками, указывающими направление связи между словами (от подчиняющего слова к подчиненно му). При этом использовались следующие условные обозначения.
242
1. О с н о в н ы е и н д е к с ы (символы основных грамматиче ских классов слов):
С— существительное, количественное числительное;
П— полное прилагательное, полное причастие, порядковое чис
лительное; Г — глагол, краткое прилагательное, краткое причастие;
Н— наречие, деепричастие, сравнительная степень прилагатель ного;
Р— предлог;
&■— союз;
Ч— частица.
2. В е р х н и е и н д е к с ы :
* — признак аббревиатур и неизменяемых существительных;
м— признак местоименности;
ч— признак числительного; мод — признак модальности;
in f — признак неопределенной формы глагола;
пр — признак глагола прошедшего времени;
t |
— признак переходности (у глаголов, причастий и дееприча |
|
стий) ; |
||
|
і— признак непереходности (у глаголов, причастий и деепри частий) ;
под — признак подчинительного союза.
Кроме перечисленных символов в качестве верхних индексов использовались также символы п, н, г (с тем же значением, что и символы П , Н , Г) для обозначения субстантивированных прилага тельных (Сп), союзных слов, относящихся к классу наречий (&лодН),
отглагольных |
существительных |
(Сг), |
причастий |
(П г), деепричастий |
(Н г), кратких |
прилагательных |
(ГП), |
кратких |
причастий (Гпг) и |
сравнительной степени прилагательного (Н п) . 3. Н и ж н и е и н д е к с ы ; р — родительный падеж;
д— дательный падеж;
в— винительный падеж; т — творительный падеж;
п — предложный падеж.
Эти признаки указываются только у существительных в косвен ных падежах.
После построения дерева предложения из его состава выделя лись все парные сочетания символов классов слов, находящихся в отношении подчинения, а при наличии предложного управления —
и трехчленные |
сочетания |
типа С — >-Р— >-Св, |
Н — >-Р— >-СР, |
|
Г 1'— >-Р— )-Сд и т. |
п. Предварительно |
уt , і символов, |
классов управ |
|
ляющих слов опускались все нижние индексы, а у символов классов |
||||
управляемых слов — верхние |
индексы г, |
мод. Например, в пред |
ложении «На ряде предприятий обнаружены случаи нарушения стан дартов и технических условий», которому соответствует дерево
iР —►Сп —l>Ср Рпг*l—►С —>Ср —►Ср& П <—Ср,I .
можно аыделить следующие сочетания символов;
ТI
Р— *-СпГпг1 (на ряде обнаружены);
С— >-Ср (ряде предприятий);
16' |
243 |
Г пгі— »-С (обнаружены случаи);
С — ^Ср (случаи нарушения);
С — ^Ср (нарушения стандартов);
С — >-Ср (нарушения условий);
П «—С (технических условий).
Всего таким образом было обработано 1000 предложений, вы бранных из деловых текстов различного содержания, и был состав лен частотный словарь структурных формул словосочетаний объемом в 713 элементов. Длина предложений в текстах колебалась в преде лах от 6 до 78 слов. В среднем она была равна 19 словам.
Структурные формулы словосочетаний распределены в текстах весьма неравномерно. Если расположить их по убыванию частот встречаемости, то уже первые десять формул покрывают 55% их
общего числа, первые двадцать — 64%, |
первые |
сорок — 73%, |
первые |
|
сто — 85%, первые триста — 95%. Аналитическое выражение |
для |
|||
функции распределения структурных |
формул |
приведено в |
гл. |
16. |
В приложении 5 дан перечень сорока наиболее часто встречающихся структурных формул.
Исходные данные для алгоритма синтаксического анализа формируются путем морфологического анализа текстов. В результате работы алгоритма синтаксическо го анализа строится дерево предложения. В памяти ма шины дерево предложения записывается таким образом, что для каждого порядкового номера слова указываются перечни порядковых номеров подчиняющих и подчинен ных слов.
Работа алгоритма построения дерева предложения заключается в последовательном принятии решения о ха рактере синтаксической связи между двумя словами. Переход от одной пары слов к другой совершается с уче том результатов анализа предшествующей пары слов. Синтаксические связи определяются согласно правилам, приведенным в табл. 14.1. Эти правила вырабатывались на основе статистического анализа текстов.
В первой графе табл. 14.1 указывается сочетание символов грамматических классов слов, а во второй гра фе оговариваются условия, при которых могут иметь место различные виды связи между словами:
—подчинение правого элемента сочетания левому (связь типа «->»);
—подчинение левого элемента правому (связь типа «Ч-»);
—отсутствие связи между элементами сочетания.
244
Т а б л и ц а 14.1
П р а в и л а уст а н о вл ен и я синт аксических св язей м еж ду классам и слов
Сочетание классов Правило установления синтаксической связи и вид связи
слов
П е р в ы й п р о х о д
СС1. Проверка первого элемента сочетания на местои-
|
менность: „да“—связь |
не устанавливать; |
„нет“—перей |
|||||
|
ти к п.2. |
|
|
элемента |
сочетания |
на |
наличие |
|
|
2. Проверка второго |
|||||||
|
признака родительного, дательного или творительного па |
|||||||
|
дежа: „да“—установить связь вида |
„нет“—перей |
||||||
|
ти к п.З. |
|
|
элемента |
сочетания |
на |
наличие |
|
|
3. Проверка второго |
|||||||
|
признака неизменяемого существительного: |
„да“—устано |
||||||
|
вить связь |
вида |
► “ ; |
„нет“—связь не устанавливать. |
||||
СП |
Проверка |
|
П е р в ы й п р о х о д |
|
|
призна |
||
элементов сочетания на совпадение |
||||||||
|
ков рода, числа и падежа: „да“—установить |
связь типа |
||||||
|
нет“—связь не устанавливать. |
|
|
|
В т о р о й п р о х о д
1.Проверка второго элемента сочетания на наличие признака местоименного субстантивированного прилага тельного: „да“—перейти к п.4; „нет“ —перейти к п .2 .
2.Проверка элементов сочетания на совпадение при
|
знаков рода, числа и падежа: „да“ —установить связь ви |
||||||||
|
да |
„нет“—перейти к п.З . |
сочетания |
на |
наличие |
||||
|
3. |
Проверка первого |
элемента |
||||||
|
признака неизменяемого существительного: |
„да“—устано |
|||||||
|
вить |
связь вида |
„нет“ —связь не |
устанавливать. |
|||||
|
4. |
Проверка элементов |
сочетания на |
совпадение |
при |
||||
|
знака |
падежа: „да“ —установить связь вида |
|
„нет“ — |
|||||
|
связь |
не устанавливать. |
|
|
|
|
|
|
|
|
1. |
П е р в ы й п р о х о д |
контактное |
рас |
|||||
СГ |
Проверка элементов сочетания на |
||||||||
положение: „да“—перейти |
к п.2; |
„нет“ —связь |
не |
уста, |
|||||
|
навливать. |
элемента |
сочетания |
на |
наличие |
||||
|
2. Проверка первого |
||||||||
|
признака именительного падежа: |
„да“ —установить связь |
|||||||
|
вида |
„нет“—перейти к п.З. |
сочетания |
на |
наличие |
||||
|
3. |
Проверка первого |
элемента |
||||||
|
признака творительного падежа: „да“ —перейти к п.4; |
||||||||
|
„нет“ —связь не устанавливать. |
сочетания |
на |
наличие |
|||||
|
4. Проверка второго элемента |
||||||||
|
признака инфинитива: „да“ —установить |
связь вида |
|
||||||
|
„нет“—связь не устанавливать. |
|
|
|
|
|
245
Сочетание
классов
слов
С Р
сч
С&пол
П С
пг
пн
П Р
П р о д о л ж ен и е т а б л . 14.1
Правило установления синтаксической связи и вид связи
В т о р о й п р о х о д
Проверка первого элемента сочетания на наличие при знака „существительное, образованное от модального гла
гола“ , |
а второго—на |
наличие |
признака инфинитива: |
„да“—установить связь |
вида |
„нет“ —установить |
|
связь |
вида |
|
|
При первом и втором проходе во всех случаях устанав
ливается |
связь вида „ — |
|
|
|
|
|
П е р в ы й п р о х о д |
|
|
распо |
|
Проверка элементов сочетания |
на контактное |
||||
ложение: „да“—установить связь вида |
|
„нет“— |
|||
связь не |
устанавливать. |
|
|
при вто |
|
При первом проходе связь не устанавливать, |
|||||
ром проходе во всех случаях устанавливать |
связь |
вида |
|||
|
П е р в ы й п р о х о д |
|
|
приз |
|
1. Проверка элементов сочетания на совпадение |
|||||
наков рода, числа и падежа: „да“—установить |
связь ви |
||||
да |
„нет“— перейти к п.2. |
сочетания |
на |
наличие |
|
2. Проверка второго элемента |
признака неизменяемого существительного: „да“—уста
новить связь вида |
„нет“ —перейти к п.З. |
наличие |
|||||
3. Проверка |
первого |
элемента |
сочетания |
на |
|||
признака |
глагольности: „да“ —установить связь вида |
||||||
„нет“ —перейти |
к п .4 . |
элемента |
сочетания на |
наличие |
|||
4. Проверка |
первого |
||||||
признака |
неизменяемого прилагательного: |
„да“—устано |
|||||
вить связь |
вида |
„нет“—связь не устанавливать. |
|||||
Связь |
не |
|
|
П е р в ы й п р о х о д |
|
|
|
устанавливать. |
|
|
|
||||
|
|
|
В т о р о й п р о х о д |
|
|
Проверка первого элемента сочетания на наличие при знака „прилагательное, образованное от модального гла гола“ , а второго элемента—на наличие признака инфи нитива: „да“ —установить связь вида „нет“— уста новить связь вида„<-“ .
П е р в ы й п, р о X о д
Проверка первого элемента сочетания на наличие при знака глагольности: „да“—установить связь вида „нет“ —связь не устанавливать.
П е р в ы й п р о х о д
1. Проверка первого элемента сочетания на наличие признака глагольности: „да“—установить связь вида „нет“ —перейти к п .2 .
246
Сочетание
классов
слов
п ч
П&под
ГС
гп
гг
ГН
ГР
г ч
Г&под
Н С
П родол ж с.нае т абл . 14.1
Правило установления синтаксической связи и вид связи
2. Проверка первого элемента сочетания на наличие признака „прилагательное, образованное от модального
глагола“ : „да“—установить связь |
вида |
„нет“—пе |
|||||
рейти |
к п .З . |
|
|
|
|
|
рас |
3. Проверка элементов сочетания на контактное |
|||||||
положение: „да“ —установить |
связь |
вида |
|
„нет“— |
|||
связь |
не устанавливать. |
|
|
|
|
|
|
|
П е р в ы й п р о х о д |
|
располо |
||||
Проверка элементов сочетания на контактное |
|||||||
жение: „да“— установить связь |
вида |
„нет“—связь |
|||||
не устанавливать. |
|
|
|
|
|
|
|
Первый проход—связь не устанавливать. |
|
|
|
||||
Второй проход—установить связь |
вида |
|
|
|
|||
Во всех случаях установить |
связь |
вида |
|
|
|
||
|
П е р в ы й п р о х о д |
наличие при |
|||||
Проверка второго элемента сочетания на |
|||||||
знака творительного падежа: „дак—установить |
связь |
ви |
|||||
да |
„нет“—связь не устанавливать. |
|
|
|
П е р в ы й п р о х о д
1. Проверка второго элемента на наличие признака ин
финитива: „да“—установить связь вида |
„нет“— пе |
рейти к п .2 . |
|
2. Проверка второго элемента сочетания на наличие |
|
признака краткого прилагательного: |
„да“— установить |
связь |
вида |
„нет“—перейти |
к п.З . |
на |
наличие |
||
3. |
Проверка второго элемента |
сочетания |
|||||
признака глагола |
прошедшего |
времени: „да“—устано |
|||||
вить |
связь вида |
|
„нет“—перейти |
к п.4. |
на |
наличие |
|
4. |
Проверка первого элемента |
сочетания |
|||||
признака инфинитива: „да“—установить связь вида |
|||||||
„нет“—связь не устанавливать. |
|
|
|
|
|||
Во всех случаях установить связь вида |
|
|
|||||
Во всех случаях установить связь вида |
|
|
|||||
Во всех случаях установить связь вида |
|
|
|||||
Первый проход—связь не устанавливать. |
|
|
|||||
Второй проход—установить связь вида |
|
|
|||||
|
|
П е р в ы й п р о х о д |
|
наличие при |
|||
Проверка первого элемента сочетания на |
|||||||
знака глагольности: |
„да“— установить |
связь |
вида |
||||
„нет“ — установить |
связь вида |
|
|
|
|
247
П родолжение табл. 14.1
Сочетание
классов
слов
нп
Правило установления синтаксической связи и вид связи
П е р в ы й п р о х о д
Проверка элементов сочетания на контактное распо ложение: „да“—установить связь вида „нет“—связь не устанавливать.
П е р в ы й п р о х о д
ННПроверка элементов сочетания на контактное распо
ложение: „да“ —установить связь вида |
„нет“—связь |
не устанавливать. |
|
HP
нч
PC
РП
РГ
чс
чп
П е р в ы й и т р е т и й п р о х о д ы
Проверка первого элемента сочетания на признак гла гольности: „да“-—установить связь вида „нет“— связь не устанавливать.
|
П е р в ы й п р о х о д |
|
распо |
||
Проверка элементов сочетания |
на |
контактное |
|||
ложение: „да“— установить связь |
вида |
|
„нет“—связь |
||
не устанавливать. П е р в ы й п р о х о д |
|
|
|||
1. |
Проверка элементов сочетания |
на совпадение при |
|||
знака |
падежа: „да“— установить связь вида |
|
„нет“— |
||
перейти к п.2. |
сочетания |
на |
наличие |
||
2. |
Проверка второго элемента |
признака „неизменяемое существительное“ : „да“—устано
вить связь |
вида |
„нет“—связь |
не устанавливать. |
||
Первый |
проход—связь |
не устанавливать. |
|
||
Второй проход—связь |
не устанавливать. |
|
|||
|
|
Т р е т и й п р о х о д |
|
призна |
|
Проверка второго члена сочетания на наличие |
|||||
ка глагольности: „да“—установить связь вида |
|||||
„нет“— связь не |
устанавливать. |
|
|
||
Первый проход—связь не устанавливать. |
устанав |
||||
Второй и третий проходы— во всех |
случаях |
||||
ливать связь вида |
|
|
|
П е р в ы й п р о х о д
Проверка элементов сочетания на контактное распо ложение: „да“—установить связь вида „нет*— связь не устанавливать.
П е р в ы й п р о х о д
Проверка первого элемента сочетания на наличие при знака отрицательной частицы [(„не“ или „ни“): „да*— установить связь вида „нет*—установить связь ви да
2 4 8
Продолженае табл. 14.1
Сочетание классов Правило установления синтаксической связи и вид связи
слов
П е р в ы й и в т о р о й п р о х о д ы
чг
нг
1. |
Проверка элементов сочетания |
на контактное рас- |
|||||
положение; |
„да“— перейти к |
п.2; |
„нет“—установить |
||||
связь |
вида |
|
элемента |
сочетания на |
наличие |
||
2. |
Проверка первого |
||||||
признака отрицательной |
частицы |
(„не“ или „ни“): |
„да“— |
||||
установить связь вида |
„нет“—установить связь ви |
||||||
даВо |
всех |
случаях установить |
связь |
вида |
|
П е р в ы й п р о х о д
чн |
положение:1. Проверка„да“элементов—перейти сочетанияк п.2; „нет“—на контактноесвязь не устарас- |
|||
|
навливать. |
элемента |
сочетания на наличие |
|
|
2. Проверка первого |
|||
|
признака отрицательной |
частицы |
(„не“ или |
„ни“):„ да“— |
|
установить связь вида |
„нет“—связь |
не устанавли |
|
|
вать. |
|
|
|
Синтаксический анализ предложения совершается за три прохода. П е р в ы й п р о х о д — предложение анали зируется начиная с его конца с постепенным продвиже нием к началу. При этом устанавливается большая часть связей между словами. Исходным положением является такое, когда анализу подвергаются два последних слова в предложении, заключительным — когда левым элемен том анализируемого сочетания слов оказывается первое слово предложения.
Переход от одного сочетания слов к другому осущест вляется по следующему правилу. Если левый элемент анализируемого сочетания является управляющим, то при переходе к следующему сочетанию слов он прини мается за правый элемент, а в качестве левого элемента нового сочетания берется соседнее слово, расположенное слева; аналогичным образом поступают, когда слова не связаны друг с другом. Если левый элемент анализируе мого сочетания является управляемым, то левый элемент следующего сочетания слов берется с номером, на еди ницу меньшим, а правый элемент оставляется неизмен ным. Исключение составляют сочинительные союзы и знаки препинания, которые при первом проходе служат
249