Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Белоногов Г.Г. Автоматизированные информационные системы

.pdf
Скачиваний:
9
Добавлен:
25.10.2023
Размер:
14.28 Mб
Скачать

формализованного текста объемом 1000 слов и списка именных словосочетаний такого же объема были опре­ делены по описанным выше правилам флективные клас­ сы всех входящих в них слов. После этого были состав­ лены перечни попарно-различных основ слов отдельно для неформализованного текста и для списка именных словосочетаний. Далее, для каждой основы слова были синтезированы все различные словоформы. Обнаружи­ лось, что вероятность правильного синтеза форм слов по их основам, взятым из неформализованного текста, рав­ на 0,88, а вероятность правильного синтеза форм слов по основам, взятым.из списка именных словосочетаний,— 0,98. Если учесть неравномерность распределения частот появления в текстах различных форм одного и того же слова (например, с помощью частотного словаря слово­ форм), то вероятности правильного синтеза форм слов будут равны: для неформализованного текста 0,98, для именных словосочетаний 0,99.

Таким образом, на основе процедуры приближенного морфологического анализа можно выявлять грамматиче­ ские признаки слов, которые позволяют осуществлять морфологический синтез с высокой степенью надежности.

Определение флективных классов «новых» слов

спомощью словаря

Впредыдущих разделах настоящей главы было по­ казано, что в русском языке имеет место тесная связь между грамматическими признаками слов и буквенным оформлением их концов. Это дает основание предпола­ гать, что для «новых» слов грамматические признаки мо­ гут назначаться по аналогии со словами, ранее включен­ ными в словарь, если конечные буквосочетания «новых»

слов и слов из словаря совпадают.

Для определения степени совпадения конечных бук­ восочетаний различных слов автором было проведено два эксперимента. Один из них проводился с использо­ ванием словаря словоформ объемом 15000 наиболее часто встречающихся единиц, а другой — с использова­ нием эквивалентного ему по заполнению текстов словаря основ объемом 5 000 наиболее часто встречающихся еди­ ниц. В процессе обоих экспериментов фиксировались только случаи максимального совпадения концов «но­ вых» слов с концами слов из словаря. В эксперименте

160

со словарем основ слов общее количество совпавших

букв у сравниваемых слов определялось как сумма ко­

личества совпавших букв у их основ и количества

букв

в окончании «нового» слова при условии, что это

окон­

чание совместимо с основой слова из словаря.

В результате экспериментов были получены распре­ деления частот появления максимальных значений коли­

чества

совпавших

конечных букв у «новых» слов и

у слов

из словаря

(отдельно для словаря словоформ и

для словаря основ слов). Эти распределения приведены

в табл. '8.7.

Средние

значения

количества совпавших

 

 

 

 

 

 

Т а б л и ц а 8.7

Распределение частот появления раз яичных значений

максимального количества

совпавиііх

конечных

букв у

„новых“

 

слов и у слов из словаря

 

 

Максимальное

Частота

 

Максимальное

Частота

 

 

 

 

 

количество

по слова­

по словарю

количество

по слова­

по словарю

совпав них

совпавших

букв

рю основ

словоформ

 

букв

рю основ

словоформ

1

0,005

0,046

 

10

0,040

0,018

2

0,046

 

11

0.009

0,009

3

0,104

0,131

 

12

0,005

0,019

4

0,176

0,144

 

13

0,002

0,004

5

0,196

0,189

 

14

0,002

0,002

6

0,170

0,182

 

15

0,005

0,002

7

0,138

0,106

 

16

8

0,052

0,074

 

17

0,002

9

0,050

0,072

 

букв в обоих экспериментах оказались равными вели­ чине 5,6.

По словарю словоформ грамматические признаки «новых» слов могут определяться следующим образом:

1. «Новая» словоформа сравнивается со словоформа­ ми из словаря, и фиксируются все случаи совпадения кондов словоформ.

2. Из словаря выбираются словоформы, у которых длина конечных буквосочетаний, совпавших с конечным буквосочетанием нового слова, является максимальной. Если выбирается только одна словоформа, то ее грам­ матический признак считается грамматическим призна­ ком новой словоформы; если выбирается группа слово­ форм, то для этой группы строится распределение частот

11— 310

161

появления грамматических признаков и новой словофор­ ме назначается наиболее частый признак.

Процедура определения грамматических признаков новых слов по словарю основ аналогична процедуре их определения по словарю словоформ. Отличие состоит в способе выбора словарных элементов, по которым про­ изводится назначение признаков. Здесь у исходной сло­ воформы отделяются все возможные варианты грамма­ тических окончаний, а полученные таким образом вари­ анты основ слов сравниваются с основами словаря. Фиксируются все случаи совпадения концов основ «но­ вого» слова с концами основ из словаря при условии, что соответствующие варианты окончаний нового слова совместимы со словарными основами (совместимость основ и окончаний проверяется но табл. 7.4). В каждом случае определяется сумма количества совпавших букв в сравниваемых основах и количества букв в окончании «нового» слова. Из словаря выбираются основы с мак­ симальным значением суммы. Выбранные основы ис­ пользуются для назначения грамматических признаков «новому» слову.

Возможность определения грамматических признаков «новых» слов с помощью словаря была проверена на примере обобщенных и флективных классов. Оказалось, что в неформализованных текстах с помощью словаря основ обобщенные грамматические классы определяются правильно с вероятностью 0,96, флективные классы — с вероятностью 0,89. С помощью словаря словоформ об­ общенные классы определяются правильно с вероятно­ стью 0,95, флективные классы — с вероятностью 0,91. В именных словосочетаниях обобщенные и флективные классы слов определялись тбчнее: обобщенные классы— с вероятностью 0,99, флективные классы — с вероятно­ стью 0,95, причем данные, полученные с помощью сло­ варя основ слов и с помощью словаря словоформ, сов­ падали.

Таким образом, словарь основ слов и словарь слово­ форм могут быть использованы в качестве средства для определения грамматических признаков «новых» слов. При этом отпадает необходимость в специальных спи­ сках конечных буквосочетаний слов.

162

Г л а в а 9 АВТОМАТИЧЕСКОЕ КОДИРОВАНИЕ

ИДЕКОДИРОВАНИЕ НАИМЕНОВАНИИ ПОНЯТИИ

Вавтоматизированных информационных системах, основанных на формализованной записи сведений, ши­ роко используются понятия, выраженные отдельными словами и именными словосочетаниями. Эти понятия мо­ гут обозначать различного рода объекты, их характери­ стики, рубрики классификационных, схем и т. п. В имен­ ных словосочетаниях главным словом (основным носи­ телем смысла) является, как правило, первое слева

существительное, а остальные слова служат для уточне­ ния значения главного слова.

Буквенные коды наименований понятий имеют боль­ шую избыточность и могут иметь разную длину. Их применение в ЭВМ приводит к нерациональному исполь­ зованию памяти и создает практические неудобства при автоматическом поиске и обработке информации. По этой причине понятия в машинах представляются не по­ буквенными кодами их словесных обозначений, а более короткими кодовыми комбинациями. В качестве кодов понятий используются порядковые номера их наимено­ ваний по списку или специальные индексы, отражающие схему классификации этих понятий.

Переход от наименований понятий к машинным ко­

дам может

осуществляться вручную и

автоматически

с помощью

ЭВМ. В последнем случае

более удобным

является кодирование понятий их номерами по списку. В процессе дальнейшей обработки информации по номе­ рам понятий могут выбираться любые кодовые комби­ нации, описывающие свойства этих понятий.

Именные словосочетания могут включать в свой со­ став следующие классы слов: существительные (С),при­ лагательные (П), предлоги (Р), сочинительные союзы

(&) и наречия (Н). Наряду с полными буквенными ко­ дами слов в составе именных словосочетаний встреча­ ются также аббревиатуры, буквенно-цифровые обозна­ чения и числа. Эти элементы словосочетаний обычно вы­

ступают

в роли существительных

и значительно

реже

в роли

прилагательных (например,

порядковые

числи­

тельные в цифровом выражении).

 

колеблет­

Количество слов в наименованиях понятий

ся в пределах от одного до

десяти — пятнадцати и

в среднем равно примерно трем.

Слова могут

находить-

11*

163

ся в различной связи друг с Другом. Наиболее типичны­ ми видами связи являются связь согласования между существительными и определяющими их прилагательны­ ми, а также предложные и беспредложные связи между существительными.

Прилагательное, как правило, согласуется с сущест­ вительным, к которому оно относится, в роде, числе и падеже. Существительное, выступающее в роли опреде­ ления к другому существительному, располагается спра­ ва от последнего и может иметь форму родительного, творительного или, значительно реже, дательного паде­ жа. В случае предложного управления форма существи­ тельного, стоящего справа от предлога, зависит от вида последнего.

Примеры различных структур именных словосочета­ ний приведены в табл. 9.1. Здесь каждому слову наиме­ нования понятия поставлен в соответствие символ син­ таксического класса. Стрелками указано направление связей между существительными, существительными и предлогами, а также между существительными и опре­ деляющими их прилагательными, если последние распо­ ложены справа от существительных. Если прилагатель­ ные располагаются слева от определяемых ими сущест­ вительных, то стрелки не ставятся. В нижних индексах существительных, не являющихся главными словами, указаны падежи. Падежи обозначены начальными бук­ вами их наименований.

Понятия автоматически кодируются с помощью двух словарей: словаря слов и словаря понятий. Словарь слов может быть оформлен в виде словаря словоформ или словаря основ слов. Все его элементы нумеруются. Сло­ варь понятий содержит список свернутых кодов именных словосочетаний, используемых в информационной систе­ ме. Каждое наименование понятия представлено в сло­ варе сочетанием нохмеров слов *, входящих в его состав, и номером грамматической структуры. Грамматическая структура словосочетания содержит информацию о свя­ зях между словами и информацию о формах слов, необ­ ходимую при декодировании. Различные грамматические структуры задаются списком.

Словарь понятий может быть упорядочен различны­ ми способами в зависимости от применяемых приемов

* Под номером слова мы -будем в дальнейшем понимать номер ею канонической формы или номер канонической формы его основы.

164

Т а б л и ц а 9.1

Структурные формулы словосочетаний

Структурная формула

Словосочетание-представитель

п/п

П С

 

 

 

 

Индикаторное

устройство

 

1

 

 

 

 

 

2

п п с

 

 

 

 

Цветное индикаторное

устройст-

3

п п п с

 

 

 

Управляющая цифровая вычисли­

4

С -* Ср

 

 

 

тельная машина

 

 

 

 

 

 

 

 

Испытания машин

 

 

обору­

5

С -►

ПСр

 

 

 

Испытания электронного

6

С

ППСр

 

 

 

дования

 

цифровых

вычис­

 

 

 

Использование'

 

7

С -> ПППСр

 

 

лительных машин

 

 

 

 

 

 

Использование управляющих циф­

8

П С - > С р

 

 

 

ровых вычислительных машин

 

 

 

Автоматический

поиск

информа­

9

ПС -* Ср -* Ср

 

ции

 

 

 

система

 

Автоматизированная

 

10

П П С -> П Ср

 

 

поиска информации

 

 

 

 

*

Международная

автоматическая

 

С —► Ср —► Ср

система телефонной связи

управ­

11

 

Автоматизация процессов

С -* Ср -» Ср -* Ср

ления

 

систем

обработ­

12

Проектирование

П С -» Ср -» ПСт

ки информации

 

 

система уп­

13

Автоматизированная

П С -» Р -» ПСр

 

равления воздушным движением.

14

 

Информационная система для ад­

П С -► Р -> Ср -> Ср

министративного

руководства

15

Символические

языки для поиска

1

 

1

 

Ср

информации

 

 

 

 

 

16

С —► Ср & Ср

 

Система хранения и поиска ин-

 

1

 

—*

t

формации

 

 

 

 

 

17

С —► Р —► Сп

 

Ср

Сопротивление

 

в месте повреж­

П С - » Р -» Ст -*■ Ср -»Р -*

дения

сеть

с

возвратом

18

Электрическая

- » Св

 

 

 

тока через землю

 

трансформа-

 

1

^

*

 

 

Комбинированный

19

 

 

тор тока и напряжения

 

 

П С -* Ср & Ср

 

 

 

20

d - » r m

 

 

 

Медь листовая красная

 

 

165

поиска в нем и в зависимости от задач, которые пред­ полагается решать с помощью этого словаря. Рациональ­ ным является такой способ организации словаря, когда сочетания номеров слов упорядочены по длине, а в пре­ делах группы одинаковой длины — по возрастанию вели­ чины кодов этих сочетаний. В каждом словосочетании номера главных слов целесообразно предварительно вы­ нести на первое место слева. Каждому понятию при­ сваивается порядковый номер, который определяется его позицией в словаре.

Автоматическое кодирование наименований понятий осуществляется в три этапа. Сначала отождествляются слова, входящие в наименование понятия, с элементами словаря слов. Слова заменяются их номерами по слова­ рю и сопровождаются грамматической информацией. Па втором этапе кодирования выявляется грамматическая структура наименования понятия (синтаксический ана­ лиз). Наконец, полученный в результате первых двух этапов код отождествляется с одним из элементов сло­ варя понятий и заменяется на порядковый номер этого элемента (семантический анализ). Порядковый помер понятия далее используется в качестве его кода.

Одной из задач синтаксического анализа наименова­

ний понятий является приведение их кодов к

к а и о н и-

ч е с к о й форме, в которой они хранятся

в словаре.

Это достигается путем назначения главному слову наи­ менования понятия и согласованным с ним прилагатель­ ным грамматической информации ^«именительный падеж единственного числа», а также путем перестановок слов и групп слов, не искажающих смысла словосочетаний (путем т р а н с ф о р м а ц и и словосочетаний). Возмож­ ность трансформаций наименований понятий определяет­ ся по их грамматической структуре и выполняется та­ ким образом, чтобы переставляемые слова был« упоря­ дочены слева направо по возрастанию номеров, а груп­ пы слов — по возрастанию номеров их начальных слов. По окончании указанных операций главное слово слово­ сочетания выносится на первое место.

Синтаксический анализ именных словосочетаний

В процессе синтаксического анализа .наименований понятий, необходимого для их автоматического кодиро­ вания и декодирования, выполняются следующие опера­ ции: 1) выявляется схема связей между словами: 2) каж-

166

дому слову словосочетания назначается однозначная грамматическая информация, необходимая для форми­ рования его буквенного кода при декодировании; 3) структура словосочетания приводится к каноническо­ му виду.

Исходными данными для синтаксического анализа служат результаты работы алгоритма отождествления слов. Если слова отождествляются с помощью словаря словоформ, то для. каждого слова наименования поня­ тия указывается помер канонической формы слова (по словарю словоформ), набор переменной грамматической информации (по табл. 7.3), соответствующий данной форме слова, и постоянная грамматическая информация. В качестве постоянной грамматической информации для существительных, прилагательных, предлогов, сочини­ тельных союзов и наречий указывается признак принад­ лежности к соответствующему синтаксическому классу (С, П, Р, & и II). Кроме того, для существительных ука­ зывается признак рода, а для предлогов — перечни па­ дежей, которыми они могут управлять.

Если слова отождествляются с помощью словаря основ; то для каждого. слова-наименования понятия ука­ зывается помер канонической формы основы, номер флективного класса н набор переменной грамматической информации. При это.м постоянная информация к сло­ вам определяется по номерам их флективных классов. Это оказывается возможным благодаря тому, что систе­ ма классификации слов отражена в нумерации флектив­ ных классов (см. табл. 7.1).

Первым этапом синтаксического анализа словосочета­ ний является выявление схемы связей между словами, входящими в их состав. Это делается с помощью табли­ цы сочетаемости классов слов (табл. 9.2). Входы в таб­ лицу обозначены символами синтаксических классов слов, а па пересечении строк я столбцов стрелками ука­ зано направление связей уежду словами (от управляю­ щего слова к управляемому). При необходимости в клет­ ке таблицы оговаривается условие, при котором слова могут считаться связанными друг с другом. Отсутствие в клетке таблицы какой-либо информации указывает на отсутствие связи между соответствующими классами слов. Анализ сочетаемости пары слов производится пу­ тем обращения к табл. 9.2, так ч.то строка таблицы вы­ бирается по символу синтаксического класса слова, стоя-

167

 

 

 

Т а б л и ц а

9.2

 

Т а бл и ц а

сочет аемост и классов слов

 

 

 

 

Классы последующих слов

 

&

предшест­

с

п

 

н

вующих

Р

слов

с

-

(при совпадении

¥

 

 

 

 

рода и падежа)

 

 

 

п(при совпадении рода и падежа)

р-

н

-

&

щего в парном сочетании слева, а столбец — по символу класса слова, стоящего справа.

Ниже приводится алгоритм автоматического выявле­ ния схемы связей между словами (алгоритм построения дерева словосочетания). В этом алгоритме используют­ ся следующие условные обозначения:

Пі\

N — количество

слов в словосочетании;

щ1, Vi1— порядковые

номера слов, стоящих в левой

 

части парных словосочетаний;

tij2 ,

U j 2 , V j 2 — порядковые номера слов, стоящих в правой

 

части парных словосочетаний;

хпризнак выполнения процедуры поиска субстантивированных прилагательных.

Алгоритм автоматического выявления схемы связей

1.

 

между словами в именных словосочетаниях4321

 

 

хПересчитать и перенумеровать

 

слова в

словосочетании, поло­

жить

= 0 .

Перейти к п. 2.

 

 

 

 

N =

 

 

 

 

 

2.

Проверить

выполнение

условия

 

1.

Если

условие

выпол­

нено— конец работы алгоритма,і

если

не выполнено — к п.

3.

 

3.

Положить

nii = N

— 1 и

n2j=N.

Перейти к п. 4.

 

на-

4.

Проверить

слова

п 1

и

n 2j

на сочетаемость

и определить

 

 

 

 

161?

правление связи

между ними. Если

слова связаны, перейти к п. §,

в противном случае перейти к о . 11.

результаты анализа, полученные

5. Занести в

ответный

массив

в п. 4. Перейти к п. 6.

ли слово с номером я23управляющим

6. Проверить,

является

в паре слов, рассмотренной в п. 4. Если слово я23управляющее — перейти к п. 7, в противном случае — к п. 15.

7. Уменьшить я1, на единицу. Перейти к п. 8.

8. Проверить выполнение условия яП = 0. Если условие выпол­ нено, то перейти к п. 17, если не выполнено — к п. 9.

9.Проверить наличие признака наречия у слова я 1;- Если такой признак имеется, то замкнуть связь от слова nU+i к слову я*4 и перейти к п. 10; в противном случае перейти к п. 16.

10.Занести в ответный массив информацию о связи между

словами, полученную в п. 9. Перейти к п. 7.

 

 

11. Проверить наличие признака сочинительного союза у слова

п 1

і -

При наличии указанного признака перейти к п. 12, при отсут­

 

ствии — к п . 15.

12.Уменьшить я '. на единицу. Перейти к п. 13.

13.Проверить (выполнение условия я Н = 0 . Если условие выпол­ нено, то перейти к п. 17, если не выполнено — к п. 14.

14.Проверить наличие признака прилагательного у слова яЧ.

Если такой признак имеется, то перейти к п. 16, если отсутствует —

кп. 15.

15.Положить я2з = п1г, после чего уменьшить яЧ на единицу. Перейти к п. 16.

16.Проверить выполнение условия «*1=0. Если условие выпол­

няется, то перейти к п. 17, если не выполняется — к п. 4.

17.Положить п 1і = 1. Перейти к п. 18.

18.Проверить выполнение условия яЧ = Л/+1. Если условие вы­

полняется — конец работы алгоритма, если не выполняется — перейти к п. 19.

19. Проверить, является ли слово с номером яЧ управляемым. Если слово я 1» управляемое, то перейти к п. 20, если нет, то перейти

кп. 21.

20.Увеличить яЧ на единицу. Перейти к п. 18.

21.Проверить наличие признака сочинительного союза у слова я1і . При наличии указанного признака перейти к п. 22, при отсут­

ствии — к п. 34.

22. Проверить выполнение -условия я Ч = 1 . Если условие выпол­ няется, то перейти к п. 20, если не выполняется — к п. 23.

23. Проверить наличие признака прилагательного у слова я Ч -ь При наличии этого признака перейти к п, 20, при отсутствии—к п. 24.

24. Положить ц1і= я 1і — 1 и uzj = nli+l. Перейти к п. 25.

25.Проверить наличие признака существительного у слова u2j. При положительном результате проверки перейти к п. 28, при от­ рицательном — к п. 26.

26.Проверить выполнение условия u ? j = N . Если условие выпол­

няется— конец работы алгоритма, если не выполняется — перейти

кп. 27.

27.Увеличить я23 на единицу. Перейти к п. 25.

28.Проверить наличие признака существительного у слова «Ч-

169

Соседние файлы в папке книги из ГПНТБ