Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Белоногов Г.Г. Автоматизированные информационные системы

.pdf
Скачиваний:
9
Добавлен:
25.10.2023
Размер:
14.28 Mб
Скачать

Рис. / .!. М орф ологический анализ ( продолж ение).

130

Рис. 7.1. М орф ологический анализ (окончание).

У

131

Р и с. 7.2. М орф ологический синтез.

132

Р и с. 7.2. М орф ологический синтез (окончание).

133

табл. 7.4 записываются в памяти ЭВМ в виде двух отдельных массивов одинаковой структуры, причем в од­ ной ячейке размещается несколько номеров окончаний или номеров наборов грамматической информации. Но­ мера флективных классов (подчеркнутые числа табл. 7.4) нигде не записываются. Они используются в качестве разделителей при поиске в массиве номеров окончаний слов. Разделителям поставлена в соответствие таблица чисел, указывающих для различных классов границы столбцов окончаний (см. табл. 7.4).

При обращении к морфологической таблице сначала по коду флективного класса и коду окончания опреде­ ляется порядковый номер необходимой позиции в масси­ ве номеров окончаний. Затем по найденному номеру по­ зиции окончания вычисляется соответствующая позиция в массиве номеров наборов грамматической информа­ ции.

Участки обращенной морфологической - таблицы (табл. 7.5) целесообразно записывать в ячейки ЗУ по строкам (например, часть А) или по столбцам (часть Б)., разделив их предварительно на несколько фрагментов вертикальными или горизонтальными линиями. При этом входы участков таблиц могут нигде ие записываться, а необходимые позиции таблицы могут вычисляться по значениям входных данных.

Среди таблиц, используемых при морфологическом

анализе и синтезе, встречаются одномерные

таблицы,

входные данные которых представляют

собой

последо­

вательность чисел натурального ряда

(табл.

7.2, 7.3).

У таких таблиц можно хранить в памяти ЭВМ только их правую часть, а адреса необходимых выходных дан­ ных определять по численным значениям входных вели­ чин.

Укрупненные схемы алгоритмов морфологического анализа и синтеза представлены на рис. 7.1 и 7.2.

Сравнение различных «точных» методов автоматического отождествления и синтеза слов

В начале главы было указано, что автоматическое отождествление форм слов в процессе перевода тексто­ вых сообщений с русского языка на информационный и формирование буквенных кодов слов при переводе с ин­ формационного языка на русский может производиться

134

как на базе словаря словоформ, так и на базе словаря основ слов. Поэтому представляет интерес сравнение основных количественных показателей, характеризующих эти подходы, — объема словаря и времени работы алго­ ритма отождествления.

Объем машинного словаря, предназначенного для отождествления форм слов, зависит от многих факторов. Однако при сравнении вариантов структуры словаря не­ обходимо прежде всего учитывать соотношение количест­ ва словарных единиц при некоторых фиксированных условиях.

Известно, что в русском языке число различных сло­ воформ значительно больше числа различных основ слов. Так, существительные могут иметь 7—10 различ­ ных форм, полные прилагательные— 10—12 форм, гла­ голы настоящего и будущего времени — 6 форм, глаголы прошедшего времени и краткие прилагательные — 4 фор­ мы и т. д. Если фиксировать объем словаря основ и потребовать, чтобы словарь словоформ включал все формы слов, которые могут быть образованы на базе ■словаря основ, то отношение числа словоформ к числу основ слов определяется выражением

 

 

 

П

 

 

 

 

К = Лі М - і Р і ,

(7.1)

 

 

 

і=1

 

в

котором

п — количествофлективных классов

слов

в

русском

языке;

Л4, — количество попарно-различных

форм у слов /-го

флективного класса; Рі — вероятность

появления /-го флективного класса в слозаре. По дан­ ным табл. 7.1 и таблицы, приведенной в приложении 1, находим, что К ~ 8.

Однако в речевой практике не все формы слов ис­ пользуются в равной степени. Это приводит к тому, что при фиксированном тексте достаточно большой протя­ женности объем словаря словоформ оказывается при­ мерно в два раза больше объема словаря основ (мы на­ блюдали это явление на текстах протяженностью от 20 до 500 тыс. слов). Если в словарь включаются не все, а только наиболее часто встречающиеся словарные еди­ ницы, то при изменении коэффициента заполнения тек­ стов в пределах 0,5—0,95 отношение объема словаря словоформ к объему словаря основ колеблется в преде­ лах 3—3,8, причем максимум величины этого отношения соответствует коэффициенту заполнения, равному 0,8.

135

Время работы алгоритмов автоматического отождест­ вления слов зависит от типа ЭВМ, которая используется для обработки текстовой информации, и от конкретной программной реализации этих алгоритмов. Имеет значе­ ние іи объем словаря. Однако при прочих равных усло­ виях программа морфологического анализа работает в несколько раз медленнее, чем программа отождествле­ ния слов с помощью словаря словоформ. Это обусловле­ но большей сложностью алгоритмов морфологического анализа и необходимостью многократного . поиска по словарю при выделении основы из состава изменяемого слова.

Дополнительное сокращение объема словаря может быть получено путем использования закономерностей словообразования и изменений основ слов при измене­ нии их формы. Так, за счет исключения повторений оди­ наковых основ после отсечения суффиксов «ть», «ти», «чь» у инфинитива, суффикса «л» у глаголов прошедше­ го времени, суффиксов «а», «я», ^в», «вши» и т. п. у деепричастия можно уменьшить объем словаря основ на 7,7%; за счет исключения сложных слов без внутрен­ ней флексии, компоненты которых содержатся в слова­

ре,— на 2,3%';

за счет исключения вариантных

форм

основ глаголов

с чередованием согласных — на

0,26%;

за счет исключения основ прилагательных, которые мо­ гут быть образованы от основ существительных, — на 6,3%. В целом, если учесть все возможные регулярные способы преобразования основ слов при словоизменении и при трансформациях словосочетаний, объем словаря

можно сократить

на 23% (приведенные данные

получе-

К оличест венны е

характ ерист ики изм ен яем ы х

Т а б л и ц а 7.15

 

 

 

 

 

 

 

основ сл овар я

п/п,

 

 

 

 

 

 

Длина (количество

Типы изменяемых основ слов

Частота

букв в основе)

 

максималь­

 

 

 

 

 

 

средняя

 

 

 

 

 

 

ная

1

Основы

типа

II

(чередование

0,04

6,9

15

2

гласных)

типа

III (чередование

0,02

5,5

9

Основы

3

согласных)

типа

IV

(нерегуляр­

0,0!

3,9

10

Основы

 

ные основы)

1 3 6

ны itо словарю об.ъемом около 8000 наиболее ynofpeбительных основ слов).

Таким образом, наиболее существенное сокращение необходимого объема памяти (в 2—3 раза) достигается при переходе от словаря словоформ к словарю основ слов в том виде, каким он принят в настоящей главе. Дальнейшие шаги в этом направлении малоэффектив­ ны и связаны с существенным усложнением алгоритмов морфологического анализа и синтеза.

Более того, как следует из табл. 7.15, доля изменяе­ мых основ в словаре невелика и составляет примерно 7%. Поэтому при практической реализации процедур морфологического анализа и синтеза с целью упрощения алгоритмов допустимо хранить в словаре все формы из­ меняемых основ слов и относить их к типу IV (нерегу­ лярные основы).

Интересно отметить, что в словаре изменяемые осно­ вы в среднем имеют меньшую длину, чем неизменяемые: 6,1 буквы против 8,5 букв у неизменяемых основ (более дифференцировано распределение длин изменяемых основ приведено в табл. 7.15).

Глава 8 ПРИБЛИЖЕННЫЕ ПРОЦЕДУРЫ АВТОМАТИЧЕСКОГО МОРФОЛОГИЧЕСКОГО АНАЛИЗА И СИНТЕЗА СЛОВ

Определение обобщенных грамматических классов слов по их конечным буквосочетаниям. Выделение основ слов

Процедуры морфологического анализа и синтеза слов могут быть точными и приближенными. Точные процеду­ ры морфологического анализа и синтеза основаны на использовании словарей, в которых для каждого слова указано правило изменения его формы (см. гл. 7). Эти процедуры .могут применяться только к словам, основы которых включены в словарь. Между тем в реальных текстах всегда будут встречаться «новые» слова — слова, не содержащиеся в словаре. Такие слова либо должны исключаться из текста как «неинформативные», либо их

необходимо включать в словарь.

выявляться

«Новые»

слова

могут автоматически

в процессе

точного морфологического анализа и выда­

ваться на печать

для ручной обработки

и включения

137

в словарь. Но такая организация работы не позволит полностью автоматизировать процессы обработки тексто­ вой информации. Необходима процедура автоматическо­ го пополнения словарей. А это, в свою очередь, связано с необходимостью автоматического выделения основ слов и получения к ним грамматической информации.

Т а б л и ц а 8.1

Распределения частот появления грамматических классов, ассоциированны х с конечными буквосочетаниями слов

( фрагмент таблицы распределений)

Появление «новых» слов в тексте может помешать правильному выполнению его синтаксического анализа. Между тем для выявления синтаксической структуры фразы в большинстве случаев достаточно получить ин­ формацию о принадлежности «незнакомого» слова толь­ ко к определенному грамматическому классу и не тре­ буется более подробных сведений о форме слова. .Возни­ кает вопрос, нельзя ли, не прибегая к помощи словаря, определять грамматический класс слова по его буквен­ ному составу? Задача подобного рода была поставлена и решена автором совместно с И. М. Давыдовой. В про­ цессе исследования был проанализирован обратный сло­ варь словоформ объемом около 30 000 единиц, состав­ ленный по деловым текстам протяженностью 500 000 слов (см. приложение 3). В результате были построены рас­ пределения частот появления грамматических классов, ассоциированных с различными буквами и буквосоче­ таниями, стоящими в конце слова. Фрагмент перечня распределений частот появления грамматических клас­ сов приведен в табл. 8.1.

138

Буква или буквосочетание считались отличительным признаком, того класса, который имел максимальную ча­ стоту. При этом использовался следующий перечень

грамматических классов слов:

 

С

— существительное,

количественное числительное;

П

— прилагательное,

порядковое

числительное, пол­

 

ная

форма причастия;

 

Гл — личная форма глагола;

краткое прилага­

Гп — глагол

прошедшего времени,

 

тельное, краткое причастие;

 

Ги — инфинитив; -

 

 

Н— наречие, деепричастие, сравнительная степень прилагательного;

Сл — служебные слова (предлоги, союзы, частицы). Выяснилось, что по некоторым конечным буквам и

буквосочетаниям слова можно практически однозначно, определять его грамматический класс, по другим — это можно делать с меньшей определенностью. Так, если

слова

оканчиваются

на буквы

б, г, ж,

п, р, с, ф, ц, ч,

ш, э,

то можно с

большой

степенью

достоверности

утверждать, что это существительные, тогда как по бук­ вам е, и, й, м, о, у, X , ы, ю, я, стоящим в конце слов; нельзя сказать что-либо определенное относительно при­ надлежности этих слов к грамматическим классам. Ана­ логично, конечные двухбуквенные сочетания ов, ке, ни, ам, ям, ку, ах, ях, ры, ию, ия можно считать признака­ ми существительных, сочетания букв ое, ые, ый, ым, го, их, ых, ую — признаками прилагательных, тогда как сочетания ла, на, ие, ми, ей, ий, ом, ен, ся непригодны в качестве надежных признаков для определения клас­ сов слов из-за их «многозначности».

В табл. 8.2 приведены вероятности однозначного определения классов слов в словаре словоформ по одной, двум, трем и т. д. последним буквам, а также объемы списков буквосочетаний, необходимые для достижения указанных значений вероятностей.

Определение грамматических классов слов по одной и по дзум последним буквам производилось с помощью полных перечней однобуквенных и двухбуквенных при­ знаков, объемы которых указаны в табл. 8.2. Для более

точного определения

грамматических

классов

прежде

всего использовался

список двухбуквенных признаков,

а трехбуквенные и четырехбуквенные

признаки

привле­

кались только тогда,

когда количество словоформ сло-

139

Соседние файлы в папке книги из ГПНТБ