Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Белоногов Г.Г. Автоматизированные информационные системы

.pdf
Скачиваний:
9
Добавлен:
25.10.2023
Размер:
14.28 Mб
Скачать

 

 

 

 

 

 

 

 

 

 

 

 

П р о д о л ж е н и с т а б л . 8 .4

4 я и 3-я

 

Классы

4-я и 3-я

 

 

 

4-я и 3-я

Классы

4-я и 3-я

Классы

буквы с

 

 

слов •

буквы с

 

 

 

буквы с

СЛОВ

буквы С

слов

конца слова

 

конца слова

СЛОВ конца слова

конца слова

об

 

 

2. Слова, оканчивающиеся на буквосочетание {ен,“

С ,

Гп

 

 

 

Гп

 

 

еж

 

Гп

бм

Г'п

ст

ав

 

 

С ,

Гп

 

лж

 

Гп

ем

с

мѵ

С

 

ев

 

 

 

С

 

 

ож

Гп,

С

дн

Гп

аф

с

 

 

 

 

 

Гп

ив

 

 

 

Гп

 

 

уж

 

Гп

ен

Гп

ач

ьв

 

 

 

с

 

 

ез

С ,

Гп

ин

Гп,

С

ич

Гп

 

 

 

с

 

 

нг

 

 

 

с

 

 

ек

 

С

 

лн

Гп

уч

Гп

рг

 

 

 

с

 

 

ьк

 

С

 

рн

Гп,

С

юч

Гп

ад

 

 

 

с

 

 

вл

 

Гп

ян

Гп

О Ш

с

 

 

 

 

 

 

 

 

Гп

ро

еш

Г'п

гд

 

 

Гп,

 

С

 

ал

 

Гп

иш

Гп

ед

 

 

 

 

бл

 

Гп

бр

Гп

ѵ ш

жд

 

 

 

Гп

 

вл

 

Гп

ер

Гп,

С

ы н

Гп

нд

 

 

 

С

 

 

ел

Гп,

С

 

рш

Гп

 

 

 

 

 

PP

С

 

 

од

 

 

С ,

Гп

 

.«/г

 

Гп

тр

Гп,

С

ащ

Г'п

рд

 

 

 

С

 

 

Ля

 

С

 

юр

С

 

Гп

аж

 

 

Гп,

 

С

 

мл

 

Гп

ее

Гп

ещ

Гп

бж

 

13.

Гп

 

 

пл

Г п ,

С

рт

 

 

ущ

Гп

Гва)

 

Спора,

оканчивающиеся

на буквосочетание „но^

Гп,

Н

 

 

 

 

Гп

 

 

де

Гп

ой

н

 

ес

да

 

 

 

Гп

 

 

же

Гп

ок

с

 

яс

Н

 

 

 

 

 

Г'п

ж а

 

 

 

Гп

 

 

ле

Гп,

С

ол

ат

н

за

 

 

 

Гп

 

 

не

Гп

 

ан

н

 

ет

Н ,

Гп

ла

 

 

 

Гп

 

 

ое

Гп

 

ен

н

 

ОТ

Н

са

 

 

 

 

 

С

 

та

 

 

 

Гп

 

 

Ре

Гп,

ин

н

 

ст

Н ,

Гп

 

 

Гп,

С

 

се

Гп,

С

он

н

 

ыт

н

 

об

 

 

Н ,

Гп

 

че

Гп

 

ян

н

 

ют

н

 

ав

 

 

Н . Гп

 

ше

Гп

 

О

с

 

ят

Гп,

Н

ив

 

 

 

 

н

 

ов

 

 

 

Н

Гп

 

ще

Гп

 

ап

 

ач

н

 

 

 

Н ,

 

аж

н

 

ѵп

н, с

еч

Гп

ыв

 

 

 

Н

 

 

 

еж

Гп

 

ар

Гп

ид

 

 

 

Гп

 

 

Н

Н н,

Гп

ич

Н ,

Гп

 

 

 

 

 

ож

Гп,

ер

оч

н

од

 

 

 

н

 

 

аз

Гп,

Н

ир

 

 

Н ,

Гп

 

Н ,

С

 

 

 

 

еш

 

 

уд

 

 

 

с

 

 

 

ай

Н

 

op

Н ,

Гп

ль

н ,

Сл

ве

 

 

 

 

 

 

 

 

1

4.

Слова,

ей

Н

 

ас

Гп, С л

ря

Гп

 

 

 

оканчи

вающнеся

на буквосочетание^„ет“

 

 

ва

 

 

Гл

-

 

ТВ

 

 

 

 

 

 

С

 

л

С

 

,СТ/

Гл

га

 

 

Гл

 

 

OB

с

 

 

с

 

 

 

 

 

 

 

 

 

ВѴ

 

 

 

 

 

С

 

ал

 

бу

Гл

 

 

 

 

 

 

с

 

да

 

 

Гл

 

 

СВ

с

 

ол

 

 

 

 

 

 

 

 

 

с

 

 

Гл

 

 

 

 

цв

 

 

 

 

ду

ж а

 

 

Гл

 

 

 

Л

 

ем

Гл

Гл

ка

 

 

Гл

 

 

ед

Гл

 

им

зу

Гл

ла

 

 

I л

 

 

ид

I

 

 

йм

с

 

 

 

 

 

 

 

 

 

Гл

РУ

Гл

ма

 

 

Гл

 

 

УД

Гл

 

ом

 

 

 

 

 

 

йд

 

Сл

тѵ

Гл

на

 

 

I л

 

 

 

Гл

 

н

аф

С

 

150

 

 

 

 

 

П р о д о л ж е н а е т а б л . 8 .4

4-л и 3-я

Классы

4-я и 3-я

Классы

4-я и 3-я

Классы

4-я 3-я

Классы

буквы с

 

 

буквы с

слов

буквы с

слов

буквы с

слов

конца слова

слов концй слова

конца слова

концаислова

па

Гл

 

ле

Гл

Q>

Гл

'■ 2$>

Гл

 

КН

ра

Г'л

 

пе

Гл

ГН

Гл

сч

С , Сл

та

Гл

 

аж

Гл

Гл

уд

С

 

 

цаха

ГлГл

 

оджж

Глс

чнар

ГлС

ГлГл

 

ИЯиш

чаша

ГлГл

 

икак

с

•'ес£??>

ГлГл

ляня

ГлГл

ща

Гл

 

рк

с

ИТ

С

ря

Гл

 

с

15. Слова,

оканчивающиеся

на буквосочетание „м у“

С , п

леаг

СС

С

шеше

пп

бово

I I ,п

торо

не

П ,

ъе

сп .

го

11н

шо

п, н

се

п,п

н

из

МОко

П ,пС

op

с

ое

с

 

ье

до

 

ар

п

хе

 

ой

с

ло

п

му

с

те

с

 

СП

с

УР

с

че

 

ам

с

но

п, н

шу

с

 

с, н

 

с

 

п, н

 

с

16. Слова, оканчивающиеся на буквосочетание „ны“

с

гана

Гп

неме

сГп

лими

с

локо

да

сГп

ое

Гп

ри

с

ро

с

за

Гп

ре

Гп, С

чи

с

фо

с

ка

Гп,с С

се

Гп

ши

с

ьо

с

ла

че

Гп

щи

с

ил

Гпс

ма

Г и

ше

Гп

ай

с

уп

І'п

ра

С , Гп

іде

Гп

ой

с

ер

С , Гп

са

1п

иж

Гп

ол

с

ас

I п

та

Гп

 

лж

Гп

ен

Гп,с С

CT

С , Гп

об

Гп

ож

Гп

ec

ДОян

Гп

от

Гп

одив

ГпГп

биуж

І'п

30го

с

04ят

ГпГп

Де

Гн

ви

с

ЙО

с

ят

Гп

же

Гп

ди

с

ио

с

 

Гп

ле

І'п,

С

зи

с

 

с

ль

Гп

с

 

с

17. Слова^оканчивающиеся на буквосочетание „сь“

н

лаве

Гп

 

лики

сГп

ЛОаю

ГпГл

ояея

де

П

 

ти

сГи

ею

Гл

уя

н

те

СГл

 

ши

н

дя

Н

яя

—■н

ме

Н

 

 

ая

Н

н

 

 

 

0

 

 

 

151

 

 

 

 

 

 

 

 

f t родолж ение т абл . 8 .4

4-я и 3-я

•Классы

4-я и 3-я

Классы

4-я и 3-я

Классы

4-я и 3-я

1классы

буквы с

слов

буквы с

 

 

 

буквы с

слов

оуквы с

слов

конца слова

конца слова

слов конца слова

конца слова

 

ба

18. Слова, оканчивающиеся на буквосочетание „ть“

с

Ги

 

ча

Ги,

 

С

МЙ

Ги

ис

Дава

Ги

 

ша

Ги]

ЛИ

Ги

ос

 

ни

гаж а

Ги

 

ща

Ги

 

Ги

ну

сГи

 

Ги

 

м е

Ги

 

ои

Ги

ры

 

 

 

де

 

Ги

пу

Ги

ка

Ги

 

пе

Ги

 

СИпи

бы

 

ле

 

Ги

ИЯ

с

ла

Ги

 

ре

Ги

 

ри

Ги

за

 

 

 

 

Ги

ея

Ги

МВ

Ги, Сл

се

г и

С

ти

па

Ги

 

Ги,

 

Ги

ня

Ги

Ги

 

С ,

Ги

чи

Ги

Ги

на

Ги

те

Ги

 

ши

Ги

ля

Ги

 

мя

ра

Ги

бн

Ги

 

ер

Ги

 

Ги

 

 

щи

Сл, С

 

Ги

 

Ги

ви

Ги

 

ас

 

 

 

ло

С ,С Ги

оя

С ,ГиН

саца

Ги

ди

Ги

 

 

ряпя

та

Ги

жи

Ги

 

ес

С , Гл

ся

С

 

С ,

Ги

зи

Ги

 

 

19. Слова, оканчивающиеся на буквосочетание „ая“

Н

 

п

ОК

п

 

 

п

нч

аб

II

 

СК

 

НН

 

 

 

гк

 

 

ВШ

П

юб

 

 

н

 

н

ПН

пII

ОЧ

н

ив

II,

 

ТК

II,п

сн

ЙШ

ев

 

II

 

рн

п

ЮЧ

п

ов

Н,

 

ал

п

 

тн

11

еш

 

п

 

ел

п

 

 

 

 

II

рв

II

 

пи

 

чн

п

 

н

Угыв

н

ам

 

шн

ош

 

 

 

 

 

п

п

адаг

 

 

 

ем

и

 

у п

п

рш

 

 

 

 

ЩД1

чш

 

 

 

 

бнДн

п, н

 

нII

ид

нII

 

им

п

 

ьн

п

сш

н, п

. вн

 

ар

п

 

п, н

ЖД .

н

 

п

 

 

п

а ж

н

 

п

 

ор

IIп

am

н

юд

 

 

 

жн

 

 

 

ат

II

ещ

н

п,п

 

н

п, н

лж

йн

 

ыт

п,II н

ющ

II

 

нII

зн

п

 

ст

п

 

ак

МН

II

 

ят

ящ

п

н

 

 

 

 

п

 

20. Слова, оканчивающиеся

на буквосочетание „с я “

Гл

 

 

 

 

 

 

 

 

НО

о

ят

рг

Гп

алил

ГпГп

го

 

му

п

неее

п

ол

Гп

ИТат

нГл

их

П '

не

 

п

ул

Гп

ет

Гл

ть

Ги

ми

 

н

ял

I п

ут

Гл

чь

Ги

 

п

ем

П ,

 

Гл

/ 1л

ую

II

ей

 

п

им

П ,

 

Гл

ют

Гл

ая

п

ий

 

п

 

 

 

 

 

 

 

152

4) Занести в массив результатов содержимое клетки, выбранной в п. 2. Конец работы алгоритма.

5) Проверить условие: п> 2 (п — число букв в сло­ ве). При выполнении условия перейти к п. 6, при невы­ полнении— к л. 4.

6)

Выделить 3-ю и 4-ю буквы от конца анализируе­

мого слова. Перейти к п. 7.

из

п.

3

обратиться

7)

По отсылочному

номеру

к табл. 8.4 и найти в

ней сочетание

букв,

выделенное

в п. 6.

 

 

 

 

 

 

При положительном результате поиска перейти к п. 8,

при отрицательном — к п. 4.

 

 

 

 

8)

Выбрать из табл. 8.4 и занести в массив резуль­

татов

символ грамматического

класса

(или

сочетание

символов), соответствующий исходным данным, указан­ ным в п. 7. Конец работы алгоритма.

В результате работы приведенного алгоритма в не­ которых случаях для одного слова указываются два сим­ вола классов. Если в дальнейшем требуется однознач­ ное определение грамматического класса, то берется только один символ, стоящий слева. Если допускается определение класса с точностью до двухзначной омони­ мии, то используются оба символа классов.'

Информация .о грамматическом классе слова может быть использована для автоматического выделения бук­ венного состава его основы. Это делается путем после­ довательного отделения букв от конца слова и сравнения полученных таким образом буквосочетаний со списком окончаний, соответствующим грамматическому классу слова.*Если грамматический класс слова определялся с точностью до двухзначной омонимии, то сравнение ве­ дется по двум спискам окончаний. Из перечня вариан­ тов окончаний, найденных таким образом в списках, в качестве основного варианта принимается окончание максимальной длины. Это окончание и используется для выделения буквенного состава основы слова.

Разрешается отделять от конца слова не более трех букв, а при наличии возьратных частиц — не более пяти букв. Если после отделения окончания в конце слова оказывается «внутренний» мягкий знак (например, Бело­ ве «степью»), то он исключается из состава основы слова.

Согласно описанной процедуре выделения основ был обработан словарь словоформ объемом около ЗООООеди-

153

ниц. При этом в 95,7% случаев основа слова выделялась правильно. Неправильное выделение основы происходи­ ло большей частью за счет иностранных слов и русских неизменяемых слов. Если иностранные слова не рассмат­ ривать, то вероятность правильного выделения основы повышается до 0,97. Интересно отметить, что если исклю­ чить из рассмотрения классы слов, не встречающиеся в именных словосочетаниях (все глаголы и большинство неизменяемых слов), то вероятность правильного выде­ ления основы слова повышается до величины 0,985.

Алгоритм определения классов слов по их буквенным кодам был проверен на текстах различного характера. При этом исследовался не только основной вариант ал­

горитма

(с использованием

табл.

8.3

и 8.4),

по

и

ряд

других

вариантов:

с использованием

только

табл.

8.3;

с использованием

табл.

8.3

в сочетании со

словарем,

включающим 100

наиболее

часто

встречающихся

слов;

с использованием

табл.

8.3 и 8.4

в сочетании

со

слова­

рем из 100 слов. Все тексты брались объемом в 1000 слов. Результаты исследований сведены в табл. 8.5.

Из данных табл. 8.5 видно, что по надежности одно­ значного определения классов слов варианты построе­ ния алгоритма, соответствующие столбцам 3 и 4, при­ мерно эквивалентны друг другу. А объем необходимых табличных данных во втором случае значительно мень­

ше,

чем

в

первом і(табл.

8.4 включает

1139

буквосоче-

 

 

 

 

 

 

 

Т а б л и ц а 8.5

В ер оя т н ост ь

правильного оп р ед ел ен и я

граммат ических

классов

 

слов

в т екст ах

п р и р а зл и ч н ы х вариан т ах

пост роения

 

 

 

 

алгорит мов

 

 

 

 

 

 

 

 

 

Вероятность

Вероятность

Вероятность

 

 

 

 

Вер< »ятность правильного

правильного

правильного

 

Характер текста

правильного определения

определения

определения

 

определе­

класса по

класса по

класса по

 

 

 

 

ны класса

табл. 8.3

табл.

8.3 и

табл. 8.3 и

 

 

 

 

но табл. 8.С

и 8.4

по списку из

8.4 и по списку

Научно-технические

0,773

0,880

103 слов

из

100 слов

0,922

 

0,963

тексты

словосоче­

0,976

0,989

0,984

 

0,990

Именные

 

тания,

являющиеся

 

 

 

 

 

 

наименованиями объек­

 

 

 

 

 

 

тов

или их характе­

 

 

 

 

 

 

ристик

 

 

 

 

 

 

 

 

151

таний). Максимальная надежность в определении грам­ матических классов слов получается в случае именных словосочетаний.

В автоматизированных информационно-поисковых си­ стемах алгоритм определения классов слоз по их буквен­ ным кодам может применяться как самостоятельно, так и в сочетании с алгоритмом «точйого» морфологического анализа. Его можно реализовать в различных вариан­ тах. Если ставить целью только однозначное определе­ ние класса слова, то, как показывают расчеты, для хра­ нения признаков классов в памяти машины типа М-20 требуется: для варианта алгоритма, указанного в столб­

це 3 табл.

8.5, — 470 ячеек, для варианта алгоритма,

указанного

в столбце 4 этой таблицы,— 184 ячейки.

Количество признаков, хранимых в памяти машины при использовании первого варианта алгоритма, можно существенно уменьшить, если из табл. 8.4 исключить все буквосочетания, которые определяют тот же класс, что и табл. 8.3. Тогда для хранения признаков классов по­ требуется не 470, а только 250 ячеек памяти.

Первый вариант алгоритма определения классов слоз был реализован в 1966 г. на машине типа М-20 совмест­ но с алгоритмом выделения основ. При этом программа ояределёния классов слов содержала 367 приказов, а программа выделения основ — 371 приказ.

Таблицы признаков для определения грамматических классов слов (аналоги таблиц 8.3 и 8.4) могут быть вы­ полнены сменными, так что одна и та же программа мо­ жет быть настроена для работы с неформализованными текстами и с именными словосочетаниями. Таблицы для именных словосочетаний могут быть получены по табл. 8.3 и 8.4 путем замены указанных в них символов наиболее вероятных грамматических классов слов на символы наиболее вероятных классов, встречающихся только в именных словосочетаниях. Если такая замена оказывается невозможной, то для соответствующего бук­ восочетания указывался грамматический класс «С» (су­ ществительное) .

Определение флективных классов слов по их конечным буквосочетаниям. Анализ и синтез форм слов

В начале главы было указано, что при автоматиче­ ском синтаксическом анализе текстов обычно можно ограничиться сведениями о принадлежности «новых»

155

слов к обобщенным грамматичёским классам. Но для перевода сообщений с информационного языка на естест­ венный этих сведений недостаточно. Нужна процедура автоматического анализа буквенных кодов слов, которая позволила бы получить исходные данные для синтеза различных форм слов. Если отвлечься от такого сравни­

тельно редкого

явления, как

изменение основы слова

при изменении

его формы, то

задача анализа «новых»

слов сводится к задаче выделения ихоснов и определе­ ния флективных классов.

Флективные классы слов делятся на группы по. их принадлежности к обобщенным грамматическим клас­ сам, а класс существительных, кроме того, делится на подгруппы по признаку рода и одушевленности (см. табл. 7.1). Поэтому прежде всего представляет интерес возможность правильного определения признаков рода и одушевленности существительных. Для выяснения это­ го вопроса был проведен анализ обратного частотного словаря объемом 30000 единиц и обратного словаря основ наиболее часто встречающихся слов объемом 5 000 единиц (см. приложения 3 и 4). С конца каждой слово­ формы или основы слова последовательно отделялись буквы и сочетания букв и для каждого буквосочетания строилось распределение частот появления ассоцииро­ ванных с ним грамматических категорий. Буквосочета­ ние считалось отличительным признаком того значения грамматической категории, вместе с которым оно чаще всего встречалось. Формальные признаки флективных классов слов определялись по аналогичной методике.

Оказалось, что у существительных имеет место кор­ реляционная зависимость между значениями категории рода (мужской род, женский род, средний род) и гра­ фическим изображением слова (см. табл. 8.6). Выясни­ лось также, что выгоднее определять признак рода существительных по конечным буквосочетаниям их основ, чем по конечным буквосочетаниям словоформ. Так, с помощью списка двухбуквенных сочетаний объ­ емом 244 элемента можно определять грамматический род существительных с вероятностью 0,85. Если же ис­ пользовать для определения рода дополнительно 3-ю и 4-ю буквы от конца основы, то можно повысить веро­ ятность правильного определения рода до величины 0,98. При этом список сочетаний 3-й и 4-й букв включает 234 элемента.

156

Табл и'ца 8.6

В е р о я т н о ст ь

правильного о п р ед ел ен и я

рода

сущест вит ельных,

по конечны м буквосочет аниям словоф орм

 

 

Количество букв в признаке

1

2

3

4

5

Вероятность

правильного опреде-

0,62

0,76

0,85

0,92

0,93

ления рода

.

30

323

926

2-103^

2593

~~ Объем словаря признаков

 

 

 

 

 

В табл. 8.6 приведены полные объемы словарей одно­ буквенных и двухбуквенных признаков грамматического рода. Трехбуквенные и четырехбуквенные признаки при­ влекались для определения рода существительных толь­ ко тогда, когда количество словоформ словаря, непра­ вильно расклассифицированных по двухбуквенным при­ знакам, превосходило число девять. Количество отобран­ ных таким образом трехбуквенных и четырехбуквенных признаков в сумме с общим количеством двухбуквенных признаков приведено в четвертом и пятом столбцах табл. 8.6 (в нижней строке). Пятая буква привлекалась для уточнения грамматического рода слова только тог­ да, когда количество словоформ, неправильно расклас­ сифицированных по четырехбуквенному признаку, было больше двух. При этом использовались двухбуквенные, четырехбуквенные и пятибуквенные признаки. Суммар­ ный объем перечней этих признаков приведен в шестом столбце табл. 8.6.

При определении рода существительных по буквен­ ным кодам основ слов использовался полный перечень их конечных двухбуквенных сочетаний, а обращение к со­ четаниям 3-й и 4-й букв от конца основы происходило в тех случаях, когда хотя бы один из элементов словаря классифицировался неправильно. Следует также огово­ рить, что из состава перечня сочетаний 3-й и 4-й букв были исключены сочетания, которые не оказывали влия­ ния на результаты, получаемые по 1-й и 2-й буквам от конца основы слова.

Значения категории одушевленности существитель­ ных, как показали исследования, определяются по ко­ нечным двухбуквенным сочетаниям основ слов с вероят­ ностью 0,94, а с привлечением 3-й и 4-й букв от конца основы— с вероятностью 0,99. При этом список сочета­

157

ний 1-й и 2-й букв от конца основы включает 244 эле­ мента, а список сочетаний 3-й и 4-й букв — 424 элемента.

Необходимо заметить, что флективные классы оду­ шевленных существительных являются аналогами соот­ ветствующих флективных классов неодушевленных су­ ществительных мужского и женского рода (отличие про­ является только в винительном падеже), а встречаются они в текстах довольно редко <(с вероятностью 0,05). По­ этому при рассмотрении способов приближенного морфо­ логического анализа и синтеза слов категорию одушев­ ленности можно не учитывать.

 

Для определения флективных классов слов целесооб­

разно использовать следующие их признаки: а)

принад­

лежность к

обобщенному

грамматическому

классу;

б)

значение категории рода

(для существительных);

в)

грамматическое окончание; г) конечные

буквосоче­

тания основы.

Конечные буквосочетания

основ слов

(двухбуквепные и четырехбуквенные), необходимее-для определения флективных классов, выявлялись по обрат­ ному словарю словоформ раздельно для каждого соче­ тания обобщенного грамматического класса и окончания слова, а в случае существительных — раздельно для каждого сочетания значения категории рода и оконча­

ния слова.

Двухбуквепные сочетания использовались

в полном

объеме, а четырехбуквенные — лишь тогда,

когда по двум буквам флективный класс определялся

неоднозначно.

_

В соответствии с вышеизложенным

процедура при­

ближенного морфологического анализа слов, ориентиро­ ванная па их последующий синтез, должна состоять из следующих этапов:

1)определение обобщенного грамматического класса слова и членение слова на основу и окончание;

2)определение грамматического рода существитель­ ных (по буквенному коду основы слова);

3)определение номера флективного класса слова (по

его обобщенному грамматическому классу, признаку рода, окончанию и конечным буквосочетаниям основы); 4) определение номера набора переменной граммати­

ческой информации к слову (по табл. 7.4).

На этапах 1—3 морфологического анализа для полу­ чения грамматической информации о слове используют­ ся таблицы двухбуквенных и четырехбуквенных призна­ ков. Общий объем этих таблиц составляет 11 066 элемен­

158

тов*. Если изъять из них четырехбукзепные признаки, не несущие новойинформации по сравнению с двухбук­ венным признаками, то их общин объем может быть со­ кращен до 6 566 элементов. Этап 4 приближенного мор­ фологического анализа выполняется по тем же правилам, что и при точном морфологическом анализе: номер на­ бора переменной грамматической информации к слову определяется по номеру флективного класса и номеру окончания.

Процедура приближенного морфологического анали­ за была опробована на текстах двух типов: а) Неформа­ лизованный текст; б) список именных словосочетаний (наименования объектов и их характеристик). Оба тек­ ста имели объем 1000 слов. Оказалось, что на произ­ вольных текстах флективный класс слова определяется правильно с вероятностью 0,88, а в именных словосоче­ таниях— с вероятностью 0,95. При этом номера наборов грамматической информации определялись правильно с вероятностями соответственно 0,89 и 0,98.

Различие в уровнях вероятности правильного опреде­ ления флективных классов слов в неформализованных текстах я в именных словосочетаниях объясняется раз­ личием в уровнях вероятности правильного определения обобщенных грамматических классов слов в этих двух видах текстов. В именных словосочетаниях по сравне­ нию с неформализованным текстом более высокий уро­ вень вероятности правильного определения обобщенных грамматических классов достигается за счет уменьшения числа классов, подлежащих опознаванию.

Правильность определения флективных классов слов гарантирует правильность последующего синтеза их форм. Но слова могут синтезироваться правильно и'в тех случаях, когда их принадлежность к флективным клас­ сам определена неверно. Это возможно вследствяё того, что у разных флективных классов слов системы оконча­ ний могут частично совпадать.

С целью проверки эффективности процедуры прибли­ женного морфологического синтеза (точнее, процедуры морфологического синтеза, основанной па определении флективных классов слов по их конечным буквосочета­

ниям) был

проведен

следующий

эксперимент. -Для не-

*

Таблицы

признаков

флективных

классов были составлены

И . М

. Давыдовой.

 

 

159

Соседние файлы в папке книги из ГПНТБ