Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Белоногов Г.Г. Автоматизированные информационные системы

.pdf
Скачиваний:
9
Добавлен:
25.10.2023
Размер:
14.28 Mб
Скачать

 

 

 

Т а б л и ц а 8.2

Вероятность

однозначного определения

грамматических

классов

слов

по их конечным буквосочетаниям

Максимальное количество

Вероятность однозначного

Объемы списков букв и

буквосочетаний, необходи­

букв в признаках грамма­

определения классов

мые для определения

тических классов

 

слов

классов слов

1

 

0,635

31

2

 

0,837

481

3

 

0,928

1137

4

 

0,974

3184

5

 

0,976

3282

варя, неправильно расклассифицированных по двухбук­ венным признакам, превосходило заданный порог (число девять). Этот порог выбирался таким образом, чтобы общее количество слов, неправильно расклассифициро­ ванных по двухбуквенным признакам без привлечения третьей и четвертой буквы, было меньше 5% от объема словаря. Количество отобранных согласно этому усло­ вию трехбуквенных и четырехбуквенных признаков в сумме с общим количеством двухбуквенных признаков

приведено

в третьей

и четвертой

строках табл.

8.2

(в третьем

столбце).

Пятая буква

привлекалась

для

уточнения класса слова только тогда, когда количество словоформ, неправильно расклассифицированных по двухбуквенным и четырехбуквенным признакам, было больше двух. Суммарный объем перечней двухбуквен­ ных, четырехбуквенных и пятибуквенных признаков ука­ зан в пятой строке табл. 8.2.

В табл. 8.2 приведены результаты статистического анализа словаря без учета частоты встречаемости слов в текстах. Аналогичные подсчеты, проведенные раздель­

но для редких слов (для слов

с частотой

употребления

в текстах, равной единице) и

для

всех остальных

слов

частотного словаря, показали,

что

вероятность правиль­

ного определения классов по

последним

буквам

слов

практически не зависит от частоты их встречаемости в текстах.

Многоступенчатая система признаков для определе­ ния классов слов по их концам неудобна для практиче­ ского использования, да и объемы списков буквосочета­

140

ний, приведенные в табл. 8.2, довольно велики. Поэтому было принято решение использовать в алгоритме авто­ матического опознавания классов слов только двухбук­

венные и четырехбуквенные

признаки:

двухбуквенные

признаки — в

полном

объеме, а четырехбуквенные —

в сокращенном

(только

в тех

случаях,

когда число сло­

воформ словаря с неправильно определенными по двух­ буквенному признаку классами оказывалось больше сорока пяти). Получилось двадцать списков четырехбук­ венных признаков (по числу наиболее «неточных» двух­ буквенных признаков).

Было введено также следующее ограничение: если список четырехбуквенных признаков включал менее 64 элементов, то он сохранялся неизменным, в против­ ном случае в нем оставлялись только 64 наиболее часто встречающихся элемента.

Списки двухбуквенных и четырехбуквенных призна­ ков для определения классов слов приведены в табл. 8.3 и 8.4. Каждой строке 8.3 поставлена в соответствие вто­

рая

от конца буква слова, а каждому столбцу — послед­

няя

буква слова. На пересечении строк и столбцов ука­

заны классы слов или (в случае многозначности двух­ буквенного признака) сочетания из двух классов. В сочетании классов на первом месте стоит более веро­ ятный класс, а на втором — менее вероятный. В круглых скобках указаны номера списков из таблицы четырех­ буквенных признаков (табл. 8.4).

Таблица четырехбуквенных признаков классов (табл. 8.4) построена по иному принципу, чем табл. 8.3. Она расчленена на двадцать списков, а в каждом списке дан перечень сочетаний четвертой и третьей букв от кон­ ца слова с указанием соответствующих им грамматиче­ ских классов.

Алгоритм автоматического определения грамматиче­ ских классов слов работает в следующем порядке:

1)Выделить две последние буквы анализируемого слова. Перейти к п. 2.

2)По сочетанию букв, выделенных в п. 1, обратить­

ся к табл. 8.3 и выбрать соответствующую клетку этой таблицы. Перейти к п. 3.

3) Проверить содержимое клетки, выбранной в п. 2, на наличие отсылочного номера к табл. 8.4. При наличии отсылочного номера перейти к п. 5, при отсутствии — к. п. 4.

141

 

 

 

 

 

 

 

 

Т а б

л и ц а 8 . 3

 

Таблица

двухбук вен н ы х признаков

для определения

 

 

грамматических классов слов

по

их концам

 

 

2-я буква

 

 

1-я буква

 

 

 

 

б

в

г

д

е

ж

3

 

а

а

с

с

н ,с

с

с, н

с

 

с

с

б

с

с

 

в

С, Гп

с

__

с, н

г

С

_

_

_

_

с

 

_

_

д

С, н

-__

 

с, н

с

е

-—

с

с ,н

с

с, н

п ,н

с

С, Сл

ж

С, Гп

с

— —

(3)

н ,с

3'

С, Сл

— ■— _

с

 

и

. Сі

н .с

с, Гп

с

с, п

с

С, Сл

й

с

(4)

—*

с

 

к

с, н

.—

с

__.

 

с

 

л

Гп, С

с

 

с

С, Сл

м

(1)

с

С, Сл

С, Гп

Гп, С

с

С, Сл

С, II

II

(2)

С, Сл

с, и

С, 1п

с, н

н,

п

Гп

с

0

■--

С

 

с

 

 

_

II

 

 

 

 

 

 

 

С, Гп

с

с

С, Гп

с

С,

II

с

_

р

С, г

с

С, Гл

с

С

.—

_

С, II

_

 

 

 

 

 

 

 

 

т

 

 

н

с, н

С, Гп

с

 

с

с

У

с

 

 

ф

 

с

 

Ц

с

 

с,

н

ч

 

_

,. −

_

_

 

 

_

 

с

II, с

с, л

.—

.—

с,

II

ш

 

 

 

 

_

С, Гп

с

с, н

.—

н, с

 

Щ

—.

 

 

II

 

ы

с

__

 

 

 

с

 

 

ь

 

 

 

 

 

 

э

 

с

С

 

с

ю

 

 

 

 

 

 

 

 

 

 

я— — н — с ,н — — —

Пробел

Сл

Сл

Сл

 

буква

 

 

 

 

 

2-я буква

И

й

к

І-я

м

н

о

II

ва

 

 

л

 

 

 

с

 

С, Гп

с, н

с

б

 

 

11

 

с

с

 

С

с, н

г

с

 

 

II, с

д

с, н

 

с

с , н

 

 

 

142

П р о д о л ж ен и е т а б л . 8 .3

І-я буква

2-я буква

и

 

й

 

к

л

 

м

н

о

 

II

 

 

 

 

 

е

с

 

с ,

п

с

Гп,

С

с , п

Гп, С

 

с

 

 

 

(7)

 

 

(10)

(12)

 

 

ж

с , н

 

 

■—■

 

з

с , н

 

 

с

— •

 

__

и

t ,

С л

II,

С

С , Гп

Гп,

С

П , Гл

С, Гп

с

 

С , Гп

й

с

 

(8)

 

 

с

с

.—

с

 

 

 

 

к

с ,

н

 

 

II,

с

____

л

Гп,

С

 

с

с

 

с

с

Гп,

С

с

 

(5)

 

 

 

 

 

 

 

 

 

 

м *

П ,

С

——

с

■—

 

с

с

Гп,

Н

с

 

(С)

 

 

 

 

 

_

 

Н , Гп

 

н

С , С л

 

с

 

с

 

 

 

 

 

 

 

 

 

 

(13)

 

0

С , п

п , С С , Гп

с

 

п , с

с

 

с

 

 

 

(9)

 

 

 

 

(11)

 

 

 

 

п

с

 

. ---

 

— ■ ,

 

С ,

С л

__

р

с , н

 

с

 

с

с

с, н

__

с

с

 

с

с

 

с

__

С,

сл

__

С , Гп

 

с

— .

 

с

__

С , Гп

__

С , С л

С , Г л

с

__

у

с

 

с

 

 

с

с

 

с

 

 

 

н

ф

с

 

 

т

 

С

 

X

С ,

С л

 

с

 

с

ц

 

с

 

__

с,нн

__

с, п

 

 

ч

 

 

 

 

 

__

 

 

__

С ,

Гп

 

 

__

__

__

__

ы

п

с

Гп,

С

с

__

'__

ш

с

с

__

Щ

с

 

 

 

__

__

 

 

 

п

э

с

 

 

 

ь

 

 

__.

 

я

 

с

Гп,

С

с

 

— '

__

ю

 

 

 

 

С , Гп

 

 

1

 

 

 

 

 

 

1-я

 

 

П робел

С л

 

 

С л

 

 

 

 

С л

2-я буква

 

 

 

 

 

 

 

буква

 

 

 

 

р

с

т

У

ф

X

ц

ч

 

а

С,

Гп

с,

н

С, Гл

 

 

с

\

 

 

с

С

 

с

 

б

 

 

 

_

_

 

в

с

С

 

г

 

 

с

 

— -

— ■

д

с

 

С, Сл

_

с

н

— .

е

С,

Сл

с ,

Гп Гл, С

с

с, п

с,

—■

ж

 

(14)

с

 

—-

 

 

3

 

 

с, н

— .

с

— .

и

с

с

 

Гл, С

с

 

с

п, с

 

с

143

 

 

 

 

 

 

П родолж е нив т а б л . 8 -3

2-» буква

 

 

 

 

1-ябуква

 

 

 

р

с

т

У 1

ф

X

ц

ч

 

й

с

с

с

к

с

с,

н

с

— .

л

с

с

 

м

п, с

с

с

.—

н

с

с

с

п

 

Сл

с

ѳ

С, Гп

с, п

с, н

п

с

с

 

р

с

с

с

с

н, с

с

с

с

С, Гл

с

т

с

.—

с, п

у

с

с

Гл, С

с

с

ф

с

—-

с

с

— ■

X

с

с

с

д

— -

_

С, Гл

 

_

ч

ш

с

с

щ

с

С, Гп

L.

_

п, н

_

с

ы

ь

с

с

э

с

с

— — — — —

ю

с

Гл, С

с

я

Гл, Гп

с

с

Пробел

Сл

Сл

2-я буква

 

 

 

 

1-я буква

 

 

 

ш

щ

ы

ь

э

ю

я

 

 

 

а

п

 

 

 

 

 

Гл, С

II, н

 

б

С, Сл

с, н

 

419)

 

с

 

в

С, Гп

н

 

с

Н ,

 

д

_

_

с

С, Сл

_

_.

н, с

 

е

п

с

 

с

с

 

3

_

_

с

LJ

__

_

н

 

С, н

 

и

с

 

 

с, н

с

 

й

-

 

 

с

с

 

л

_

_

С, Гп

с,

н

_

С, Гл

С, Сл

 

м

С, Гп

с

н

_

С, Сл

 

н

Гп, С

с,

с

с

с

 

ѳ

(16)

 

 

п, с

с

 

п

 

 

 

 

с

 

Li

с, н

 

сГн

 

р

 

с

С, Гл

 

144

11родол ж е т е т а б л . 8 .3

 

 

 

 

 

 

 

 

 

Т а б л и ц а 8. 4

Т а б л и ц а ч е т ы р ехб ук в ен н ы х

признаков

д л я оп редел ен ия

 

грам м ат ических классов слов по

и х

концам

 

4-я и 3-я

Классы

4-я и 3-я

Классы

4-я и 3-я

 

 

4-я и 3-я

Классы

буквы с

 

 

буквы с

слов

буквы с

слов

буквы с

слов

конца слова

 

 

конца слова

конца слова

конца слова

ва

1. Слова, оканчивающиеся на буквосочетание „ла“

 

Гп,

С

ИГ

Гп

ои

Гп

 

ИС

с

га

Гп,

С

ог

Гп

пи

Гп

 

ОС

Гп

да

Гп

уг

 

G

ЧИ

Гп,

С

ну

Гп

жа

Гп

ве

Гп

СИ

Гп,

С

ш

Гп

ШИ

за

Гп

Де

С ,

Гп

ТИ

Гп

 

аш

Гп

иа

С

ре

С ,

Гп

 

Гп

 

ОШ

Гп

ек

 

еш

Гп

ка

С ,

Гп

се

Гп

Гп

 

ИШ

ла

Гп

те

 

с

ик

Гп

 

 

Гп

ма

Гп

це

 

с

го

с

 

ыш

Гп

 

с

с

 

на

С ,

Гп

уз

 

 

до

с

 

бы

Гп

па

Гп,

С

би

Гп

ко

с

 

ры

С ,сГп

ра

Гп,

С

ви

Гп

по

с

 

ты

Гп

са

Гп,

С

ди

Гп

то

с

 

ля

та

Гп,

С

жи

Гп

еп

с

 

ня

Гп

ча

Гп,

Н

ли

Гп

оп

 

оя

Гп

ша.

Гп,

С

ни

Гп

ес

Гп

 

10— 310

145

 

 

 

 

 

 

П р о д о л ж ен и е т а б л . 8 .4

4-я и 3-я

Классы

4-я и 3-я

Классы

4-я и 3-я

Классы

4-я и 3-я

Классы

буквы с

 

 

буквы с

 

 

буквы с

слов

буквы с

слов

конца слова

слов конца слова

слов конца слова

конца слова

 

2. Счова, оканчивающиеся на буквосочетание „на“

 

 

ва

Сл

Д

с

 

ож

Гп

ан

с

Гп,с С-

ид

Гп

С

аз4

Гп

ен

Гп,

С

га

 

 

од

Гп,

би

С

он

С ,

Гп

да

Гп,

С

ве

С

 

ви

с

0

С

 

 

с

го

 

еа

С

 

ге

С

 

ди

с

С

 

ж а

Гп

де

Гп,

С

зи

с

30

С

 

ио

 

за

Гп

же

Гп

С

ли

с

С

 

иа

С

 

ле

Гп,

ми

с

ко

С

 

да

Гп,

С

ме

С

 

ри

ло

с

 

с

с

ма

С ,

Гп

ие

Гп

 

си

с

ро

с

на

С

Гп

ое

Гп

С

ти

с

то

с

ра

С ,

ре

Гп,

чи

с

ьо

С ,

Гп

та

С ,

Гп

се

Гп,

С

ши

с

ер

об

Гп

че

Гп

 

щи

с

ес

Гп,

С

ав

Гп

ше

Гп

 

ей

с

ст

Гп

ив

Гп

ще

Гп

 

ой

 

пч

Гп

 

3. Слова,

оканчивающиеся

па буквосочетание „ее“

 

 

аб

ав

ев

ид

нд

уж

нз

рз

ел

ол

н

ан

н

н

н

с

с

с

с

с

н

н

с

н

би

ВН

ДН

ен

жн

зн

ин

лн

МН

НН

пн

рн

н

тн

н, п

н, п

11

н, п

чн

п

н

шн

н

п, н

ьн

с

н

ар

н, с

с

ор

н

н

тр

п

н, п

04

п

юч

п, н

п

н

вш

п

н

йш

п

 

кш

 

НШ

с

и

ОШ

п

сш

п

чш

п

Ы Н

п

бщ

п

ущ

п

ющ

п

ящ

 

■— —

4. Слова, оканчивающиеся на буквосочетание „ие“

 

ТВ

С , пСл

о к

 

ОГ

П

ск

 

 

ТК

 

уудг

с

 

 

п

цк

 

е ж

ьк

*

 

с

ил

 

ак

п

 

уж

ан

 

аз

с

 

 

п

вн

 

бк

ДН

п

п

п

п

п

с

с

п

п

ян

ар

ер

ир

ас

ес е т ИТ СТ

с

с

с

с

с

с

с

с

с

яч

п

ВШ

п

п

д ш

п

е ш

йш

п

к ш

п \

ОШ

п

рш

п

п

с ш

 

146

 

 

 

 

П р о д о л ж е ш е т а б л . 8-4

4-я и 3-я

Классы

4-я и 3-я

Классы

4-я и 3-я

Классы

4-я и 3-я

Классы

буквы с

слов

буквы с

слов

буквы с

слов

буквы с

слов

к он ц а слова

кгнца сл о в а

конца слова

конца слова

ГК

ДК

зк

ик

йк

лк

НК

п

п

п

11

п

п

п

ен

с

ыт

ЖН

п

ят

ин

П

ох

НН

11П

ич

П

04

тн

уч

хн

п

шн

 

юч

с

с

п

с

п

п

п

чш

ЬШ

аіц

бш,

ѵщ

ющ

Я Щ

п

п

п

п

п

п

п

5. Слова, оканчивающиеся на буквосочетание „ли“

 

Сл

 

аб

с

ди

Гп

 

ем

с

ва

Гп

 

ов

с

ЖИ

Гп

 

по

с

 

Гн

 

 

 

с

га

Гп

 

иг

ЗИ

Гп

 

ро

 

Да

Гп,

Н

ог

Гп

ли

Гп

 

ар

с

жа

Гп

 

рг

Гп

ми

Гп

 

ес

Гп

за

Гп

 

бе

С

 

ни

Гп

 

ну

Гп

ка

Гп,

С

ве

Гп

ои

Гп

 

РУ

с

ла

Гп

 

де

Гп,

С

пи

Гп

 

ш

Гп

м а

Гп

 

ме

Гп,

С

' ри

Гп

 

ашОШ

Гп

па

Гп

 

пе

Гп

СИ

Гп

 

ишбы

Гп

ра

Гп,

С

ре

Гп

ти

Гп

с

 

Гп

т а

Гп,

С

се

Гп

чи

Гп,

 

 

Гп

ха

ГпГп

 

те

С ,

Гп

 

к

Гп

 

ля

Гп

ча

Гп

 

де

С

 

щи

Гп

 

ня

Гп

ша

Гп

 

би

С ,

Гп

и

 

Гп

 

оя

Гп

ща

 

ви

Гп

ел

с

 

ря

Гп

 

 

 

 

6. Слова, оканчивающиеся на буквосочетание „ми“

ба

ва

га

да ж а за йа ка ла ма на па ра са та

с

с

с

с

с

с

с

с

с

с

с

с

с

с

с

ха

с

ШИ

 

п

СЭ

с

с

 

п

с

на

с

ЩИ

 

п

КЮ

с

ча

с

ЬИ

 

с

ая

с

ща

с

ОМ

с

дя

с

ре

11 с

уо

п

ея

с

се

п,

бы

 

п

зя

с

те

п

вы

 

ИЯ

с

ги

и

ды

 

п

ля

с

ей

п

ли

■ '

п

ня

с

п

ж и

мы

 

И

ОЯ

с

КП

и

ны

 

ря

с

ни

п, с

ры

 

п

ся

п

 

с

ои

п

„ ты

 

п

тя

с

ти

п

дь

 

с

ѵя

с

 

с

чи

сь

 

 

ья

 

1 0 s

147

 

 

 

 

П р о д о л ж ен и е т а б л . 8 .4

4-я и 3-я

Классы

4-я я 3-я

 

4-я и 3-я

 

4-я и 3-я

Классы

буквы с

слов

буквы с

слов

буквы с

слов

буквы с

слов

конца слова

конца слова

конца слова

конца слова

7. Слова, оканчивающиеся на буквосочетание .ей*

рб

с

ци

с

ТН

п

уч

ад

с

ал

с

хн

п

ЮЧ

ед

с

бл

с

ш н

п, с

аш

ид

с

ел

с

во

п

ВШ

ю д

с

ил

с

ар

с

е ш

ре

с

м л

с

ер

с

йш

а ж

с

ол

с

ир

с

ОШ

е ж

с

у л

с

ор

с

сш

у ж

с

ем

с

ес

с

ч ш

ги

с

н

с

а т

с

ь ш

зи

с

вн

с

е т

с

ащ

си

с

зн

II,с

ач

с

ЯІЦ

ми

с

дн

с

с т

с

б щ

ни

с

ен

с

РФ

с

у щ

ри

с

ж н

с, п

ИЦ

с

ю щ

ти

с

НН

с

оч

п, с

т ь

8. Слова, оканчивающиеся на буквосочетание „ий*

с, п

п

п

п

с,пп

п

п

п

п

п

п

п

п

п

п

OB

ТВ

ог

ад

еж

ож

юж

ГК

ек

зк

йк

лк

мк

ок

ск

тк

с

с

с

с

с

п

п

п

с

п

п

п

п

п

п

п

ил

с

ЯН

с

лч

п

ЦК

п

с

В Ш

ел

с

ар

с

п

 

с

 

с

оч

С, II

ол

ор

яч

п

с

II,с

п

ДН

с

ас

с

О Ш

п

нс

рм

 

 

 

д ш

 

ан

п

ет

с

йш

п

ен

с

рт

с

рш

п

п

ст

с

п

жн

п

ыт

п

сш.

п

ин

с

ят

с

чш

п

п

с

п

йн

 

 

 

бщ

 

 

п

их

с

ьш

п

М Н

с.

иц

с

ащ

п

НН

 

кц

 

 

 

он

с

с

ющ

п

тн

п

нц

с

п

шн

 

ич

 

ящ

 

9, Слова, оканчивающиеся на буквосочетание ,ой*

у б ьб а в е в ив о в

ад

нд

с, п

с

с, п п, с

п, с

п

с

с

йк

лк

ок

рк

ск т к ЦК чк

с

с

п, с

с

п, с с, п

п

с

ВН

дн

ен

ЖН

ЗН

ИН

йн

КН

п

п

с, п

п

п, с с, п п, с

п

чн

п

ШН

п

щ н

п

ЬН

п

ян

п

ор

11, с

тр

п, с

УР

с

148

 

 

 

 

 

П р о д о л ж ен и е т а б л . 8 .4

4-я и 3-я

Классы

4-я и 3-я

Классы

4-я и 3-я

 

Классы

4-я и 3-я

Классы

буквы с

слов

буквы с

слов

буквы с

 

слов

буквы с

слов

конца слова

 

конца слова

 

конца слова

 

конца слова

 

аз

с

ШК

с

лн

п, с

ат

п, с

п

п

п

п

ак

с, п

ал

п

МН

п, с

ИТ

с

бк

с

ел

п, с

нн

с

от

п

вк

с

ем

п, с

он

п

СТ

п

ДК

с

им

с

пн

п

ут

п

жк

с, п

рм

с, п

рн

п, с

ьт

п

зк

с, п

ан

п

сн

п

ят

п

ик

 

бн

 

тн

 

ыл

 

10. Слова, оканчивающиеся на буквосочетание „ем*

га

Гл

 

ни

да

Гл

 

ри

жа

Гл

 

ти

ма

Гл

 

чи

ра

с

 

бл

Гл

 

та

С

те

ча

Гл,

ел

ед

Гл,

С

ил

йд

Гл

 

н

Гл

 

ол .

уд

 

ул

аж

Гл,

С

бн

ож

Гл

 

ви

С

 

вн

ди

С

 

ГН

жи

с

 

ДН

с

 

зи

 

 

ен

с

с

с

с

с

с

с

с

с

с

с

с

с

п,сс

с

жн

п

юч

п

хн

п

аш

шн

п

вш

во

с

еш

ар

с

зш

тр

с

йш

ы р

п, с

сш

ВС

п

чш

т

н

ьш

ат

с

ищ

ст

с

ущ

ут

Гл

ющ

РУ

ящ

с

бъ

це

с

ч

С , Сл

дь

ич

жь

п

п

п

п

п

п

п

п

п

с

п

п

п

с

с

с

11. Слова, оканчивающиеся на буквосочетание „ом“

ав

с, п

ал

с, п

МН

п

ос

ев

п, с

ел

с, п

НН

п

рс

ов

п, с

ол

с

он

с

сс

ТВ

с

сл

с

ПН

п

ус

аг

с

ыл

с

рн

п

ат

ад

с

ем

п, с

тн

п, с

ет

од

с

зм

с

чи

п

ИТ

яд

с

ан

п, с

шн

п

ж т

 

 

 

ар

 

 

с

им

с

 

п

 

аз

ом

ьн

нт

ак

с, п

с

 

с, п

рт

 

п, с

 

п

др

с

от

зк

бн

 

ик

с, н

вн

п

ер

с

ст

лк

с

ДН

п

ир

с

ут

ок

с, п

ен

с

ор

с, п

ыт

ск

п, с

жн

п

тр

с, п

ух

тк

с

ин

с, п

ес

с

ьш

с

с

с

с

с

с

с

с

с

с

с. п с, п п, с п, с

с

п

149

Соседние файлы в папке книги из ГПНТБ