Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Белоногов Г.Г. Автоматизированные информационные системы

.pdf
Скачиваний:
9
Добавлен:
25.10.2023
Размер:
14.28 Mб
Скачать

П р о д о л ж е ш е т а б л . 7.1

Слово-представитель

п/п.

 

133четыре

134двое, трое

135четверо, пятеро и т. д.

136

прочие количественные числительные (пять, шесть, семь и

137

др ., изменяющиеся, как слово „мишень“ )

столько, сколько

140

оба, обе

Н еи зм ен яем ы е слова

м>

Наименование класса слов

п/п.

 

143Модальные слова: можно, нужно, необходимо и т. д ., не­ изменяемые глаголы

144Неопределенная форма глагола

145Неизменяемые существительные мужского рода

146Неизменяемые существительные женского рода

147Неизменяемые существительные среднего рода

150Неизменяемые существительные множ, числа

151Неизменяемые прилагательные

152Деепричастие, наречие, сравнительная степень прилагатель­ ного

153Союзы

154Частицы, вводные слова, междометие

155Предлог (род. пад.)

156Предлог (дат. пад.)

157Предлог (вин. пад.)

160Предлог (твор. пад.)

161Предлог (предл. пад.)

162Предлог (род., твор. пад.)

163Предлог (вин., твор. пад.)

164Предлог (вин., предл. пад.)

(табл. 7.1). Признаками, по которым изменяемое слово может быть отнесено к определенному классу, являются: 1) принадлежность к одной из синтаксических групп (или подгрупп); 2) система окончаний (тип словоизме­

нения).

Определение принадлежности изменяемого слова к синтаксической группе или подгруппе обычно не вы­ зывает затруднений, так как в основу принятого здесь разделения на группы и подгруппы положена традицион-

100

пая классификация слов. Следует лишь учитывать, что наряду с полными прилагательными к группе «прилага­ тельные» отнесены также полные причастия, порядковые числительные, субстантивированные ^прилагательные, а также количественное числительное «один». При выде­

лении окончания

слова

возвратные частицы «ся» и «сь»

и «внутренний»

мягкий

знак (мягкий

знак,

стоящий

между основой и ненулевым

окончанием

слова) опуска­

ются. Список

различных

окончаний

слов

приведен

в табл. 7.2.

 

 

 

Т а б л и ц а

7.2

 

 

 

 

 

 

 

 

С п и со к

окончаний слов

 

 

01— ами

21—ат

41—мя

61—ям

 

62—ят

 

02—его

22—ах

42—о в

63—ях

 

03—еми

23—ая

43—ое

64—яя

 

04—ему

24—ев

44—ой

65— f-

 

05—емя

25—ее

45—ом

 

 

 

 

 

 

(нуль)

 

06—ете

26—ей

46--ою

66— а

 

07—ешь

27—ем

47—ум

67—е

 

10—ими

30—ет

50—ут

70—и

 

11—ите

31—ех

51—ух

71—й

 

12—ишь

32—ею

52—ую

72—0

 

13—ого

33—ие

53—ые

73—у

 

14—ому

34—ий

54—ый

74—ы

 

15—умя

35—им

55— ым

75— ь

 

16—ыми

36—ит

56—ых

76—ю

 

17—ями

37—их

57—ют

77—я

 

20—ам

 

40—ми

60—юю

 

 

 

Для характеристики системы окончаний слова нет^необходимости перечислять окончания всех его форм. Обычно достаточно сделать это лишь для нескольких типичных форм. В качестве таких типичных форм для группы «существительные» приняты формы именитель­ ного и творительного падежей единственного числа и именительного и родительного падежей множественного числа; для группы «прилагательные»— формы имени­ тельного падежа единственного числа мужского и жен­ ского рода, родительного падежа единственного числа мужского рода и именительного падежа множественного числа; для группы «глаголы в личной форме» — формы первого, второго -и третьего лица единственного числа и третьего лица множественного числа. В группе «глаголы прошедшего времени, краткие прилагательные и при­ частия» окончания указаны для всех форм единствен-

101

Hofo и множественного числа. Здесь флективный класс определяется с помощью системы окончаний и указания на принадлежность к одной из частей речи (глаюл, при­ частие, прилагательное). Флективные классы группы «количественные числительные» характеризуются только словами-представителями.

Некоторые классы существительных мужского и жен­ ского рода имеют одинаковые окончания во всех фор­ мах, принятых в качестве типичных, хотя другие их формы не совпадают. Иллюстрацией этому могут слу­ жить пары слов: огонь — путь, перебой — санаторий, со­ сед — врач, нутрия — швея, грань —речь, линия—галерея. Дополнительным признаком, необходимым для различе­ ния классов, здесь может служить информация о конеч­ ной букве основы слова, а для классов со словами-пред­ ставителями «огонь» и «путь» ■— указание на то, что слово «путь» является единственным представителем класса (табл. 7.1).

Общий порядок морфологического анализа и синтеза слов

Морфологический анализ и синтез слов производит­ ся с помощью словаря основ и ряда вспомогательных таблиц. В словарь включены основы простых и слож­ ных слов без внутренней флексии. Для сложных слов с внутренней флексией типа «слесарь-инструменталь­ щик», «завод-изготовитель» и т. п. в словаре приведены лишь основы простых слов, входящих в состав этих сложных слов. Если слово имеет несколько форм основ, то в словарь, как правило, были включены все формы основ слов. Исключение составляют лишь изменяемые основы типа II (основы с чередованием гласных), ко­ торые представлены -в словаре только в одной из воз­ можных форм, принятой за каноническую. Каждой ос­ нове словаря ставится в соответствие сочетание кода основоизменительного класса и кода флективного клас­ са, а омонимичной основе—серия сочетаний таких ко­ дов. Фрагменты словаря основ слов приведены в прило­ жении 2.

Морфологический анализ слова начинается с его флективного анализа. Флективный анализ слова произ­ водится с целью правильного выделения его основы, замены буквенного состава основы ее порядковым номе­ ром по словарю и определения грамматической инфор-

102

мации к слову. После флективного анализа номера основ типа III и IV заменяются на номера канонических форм основ (в частности, это может быть замена на тождественный номер, если анализируемое слово имело каноническую форму основы).

Понятия канонической (плавной) и вариантной формы основы слова, а также процедуры замены ва­ риантных форм основ на канонические потребовалось ввести в связи с необходимостью отождествлять раз­ личные формы слов на последующих этапах анализа текстов. Каноническая форма для основ типа II, III, IV будет определена ниже.

В процессе флективного анализа основа слова мо­ жет не найтись в словаре. Это возможно в тех случаях, когда анализируемое слово имеет основу типа П в ва­ риантной форме или является сложным словом с внут­ ренней флексией пли когда основа анализируемого сло­ ва не представлена в словаре ни в канонической, ни в вариантной форме. До окончания флективного анали­ за слова обычно неизвестно, какой из трех перечислен­ ных случаев имеет место. Вначале анализируемое сло­ во проверяется на возможность наличия вариантной формы основы типа II. Если эта возможность вероятна, то вариантная форма основы заменяется на канониче­ скую и проверяется правильность этой замены с по­ мощью словаря основ. При положительном результате проверки определяется номер основы и грамматической информации к слову.

Если анализируемое слово не содержит в своем со­ ставе вариантной формы основы типа II, то оно прове­ ряется на сложность (по наличию дефиса между частя­ ми сложного слова). Сложное слово расчленяется на составляющие его простые слова, которые затем под­ вергаются флективному анализу.

Основы некоторых простых и сложных слов могут быть не найдены в словаре и после выполнения всех операций морфологического анализа. Тогда буквенные коды таких слов переносятся в массив результатов анализа вместе с сопровождающими их признаками побуквенного кодирования.

Морфологический синтез слов в первом приближе­ нии можно рассматривать как процесс, обратный по от­ ношению к их анализу. Однако при морфологическом щштезе не возникают трудности, аналогичные трудно-

стям, связанным с отождествлением различных буквен­ ных образов слов и разрешением омонимии основ слов. Кроме того, исходные данные для морфологического синтеза слов отличаются от результатов морфологиче­ ского анализа тем, что здесь номер основы слова сопро­ вождается о д н о з н а ч н о й морфологической информа­ цией. Поэтому синтез форм слов значительно проще их анализа.

Синтез форм неизменяемых слов сводится к простой выборке из словаря буквенного состава их основ. В не­ которых случаях к последнему приформировывается возвратная частица. Формы изменяемых слов состав­ ляются из буквенных кодов их основ и окончаний. В слу­ чае необходимости к основе слова приформировывается «внутренний» мягкий знак, а к окончанию—возвратная частица «ся» или «сь». Кроме того, канонические фор­ мы основ типа II, III, IV заменяются на вариантные. Необходимость замены канонической формы основы на вариантную определяется по номеру основы и сопро­ вождающей его грамматической информации.

Флективный анализ и синтез слов

Флективный анализ изменяемых слов производится с помощью морфологической таблицы с двумя входами. Строкам этой таблицы поставлены в соответствие по­ рядковые номера окончаний, а столбцам—номера флек­ тивных классов слов. На пересечении .строк и столбцов морфологической таблицы для каждого фактически воз­ можного сочетания номера флективного класса и номе­ ра окончания изменяемого слова указывается номер со­ ответствующей морфологической информации.

В качестве морфологической информации для син­ таксического класса слов «существительные» указывается число и падеж, для класса «прилагательные» — род, чис­ ло и падеж, для класса «глаголы в личной форме» — число и лицо, для класса «глаголы прошедшего вре­ мени, краткие прилагательные и причастия» — род и чис­ ло, для класса «количественные числительные» — падеж.

Морфологическая информация отдельных форм слов, рассматриваемых вне контекста, обычно бывает много­ значна. Поэтому им могут быть поставлены в соответст­ вие наборы упомянутых выше морфологических харак­ теристик. Возможные наборы морфологических харак­ теристик для различных синтаксических классов слов

104

сведены в табл. 7.3, где каждому набору присвоен оп­ ределенный 'Порядковый номер. Распределение частот появления различных наборов в текстах и в словарях приведены в табл. 3 приложения 1.

В табл. 7.3 грамматическая информация представ­ лена в закодированном виде. Здесь используются сле­ дующие условные обозначения. Для синтаксического класса «существительные» первая цифра в каждой паре

. Т а б л и ц а 7.3

ГРАММАТИЧЕСКАЯ ИНФОРМАЦИЯ К СЛОВОФОРМАМ

 

 

 

 

(для изменяемых слов)

 

 

 

01— 11;

 

 

 

 

I. Сущ ествительны е

 

 

 

14;

 

 

 

 

21— 14;

 

 

 

02— 11,

16;

 

 

 

22— 15;

22;

 

 

03— 11,

14,

 

 

 

23— 15,

24;

 

04— 11,

14,

22;

 

 

 

24— 15,

22,

 

05— 11,

22,

24;

 

 

 

25— 15,

23;

 

 

06— 12;

13,

15,

16;

 

 

26— 16;

21;

 

 

07— 12,

 

 

27— 16,

24;

 

10— 12,

13,

16;

21;

 

 

30— 16,

21,

 

11 — 12,

13,

16,

24;

 

31— 21;

24;

 

 

12— 12,

13,

16,

21,

 

32—21,

 

 

13— 12,

14;

21;

 

 

 

33—22;

24;

 

 

14— 12,

14,

 

 

 

34—22,

26;

 

15— 12,

21;

24;

 

 

 

35—22,

24,

 

16— 12,

21,

 

 

 

36—23;

 

 

 

17— 13;

16;

 

 

 

 

37—25;

 

 

 

20— 13,

 

 

 

 

40—26

 

 

 

41— 11,

14;

 

 

 

II. Прилагательны е

24;

 

 

32,

33,

35,

36;

51—21,

41,

44;

42— 11,

14,

52—21,

24,

43— 12,

14,

22;

 

 

 

53—31;

33,

35,

36;

44— 13,

23;

25,

26,

43;

 

54—32,

45— 15,

16,

 

55—34;

44;

 

 

46— 15,

22;

43;

 

 

 

56—41,

46;

 

47— 15,

25,

 

 

 

57—42,

44,

 

50— 16,

26;

 

 

 

 

60—45

 

 

 

III.Глаголы в личной форме

61— 1;

63—3;

6 5 -5 ;

62—2;

64—4;

66—6

IV . Глаголы прошедшего врем ени, краткие прилагательные

67— 1;

 

 

70—2;

71—3;

72—4

V .

 

 

Количественные

числительные

73— 1,

 

4;

6;

75—2,

4,

6;

77—5

74—

2,

3,

76—3;

 

 

 

105

восьмеричных цифр указывает на грамматическую ка­ тегорию числа, вторая—на падеж слова. При этом циф­

ра 1

на первом месте означает единственное число,

цифра

2—множественное число. Цифры 1, 2, 3, 4, 5, 6,

стоящие на втором месте, обозначают соответственно именительный, родительный, дательный, винительный, творительный и предложный надежи. Последователь­ ность пар восьмеричных цифр описывает случаи много­ значности информации о формах слов.

Для синтаксического класса «-прилагательные» пер­ вая цифра в каждой паре восьмеричных цифр обознача­ ет род и число, а вторая—падеж слова. Цифра 1 на первом месте означает, что прилагательное имеет фор­ му мужского рода единственного числа, цифра 2 яв­ ляется признаком среднего рода единственного числа, цифра 3 — признаком женского рода единственного чис­ ла; цифра 4 — признаком множественного числа. Паде­ жи прилагательных обозначаются так же, как и падежи существительных.

Морфологическая информация слов, принадлежа­ щих к синтаксическим классам «глаголы в личной фор­ ме», «глаголы прошедшего времени, краткие прилага­ тельные и причастия», «количественные числительные», обозначается в табл. 7.3 одной цифрой, а в случае многозначности — последовательностью цифр. При этом для .синтаксического класса «глаголы в личной форме» цифры 1, 2, 3 обозначают первое, второе и третье лицо единственного числа, а цифры 4, 5, 6—первое, второе и третье лицо множественного числа. Для синтаксиче­ ского класса «глаголы прошедшего времени, краткие прилагательные и причастия» цифры 1, 2, 3 обозначают формы мужского, среднего и женского рода единствен­ ного числа, а цифра 4—форму множественного числа. Формы слов синтаксического класса «количественные числительные» характеризуются только падежом, кото­ рый кодируется так же, как и у существительных и при­ лагательных.

Двумерная морфологическая таблица содержит мно­ го пустых клеток. Поэтому при ее линейной записи сле­ дует принимать специальные меры для экономии места в запоминающем устройстве ЭВМ. Один из возможных способов линейной записи морфологической таблицы иллюстрирует табл. 7.4. Здесь каждому номеру класса (см. подчеркнутые числа) поставлен в соответствие

106

Т а б л и ц а 7.4

МОРФОЛОГИЧЕСКАЯ ТАБЛИЦА

001

002

003

004

005

006

007

010

01—37

01—37

17—37

17—37

17—37

01—37

01—37

01—37

20 -3 6

20—36 26—33 24—33

24—33

20—36

20—36

20—36

22—40

22—40

27—22

27—22

27—22

22—40

22—40

22—40

42—33

26—33

61—36

61—36

61—36

42—33

45—22

42—33

45—22

45—22

63—40

63—40

63—40

45—22

65—04

45—22

65—02

65—02

67—26

67—26

70—30

65—02

66—06

65—02

66—06

66—06

70—32

70—32

71—02

66—06

67—26

66— 16

67—26

67—26

75—02

71—02

76— 17

67—26

70—32

67—26

73— 17

70—32

76— 17

76— 17

77—06

70—32

73— 17

73— 17

74—32

73— 17

77—06

77—06

73— 17

 

011

012

013

014

015

016

017

020

01—37

17—37

17—37

17—37

01—37

01—37

01—37

17—37

20—36

26—33

24—33

24—33

20—36

20—36

20—36

26—33

22—40

27—22

27—22

45—22

22—40

22—40

22—40

27—22

24—33

61—36

61—36

61—36

45—22

26—33

45 -22

61—36

27—22

63—40

63—40

63—40

65—04

27—22

65—04

63—40

65—02

70— 12

67—26

65—02

6 6 -1 6

65—02

66—06

67—26

66—06

75—02

71—02

66—06

67—26

66—06

67—26

75—02

67—26

76— 17

67—26

73— 17

67—26

73— 17

76— 17

73— 17

77— 16

73— 17

70—32

74—32

77— 16

74—32

77—32

73— 17

 

021

022

023

024

025

026

027

030

01—37

01—37

17—37

01—37

17—37

17—37

17—37

17—37

20—36

20—36

26—34

20—36

24—34

24—34

26—34

26—34

22—40

22—40

45—22

22—40

27—22

2 6 —01

27—22

27—22

42—34

45—22

61—36

26—34

61—36

27—22

61—36

61—36

45—22

65—05

63—40

45—22

63—40

61—36

63—40

63—40

65—01

66— 13

65—01

65—01

70—27

63—40

67—26

67—26

66— 13

67—26

66— 13

66— 13

71—01

67—26

70—31

75—01

67—26

73— 17

67—26

67—26

76— 17

70—31

75—01

76—

17

73— 17

74—31

70—31

70—31

77— 13

76— 17

76— 17

77— 14

74—31

73— 17

73— 17

•—

77— 13

77— 13

 

031

032

033

034

035

036

037

040

01—37

01—37

01—37

01— 37

17—37

01—37

01—37

01—37

20—36 20—36 20—36 20—36

2 6 -2 4

20—36

20—36

20—36

22—40

22—40

22—40

22—40

61—36

22—40

22—40

22—40

42—34

24—34

26—24

44—22

63—40

26—34

45—22

42—34

45—22

2 7 -2 2

66—01

65—34

67—20

27—22

6 5 -0 5

45—22

65—01

65—01

67—20

66—01

70— 15

65—01

66— 13

65—01

66— 13

66— 13

70— 15

67—20

76—21

66— 13

67—27

66— 14

67—26

67—26

73—21

73—21

77—01

67—26

7 3 -1 7

67—26

70—31

73— 17

74— 15

— 1

70—31

73— 17

73— 17

74—31

73— 17

 

107

041

042

043

044

045

Г І родолж ение т а б л . 7 .4

046

047

050

17—37

16—37

17—37

01—37

01—37

17—37

17—37

1 7 - 37

26—34

55—25

2 6 -3 4

20—36

20—36

26—22

26—22

26—22

27—22

56—35

45—22 22—40 22—40

61---1136 61—36

61—36

61 —36

65—01

61—36 44—22 26—22

63—40

6 3 -4 0

63—40

63—40

66— 13

63—40

65—34

6 5 -3 4

70-

67— 20

67—20

65—01

6 7 -2 6

65—01

66—01

66—0)

71—34

70— 15

70— 15

66— 13

73— 17

66— 13

67—20

67— 20

76—21

71—34

7 5 -3 4

67—26

74—31

67—26

73—21

73—21

77 -01

76—21

76-21

73— 17

73— 17

74— 15

74— 15

77—01

77—01

77—31

77—31

055

056

057

060

051

052

053

054

01—37

01—37

16—37

0 1 -3 7

17 -37

01—37 01—37 01—37

20—36

20—35

44—07

20—36

26—33

20—36

20—36

20—36

22—40

22—40

55—36

22—40

61—36

22—40

22—40

22—40

44—22

26—34

56—35

26—33

63—40

44—22

26—22

44—22

65—34

70— 11

66—01

70— 12

70— 12

6 5 -3 3

65—33

65—33

66—01

75—02

73 -21

75—02

7 5 -0 2

66—01

66—01

66—01

67—20

76—22

74—31

76—22

76—22

67—20

67—20

67—20

70— 15

.—

.—

73—21

70— 16

70--16

73—21

7 4 -1 6

73—21

73—21

061

062

063

064

065

066

067

070

17—37

17—37

17—37

17—37

17—37

17—37

01—37

01—37

26—22

26—22

26—22

26—22

26—23

26—23

20—36

20—36

61—36

61—36

61—36

34—33

61—36

61—36

22—40

22—40

63—40

63—40

63—40 61—36 6 3 -4 0

63—40

26—22

45—22

70— 12

67—20

67—20

63—40

67—20

65—33

65—33

65—33

71—33

70— 16

70— 16

67—20

70— 16

67—20

66—01

66— 16

71—33

75—33

70— 16

76—21

70— 16

67—20

67—26

76—21

76—21

76—21

77 -01

76—21

77—01

76—21

73—21

72—02

071

77 -01

77—01

77—01

77—01

74— 16

73--17

072

073

074

075

076

077

100

01—37

17—37

17—37

01—37

17—37

01—37

17—37

17—37

20—36

26—33

27— 22

20—36

24—33

20—36

27—22

26—33

22—40

27—22

61—36

22—40

45—22

22—40

34—33

45—22

42—33

61—36

63—40

27—22

61—36

27—22

61—36

61—36

45—22

63—40

67—02

65—33

63—40

65—33

63—40

63—40

66— 16

67—03

70—26

66— 16

66—06

66—32

67—03

66—06

67—26

76— 17

71—33

67—03

67—26

70— 10

76— 17

67—26

72—02

77— 16

76— 17

73— 17

72—02

77—02

77— 16

70—32

73— 17

77— 16

73— 17

72—02

 

 

 

 

77—32

73— 17

 

 

 

 

 

 

 

108

101

102

103

104

105

П р о д о л ж ен и е т а б л . 7 .4

106

107

ПО

01—37

17—37

13—43

02—43

02—43 10—60 13-43

10—60

20—36 26—33 1 4-44

04—44

04—44 13—43 14—44 13—43

22—40

27—22

16—60

10—60

10—60

14—44

16—60

14—44

42—33 61—36 2 3 -5 3

25—51

23—53

23 -5 3

2 3 -5 3

23—53

45—22

63—40

43—51

26—54

25—51

33—56

43—51

33—56

66—06

67—03

44—54

27—50

2 6 -5 4 34—41 44—42

35—47

6 7 -2 6

76— 17

45—50

4 3 -5 6

27—50 35—47 45—50 37—57

70—32

77— 16

52—55

34—41

33—56

37—57

53—56

43—51

72—02

.—

53—56

35—47

34—41

43—51

55—47

44—42

73— 17

54—41

37—57

35—47

44—54

56—57

45—50

55—47

60—55

37—57

45—50

52—55

52—55

56—57

64—53

52—55

5 2 -5 5

117

120

111

112

113

114

115

116

02—43

10—60

02—43

02—43

02—43

06—65

11—65

06—65

04—44

13—43

04—44

04—44

03—60

07—62

12—62

07—62

27—64

10—60 14—44 1 0-60

1 0 -6 0 04—44 27—64 35—64

30—63

26—54

3 5 -4 7

26—54

26—54

26—54

30—63

36—63

27—50

37—57

27—50

27—50

27—45

57—66

50—66

62—66

73—61

34—41

44—54

35—47

35—47

31—57

_

.—

76—61

76—61

 

35—47

4 5 -5 0

37—57

37—57

67—52

.—

37—57

65—41

67—51

65—41

75—41

 

 

 

 

67—51

66—53

70—56

66—53

76—55

7 0 -5 6

70—56

71—41

67—51

77—53

76—55

72-51

76—55

70—56

 

 

 

_

77—53

73—55

77—53

7 3 -5 5

 

 

 

125

126

127

130

121

122

123

124

11—65

11—65

07—62

11—65

65—67

65—67

65—67

6 5 -6 7

12—62

12—62

11—65

12 —62

66—71

66—71

66—71

66—71

21—66

3 5 -6 4

30—63

3 5 -6 4

70—72

72—70

67—70

70— 72

3 5 -6 4

36—63

35—64

36—63

72—70

74—72

70—72

72—70

36—63

50—66

62—66

62— 66

■—

■—

73—61

73—61

73—61

73-61

_

135

136

137

140

131

132

133

134

15—77

05—77

27—76

10—77

16—77

70—74

10—77

10—77

47—76

27—76

31—75

35—76

55—76

75—73

35—76

35—76

51—75

31—75

41—77

37—75

56—75

76—77

37—75

37—75

66—73

70—73

67—73

67—73

72—73

72—73

65—73

65—73

.--

 

109

Соседние файлы в папке книги из ГПНТБ