Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Белоногов Г.Г. Автоматизированные информационные системы

.pdf
Скачиваний:
9
Добавлен:
25.10.2023
Размер:
14.28 Mб
Скачать

с голбец пар чисел, разделенных тире. Число, стоящее в каждой паре чисел слева от тире, является номером окончания (по табл. 7.2), а число, стоящее справа от тире—номером морфологической информации (по табл. 7,3), соответствующей сочетанию номера флективного класса и номера окончания слова. Общее количество пар чисел в табл. 7.4 равно количеству непустых кле­ ток двумерной морфологической таблицы.

При известном флективном классе и окончании сло­ ва его флективный анализ может быть сведен к выбор­ ке информации из табл. 7.2, 7.3, 7.4 в следующем по­ рядке. Сначала по табл. 7.2 буквенный код окончания заменяется его номером. Затем по номеру флективного класса и номеру окончания из табл. 7.4 выбирается но­ мер морфологической информации о слове. Наконец, с помощью табл. 7.3 номер морфологической информации заменяется соответствующим набором морфологических характеристик.

Приведем пример флективного анализа слов. Пусть требуется проанализировать формы слов «тираж», «стола», «переднего», «вы­

ступала»,

которые принадлежат к флективным классам 002, 001,

104, 125 и

имеют окончания « + » (нуль),

«а», «его»

и «а»

соответ-

ст вечно.

 

окончаний

на их

номера

Заменив по табл. 7.2 буквенные коды

65. 66, 02,

66, входим в табл. 7.4, и для сочетаний номеров классов

и номеров

окончаний (002, 65), (001, 66),

(104, 02),

(125, 66) опре­

деляем номера 02, 06, 43, 71 наборов морфологической информации. По табл. 7.3 находим, что морфологическая информация к слову «тираж» определяется набором 11, 14 (именительный и винительный

падеж единственного числа),

к

слову

«стола» — набором 12

(роди­

тельный

падеж

единственного

числа),

к слову «переднего» — набо­

ром 12,

14, 22

(родительный

и

винительный падеж мужского

рода

и родительный падеж среднего рода единственного числа) и, нако­ нец, к слову «выступала» — набором, состоящим из одной цифры 3 (женский род, единственное число).

Номер флективного класса основы определяется пос­ ле ее выделения из состава анализируемого слова. Чле­ нение слова производится путем последовательного отделения его конечных букв и поиска сочетания от­ деленных букв в списке окончаний. Если оказывается, что сочетание отделенных букв содержится в списке окончаний, то начальная часть слова ищется в словаре основ.

При совпадении начальной части слова с одной из основ словаря определяется номер совпавшей основы и номер ее флективного класса или, для омонимичных основ, сочетание номеров флективных классов. Это

ПО

Возможно благодаря тому, что, как указывалось выше, каждой основе словаря поставлен в соответствие номер флективного класса, а для омонимичных основ указы­ вается сочетание номеров флективных классов (приме­ ром омонимичной основы является основа «осмотр», вхо­

дящая в состав

форм

двух различных

слов — «осмотр»

и «осмотреть»).

начала

слова с одной

из основ слова­

Совпадение

ря, а его конца с одним из окончаний возможно и при неправильном членении слова. Примером могут слу­ жить формы слов «знаков» и «управляем» с основами

«знак» и «управля».

Эти формы слов могут совпасть

с основами «знаков»

и «управляем» слов «знаковый»

и «управляемый» и неправильно расчлениться на осно­ вы «знаков» и «управляем» и нулевые окончания. По­ этому требуется проверка правильности членения слова Правильность членения слова определяется по мор фологической таблице путем проверки найденных осно­ вы и окончания слова на совместимость. Основа и окон­ чание слова считаются совместимыми, если клетка морфологической таблицы, соответствующая номеру флективного класса и номеру окончания слова, не пуста (или, .применительно к структуре табл. 7.4, если -номер окончания слова содержится в левой части столбца пар чисел, соответствующего номеру флективного класса). В противном случае основа и окончание несовместимы и следует продолжать поиск правильного членения сло­ ва. При омонимии основ на совместимость проверяются все возможные сочетания признаков «флективный класс» и «окончание», полученные в результате анали­

за слова.

Проверка основы и окончания слова на совмести­ мость позволяет в основном преодолеть трудности мор­ фологического анализа, связанные с омонимией основ слов. Однако при этом остается неразрешенной такая омонимия основ -слов, которая может приводить к сов­ падению некоторых форм различных слов. Например, у слов «техник» и «техника» совпадают несколько форм единственного и множественного числа, и вне контекста

по

одной

форме

слова нельзя определить, о каком

слове

идет

речь.

Такого рода омонимия может быть

Da-зрешена

только средствами синтаксического анализа,

а

в

некоторых

случаях потребуется и семантический

анализ контекста. Поэтому при морфологическом ана­

111

лизе необходимо сохранять нее возможные классы и н а ­

боры морфологической информации омонимичных сло­ воформ.

Описанный выше процесс членения на основу и окон­ чание применим к словам, не имеющим в своем составе возвратной частицы и мягкого знака между основой и окончанием. Наличие одного из этих элементов или обоих одновременно несколько осложняет процесс чле­ нения слова, из-за необходимости их обнаружения и вы­ деления из состава основы или окончания. При этом обнаружение возвратной частицы «ся» или «сь» отме­ чается признаком возвратности, а внутренний мягкий знак исключается из состава слова.

Включение в состав слова возвратной частицы вле­ чет за собой изменение его синтаксической роли в пред­ ложении и обычно придает ему новый смысловой отте­ нок (сравни слова «оборонять—обороняться», «управ­ ляющий — управляющийся», «пытал — пытался»). Есте­ ственно поэтому рассматривать возвратную частицу как составную часть основы слова с внутренней флек­ сией (с внутренним окончанием). Чтобы отличить осно­ ву слова с возвратной частицей от основы слова без возвратной частицы, к порядковому номеру основы, по­ лученному по словарю, прибавляется некоторое посто­ янное число. Величина этого постоянного числа должна быть выбрана такой, чтобы результирующее число не совпадало ни с одним номером словарной основы. С этой целью в код номера основы слова можно ввести дополнительный разряд и отмечать цифрой «1» наличие признака возвратности.

Результатом разрешения омонимии основы слова является выделение из серии флективных классов т о г о класса, который соответствует условиям контекста. Этот результат, как и факт наличия возвратной частицы, можно отображать в номере основы слова. Для этого вводят в код номера основы два дополнительных двоич­ ных разряда, в которых записывается порядковый номер (слева направо) выделенного класса в серии но­ меров флективных классов, соответствующих омони­

мичной основе.

производится

Флективный синтез изменяемых слов

с помощью словаря основ, обращенной

морфологиче­

ской таблицы (табл. 7.5) и списка окончаний (табл. 7.2). Обращенная морфологическая таблица состоит из не-

112

 

 

 

 

 

 

 

 

Т а б л и ц а

?.5

О

Б Р

А Щ Е Н

Н А Я

М О Р Ф О Л О Г И Ч Е С К А Я

Т А Б Л И Ц А

 

 

11

12

13

А .

С у щ е с т в и т е л ь н ы е

22

23

24

25

 

14

15

16

21

22

001—65

66

73

65

45

67

74

42

20

74

01

26

63

002—65

66

73

65

45

67

70

26

20

70

01

22

63

003—75

77

76

75

27

67

70

26

61

70

17

63

004—71

77

76

71

27

67

70

24

61

70

17

22

005—71

77

76

71

27

70

70

24

61

70

17

22

006—65

66

73

65

45

67

70

42

20

70

01

22

007—65

66

73

65

45

67

70

65

20

70

01

22

010—65

66

73

65

45

67

66

42

20

66

01

63

01 1 -6 5 66

73

65

27

67

74

24

20

74

01

63

012—75

70

70

75

27

70

70

26

61

70

17

63

013—71

77

76

71

27

67

77

24

61

77

17

22

014—65

66

73

65

45

67

77

24

61

77

17

22

015—65

66

73

65

45

67

66

65

20

66

01

22

016—65

66

73

65

27

67

70

26

20

70

01

63

017—65

66

73

65

45

67

74

65

20

74

01

22

020—75

77

76

75

27

67

77

26

61

77

17

22

021—65

66

73

66

45

67

74

42

20

42

01

63

022—65

66

73

66

45

67

74

65

20

65

01

22

023—65

66

73

66

45

67

70

26

61

26

17

63

024—65

66

73

66

45

67

70

26

20

26

01

63

025—71

77

76

77

27

70

70

24

61

24

17

63

026—26

77

76

77

27

67

70

24

61

24

17

63

027—75

77

76

77

27

67

70

26

61

26

17

22

030—75

77

76

77

27

67

77

26

61

26

17

22

031—65

66

73

66

45

67

70

42

20

42

01

22

032—65

66

73

66

27

67

74

24

20

24

01

 

033—66

70

67

77

26

67

70

26

20

26

01

63

034—66

74

67

73

44

67

74

65

20

65

01

22

0 3 5 -7 7

70

67

76

26

67

70

26

61

26

17

22

036—65

66

73

66

27

67

70

26

20

26

01

22

037—65

66

73

66

45

67

67

65

20

65

01

63

040—65

66

73

66

45

67

66

42

20

42

01

56

041—65

66

73

66

27

67

77

26

61

26

17

63

042—65

66

73

66

55

67

74

56

55

56

16

22

043—65

66

73

66

45

70

77

26

61

26

17

22

044—66

74

67

73

44

67

74

65

20

65

01

63

045—66

74

67

73

26

67

74

65

20

65

01

63

046—77

70

70

76

26

70

70

71

61

71

17

63

26

047—77

70

67

76

26

67

70

71

61

71

17

22

050—77

70

67

76

44

67

70

75

61

75

17

22

051—66

70

67

73

76

67

70

65

20

65

01

56

052—75

70

70

75

70

70

26

20

26

01

22

053—66

44

44

73

44

44

74

56

55

56

16

63

054—75

70

70

75

76

70

70

26

20

70

01

22

055—75

70

70

75

76

70

70

26

61

70

17

 

056—66

74

67

73

44

67

74

65

20

74

01

113

8—310

 

 

 

 

 

 

 

 

 

 

 

Іі

12

13

14

15

16

П р о д о л ж е н и е т а б л . 7.6

21

22

23

24

25

26

057—66

70

67

73

26

67

70

65

20

70

01

22

060—66

70

67

73

44

67

70

65

20

70

01

22

061—77

70

70

76

26

70

70

71

61

70

17

63

062—77

70

67

76

26

67

70

71

61

70

17

63

063—77

70

67

76

26

67

70

75

61

70

17

63

064—77

70

67

76

26

67

70

34

61

70

17

63

065—77

70

67

76

26

67

70

26

61

70

17

63

066—77

70

67

76

26

67

70

65

61

70

17

63

067—66

74

67

73

26

67

74

65

20

74

01

22

070—72

66

73

72

45

67

66

65

20

66

01

22

071—72

66

73

72

45

67

66

42

20

66

01

22

072—67

77

76

67

27

67

77

26

61

77

17

63

073— 67

77

76

67

27

70

77

71

61

77

17

63

074—67

66

73

67

27

67

66

65

20

66

01

22

075—72

66

73

72

45

67

77

24

61

77

17

63

076—77

70

70

77

27

70

66

65

20

66

01

22

077—67

77

76

67

27

67

77

34

61

77

17

63

100—72

66

73

72

45

67

70

26

61

70

17

63

101— 72

66

73

72

45

67

70

42

20

70

01

22

102—67

77

76

67

27

67

77

26

61

77

17

63

103

104

105

Б .

П рилагательны е

112

 

113

114

115

106

107

ПО

111

 

11—54

34

34

34

44

44

34

65

 

71

65

75

12— 13

02

02

13

13

13

02

13

 

02

02

02

14

14

14

04

14

 

04

04

04

13— 14

04

04

34

44

44

34

65

 

71

65

75

14—54

34

34

35

55

35

35

35

 

35

35

27

15—55

35

35

45

45

45

27

45

 

27

27

27

16—45

27

27

 

21—43

25

25

43

43

43

67

72

 

67

67

67

22— 13

02

02

13

13

13

02

13

 

02

02

02

23— 14

04

04

14

14

14

04

14

 

04

04

04

24—43

25

25

43

43

43

67

72

 

67

67

67

35

 

35

35

27

25—55

35

35

35

55

35

35

 

27

26—45

27

27

45

45

45

27

45

 

27

27

31—23

64

23

23

23

23

77

66

 

77

66

77

32—44

26

26

44

44

44

26

44

 

26

26

26

33—44

26

26

44

44

44

26

44

 

26

26

26

34—52

60

52

52

52

52

76

73

 

76

73

76

35—44

26

26

44

44

44

26

44

 

26

26.

26

44

44

44

26

44

 

26

26

26

36—44

26

26

53

33

70

70

 

70

70

67

41—53

33

33

33

37

37

37

 

37

37

31

42—56

37

37

37

56

 

43—55

35

35

35

55

35

35

35

 

35

35

27

44—53

33

33

33

53

33

70

70

 

70

70

67

45— 16

10

10

10

16

10

10

10

 

10

10

03

46—56

37

37

37

56

37

37

37

 

37

37

31

114

П р о д о л ж е н и е т а б л . 7 .5

ПС

В . Глаголы в личной форме

124

117

120

121

122

123

1—76

76

73

73

73

73

73

2—07

12

07

12

12

07

12

3—30

36

30

36

36

30

36

4—27

35

27

35

35

35

35

5—06

И

06

11

11

11

11

6—57

62

50

21

50

62

62

Г . Глаголы прошедшего времени и краткие прилагательные

 

 

125

126

127

130

 

 

 

 

1—65

65

65

65

 

 

 

 

2— 72

72

67

72

 

 

 

 

3— 66

66

66

66

 

 

 

 

4—70

74

70

70

 

 

131

д . Количественные

числительные

140

132

133

134

135

136

137

1—66

70

67

67

72

75

72

65

2—51

31

31

37

56

70

37

37

3—47

27

27

35

55

70

35

35

4 - 6 6

70

67

67

72

75

72

65

5— 15

05

41

10

16

76

10

10

6—51

31

31

37

56

70

37

37

скольких частей, число которых определяется количест­ вом синтаксических классов изменяемых слов.

Часть таблицы с индексом «А» используется для син­ теза форм существительных. Здесь по одному входу таблицы (левому) перечислены коды морфологических классов, а по другому (верхнему)— морфологическая информация («оды морфологической информации под­ черкнуты). На пересечении строк и столбцов указаны номера окончаний. Другие части обращенной морфо­ логической таблицы (с индексами Б, В, Г, Д) построе­ ны аналогично части «А», с тем лишь отличием, что здесь переставлены входы таблицы: верхние входы со­ ответствуют флективным классам, а левые — морфоло­ гической информации.

8*

115

При формировании буквенного кода

изменяемых

слов сначала номер основы заменяется ее

буквенным

кодом, выбранным из словаря. Затем с помощью обра­ щенной морфологической таблицы и табл. 7.2 отыски­ вается буквенный код окончания и приформировывается к буквенному коду основы слова. В необходимых случаях к окончанию слова приформировывается также буквенный код возвратной частицы, а между основой и окончанием вставляется «внутренний» мягкий знак.

Поиск буквенного кода окончания проиллюстрируем на примере форм слов «столами», «тираж», «перебоев», «передними», «побережий», имеющих основы «стол», «тираж», «перебо», «передн» и «побереж». Пусть для каждой формы слова указано сочетание кода флектив­ ного класса и кода однозначной морфологической ин­ формации, а последовательность этих сочетаний пред­

ставлена

в виде пар

чисел (001, 25), (002, 11),

(004,

22), (104,

45), (077,

22). Тогда, используя пары

чисел

в качестве исходных данных, по табл. 7.5 можно найти соответствующие им номера окончаний 01, 65, 24, 10, 34, а по таблице 7.2 получить искомые буквенные коды окончаний «ами», «+ », «ев», «ими», «ий».

Известно, что окончания прилагательных, имеющих формы винительного падежа единственного и множест­ венного числа и согласующихся соответственно с су­ ществительными мужского и женского рода, бывают различными в зависимости от наличия или отсутствия признака одушевленности у существительных, к кото­ рым эти прилагательные относятся. При синтаксическом синтезе в подобных случаях винительный падеж за­ меняется родительным, что позволяет однозначно опре­ делить окончание по обращенной морфологической таб­ лице (это правило не распространяется на винительный падеж единственного числа прилагательных, согласо­ ванных с существительными женского рода).

Буквенный код неизменяемых слов обычно совпа­ дает с буквенным кодом их словарных основ. Исклю­ чение составляют только слова с признаком возврат­ ности. В последнем случае присоединяется код возврат­ ной частицы.

Для выяснения формальных признаков, по которым можно было бы определить необходимость введения мягкого знака между основой и окончанием, был про­ веден соответствующий анализ частотного словаря сло­

ив

воформ, составленного по деловым текстам. При этом проверялись две рабочие гипотезы. Первая из них за­ ключалась в предположении, что свойство иметь «вну­ тренний» мягкий знак присуще всем словам, входящим в флективные классы со словами-представителями «брус», «воробей», «судья», «муж», «сын», «мышь», «речь», «грань», «эскадрилья», «статья», «перо», «побе­ режье», «третий», т. е. с такими словами-представите­ лями, которые в определенных формах могут содержать «внутренний» мягкий знак. Согласно второй гипотезе предполагалось, что все слова с «внутренним» мягким знаком принадлежат только к одному из перечисленных выше флективных классов.

В результате анализа частотного словаря не было обнаружено ни одного примера, противоречащего этим гипотезам. Поэтому обе гипотезы могут считаться прак­ тически достоверными и использоваться при разработке алгоритмов морфологического анализа и синтеза слов. В случае обнаружения в текстах примеров, опровер­ гающих эти гипотезы, можно ввести дополнительный признак — свойство иметь мягкий знак между основой и окончанием—и соответственно дополнительные флек­ тивные классы слов.

Таким образом, для введения «внутреннего» мягкого знака в состав синтезируемого слова требуется, чтобы его флективный класс совпадал о одним из классов слов, допускающих эту операцию, а морфологическая информация определяла именно ту форму слова, кото­ рая у данного класса должна содержать «внутренний» мягкий знак. Информация о формах слов, содержащих «внутренний» мягкий знак, выявляется заранее и ис­ пользуется при составлении алгоритма морфологиче­ ского синтеза.

При синтезе слов с возвратными частицами «ся» или «съ» требуется в каждом случае выяснить, какая из двух частиц должна быть выбрана. Анализ форм слов показывает, что частица «сь» обычно встречается пос­ ле букв а, е, и, о, у, ю, я и только у инфинитива, дее­ причастия и у личных форм глагола. В остальных слу­ чаях употребляется частица «ся». Информация о тех или иных свойствах букв (например, о свойстве букв быть «согласными» и т. п.) оформляется в виде логиче­ ских шкал. В виде логических шкал оформляются также и некоторые виды грамматической информации.

117

Морфологический анализ и синтез слов с изменяемой основой типа II

У основ слов типа II имеет место явление чередова­ ния гласных. При этом в различных формах слов заме­ няется или пропадает буква, предшествующая послед­ ней букве основы слова. Возможные виды чередования гласных показаны в табл. 7.6 (см. рубрику «вид под-

С п и со к подст ановок

д л я основ

т ипа I I п р и

Т а б л и ц а 7.6

 

 

а н а л и зе

морф ологическом

№ п/п.

 

 

Класс подста­

вид подста­

 

Примеры

новки

новки

 

3

1

о - » +

Заготовок-заготовка

1

 

Достоин — достойна

2

1

 

И ->й

Сложен — сложна

4

2

е - > +

2

е —

Паек-пайка

 

5

2

е —>ь

Колец — кольцо

становки»). Здесь

же приведены и примеры форм слов

с основами типа II.

 

 

 

Основы слов типа II представлены в словаре только

в канонической форме. Эта

форма основы встречается

в словоформах с ненулевым окончанием, отличным от мягкого знака. Вариантная форма основы бывает у сло­

воформ с

нулевым окончанием или

с мягким знаком

в качестве

окончания (см., например,

словоформы «ко­

лодец» и «день»). При морфологическом анализе вари­ антная форма основы приводится к канонической путем замены соответствующей буквы на «нуль» или на дру­ гую букву (согласно табл. 7.6).

Проверка основы слова на наличие беглой гласной производится после того, как основа не нашлась в сло­ варе в результате выполнения процедуры флективного анализа. Эта проверка осуществляется только у слов, оканчивающихся на согласную или на мягкий знак. У слов, оканчивающихся на согласную, заменяется пред­ последняя буква, если она является одной из букв левой части списка подстановок табл. 7.6. При обнаружении конечного мягкого знака он отделяется от слова (зано­ сится вместо нулевого окончания), а затем производится замена гласной.

118

Подстановки табл. 7.6 разделяются на дйа класса:

а)

класс с индексом 1 (подстановки

1 и 2)

и

б)

класс с индексом 2 (подстановки

3, 4,

5).

Это разделение необходимо, чтобы обеспечить пра­

вильность морфологического анализа

и синтеза слов.

Индексы классов подстановок указываются в словаре для каждой канонической формы основы слов типа II.

Если в анализируемом слове заменяется гласная «е», то приходится учитывать несколько возможных вариан­ тов замены. Для этого последовательно применяют к анализируемому слову подстановки 3, 4 и 5 табл. 7.6 и проверяют их на совместимость с основами словаря. Проверка на совместимость производится после отож­ дествления трансформированной основы с одной из основ словаря. Основа словаря и подстановка считаются сов­ местимыми, если индекс класса используемой подста­ новки и индекс класса подстановки, указанный в сло­ варе, совпадают. В противном случае основа словаря и используемая подстановка несовместимы и необходимо проверить, можно ли применить другие подстановки. Правильность применения подстановок 1 и 2 табл. 7.6 проверяется так же, как и в случае замены гласной «е».

После проверки правильности замены беглой глас­ ной следует обычная при флективном анализе проверка основы и окончания на совместимость и определяется номер основы и грамматической информации к слову.

Описанный порядок проверки правильности преобра­ зования основы слова типа II в каноническую форму по­ зволяет избежать ложных отождествлений основ слов. Действительно, сочетания индексов классов подстановок и букв правой части таблицы подстановок однозначно определяют беглую гласную основы исходного слова (табл. 7.6). А полученная беглая гласная и неизменяе­ мый буквенный состав словарных основ типа II пол­ ностью определяют вид основы анализируемого слова.

Для образования в процессе морфологического син­ теза вариантных форм основ типа II используется табл. 7.7. При этом учитывается индекс класса подста­ новки, приписанный основе словаря, и сопровождающая номер основы грамматическая информация (вернее, бук­ венный код окончания). К табл. 7.7 обращаются только тогда, когда основа словаря имеет индекс класса под­ становки «1» или «2», а грамматической информации соответствует окончание « + » или «ь».

119

Соседние файлы в папке книги из ГПНТБ