Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Белоногов Г.Г. Автоматизированные информационные системы

.pdf
Скачиваний:
12
Добавлен:
25.10.2023
Размер:
14.28 Mб
Скачать

С п и со к подст ановок

д л я основ слов

т ипа I I п р и Т а б л и ц а 7. 7

 

 

 

морф ологическом

 

 

синт езе

№ п/п.

Класс подста­

Вид подста­

Примеры

новки

новки

1

1

+ —>0

Кратка — краток

2

1

й—>и

Достойна — достоин

3

2

+ - » е

Колодца — колодец

4

2

й—»е

Пайка — паек

5

2

ь—>е

Льда — лед

После выборки по номеру основы ее буквенного кода последний анализируется для определения вида подста­ новки (табл. 7.7). Далее производится необходимое пре­ образование буквенного кода основы и приформирование окончания слова.

Вид подстановки определяется по следующим прави­ лам. Выделяется вторая от конца буква словарной осно­ вы и проверяется на совпадение с буквой «й», если основа имеет индекс класса подстановки «1», и с бук­ вами «й» и «ь», если основа имеет индекс класса под­ становки «2». При положительном результате проверки в первом случае применяется подстановка 2, при отри­ цательном— подстановка 1. Во втором случае при поло­ жительном результате применяется подстановка 4 (если выделенная буква совпала с буквой «й») или подстанов­ ка 5 (если выделенная буква совпала с буквой «ь»). При отрицательном результате применяется подстанов­ ка 3.

Морфологический анализ и синтез слов с изменяемой основой типа III

К изменяемым основам слов типа III отнесены такие основы личных форм глаголов и глаголов прошедшего времени, у которых имеет место чередование согласных. Эти основы встречаются в двух формах, отличающихся друг от друга по буквенному составу. Обе формы осно­ вы включаются в словарь. Одна из них считается кано­ нической, другая — вариантной. У личных форм глаго­ лов в качестве канонической принята основа формы третьего лица единственного числа, у глаголов прошед­ шего времени — основа формы множественного числа.

120

При морфологическом анализе вариантная форма основы типа III заменяется на каноническую с помощью табл. 7.8 по специальным признакам, внесенным в сло­

 

 

 

 

т а

б л и ц а 7.8

С п и с о к подст ановоь

д л я основ типа

I I I при морф ологическом

 

 

 

анализе

 

 

 

 

Конечные буквы

 

 

 

 

канонических форм

 

 

 

Конечные буквы

основ слов

Ьікѵімеры

п/п.

вариантных форм

 

 

основ слов

вариант 0

вариант 1

 

 

1

 

 

 

Щж

С

3

Сижу—сидиг, вожу— возит

2

д

ш

 

Ношу — носит

3

ч

ст

т

Очищу — очистит, сокра­

4

ч

т

щу — сокоатит

Лечу — летит

5

г

ж

Могу — может

6

к

ч

Отсеку — отсечет

7

л

+

 

Ставлю — ставит

8

 

 

 

9

т

ч

Хотят — хочет

+

л

Вез —^везли

 

 

 

варь основ. Табл.

7.8 содержит список подстановок букв

и .примеры использования этих подстановок.

конечные

Во втором столбце таблицы перечислены

буквы вариантных форм основ слов типа III, а в треть­

ем и

четвертом столбцах — конечные буквы

соответст­

вующих канонических форм. В последнем столбце при­ ведены примеры для каждого варианта подстановок букв.

Словарными признаками, используемыми при морфо­ логическом анализе слов с основами типа III, являются признак вида основы и признак варианта подстановки. При этом каноническая форма основы сопровождается индексом «О», а вариантная — индексом «1». Различные варианты подстановок также обозначаются индексами «О» и «1» (табл. 7.8).

Анализ основ слов типа III производится следующим образом. Сначала основа словаря, найденная в резуль­ тате флективного анализа, проверяется на наличие при­ знака вариантной формы. Если у основы такой признак есть, то выделяется ее последняя буква п сравнивается

121

последовательно со

всеми буквами второго столбца

табл. 7.8 (исключая

букву «+ »). При совпадении выде­

ленной буквы с одной из букв таблицы она заменяется на букву (или сочетание букв) третьего или четвертого столбца в зависимости от значения признака варианта подстановки. Далее полученная основа ищется в слова­ ре. Если трансформированная основа отождествляется с одной из основ словаря, то последняя проверяется на совместимость с окончанием и на наличие у нее призна­ ка канонической формы основы типа III. При положи­ тельном результате проверки первоначальный номер ва­ риантной формы основы заменяется на номер ее канони­ ческой формы.

В этом случае, когда выделенная буква анализируе­ мой основы не совпадает ни с одной из букв второго столбца табл. 7.8, к этой основе приформировывается буква «л» (см. девятую строку табл. 7.8) и далее вы­ полняются операции, перечисленные в предыдущем абзаце.

 

 

 

 

 

Т а б л и ц а

7.9

С п и со к подст ановок д л я

основ

т ипа

I I I npU морф ологическом

 

 

 

синт езе

 

 

п/п.

 

Конечные буквы вари­

 

Конечные буквы

антных форм основ

Примеры

 

канонических форм

 

слов

 

основ слов

вариант „0“ |

вариант „1*

 

Щ

 

Очистит — очищу

 

1

СТ

 

 

2

Ж

Г

 

щ

Летит — лечу, сократит—

3

Т

Ч

 

 

сокращу

 

 

 

 

 

 

 

 

Может — могу

 

4

3

ж

 

Возит — вожу

 

 

 

5

д

ж

 

 

Сидит •— сижу

 

с

 

 

6

ш

 

—.

Носит — ношѵ

 

7

ч

к

 

 

Отсечет — отсеку

 

8

л

+

 

 

Везли — вез

 

9

+

л

 

Ставит — ставлю

 

Формирование буквенного кода основ слов типа III

при

морфологическом

синтезе

осуществляется с

по­

мощью табл. 7.9 и 7.10. Табл. 7.9 служит для преобра­

зования

канонических форм

основ в вариантные,

а табл.

7.10 — для определения

необходимости

такого

преобразования. Структура табл.

7.9 аналогична

струк-

13?

Т а б л и ц а 7.1Ü

Типы р а сп р ед ел ен и я канонических и вариан т н ы х ф орм основ слов

Тип распределения

 

Грамматическая информация

 

I

2

3

4

3

6

 

0

0

0

0

0

0

0

1

1

0

0

0

0

0

2

0

0

0

1

1

1

3

1

0

0

0

0

1

туре табл. 7.8. В табл. 7.10 перечислены различные типы

распределения

канонических и вариантных форм

основ

в зависимости

от

грамматической информации

слов.

Строкам табл.

7.10

поставлены в соответствие коды ти­

пов распределения,

а столбцам — коды грамматической

информации (см. табл. 7.3). На пересечении строк и столбцов указаны индексы канонических и вариантных форм основ.

Сочетание кода типа распределения и кода грамма­ тической информации однозначно определяет необходи­ мость введения в синтезируемое слово канонической или вариантной формы основы. Код типа распределения ука­ зывается в словаре для каждой канонической формы основы слова типа III, наряду с индексом канонической формы и индексом варианта подстановки. Смысл индек­ са варианта подстановки для канонических форм основ определяется табл. 7.9, а для вариантных — табл. 7.8.

Формирование буквенного кода слова начинается с выборки из словаря буквенного кода его основы. За­ тем по табл. 7.10 определяется необходимость замены канонической формы основы на вариантную. Если такой необходимости нет, то к основе цриформировывается окончание. Если замена необходима, то она произво­ дится с помощью табл. 7.9.

Каноническая форма основы заменяется на вариант­ ную в следующем порядке. Сначала две последние бук­ вы основы проверяются на совпадение с сочетанием букв «ст». Если совпадение имеет место, то эти буквы заменяются на букву «щ» (см. подстановку 1 табл. 7.9), если нет, то конечная буква основы отыскивается среди ненулевых букв второго столбца табл. 7.9. При отож­ дествлении конечной буквы основы с одной из букв вто-

123

porö столбца она заменяется на соответствующую букву третьего или четвертого столбца (в зависимости от зна­ чения признака варианта подстановки). В противном случае к словарной основе приформировывается буква «л» (применяется подстановка 9). Анализ обратного сло­ варя показывает, что описанный порядок замены кано­ нических форм основ на вариантные не приводит к лож­ ным результатам.

Морфологический анализ и синтез слов с изменяемой основой типа IV

Среди слов с изменяемой основой типа IV следует различать слова, способные иметь различные окончания, и слова, у которых выделять окончания трудно или прак­ тически нецелесообразно. Слова первого вида далее на­

зываются

с л о в а м и

с

с у п п л е т и в н ы м и

о с но ­

вами, слова второго

вида — с л о в а м и с с у п п л е ­

т и в н ы м и

ф о р м а м и .

Примерами слов первого вида

являются слова «знамя»,

«время», «человек»,

«судно»,

примерами слов второго вида — слова «кто», «что», «чей». Супплетивные формы основ и супплетивные фор­ мы слов заносятся в машинный словарь во всех своих вариантах и отмечаются специальным признаком, кото­ рый используется при морфологическом анализе и син­ тезе.

Морфологический анализ слов с изменяемой основой типа IV начинается с их флективного анализа, причем слова с супплетивными формами сначала рассматрива­ ются как неизменяемые. Далее с помощью табл, типа 7.11 и 7.12 вариантные формы основ заменяются на ка­ нонические, а по супплетивным формам слов выраба­ тывается соответствующая им грамматическая инфор­ мация.

Табл. 7.11 иллюстрирует структуру словаря суппле­ тивных основ слов. Во втором ее столбце перечислены буквенные коды канонических и вариантных форм основ слов, а в третьем столбце — отсылки, указывающие для каждого варианта основы соответствующий ему поряд­ ковый номер канонической формы основы (согласно ну­ мерации первого столбца). Буквенные коды канониче­ ских и вариантных форм основ в табл. 7.11 записаны рядом: сначала идет код канонической формы основы, а вслед за ним — код ее вариантной формы. Следует за-

124

 

Т а б л и ц а

7.11

 

Т а б л и ц а

7.13

С л о в а р ь суп п л ет и в н ы х основ

С л о в а р ь суп п л ет и в н ы х

форм

 

изм ен яем ы х слов дл я

 

слов д л я м орф ологического

морф ологического

а н а л и за и

 

ан ал иза

 

 

синт еза

 

 

 

 

 

Номер на­

 

 

 

 

Входная

Отсыл­

 

 

Тип рас­

 

бора грам*

Варианты основ

Отсыл­

п/п.

форма слов

ка

матической

п/п.

слов

ка

преде­

 

 

информаций

ления

кто

 

3

англичанин

3

0

3

1

 

17

1

англичан

1

1

1

кого

1

 

01

2

1

1

2

1

 

13

4

3

0

4

1

 

22

5

врем

5

1

5

кому

1

 

26

6

времен

5

 

 

кем

6

 

41

7

друг

7

0

7

ком

6

 

43

 

ДРУЗ

7

01

6

чей

 

44

8

знам

9

0

108

чьего

66

 

47

10

знамен

 

0

чьему

6

 

50

119

им

11

1

119

чьим

6

 

53

12

имен

119

1

12

чьем

6

 

54

13

крестьянин

13

1

13

чья

6

 

55

14

крестьян

13

1

14

чьей

в

 

51

15

суды

15

1

15

чью

6

 

56

16

суд

15

1

16

чье

6

 

57

 

человек

 

 

17

чьи

 

 

 

 

люд

 

 

 

чьих

6

 

60

 

 

 

 

 

чьими

 

 

 

метить, что в табл. 7.11, равно как и в других таблицах настоящего раздела, буквенные коды основ приведены для наглядности. В действительности в памяти информа­ ционно-логической машины вместо этих кодов должны быть записаны их порядковые номера по машинному словарю основ.

В четвертом столбце табл. 7.11 для каждой основы слова указан тип распределения канонических и вари­ антных форм основ по различным формам слова. Слова с типом распределения «О» имеют каноническую форму

основы в именительном падеже единственного

числа,

а в остальных формах — вариантную. Слова с

типом

распределения «1» в единственном числе имеют канони­ ческую, а во множественном числе — вариантную форму основы. Сведения о типе распределения необходимы для морфологического синтеза слов.

Пример словаря супплетивных форм слов, используе­ мого при морфологическом анализе, дан в табл. 7.12. Во втором столбце этой таблицы перечислены все формы слов, отличающиеся друг от друга по буквенному соста-

125

By, в третьем столбцё — отсылки к каноническим формам

слов

(согласно

системе нумерации первого столбца),

а в

четвертом

столбце — номера наборов грамматиче­

ской информации (согласно табл. 7.3).

Процесс морфологического синтеза слов с основами типа IV состоит из двух этапов: этапа замены канониче­ ской формы основы на вариантную, если такая замена необходима, и этапа флективного синтеза. Второй этап синтеза описан выше, поэтому здесь ограничимся лишь изложением особенностей его первого этапа.

Для слов с супплетивными основами необходимость выбора канонической или вариантной формы іможет быть определена по грамматической информации и типу

 

Т а б л и ц а

7.13

распределения

(см.

стол­

С л о в а р ь канонических ф орм

слов

бец 4

табл.

7.11).

При

этом номер основы синте­

д л я

м орф ологического

синт еза

 

 

 

 

зируемого

слова

отожде­

к»

Каноническая форма

Отсыл*

ствляется

с одним

из но­

п/п.

слова

 

ка

меров

основ

столбца 2

 

 

 

 

табл. 7.11, а из столбца 4

1

КТО

 

1

выбирается соответствую­

2

чей

 

7

щий индекс типа

распре­

 

 

 

 

деления.

 

Если сочетанию

 

 

 

 

грамматической

инфор­

мации и индекса типа распределения соответствует кано­ ническая форма основы, то следует переходить к этапу флективного синтеза; если вариантная форма основы — то исходный номер основы необходимо заменить на но­ мер основы, следующий непосредственно за отождест­ вленным номером столбца 2 табл. 7.11.

Синтез супплетивных форм слов производится с по­ мощью табл. 7.13, 7.14.

При морфологическом анализе и синтезе супплетив­ ные основы и супплетивные формы слов различаются по номерам флективных классов (супплетивные формы слов не имеют окончаний и относятся либо к неизменяемым существительным, либо к неизменяемым прилагатель­ ным).

Втабл. 7.13 перечислены канонические формы слов

иуказано, с какого номера в табл. 7.14 начинаются суп­

плетивные формы слов, соответствующие каноническим формам табл. 7.13. Табл. 7.14 содержит перечень раз­ личных наборов грамматической информации и соответ­ ствующих им супплетивных форм слов.

126

Т а б л и д

а 7.14

С л о в а р ь суп п л ет и в н ы х ф орм слов д л я морф ологического

синт еза

Грамматическая

п/п. информация

1п

212

313

414

515

616

711

812

913

1014

1115

1216

1321

1422

1523

Форма слова

Грамматическая

Форма слова

п/п.

информация

КТО

іб

24

ч ье

КОГО

17

25

ч ь и м

к о м у

18

26

ч ь е м

КОГО

19

31

ч ья

к е м

20

32

ч ьей

ком

21

33

ч ь е й

ч ей

22

34

ч ь ю

ч ь е го

23

35

ч ьей

ч ь е м у

24

36

ч ь е й

чей

25

41

чьи

ч ьи м

26

42

ч ь и х

ч ь е м

27

43

ч ьи м

ч ь е

28

44

чьи

ч ь е го

29

45

ч ьи м и

ч ь е м у

30

46

ч ь и х

Для выбора необходимой формы слова требуется сначала по номеру основы войти в табл. 7.13, а затем по числу, содержащемуся в третьей графе этой таблицы, и по грамматической информации войти в табл. 7.14.

Формы хранения словарей и грамматических таблиц в памяти информационно-логической машины

При программировании алгоритмов морфологическо­ го анализа и синтеза существенную роль играет выбор удобных и экономичных способов записи словарей и раз­ личного рода таблиц в памяти электронной информаци­ онно-логической машины. Здесь целесообразно широко использовать равномерные коды (коды равной длины) в сочетании с упорядоченной записью этих кодов. Рав­ номерные коды и упорядоченная их запись позволяют применять методы ускоренного поиска информации.

Для кодовых комбинаций, имеющих различную дли­ ну (например, для кодов основ слов), обычно отводится целое число ячеек памяти. Если число различных кодо­ вых комбинаций невелико, а используются они в табли­ цах в большом количестве, то вместо исходных кодовых комбинаций в таблицы записываются их порядковые но­ мера по перечню (словарю) этцх комбинаций.

127

Целесообразно также применять принцип раздель­ ной записи входов и выходов таблиц, что приводит, как правило, к уменьшению времени поиска, упрощению алгоритмов и более экономному использованию емкости ЗУ ЭВМ.

Словарь

основ слов

записывается в памяти

ЭВМ

в виде двух

массивов:

массива буквенных кодов

основ

и массива кодов морфологических классов слов. Массив кодов морфологических классов слов записывается от­ дельно от массива буквенных кодов основ и, в свою очередь, разделяется на два массива: массив кодов основоизменительных классов и массив кодов флектив­ ных классов слов. Массив кодов флективных классов представляет собой перечень их номеров (согласно табл. 7.1), поставленных в соответствие кодам основ слов. Различные сочетания номеров флективных классов, соответствующие омонимичным основам, перенумерова­ ны, и эти (последние) номера включены в состав масси­ ва флективных классов. Нумерация сочетаний кодов флективных классов является продолжением нумерации флективных классов, приведенной в табл. 7.1.

Таким образом, массив кодов флективных классов представляет собой последовательность кодов равной длины (в нашем случае длина кода равна восьми дво­ ичным разрядам). Эти коды могут записываться по не­ сколько в одну ячейку, а их местоположение легко вы­ числяется по номеру основы. В случае необходимости номера сочетаний флективных классов по специальной таблице заменяются на сочетания кодов этих классов.

Массив кодов основоизменительных классов записы­ вается в памяти ЭВМ аналогично массиву кодов флек­ тивных классов. Он представляет собой последователь­ ность шестиразрядных номеров кодовых комбинаций, ха­ рактеризующих особенности морфологического анализа и синтеза слов с изменяемыми основами. Для единооб­ разия неизменяемым основам слов ставится в соответ­ ствие нулевая кодовая комбинация. Сочетание номеров классов для омонимичных основ записывается так же, как и в случае флективных классов.

При линейной развертке морфологической таблицы (табл. 7.4) уже была учтена необходимость экономии емкости памяти ЭВМ. Последовательность номеров окон­ чаний (чисел, стоящих слева от дефиса) и последова­ тельность номеров наборов грамматической информации

128

Р и с. 7.1. М орф ологический анализ.

9 - 3 J 0

129

Соседние файлы в папке книги из ГПНТБ