книги из ГПНТБ / Белоногов Г.Г. Автоматизированные информационные системы
.pdfС п и со к подст ановок |
д л я основ слов |
т ипа I I п р и Т а б л и ц а 7. 7 |
|
|
|
|
морф ологическом |
|
|
синт езе |
|
№ п/п. |
Класс подста |
Вид подста |
Примеры |
новки |
новки |
||
1 |
1 |
+ —>0 |
Кратка — краток |
2 |
1 |
й—>и |
Достойна — достоин |
3 |
2 |
+ - » е |
Колодца — колодец |
4 |
2 |
й—»е |
Пайка — паек |
5 |
2 |
ь—>е |
Льда — лед |
После выборки по номеру основы ее буквенного кода последний анализируется для определения вида подста новки (табл. 7.7). Далее производится необходимое пре образование буквенного кода основы и приформирование окончания слова.
Вид подстановки определяется по следующим прави лам. Выделяется вторая от конца буква словарной осно вы и проверяется на совпадение с буквой «й», если основа имеет индекс класса подстановки «1», и с бук вами «й» и «ь», если основа имеет индекс класса под становки «2». При положительном результате проверки в первом случае применяется подстановка 2, при отри цательном— подстановка 1. Во втором случае при поло жительном результате применяется подстановка 4 (если выделенная буква совпала с буквой «й») или подстанов ка 5 (если выделенная буква совпала с буквой «ь»). При отрицательном результате применяется подстанов ка 3.
Морфологический анализ и синтез слов с изменяемой основой типа III
К изменяемым основам слов типа III отнесены такие основы личных форм глаголов и глаголов прошедшего времени, у которых имеет место чередование согласных. Эти основы встречаются в двух формах, отличающихся друг от друга по буквенному составу. Обе формы осно вы включаются в словарь. Одна из них считается кано нической, другая — вариантной. У личных форм глаго лов в качестве канонической принята основа формы третьего лица единственного числа, у глаголов прошед шего времени — основа формы множественного числа.
120
При морфологическом анализе вариантная форма основы типа III заменяется на каноническую с помощью табл. 7.8 по специальным признакам, внесенным в сло
|
|
|
|
т а |
б л и ц а 7.8 |
С п и с о к подст ановоь |
д л я основ типа |
I I I при морф ологическом |
|||
|
|
|
анализе |
|
|
|
|
Конечные буквы |
|
|
|
|
|
канонических форм |
|
|
|
|
Конечные буквы |
основ слов |
Ьікѵімеры |
||
п/п. |
вариантных форм |
|
|
||
№ |
основ слов |
вариант 0 |
вариант 1 |
|
|
1 |
|
|
|
||
Щж |
С |
3 |
Сижу—сидиг, вожу— возит |
||
2 |
д |
||||
ш |
|
— |
Ношу — носит |
||
3 |
ч |
ст |
т |
Очищу — очистит, сокра |
|
4 |
ч |
т |
— |
щу — сокоатит |
|
Лечу — летит |
|||||
5 |
г |
ж |
— |
Могу — может |
|
6 |
к |
ч |
— |
Отсеку — отсечет |
|
7 |
л |
+ |
|
Ставлю — ставит |
|
8 |
|
— |
|
|
|
9 |
т |
ч |
— |
Хотят — хочет |
|
+ |
л |
Вез —^везли |
|
||
|
|
||||
варь основ. Табл. |
7.8 содержит список подстановок букв |
||||
и .примеры использования этих подстановок. |
конечные |
||||
Во втором столбце таблицы перечислены |
|||||
буквы вариантных форм основ слов типа III, а в треть |
|||||
ем и |
четвертом столбцах — конечные буквы |
соответст |
вующих канонических форм. В последнем столбце при ведены примеры для каждого варианта подстановок букв.
Словарными признаками, используемыми при морфо логическом анализе слов с основами типа III, являются признак вида основы и признак варианта подстановки. При этом каноническая форма основы сопровождается индексом «О», а вариантная — индексом «1». Различные варианты подстановок также обозначаются индексами «О» и «1» (табл. 7.8).
Анализ основ слов типа III производится следующим образом. Сначала основа словаря, найденная в резуль тате флективного анализа, проверяется на наличие при знака вариантной формы. Если у основы такой признак есть, то выделяется ее последняя буква п сравнивается
121
последовательно со |
всеми буквами второго столбца |
табл. 7.8 (исключая |
букву «+ »). При совпадении выде |
ленной буквы с одной из букв таблицы она заменяется на букву (или сочетание букв) третьего или четвертого столбца в зависимости от значения признака варианта подстановки. Далее полученная основа ищется в слова ре. Если трансформированная основа отождествляется с одной из основ словаря, то последняя проверяется на совместимость с окончанием и на наличие у нее призна ка канонической формы основы типа III. При положи тельном результате проверки первоначальный номер ва риантной формы основы заменяется на номер ее канони ческой формы.
В этом случае, когда выделенная буква анализируе мой основы не совпадает ни с одной из букв второго столбца табл. 7.8, к этой основе приформировывается буква «л» (см. девятую строку табл. 7.8) и далее вы полняются операции, перечисленные в предыдущем абзаце.
|
|
|
|
|
Т а б л и ц а |
7.9 |
С п и со к подст ановок д л я |
основ |
т ипа |
I I I npU морф ологическом |
|||
|
|
|
синт езе |
|
|
|
п/п. |
|
Конечные буквы вари |
|
|||
Конечные буквы |
антных форм основ |
Примеры |
|
|||
канонических форм |
|
слов |
|
|||
основ слов |
вариант „0“ | |
вариант „1* |
|
|||
№ |
Щ |
|
Очистит — очищу |
|
||
1 |
СТ |
|
|
|||
2 |
Ж |
Г |
|
щ |
Летит — лечу, сократит— |
|
3 |
Т |
Ч |
|
|
сокращу |
|
|
|
|
— |
|
||
|
|
|
— |
Может — могу |
|
|
4 |
3 |
ж |
|
— |
Возит — вожу |
|
|
— |
|
||||
5 |
д |
ж |
|
|
Сидит •— сижу |
|
с |
|
— |
|
|||
6 |
ш |
|
—. |
Носит — ношѵ |
|
|
7 |
ч |
к |
|
|
Отсечет — отсеку |
|
8 |
л |
+ |
|
|
Везли — вез |
|
9 |
+ |
л |
|
— |
Ставит — ставлю |
|
Формирование буквенного кода основ слов типа III |
||||||
при |
морфологическом |
синтезе |
осуществляется с |
по |
мощью табл. 7.9 и 7.10. Табл. 7.9 служит для преобра
зования |
канонических форм |
основ в вариантные, |
|
а табл. |
7.10 — для определения |
необходимости |
такого |
преобразования. Структура табл. |
7.9 аналогична |
струк- |
13?
Т а б л и ц а 7.1Ü
Типы р а сп р ед ел ен и я канонических и вариан т н ы х ф орм основ слов
Тип распределения |
|
Грамматическая информация |
|
||||
I |
2 |
3 |
4 |
3 |
6 |
||
|
|||||||
0 |
0 |
0 |
0 |
0 |
0 |
0 |
|
1 |
1 |
0 |
0 |
0 |
0 |
0 |
|
2 |
0 |
0 |
0 |
1 |
1 |
1 |
|
3 |
1 |
0 |
0 |
0 |
0 |
1 |
туре табл. 7.8. В табл. 7.10 перечислены различные типы
распределения |
канонических и вариантных форм |
основ |
|
в зависимости |
от |
грамматической информации |
слов. |
Строкам табл. |
7.10 |
поставлены в соответствие коды ти |
|
пов распределения, |
а столбцам — коды грамматической |
информации (см. табл. 7.3). На пересечении строк и столбцов указаны индексы канонических и вариантных форм основ.
Сочетание кода типа распределения и кода грамма тической информации однозначно определяет необходи мость введения в синтезируемое слово канонической или вариантной формы основы. Код типа распределения ука зывается в словаре для каждой канонической формы основы слова типа III, наряду с индексом канонической формы и индексом варианта подстановки. Смысл индек са варианта подстановки для канонических форм основ определяется табл. 7.9, а для вариантных — табл. 7.8.
Формирование буквенного кода слова начинается с выборки из словаря буквенного кода его основы. За тем по табл. 7.10 определяется необходимость замены канонической формы основы на вариантную. Если такой необходимости нет, то к основе цриформировывается окончание. Если замена необходима, то она произво дится с помощью табл. 7.9.
Каноническая форма основы заменяется на вариант ную в следующем порядке. Сначала две последние бук вы основы проверяются на совпадение с сочетанием букв «ст». Если совпадение имеет место, то эти буквы заменяются на букву «щ» (см. подстановку 1 табл. 7.9), если нет, то конечная буква основы отыскивается среди ненулевых букв второго столбца табл. 7.9. При отож дествлении конечной буквы основы с одной из букв вто-
123
porö столбца она заменяется на соответствующую букву третьего или четвертого столбца (в зависимости от зна чения признака варианта подстановки). В противном случае к словарной основе приформировывается буква «л» (применяется подстановка 9). Анализ обратного сло варя показывает, что описанный порядок замены кано нических форм основ на вариантные не приводит к лож ным результатам.
Морфологический анализ и синтез слов с изменяемой основой типа IV
Среди слов с изменяемой основой типа IV следует различать слова, способные иметь различные окончания, и слова, у которых выделять окончания трудно или прак тически нецелесообразно. Слова первого вида далее на
зываются |
с л о в а м и |
с |
с у п п л е т и в н ы м и |
о с но |
вами, слова второго |
вида — с л о в а м и с с у п п л е |
|||
т и в н ы м и |
ф о р м а м и . |
Примерами слов первого вида |
||
являются слова «знамя», |
«время», «человек», |
«судно», |
примерами слов второго вида — слова «кто», «что», «чей». Супплетивные формы основ и супплетивные фор мы слов заносятся в машинный словарь во всех своих вариантах и отмечаются специальным признаком, кото рый используется при морфологическом анализе и син тезе.
Морфологический анализ слов с изменяемой основой типа IV начинается с их флективного анализа, причем слова с супплетивными формами сначала рассматрива ются как неизменяемые. Далее с помощью табл, типа 7.11 и 7.12 вариантные формы основ заменяются на ка нонические, а по супплетивным формам слов выраба тывается соответствующая им грамматическая инфор мация.
Табл. 7.11 иллюстрирует структуру словаря суппле тивных основ слов. Во втором ее столбце перечислены буквенные коды канонических и вариантных форм основ слов, а в третьем столбце — отсылки, указывающие для каждого варианта основы соответствующий ему поряд ковый номер канонической формы основы (согласно ну мерации первого столбца). Буквенные коды канониче ских и вариантных форм основ в табл. 7.11 записаны рядом: сначала идет код канонической формы основы, а вслед за ним — код ее вариантной формы. Следует за-
124
|
Т а б л и ц а |
7.11 |
|
Т а б л и ц а |
7.13 |
|||
С л о в а р ь суп п л ет и в н ы х основ |
С л о в а р ь суп п л ет и в н ы х |
форм |
||||||
|
изм ен яем ы х слов дл я |
|
слов д л я м орф ологического |
|||||
морф ологического |
а н а л и за и |
|
ан ал иза |
|
|
|||
№ |
синт еза |
|
|
|
|
|
Номер на |
|
|
|
|
|
Входная |
Отсыл |
|||
|
|
Тип рас |
|
бора грам* |
||||
Варианты основ |
Отсыл |
п/п. |
форма слов |
ка |
матической |
|||
п/п. |
слов |
ка |
преде |
№ |
|
|
информаций |
|
ления |
кто |
|
||||||
3 |
англичанин |
3 |
0 |
3 |
1 |
|
17 |
|
1 |
англичан |
1 |
1 |
1 |
кого |
1 |
|
01 |
2 |
1 |
1 |
2 |
1 |
|
13 |
||
4 |
3 |
0 |
4 |
1 |
|
22 |
||
5 |
врем |
5 |
1 |
5 |
кому |
1 |
|
26 |
6 |
времен |
5 |
|
|
кем |
6 |
|
41 |
7 |
друг |
7 |
0 |
7 |
ком |
6 |
|
43 |
|
ДРУЗ |
7 |
01 |
6 |
чей |
|
44 |
|
8 |
знам |
9 |
0 |
108 |
чьего |
66 |
|
47 |
10 |
знамен |
|
0 |
чьему |
6 |
|
50 |
|
119 |
им |
11 |
1 |
119 |
чьим |
6 |
|
53 |
12 |
имен |
119 |
1 |
12 |
чьем |
6 |
|
54 |
13 |
крестьянин |
13 |
1 |
13 |
чья |
6 |
|
55 |
14 |
крестьян |
13 |
1 |
14 |
чьей |
в |
|
51 |
15 |
суды |
15 |
1 |
15 |
чью |
6 |
|
56 |
16 |
суд |
15 |
1 |
16 |
чье |
6 |
|
57 |
|
человек |
|
|
17 |
чьи |
|
|
|
|
люд |
|
|
|
чьих |
6 |
|
60 |
|
|
|
|
|
чьими |
|
|
|
метить, что в табл. 7.11, равно как и в других таблицах настоящего раздела, буквенные коды основ приведены для наглядности. В действительности в памяти информа ционно-логической машины вместо этих кодов должны быть записаны их порядковые номера по машинному словарю основ.
В четвертом столбце табл. 7.11 для каждой основы слова указан тип распределения канонических и вари антных форм основ по различным формам слова. Слова с типом распределения «О» имеют каноническую форму
основы в именительном падеже единственного |
числа, |
а в остальных формах — вариантную. Слова с |
типом |
распределения «1» в единственном числе имеют канони ческую, а во множественном числе — вариантную форму основы. Сведения о типе распределения необходимы для морфологического синтеза слов.
Пример словаря супплетивных форм слов, используе мого при морфологическом анализе, дан в табл. 7.12. Во втором столбце этой таблицы перечислены все формы слов, отличающиеся друг от друга по буквенному соста-
125
By, в третьем столбцё — отсылки к каноническим формам
слов |
(согласно |
системе нумерации первого столбца), |
а в |
четвертом |
столбце — номера наборов грамматиче |
ской информации (согласно табл. 7.3).
Процесс морфологического синтеза слов с основами типа IV состоит из двух этапов: этапа замены канониче ской формы основы на вариантную, если такая замена необходима, и этапа флективного синтеза. Второй этап синтеза описан выше, поэтому здесь ограничимся лишь изложением особенностей его первого этапа.
Для слов с супплетивными основами необходимость выбора канонической или вариантной формы іможет быть определена по грамматической информации и типу
|
Т а б л и ц а |
7.13 |
распределения |
(см. |
стол |
|||||
С л о в а р ь канонических ф орм |
слов |
бец 4 |
табл. |
7.11). |
При |
|||||
этом номер основы синте |
||||||||||
д л я |
м орф ологического |
синт еза |
||||||||
|
|
|
|
зируемого |
слова |
отожде |
||||
к» |
Каноническая форма |
Отсыл* |
ствляется |
с одним |
из но |
|||||
п/п. |
слова |
|
ка |
меров |
основ |
столбца 2 |
||||
|
|
|
|
табл. 7.11, а из столбца 4 |
||||||
1 |
КТО |
|
1 |
выбирается соответствую |
||||||
2 |
чей |
|
7 |
щий индекс типа |
распре |
|||||
|
|
|
|
деления. |
|
Если сочетанию |
||||
|
|
|
|
грамматической |
инфор |
мации и индекса типа распределения соответствует кано ническая форма основы, то следует переходить к этапу флективного синтеза; если вариантная форма основы — то исходный номер основы необходимо заменить на но мер основы, следующий непосредственно за отождест вленным номером столбца 2 табл. 7.11.
Синтез супплетивных форм слов производится с по мощью табл. 7.13, 7.14.
При морфологическом анализе и синтезе супплетив ные основы и супплетивные формы слов различаются по номерам флективных классов (супплетивные формы слов не имеют окончаний и относятся либо к неизменяемым существительным, либо к неизменяемым прилагатель ным).
Втабл. 7.13 перечислены канонические формы слов
иуказано, с какого номера в табл. 7.14 начинаются суп
плетивные формы слов, соответствующие каноническим формам табл. 7.13. Табл. 7.14 содержит перечень раз личных наборов грамматической информации и соответ ствующих им супплетивных форм слов.
126
Т а б л и д |
а 7.14 |
С л о в а р ь суп п л ет и в н ы х ф орм слов д л я морф ологического |
синт еза |
№Грамматическая
п/п. информация
1п
212
313
414
515
616
711
812
913
1014
1115
1216
1321
1422
1523
Форма слова |
№ |
Грамматическая |
Форма слова |
п/п. |
информация |
||
КТО |
іб |
24 |
ч ье |
КОГО |
17 |
25 |
ч ь и м |
к о м у |
18 |
26 |
ч ь е м |
КОГО |
19 |
31 |
ч ья |
к е м |
20 |
32 |
ч ьей |
ком |
21 |
33 |
ч ь е й |
ч ей |
22 |
34 |
ч ь ю |
ч ь е го |
23 |
35 |
ч ьей |
ч ь е м у |
24 |
36 |
ч ь е й |
чей |
25 |
41 |
чьи |
ч ьи м |
26 |
42 |
ч ь и х |
ч ь е м |
27 |
43 |
ч ьи м |
ч ь е |
28 |
44 |
чьи |
ч ь е го |
29 |
45 |
ч ьи м и |
ч ь е м у |
30 |
46 |
ч ь и х |
Для выбора необходимой формы слова требуется сначала по номеру основы войти в табл. 7.13, а затем по числу, содержащемуся в третьей графе этой таблицы, и по грамматической информации войти в табл. 7.14.
Формы хранения словарей и грамматических таблиц в памяти информационно-логической машины
При программировании алгоритмов морфологическо го анализа и синтеза существенную роль играет выбор удобных и экономичных способов записи словарей и раз личного рода таблиц в памяти электронной информаци онно-логической машины. Здесь целесообразно широко использовать равномерные коды (коды равной длины) в сочетании с упорядоченной записью этих кодов. Рав номерные коды и упорядоченная их запись позволяют применять методы ускоренного поиска информации.
Для кодовых комбинаций, имеющих различную дли ну (например, для кодов основ слов), обычно отводится целое число ячеек памяти. Если число различных кодо вых комбинаций невелико, а используются они в табли цах в большом количестве, то вместо исходных кодовых комбинаций в таблицы записываются их порядковые но мера по перечню (словарю) этцх комбинаций.
127
Целесообразно также применять принцип раздель ной записи входов и выходов таблиц, что приводит, как правило, к уменьшению времени поиска, упрощению алгоритмов и более экономному использованию емкости ЗУ ЭВМ.
Словарь |
основ слов |
записывается в памяти |
ЭВМ |
в виде двух |
массивов: |
массива буквенных кодов |
основ |
и массива кодов морфологических классов слов. Массив кодов морфологических классов слов записывается от дельно от массива буквенных кодов основ и, в свою очередь, разделяется на два массива: массив кодов основоизменительных классов и массив кодов флектив ных классов слов. Массив кодов флективных классов представляет собой перечень их номеров (согласно табл. 7.1), поставленных в соответствие кодам основ слов. Различные сочетания номеров флективных классов, соответствующие омонимичным основам, перенумерова ны, и эти (последние) номера включены в состав масси ва флективных классов. Нумерация сочетаний кодов флективных классов является продолжением нумерации флективных классов, приведенной в табл. 7.1.
Таким образом, массив кодов флективных классов представляет собой последовательность кодов равной длины (в нашем случае длина кода равна восьми дво ичным разрядам). Эти коды могут записываться по не сколько в одну ячейку, а их местоположение легко вы числяется по номеру основы. В случае необходимости номера сочетаний флективных классов по специальной таблице заменяются на сочетания кодов этих классов.
Массив кодов основоизменительных классов записы вается в памяти ЭВМ аналогично массиву кодов флек тивных классов. Он представляет собой последователь ность шестиразрядных номеров кодовых комбинаций, ха рактеризующих особенности морфологического анализа и синтеза слов с изменяемыми основами. Для единооб разия неизменяемым основам слов ставится в соответ ствие нулевая кодовая комбинация. Сочетание номеров классов для омонимичных основ записывается так же, как и в случае флективных классов.
При линейной развертке морфологической таблицы (табл. 7.4) уже была учтена необходимость экономии емкости памяти ЭВМ. Последовательность номеров окон чаний (чисел, стоящих слева от дефиса) и последова тельность номеров наборов грамматической информации
128
Р и с. 7.1. М орф ологический анализ.
9 - 3 J 0 |
129 |