3.6. Морфологический анализ входных сообщений

Под морфологическим анализом (МА) понимается обработка словоформ вне связи с контекстом. Словоформой будем называть отрезок текста между двумя соседними пробелами (при этом знаки препинания считаются отдельными словоформами) [12]. Функцией морфологического анализа является идентификация словоформы и приписывание словоформе характеризующего ее комплекса морфологической информации (КМИ). КМИ состоит в общем случае из совокупности строк морфологической информации.

Существуют два основных метода реализации МА: декларативный и процедурный. В декларативном методе реализации МА в словаре системы хранятся все возможные словоформы каждого слова с приписанной им морфологической информацией. По сути дела, в декларативном МА нет собственно морфологического анализа, а хранится его результат. Поэтому декларативный МА работает быстрее, чем процедурный. Задача декларативного МА состоит только в поиске словоформы в словаре и переписывании из словаря КМИ, соответствующего данной словоформе. В связи с тем что количество различных словоформ у одного слова довольно велико (у существительного – до 12, у прилагательного – до 36, а у глагола, с учетом отглагольных форм, – до 100), декларативный МА имеет, по сравнению с процедурным, следующие недостатки:

значительно возрастает трудоемкость подготовки морфологической зоны словаря, так как человек должен занести в словарь для каждого слова все его словоформы с соответствующими им строками морфологической информации;
увеличиваются затраты памяти, так как для каждого слова (лексемы) хранятся все его словоформы.

При процедурном МА в словаре системы хранятся основы слов. Процедурный МА выполняет следующие функции: выделяет в текущей словоформе основу, идентифицирует ее и приписывает данной словоформе соответствующий ей КМИ.

Рассмотрим один из возможных методов выполнения МА словоформ русского языка, так называемый “обратный” метод. При работе алгоритм процедурного МА использует информацию из морфологической зоны словаря и из таблиц аффиксов. Удобно разделить словарь на две части: словарь основ (СО) и словарь готовых словоформ (СГФ). Общая схема алгоритма состоит из следующих шагов [12]:

поиск словоформы в словаре СГФ;
выделение основы;
поиск в словаре основ;
обработка словосочетаний;
предсинтаксис.

В словаре готовых форм (СГФ) целесообразно хранить неизменяемые слова и слова с нерегулярными формами изменения. Примерами таких слов являются предлоги, наречия, неизменяемые существительные (например, пальто), знаки препинания, цифры, некоторые формы глагола (идти – шел) и т.п. Для этих слов МА не требуется вообще.

Задача первого блока МА состоит в том, чтобы определить, не относится ли очередная словоформа входного сообщения к числу тех, которые хранятся в СГФ. Если словоформа найдена, то из СГФ переписывается вся соответствующая ей морфологическая информация и морфологический анализ данной словоформы заканчивается. В противном случае выполняется второй блок МА. Его работа сводится к последовательным проверкам возможностей вложения в анализируемую словоформу справа налево окончаний и суффиксов. При этом для ускорения проверок вкладываются (отсекаются) аффиксы с большим числом букв, а информация о вкладывающихся в них меньших аффиксах получается не поиском, а за счет отсылок.

В результате вложения всех возможных аффиксов словоформе сопоставляется одна или несколько гипотетических основ (ГО) и для каждой основы – КМИ. Гипотетические основы ищутся в словаре основ во время работы третьего блока МА. В случае нахождения ГО в словаре основ и совпадения части речи ГО с частью речи словарной основы данная ГО и ее КМИ признаются правильными. В противном случае ГО признается ошибочной и отбрасывается. При нахождении в словаре ГО вместе с морфологической зоной считываются и ее синтактико-семантические зоны.

Задача четвертого блока алгоритма состоит в выполнении операции “склеивания”, т.е. в преобразовании некоторых словоформ, отделенных друг от друга пробелами или другими словоформами, к одной основе. Данная операция выполняется для упрощения синтаксического и семантического анализов.

Завершает работу МА пятый блок алгоритма, называемый “предсинтаксис”. В задачу данного блока входит подготовка данных, упрощающая работу синтаксического анализа:

формируются номера уровней словоформ входного сообщения;
помечаются слова, возможно обусловленные предыдущими словами;
используются предварительные синтаксические фильтры, устраняющие избыточную морфологическую информацию.

Первая из перечисленных подзадач состоит в выделении уровня каждой словоформы. При этом словоформы основного предложения образуют нулевой уровень, а словоформы придаточных предложений и вложенных друг в друга оборотов (причастных, деепричастных) имеют более высокие уровни по числу вложенности. Выделение уровней позволяет на этапе синтаксического анализа ускорить обработку за счет устранения взаимосвязи слов между разными уровнями.

<<< < Предыдущая 7 8 9 10 11 12 13 14 15 16 17 1819 / 4319 20 21 22 23 24 25 26 27 28 29 30 31 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
25.04.20191.14 Mб29Programming.doc
#
01.07.2025454.14 Кб2Proizvodstvennaya_praktika.doc
#
10.11.2019304.13 Кб2Proizvodstvennaya_praktika_RP_prikladnaya_infor...doc
#
29.05.20153.69 Mб31Project_Management P.2.pdf
#
29.05.20153.89 Mб97Project_Management_P.1.pdf
#
04.11.20182.29 Mб109PrZn-Six-Mod-Print-2007.doc
#
24.08.2019461.82 Кб39Pr_3_zaschita.doc
#
15.07.2019128 Кб5pr_hist6.doc
#
10.08.2019417.51 Кб7Psychologiya_of_religion_RP.rtf
#
01.07.2025456.7 Кб1Pulse current generator.doc
#
22.09.20195.46 Mб1541pzrk.doc