Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
MM_19_разметка_S.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
201.22 Кб
Скачать

2.2.2. Лингвистическая разметка

Итак, разметка заключается в приписывании текстам и их компонентам специальных тэгов: собственно лингвистических, описывающих лексические, грамматические и прочие характеристики элементов текста, и внешних, экстралингвистических (сведения об авторе и сведения о тексте: автор, название, год и место издания, жанр, тематика).

Среди лингвистических типов разметки выделяются: морфологическая, синтаксическая, семантическая, анафорическая, просодическая, дискурсная и др. Все они осуществляются в соответствии со следующими принципами:

  1. описание (обоснование) схемы разметки;

  2. общепринятая система лингвистических понятий;

  3. известная для пользователя схема анализа;

  4. мотивированность введения параметров;

  5. теоретически нейтральная (традиционная) схема разметки;

  6. следование международным стандартам.

Морфологическая разметка

В иностранной терминологии употребляется термин part-of-speech tagging (POS-tagging), дословно – частеречная разметка. В действительности морфологические метки включают не только признак части речи, но и лемму, а также признаки грамматических категорий, свойственных данной части речи.

Автоматический морфологический анализ - специальный модуль автоматического анализа языка, обеспечивающий анализ словоформ на морфологическом уровне.

Это основной тип разметки: во-первых, большинство крупных корпусов являются как раз морфологически размеченными корпусами, во-вторых, морфологический анализ рассматривается как основа для дальнейших форм анализа – синтаксического и семантического, и, в-третьих, успехи в компьютерной морфологии позволяют автоматически с большой степенью правильности размечать корпусы больших размеров.

Одной из главных составляющих корректного разбора слов являются базы морфем. При запуске программы происходит загрузка словарей и оптимизация поиска по ним.

Любой разбор слова производится от его начала к концу. Программа «пытается» подобрать последовательность морфем, принадлежащих определенной части речи. Так, например, исходя из базы морфем, после глагольного суффикса «-л-» (изъявительное наклонение, прошедшее время) могут следовать такие окончания, как: «-а-», «-о-», «-и-», или нулевое окончание. Разбор считается завершенным успешно, если всё слово было разобрано на морфемы, в соответствии с правилами русского языка, и не осталось не разобранных букв.

Программа накапливает все возможные варианты разбора и выбирает из них оптимальный. Для этого используется система весов морфем: каждой морфеме или группе морфем присваивается некоторый вес. Вариант разбора, набравший наибольший вес, считается оптимальным.

Так, междометия имеют более высокий вес, нежели существительные, это делается во избежание выбора оптимальным заведомо ложного варианта разбора междометия как существительного («охрана» имеет корень хран, а не ох). Вес варианта разбора может уменьшиться в случае, если в нем встречается много корней (т.к. удельный вес многокоренных слов в рус яз ниже, чем однокоренных). Если же морфема состоит из большого количества символов, то её вес увеличится (достопримечательность: чтобы система дальше не стала выделять приставку до, корни сто, меч).

После разбора программа формирует файл отчета, в который заносятся все слова с вариантами их разбора, где наглядно демонстрируются морфемы слова. Помимо этого производится подсчет статистики по введенному тексту. Так, например, программа выдаёт как часто и какие корни встречались в тексте.

Анализ, осуществяемый морфологическим модулем автоматической обработки естественного языка, может заключаться в следующем:

  1. нормализация словоформ (лемматизация), т.е. сведение различных словоформ к некоторому единому представлению - к исходной форме, или лемме);

  2. стемминг - другой вид нормализации, когда разные словоформы приводятся к одной основе, точнее "пседвооснове" (для некоторых задач, включая поиск в интернете, достаточно приведения к одной основе различных дериватов; например, прилагательного фотографический и существительного фотография, так как пользовательскому запросу будут удовлетворять и документы со словосочетанием фотографический портрет и со словосочетанием портретная фотография)

  3. частеречный тэгинг (pos-tagging), т.е. указание части речи для каждой словоформы в тексте)

  4. полный морфологический анализ - приписывание грамматических характеристик словоформе

В 1980 году появилась размеченная версия Брауновского корпуса, в которой была проведена лемматизация словоформ, маркировка их поверхностно-синтаксических функций и т.д.

Морфологическая разметка Брауновского корпуса выглядит следующим образом:

the_AT jury_NN further_RB said_VBD in_IN term-end_NN presentments_NNS that_CS the_AT *city_NP *executive_NP *committee_NP ,_, which_WDT had_HVD over-all_JJ charge_NN of_IN the_AT election_NN ,_, deserves_VBZ the_AT praise_NN and_CC thanks_NNS of_IN the_AT *city_NP of_NP *atlanta_NP for_IN the_AT manner_NN in_IN which_WDT the_AT election_NN was_BEDZ conducted_VBN |

Приведем пример морфологической разметки фрагмента текста на русском языке «Звонили к вечерне. Торжественный гул колоколов» в XML-формате на основе разметчика АОТ (рис. 1).

В представленной записи использованы тэги <text> – текст, <p> – абзац, <s> – предложение, <w> – словоупотребление, <pun> – знак пунктуации. Тэг <w> содержит вложенный тэг <ana> с атрибутами <lemma> – лемма, <pos> – часть речи, <gram> – набор граммем. Значения граммем приводятся в Приложении 3.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]