Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
10 Форм.модели.docx
Скачиваний:
14
Добавлен:
05.05.2019
Размер:
39 Кб
Скачать

4. Система машинного перевода "Этап-2" как формальная лингвистическая модель.

"Этап-2" Морфологические анализаторы, принципы работы.

Задача морфологического анализа: построение морфологической структуры английского предложения, которое поступило на вход.

Морфологический анализатор работает пословно. Для каждой словоформы строится совокупность всех её морфологических структур.

Под морфологической структурой словоформы понимается имя соответствующей лексемы с полной грамматической характеристикой.

I. предморфологический анализ

(Пр.: 1. cannot → can not 2. input-output 3. I`m)

1. записанная слитно словоформа

2. словоформы пишущиеся через дефис в композитной конструкции

3. словоформы, записанные через апостроф

II. выделение безусловных оборотов (Пр. a few, as if, because of)

III. морфологический анализ в собственном смысле

1. словарь основ (12 тыс. слов)

структура словарной статьи: а) номер подстатьи б) перевод в) зона морфологической информации

2. список окончаний (английский язык - 21 окончание!)

3. средства компактной записи морфологической информации

а) стандартные парадигма окончаний

б) маски; маска – последовательность чисел, где каждое число соответствует порядковому номеру окончания в стандартной парадигме (для слов имеющих лишь часть стандартной парадигмы)

"Этап-2" Логико-алгоритмические стратегии синтаксического анализа

Синтаксический анализ – центральный и самый сложный компонент системы «Этап-2»

I. предсинтаксический анализ (небольшой вспомогательный блок) предназначен для частичного снятия лексико-грамматической омонимии, морфологической омонимии предложения по линейному контексту

II. синтаксический анализ (в собственном смысле)

Блок синтаксического анализа получает на вход редуцированную, в результате работы предсинтаксического анализа, морфологическую структуру и строит на её основе синтаксическую структуру данного предложения.

В «Этапе - 2» для формального представления синтаксической структуры предложения используется дерево зависимостей в узлах которого стоят морфологические структуры словоформ, а связывающие их стрелки помечены именами синтаксических отношений, специфичных для данного языка (английский/русский).

Основные средства синтаксического анализа: лингвистические правила двух типов: синтагмы и предпочтения.

Если синтаксис задает класс синтаксических конструкций естественного языка, то с содержательной точки зрения синтагма – это описаний 1-ой конструкции этого класса.

Правило предпочтения используется, когда правило синтагмы не дало нужных результатов. Эти правила отдают предпочтения одним синтаксическим гипотезам перед другими на основании простых вероятностных соображений.

Тео́рия «Смысл Текст» — теория языка, созданная И. А. Мельчуком и представляющая его как многоуровневую модель преобразований смысла в текст и обратно (модель «Смысл ⇔ Текст»); отличительной особенностью этой теории является также использование синтаксиса зависимостей. Значительная роль, отводимая лексическому компоненту модели — Толково-комбинаторному словарю. Теория «Смысл ⇔ Текст» представляет собой описание естественного языка, понимае-мого как устройство («система правил»), обеспечивающее человеку переход от смысла к тексту («говорение», или построе-ние текста) и от текста к смыслу («понимание», или интерпретация текста); отсюда символ двунаправленной стрелки в названии теории. При этом приоритет в исследовании языка отдаётся переходу от смысла к тексту: считается, что описание процесса интерпретации текста может быть получено на основе описания процесса построения текста.

Толково-комбинаторный словарь — одно из главных теоретических изобретений Мельчука. В Толково-комбинаторный словарь входило толкование слова и его модель управления. Толкование представляло собой запись на формализованном метаязыке; семантически более сложные элементы объяснялись через более простые.

Модель управления содержала информацию обо всех семантических и синтаксических актантах слова и о способах их морфологического и синтаксического выражения. Большую часть словарной статьи занимало описание лексических функций — понятие, придуманное Жолковским и Мельчуком для описания того, что они называли «нестандартной сочетаемостью». Так, считалось, что в выражениях круглый дурак и проливной дождь прилагательное имеет одно и то же значение, выражая одну и ту же «лексическую функцию» (в ТСТ она называлась Magn). Было выделено несколько десятков лексических функций, подлежащих описанию в Толково-комбинаторном словаре.

Семанти́ческая роль имени при предикате — в языкознании: часть семантики предиката, отражающая общие свойства ар-гумента предиката — участника называемой предикатом ситуации[1]. Описание в терминах семантических ролей отражает сходства моделей управления различных предикатных слов.

Количество и состав семантических ролей, выделяемых при описании языка, могут существенно различаться в зависимости от задач описания и степени его детализации. Однако существует ряд ролей, обыкновенно включаемых лингвистами в универсальный для языков мира набор:

 агенс — одушевлённый инициатор и контролёр действия;

 пациенс — участник, претерпевающий существенные изменения;

 бенефактив — участник, чьи интересы затронуты в процессе осуществления ситуации (получает пользу или вред);

 экспериенцер — носитель чувств и восприятий;

 стимул — источник восприятий;

 инструмент осуществления действия;

 адресат — получатель сообщения (может объединяться с бенефактивом);

 источник — исходный пункт движения;

 цель — конечный пункт движения.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]