- •Л. Н. Беляева. Практикум по работе с системами машинного перевода Введение. Переводческие технологии – мифы и реальность
- •Часть 1. Анализ ограничений, накладываемых на работу систем мп.
- •Задание 1. Анализ ограничений, накладываемых на работу систем мп.
- •1. Проанализируйте приведенные ниже примеры текстов и подчеркните те фрагменты текста, машинный перевод которых будет некорректен:
- •2. Проанализируйте приведенные ниже сверхдлинные предложения и укажите возможные модификации:
- •Часть 2. Подготовка исходного текста к переводу (предредактирование)
- •Задание 2. Предредактирование.
- •1. Проанализируйте приведенные ниже примеры текстов и отредактируйте их для получения корректного машинного перевода:
- •Часть 3. Формирование пользовательского словаря
- •Проанализируйте фрагмент английского текста и сформируйте англо-русский словарь словосочетаний для его корректного перевода:
- •Проанализируйте фрагмент английского текста и сформируйте англо-русский словарь словосочетаний для его корректного перевода:
- •Проанализируйте перевод английского фрагмента и отредактируйте его:
- •Проанализируйте перевод английского фрагмента и отредактируйте его:
Задание 2. Предредактирование.
1. Проанализируйте приведенные ниже примеры текстов и отредактируйте их для получения корректного машинного перевода:
This approach has shown that the definition of what is a term or not is rather subjective and highly depends on the final use of the terminology. This approach has also highlighted the fact that the term/concept relation is not always unequivocal and that terms do vary. Heavily relying on textual data, this approach seeks to describe terms usage and variation rather than prescribe it.
This information can be extracted during the term alignment process and come as a side product of it or it can be retrieved from online public ressources like Wikipedia or Wiktionary.
This paper describes the implementation a set of CALL (Computer Assisted Language Learning) programs for learners of North S´ami (a Uralic language), based on a finite state transducer (fst) and constraint grammar (CG) technology.
We compiled different analysers/generators for different purposes: one normative but variation-tolerant transducer for analysing the input, and two strict ones for different dialects for sentence generation.
The core module is an XML structure compliant with the TMF (Terminological Markup Framework) meta-model (ISO, 2001).
Часть 3. Формирование пользовательского словаря
Система МП текстов может использоваться как часть автоматизированного рабочего места переводчика, обеспечивая при этом получение перевода, жестко ориентированного на конкретную предметную область, задачи пользователя и тип документации.
На этом же этапе должен быть осуществлен выбор основных лингвистических ресурсов: электронных словарей, энциклопедических баз данных, корпусов текстов и средств работы с ними.
Этап поддержки ресурсов АРМ необходим для постоянного ведения системы (добавления и/или уточнения ее состава, введения новых «пользовательских» ресурсов, пополнения корпуса параллельных текстов и т.п.) и настройки ее на задачи конкретного переводчика, поэтому рассмотрим его несколько позже.
В процессе перевода в режиме реального времени текст может предварительно обрабатываться, при этом:
получение частотного словаря и миниконкорданса по конкретному тексту помогает выявить основную терминологию и установить ее контекст,
предварительное редактирование текста позволяет снять его стилистические несообразности, устранить сверхдлинные предложения и т.д.
использование системы машинного перевода, выбранной и настроенной на необходимую предметную область, дает вариант перевода, который требует анализа и постредактирования.
Постредактирование результатов МП и получение окончательного варианта перевода текста требует обращения к словарным и энциклопедическим базам данных, выбранным переводчиком, а также к заранее выбранным корпусам текстов. При решении вопроса о выборе перевода конкретной терминологической единицы необходимо привлечение миниконкорданса. В результате работы на этапе собственно перевода должен формироваться пользовательский словарь, характеризующий терминологические особенности конкретного текста. Этот словарь на этапе поддержки выбранной системы машинного перевода добавляется в его лингвистические ресурсы.
Таким образом, после завершения перевода конкретного текста должна происходить перенастройка лингвистических ресурсов: пополняться корпус параллельных текстов за счет исходного текста и его перевода, формироваться и/или пополняться пользовательский словарь, включающий терминологию, выявленную и проверенную переводчиком, пополняться база словарей.
Только постоянное ведение собственной системы машинного перевода позволяет использовать ее с максимальным эффектом, настраивая словари на необходимую терминологию и выбирая удобные средства и методы постредактирования.
Задание 3. Формирование пользовательского словаря
