Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ОПЛ_ответы.doc
Скачиваний:
3
Добавлен:
01.05.2025
Размер:
1.07 Mб
Скачать

50. Системы статистического перевода, особенности формирования массива переводческих пар.

Статистический машинный перевод (СМП) – разновидность машинного перевода текста, основанная на сравнении больших объемов языковых пар.

Сущность СМП составляет оценка вероятности, с которой любое слово в предложении на одном языке соотносится со словами в предложениях на языке перевода в корпусе параллельных текстов. Варианты перевода конкретного предложения исходного языка на язык перевода ранжируются по вероятности их соответствия, лучшим признается тот вариант, вероятность соответствия сочетаний слов в котором выше, чем в остальных.

Вычисление вероятностей зависит от 2-х измерений:

1. Вероятность соответствия слов в исходном и переводном предложениях;

2. Вероятность правильности комбинации слов в языке перевода.

Показатель вероятности соответствия слов в исходном и переводном предложениях получают на основе обработки параллельных корпусов, определяя относительное распределение слов в текстах на 2-х языках.

Следующей задачей вычисления вероятности является определение наилучшего комбинирования выбранных слов в языке перевода. И задача тем проще, чем больше расстояние м\у словами в предложении на языке перевода: чем больше расстояние, тем меньше вероятность сочетания, поскольку ближайший контекст более предсказуем.

Языковые пары (ЯП) тексты, содержащие предложения на одном языке и соответствующие им предложения на втором, м.б. вариантами написания двух предложений человеком – носителем двух языков, так и переводом с исходного на язык перевода, выполненный человеком.  можно говорить о СМП как о применении корпусной лингвистики.

Таким образом, статистический машинный перевод обладает свойством «самообучения». Чем больше в распоряжении имеется языковых пар и чем точнее они соответствуют друг другу, тем лучший результат статистического машинного перевода.

Источники языковых пар:

Экспертные – набор текстов подготавливается переводчиком-экспертом;

Двуязычные тексты, например, отчеты правительств n – язычных стран; отчеты Европравительства; материалы конференций; художественная литература.

Основная задача: поиск наиболее вероятного перевода предложения с использованием данных, полученных из набора языковых пар.

Правила выбора варианта перевода:

Грязный – выбирается первый встреченный вариант.

Статистический – выбирается наиболее частотный вариант. Требуется больший массив ЯП.

Контекстный -  статистический, но производится учет контекста ключа.

Аналитический – вместо прямого сравнения производится синтаксический анализ ЯП. Такой способ позволяет переводить более широкий класс текстов, чем предусмотрено массивом ЯП.

«+» система машинного перевода двуязычна (n-язычна) и включает в себя словари с опорой на морфологию, синтаксис, семантику,

используется для передачи переводных соответствий (эквивалентных, вариантных, трансформационных),

отличается легкой настройкой на межъязыковой перевод без серьезной потери качества.

51. Системы автоматизированного перевода. Назначение, классификация, особенности реализации.

Машинный перевод - процесс перевода текстов (письменных, а в идеале и устных) с одного естественного языка на другой полностью специальной компьютерной программой.

Системы машинного перевода бывают 2-х типов:

1. Автоматический перевод – перевод выполняется без взаимодействия с пользователем.

2. Автоматизированный перевод – система «помогает» пользователю выполнять перевод (machine-assisted translation (MAT)). Как правило, применяются при переводе компьютерных программ.

Автоматизированный перевод (АП, англ. Computer-Aided Translation) - перевод текстов на компьютере с использованием компьютерных технологий. От машинного перевода (МП) он отличается тем, что весь процесс перевода осуществляется человеком, компьютер лишь помогает ему произвести готовый текст либо за меньшее время, либо с лучшим качеством.

Назначение:

- при письменном переводе - работа со словарями и глоссариями, памятью переводов (англ. Translation Memory, TM), содержащей примеры ранее переведенных текстов, а также использование так называемых корпусов, больших коллекций текстов на одном или нескольких языках, что дает сжатое описание того, как слова и выражения реально используются в языке в целом или в конкретной предметной области.

- для локализации программного обеспечения применяются специализированные средства, например, Passolo, которые позволяют переводить меню и сообщения в программных ресурсах.

- для перевода аудиовизуальных материалов (главным образом фильмов) также используются специализированные средства, например, Swift, которые объединяют в себе некоторые аспекты памяти переводов, но дополнительно обеспечивают возможность появления субтитров по времени, их форматирования на экране, следования видеостандартам и т.п.

- при синхронном переводе использование средств автоматизированного перевода по необходимости ограничено. Одним из примеров является использование словарей, загружаемых на ПК. Другим примеров может служить полуавтоматическое извлечение списков терминов при подготовке к синхронному переводу в узкой предметной области.

Классификация:

К системам АП можно отнести: системы памяти перевода, словари, проверка грамматики, терминология, автоопределения языка, а также другие приложения (учёт заданий на перевод текста и необходимого времени, статистика в документах разных форматов и др.).

При использовании систем автоматизированного перевода значительно повышается эффективность работы переводчика: качество и скорость перевода существенно отличаются в лучшую сторону.

Автоматизированный перевод охватывает широкий спектр простых и сложных инструментов. Они могут включать:

  • Программы для проверки правописания, которые могут быть встроены в текстовые редакторы или дополнительные программы;

  • Программы для проверки грамматики, которые также встраиваются в текстовые редакторы или дополнительные программы;

  • Программы для управления терминологией, которые позволяют переводчикам управлять своей собственной терминологической базой в электронной форме.

  • Словари на компакт-дисках, одноязычные или многоязычные;

  • Терминологические базы данных, хранимые на компакт-дисках или подключаемые по Интернету.

  • Программы для полнотекстового поиска (или индексаторы), которые позволяют пользователю обращаться с запросами к ранее переведенным текстам или разного рода справочным документам.

  • Программы конкорданса, которые позволяют находить примеры слов или выражений в употребляемом контексте в одноязычном, двуязычном или многоязычном корпусе, как например, битекст или память переводов. Битекст, одно из нововведений последнего времени, это результат слияния исходного текста и его перевода, который впоследствии может быть проанализирован при помощи программ для полнотекстового поиска или конкорданса;

  • Программное обеспечение для управления проектами, которое позволяет лингвистам структурировать сложные переводческие проекты, передавать выполнение различных задач разным сотрудникам и наблюдать за процессом выполнения этих задач;

  • Программы управления памятью переводов (TMM), состоящие из базы данных сегментов текста на исходном языке и их переводов на один или более целевых языков;

  • Почти полностью автоматические системы, напоминающие машинный перевод, но позволяющие пользователю вносить определенные изменения в сомнительных случаях. Иногда такие программы называют машинным переводом с участием человека.

Чаще всего при работе в системе АП используется функция «Памяти перевода». Эта функция дает переводчику несомненные преимущества:

  • Одинаковое предложение, встречающееся в разных местах, не нужно переводить дважды.

  • Если до этого было переведено подобное предложение, то необходимо лишь откорректировать предыдущий перевод.

  • Если перевод текста выполняет группа переводчиков, то законченный текст получается более однородным стилистически, чем без применения CAT. Редактирование и вычитка убыстряются, и срок сдачи заказа соответственно сокращается.

  • Системы автоматизированного перевода позволяют сохранять единую терминологию в тексте.

Память переводов (ПП, англ. translation memory, TM иногда называемая «Накопитель переводов») - база данных, содержащая набор ранее переведенных текстов. Одна запись в такой базе данных соответствует «единице перевода» (англ. translation unit), за которую обычно принимается одно предложение (реже — часть сложносочинённого предложения, либо абзац). Если очередное предложение исходного текста в точности совпадает с предложением, хранящимся в базе (точное соответствие, англ. exact match), оно может быть автоматически подставлено в перевод. Новое предложение может также слегка отличаться от хранящегося в базе (неточное соответствие, англ. fuzzy match). Такое предложение может быть также подставлено в перевод, но переводчик будет должен внести необходимые изменения.

Помимо ускорения процесса перевода повторяющихся фрагментов и изменений, внесенных в уже переведенные тексты (например, новых версий программных продуктов или изменений в законодательстве), системы ПП также обеспечивают единообразие перевода терминологии в одинаковых фрагментах, что особенно важно при техническом переводе. С другой стороны, если переводчик регулярно подставляет в свой перевод точные соответствия, извлеченные из баз переводов, без контроля их использования в новом контексте, качество переведенного текста может ухудшиться.

Большинство систем ПП как минимум поддерживают создание и использование словарей пользователя, создание новых баз данных на основе параллельных текстов (англ. alignment), а также полуавтоматическое извлечение терминологии из оригинальных и параллельных текстов.

Пример: Trados (наиболее популярная программа, долгое время бывшая стандартом ПП)

Архитектура автоматизированной системы и ее функциональные возможности могут различаться:

- средства поиска могут работать как с целыми сегментами, так и с отдельными словами или фразами, позволяя переводчику выполнять терминологический поиск.

- в систему также включают отдельную программу для работы с глоссарием, содержащим утвержденные для применения в проекте термины. Некоторые системы работают с программами машинного перевода. Основной рабочий интерфейс либо встраивается непосредственно в имеющийся текстовый процессор, такой как Word, либо представляет собой отдельный редактор. В состав системы обязательно включают фильтры для импорта-экспорта файлов различных форматов. Кроме того, многие системы, если не все, имеют средство для добавления в память перевода сегментов из, как правило, имеющихся у переводчика старых переведенных файлов.

Применение: Несмотря на то, что идея автоматизированного перевода (с привлечением глоссариев, словарей, «памяти переводов» и базовых корпусов текстов) в последнее время чрезвычайно популярна, хороших автоматизированных переводчиков пока нет. Пока что автоматизированные переводчики используются только в том случае, если текст для перевода представлен узкоспециальный (технический, к примеру), а база памяти переводов и корпусная база (база тематических текстов) в компьютере достаточно велики. Но и такой перевод требует человеческого редактирования (пост-редактирования) по результатам работы компьютера. На сегодня уже многие юридические тексты переведены именно таким путем.