Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Квантитативная лингвистика доклад.docx
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
50.79 Кб
Скачать

Как настроить систему Тranslation Memory

Процесс перевода с помощью системы Translation Memory можно условно разделить на следующие этапы:

  1. Сегментирование исходного текста в соответствии с заданными правилами сегментации.

  2. Поиск совпадений между сегментами исходного текста и сегментами, хранящимися в базе переводов. Найденные совпадения программа подставляет в текст перевода с указанием процента совпадения.

  3. Перевод ненайденных сегментов и редактирование частично совпадающих сегментов.

  4. Сохранение корректных переводов в базе TM для последующего использования.

Для упрощения изложения в рамках данной статьи мы сознательно не рассматриваем этапы извлечения текста из исходного документа и последующей верстки переведенного текста в случае перевода документов в таких форматах, как XML, PDF и др.

Рассмотрим возможности настройки системы Translation Memory на примере уже упоминавшейся нами программы PROMT Translation Suite.

Правила сегментации текста

Одна из основных задач во время настройки системы — правильное сегментирование текста. Успех поиска совпадающих сегментов в базе зависит от того, насколько правильно заданы правила сегментации текста 

Существует два типа условий сегментации:

  • правило — задает условия, при которых определенные символы (точка, запятая и т.д.) являются границами сегментов;

  • исключение — задает условия, при которых определенные символы не являются границами сегментов.

Базовый набор правил сегментации автоматически добавляется в каждый проект перевода при его создании. Для того чтобы получить возможность редактирования этих правил, необходимо выбрать команду Свойства в контекстном меню искомого проекта (второй способ: меню Проект -> Все проекты -> Свойства -> Правила сегментации).

В системе можно задать две группы правил сегментации: простые правила и правила с регулярными выражениями.

Простые правила задают условия, определяющие последовательность символов, которые надо или не надо считать границей сегмента. К простым правилам относится строка до разделителя (возможна пустая или определенная последовательность символов), символ разделителя (всегда один!) и строка после разделителя.

Правила с регулярными выражениями существуют для создания более гибких условий сегментации, что также отнюдь не лишне. Если должным образом не задать такие условия, то, например, предложение «Команда выиграла матч со счетом 3:1» может быть неправильно сегментировано. В данном случае необходимо задать исключение (то есть символ, который система не будет считать границей сегмента) в виде строки до разделителя с помощью регулярного выражения « \d+ » (обозначает любое количество цифр), символа разделителя «:» и строки после разделителя с помощью регулярного выражения « \d+ » (любое количество цифр). В этом случае система не обратит внимание на двоеточие между цифрами.

Работа с непереведенными сегментами

В процессе перевода система анализирует текст, находит полностью или частично совпадающие предложения в базе ТМ и подставляет их в текст перевода. В каждом сегменте сбоку указывается процент совпадений, нижний предел которого можно устанавливать самостоятельно, задавая настройки перед переводом.

Как уже упоминалось, система PROMT Translation Suite позволяет переводить сегменты, отсутствующие в базе переводов, с помощью технологии машинного перевода (Machine Translation). Это значительно сокращает время работы над переводом, поскольку править уже готовый перевод легче, чем переводить заново. Для настройки машинного перевода можно использовать стандартный набор функций: создание и пополнение собственных словарей, резервирование слов, применение препроцессоров и ряд других (более подробно читайте о них в статье «Настройка — залог качественного перевода» в этом спецвыпуске).

Нельзя также забывать о необходимости постоянного пополнения баз ТМ для сокращения затрат на перевод в дальнейшем. Для того чтобы добавить корректно переведенные сегменты в базу, щелкните правой клавишей мыши по выделенному сегменту и выберите команду Добавить выделенные сегменты в базу (или нажмите соответствующую кнопку на панели инструментов). Сохранение новых сегментов перевода в базе не только повышает эффективность работы с системой, но и экономит время при переводе последующих текстов.

Кроме того, следует пользоваться командой контекстного меню Завершить перевод сегментов после окончания редактирования сегментов. В этом случае можно избежать случайного внесения изменений в уже отредактированный сегмент.