Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Sistemy_mashinnogo_perevoda_lektsia_for_student...doc
Скачиваний:
3
Добавлен:
20.08.2019
Размер:
74.75 Кб
Скачать

Системы машинного перевода

Лекция, 3-й курс, фит

  1. История МТ

  2. Лингвистические методы

    1. Трансфер – пример Prompt

    2. Интерлингва – пример UNL

  3. Фразеологический МТ – Retrans

  4. Статистический МТ – Google

  5. TM – Trados + Prompt

  6. Сервисы

  7. И что?

1

  • Датой рождения машинного перевода как области исследований принято считать 1947 год. Все началось с письма Уоррена Вивера, директора отделения естественных наук Рокфеллеровского фонда, к Норберту Винеру в марте 1947 года. В письме Уоррен Вивер сравнил задачу перевода с задачей дешифровки текстов, которая к тому времени уже начала механизироваться. За этим письмом последовало множество дискуссий, меморандум о целях, а затем выделение средств на исследования.

  • И уже в 1952 году состоялась первая конференция, организованная знаменитым математиком Бар-Хиллелом, где исследователи обменялись идеями относительно организации множества синтаксических правил языка, способов описания семантики, морфологических структур, структуры словарей для систем перевода.

  • Академические исследования стимулировали коммерческий интерес к проблеме, и фирма IBM совместно с Джорджтаунским университетом к 1954 году сумела сделать первую систему, содержавшую словарь из 250 слов и 6 синтаксических правил и обеспечивающую перевод 49 заранее отобранных предложений. Этот эксперимент стал началом исследовательского бума, и за первые 10 лет правительство и военные ведомства США истратили на исследования в области машинного перевода около 40 миллионов долларов.

  • В том же 1954 первый эксперимент по машинному переводу был осуществлен в СССР И.К.Бельской (лингвистическая часть) и Д.Ю.Пановым (программная часть) в Институте точной механики и вычислительной техники Академии наук СССР, а первый промышленно пригодный алгоритм машинного перевода и система машинного перевода с английского языка на русский на универсальной вычислительной машине были разработаны коллективом под руководством Ю.А.Моторина.

  • От эйфории первых результатов 1954 года до полного отрицания осуществимости этой идеи прошло всего 8 лет. Выводы были сделаны на основании обзора специального комитета по прикладной лингвистике (ALPAC) Национальной Академии Наук США, который констатировал, что системы автоматического перевода не смогут обеспечить приемлемое качество перевода в обозримом будущем. Следствием этой публикации было сокращение финансирования и общее снижение интереса к проблематике МП, однако полного сворачивания исследований, в особенности теоретических, не произошло.

  • Новый подъем исследований в области МП начался в 1970-х годах и был связан с серьезными достижениями в области компьютерного моделирования интеллектуальной деятельности. Соответствующая область исследований, возникшая несколько позже МП (датой ее рождения обычно считают 1956), получила название искусственного интеллекта, а создание систем машинного перевода было осмыслено в 1970-е годы как одна из частных задач этого нового исследовательского направления.

  • Зато 90-ые годы можно считать временем настоящего возрождения для машинного перевода, так как развитие персональных компьютеров, появление сканеров и программ OCR, а также распространение Интернета и внедрение Интранета обусловили реальный спрос на машинный перевод. Машинный перевод снова стал привлекательной сферой для вложения капиталов как для частных инвесторов, так и для государственных структур. Так, например, Европейский Союз потратил более 70 млн. долларов на исследования в этой области, а японские государственные организации - более 200 млн. долларов.

  • В 1990 г. Ларри Чаилдс, специалист по машинному переводу, предложил следующую классификацию систем машинного перевода:

    • FAMT (Fully-automated machine translation) - полностью автоматизированный машинный перевод;

    • HAMT (Human-assisted machine translation) - машинный перевод при участии человека;

    • MAHT (Machine-assisted human translation) - перевод, осуществляемый человеком с использованием компьютера.

  • Можно выделить два основных стимула к развитию работ по машинному переводу в современном мире. Первый – собственно научный; он определяется комплексностью и сложностью компьютерного моделирования перевода. Как вид языковой деятельности перевод затрагивает все уровни языка – от распознавания графем (и фонем при переводе устной речи) до передачи смысла высказывания и текста. Кроме того, для перевода характерна обратная связь и возможность сразу проверить теоретическую гипотезу об устройстве тех или иных языковых уровней и эффективности предлагаемых алгоритмов. Эта характеристическая черта перевода вообще и машинного перевода в частности привлекает внимание теоретиков, в результате чего продолжают возникать все новые теории автоматизации перевода и формализации языковых данных и процессов.

  • Второй стимул – социальный, и обусловлен он возрастающей ролью самой практики перевода в современном мире как необходимого условия обеспечения межъязыковой коммуникации, объем которой возрастает с каждым годом. Другие способы преодоления языковых барьеров на пути коммуникации – разработка или принятие единого языка, а также изучение иностранных языков – не могут сравниться с переводом по эффективности. С этой точки зрения можно утверждать, что альтернативы переводу нет, так что разработка качественных и высокопроизводительных систем машинного перевода способствует разрешению важнейших социально-коммуникативных задач.

Японский ученый Макото Нагао однажды заметил, что рано или поздно любая система машинного перевода зайдет в тупик. Проще говоря, увеличение словаря, совершенствование функциональных возможностей этих программ не приведет к существенному повышению качества текста, которые они будут выдавать на выходе.

Причин тому множество. Но все же главным препятствием на пути достижения компьютерными программами уровня перевода, сделанного профессиональными лингвистами, является наличие таких языковых явлений, как полисемия (разные значения одного и того же слова) и омонимия (совпадение различных по значению слов). Поэтому получить абсолютно связный текст на другом языке в обозримом будущем вряд ли удастся.

2

Сначала поясним некоторые определения: вместе с развитием машинного перевода как области прикладной лингвистики появились и классификации систем, и стало принято делить системы перевода на системы типа TRANSFER и системы типа INTERLINGUA. Это разделение основано на особенностях архитектурных решений для лингвистических алгоритмов.

  • Алгоритмы перевода для систем типа TRANSFER строятся как композиция трех процессов: анализ входного предложения в терминах структур входного языка, преобразование этой структуры в аналогичную структуру выходного языка (TRANSFER) и затем синтез выходного предложения по полученной структуре.

  • Системы типа INTERLINGUA предполагают априори наличие некоторого метаязыка структур (INTERLINGUA), на котором можно описать все структуры как входного, так и выходного языков в общем случае; поэтому алгоритм перевода в системе типа INTERLINGUA предполагается как более простой: анализ входного предложения в терминах метаязыка и затем синтез из метаструктуры соответствующего предложения выходного языка. "Единственная" сложность в этом случае - разработать сам метаязык и описать естественный язык в соответствующих терминах.

Prompt

Все модули перевода разработаны на основе технологии единого исходного кода, что обеспечивает независимость от операционной системы. Модуль перевода представляет собой систему типа «transfer», основанную на описании грамматики в виде расширенных сетей переходов - ATN (Augmented Transition Network Grammar). Система работает с использованием информации, заданной в словарных статьях слов и выражений в словарях системы - части лингвистической базы данных. Основные компоненты модуля перевода:

  • Препроцессор (языково-независимая часть),

  • Нормализация текста (языково-независимая часть),

  • Лексический анализ (зависит от входного языка),

  • Семантико-синтаксический разбор (зависит от входного языка),

  • Transfer (зависит от входного и выходного языка),

  • Синтез (зависит от выходного языка).

Компоненты лингвистической базы данных используются на всех стадиях анализа и синтеза текста:

  • На стадии предварительной обработки - ассоциированная память (если задана в системе);

  • На стадии лексического анализа - древесные структуры, описывающие входную морфологию, и словари;

  • На стадии семантико-синтаксического анализа - расширенные сети переходов;

  • На стадии синтеза - выходные морфологические таблицы.

Сам трансфер:

  • В системе выделяется уровень лексических единиц, уровень групп, уровень простых предложений и уровень сложных предложений. Все эти процессы связаны и взаимодействуют иерархически в соответствии с иерархией текстовых единиц, обмениваясь синтезируемыми и наследуемыми признаками. Такое устройство алгоритмов позволяет использовать разные формальные методы для описания алгоритмов разных уровней.

  • Рассмотрим уровень лексических единиц: лексическая единица - это слово или словосочетание, которое является единицей самого низкого уровня. И в случае входного, и в случае выходного языка слово описывается как совокупность основы и окончания. Это обеспечивает возможность, с одной стороны, распознавания входных слов и анализа входной морфологии и, с другой стороны, удобного синтеза выходных слов по их морфологической информации (основа, тип словоизменения и адрес окончания в массиве окончаний этого типа). Таким образом, если ввести правила преобразования входной морфологической информации в выходную морфологическую информацию, осуществляется TRANSFER на морфологическом уровне.

  • Уровень групп рассматривает структуры более сложные: группы существительных, прилагательных, наречий и сложные глагольные формы. Этот уровень при анализе, основываясь на формальных сетевых грамматиках, умеет соединять группы в синтаксические единицы, каждая из которых характеризуется синтезированной структурной информацией и главным элементом группы. По входной структуре, полученной в терминах непосредственных составляющих, вместе с синтезированными признаками формируется выходная группа как набор лексических единиц со значениями морфологических признаков, которые могут наследоваться исходя из результатов анализа группы. Таким образом реализуется TRANSFER на уровне групп.

  • Анализ простых предложений как структур, состоящих из синтаксических единиц, выполняется на основе фреймовых предикатных структур, которые позволяют эффективно выполнять преобразования. Глагол считается для простых предложений главным элементом и его валентности определяют заполнение соответствующего фрейма. Для каждого типа фреймов существует некоторый закон преобразования в выходной фрейм и оформление актантов. Таким образом осуществляется TRANSFER на уровне предложений. Анализ сложных предложений требуется в случае формирования согласования времен и правильного перевода союзов.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]