Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

машинный перевод

.docx
Скачиваний:
5
Добавлен:
08.08.2022
Размер:
22.51 Кб
Скачать

Слайд 1

Слайд 2-Читать со слайда

Слайд 3- Читать со слайда

Слайд 4- Читать со слайда

Слайд 5- Читать со слайда

Слайд 6

Слайд 7

Предварительная подготовка материалов может значительно упростить задачу системе МП и редакторам, которые будут дорабатывать сырой машинный перевод. Такая подготовка начинается ещё на этапе написания исходного текста — с этой целью для технических писателей и авторов разрабатываются стандарты, соблюдение которых позволяет сделать текст более простым для понимания и перевода, как машинного, так и человеческого.

Существуют три правила, выполнение которых наиболее существенно повышает качество машинного перевода с английского языка.

  1. Использование глаголов в действительном залоге вместо герундия

  2. Использование активного залога вместо пассивного

  3. Отказ от использования составных предложений и однородных членов

В идеале каждое предложение должно содержать одну законченную мысль. Именно это правило, в равной степени применимое для всех языков, является самым эффективным из трёх.

Как показал эксперимент, следование этим несложным правилам в сочетании с надлежащей адаптацией системы МП значительно повышает скорость доработки полученного на выходе текста. Это позволяет судить о том, сколь большую выгоду способна принести формализация и стандартизация текста при подготовке к машинному переводу — будь то управление составлением текста с помощью специальных программ, его предварительное редактирование или простое соблюдение автором нескольких наиболее эффективных правил.

Постредактирование — это правка сырого машинного перевода редактором, обычно имеющим специальную подготовку и опыт работы с машинными текстами. В большинстве случаев машинный перевод нуждается в последующей редакторской доработке, но иногда её можно опустить — в частности, когда тексты переводятся для внутренних нужд с целью понять общее содержание или найти определённые материалы. Затраты времени и труда на постредактирование — один из важнейших факторов, который следует учитывать, оценивая экономическую целесообразность машинного перевода. Художественные, рекламные и другие тексты, изначально не предназначенные для перевода машинным способом, не подлежат и постредактированию: чтобы довести качество текста до уровня, аналогичного человеческому переводу, редактору придётся переписывать его практически с нуля, что сводит на нет всякую выгоду от применения машинного перевода.

Слайд 8

Пословный перевод

Такие системы используются сейчас крайне редко из-за низкого качества перевода. Слова исходного текста преобразуются (как есть) в слова переводного текста. Часто такое преобразование происходит без лемматизации и морфологического анализа. Это самый простой метод машинного перевода. Он используется для перевода длинных списков слов (например, каталогов). Так же он может быть использован для составления подстрочечника для TM-систем

Системы пословного перевода на данный момент используются только для составления подстрочечника, как отмечалось ранее.

Преимущества:

  • простота;

  • высокая скорость работы;

  • не требовательные к ресурсам.

Недостатки:

  • низкое качество перевода.

Ярких представителей на рынке нет, в данном случае удобнее создавать новую систему под конкретную задачу.

Слайд 9

Работа любой системы трансфертного перевода состоит как минимум из пяти частей:

  • Морфологический анализ. Слова исходного текста классифицируются по частям речи. Выявляются их морфологические признаки. Определяются леммы слов.

  • Лексические категоризации. В любом тексте некоторые слова могут иметь более чем одно значение, вызывая неоднозначность в анализе. При лексической категоризации выявляется контекст слова. Возможны различного рода пометки и уточнения.

  • Лексический трансфер. На основе двуязычного словаря происходит перевод лемм слов. Действие очень похоже на пословный перевод.

  • Структурный трансфер. Слова согласуются в предложении.

  • Морфологическая генерация. На основе выходных данных структурного трансфера создаются словоформы переводного текста.

Слайд 10- Читать со слайда

Слайд 11

В этом методе перевода, межъязыковое представление можно рассматривать как способ описания анализа текста, на языке оригинала. При этом, в представлении сохраняются морфологические, синтаксические характеристики текста. Предполагается, что таким образом можно передать «смысл» при создании переводного текста.

При этом иногда используется два межъязыковых представления. Одно из них более отражает характеристики исходного языка. Другое – языка перевода. Перевод в данном случае производится в два этапа.

Для использования системы интерлингвистического машинного перевода необходимы:

  • словари для анализа и генерации текстов;

  • описание грамматик языков;

  • база знаний понятий (для создания межъязыкового представления);

  • правила проекции понятий для языков и представления.

Слайд 12- Читать со слайда

Слайд 13- Читать со слайда

Слайд 14- Читать со слайда

Статистический машинный перевод основан на поиске наиболее вероятного перевода предложения с использованием данных из двуязычных корпусов текстов. В результате при выполнении перевода компьютер не оперирует лингвистическими алгоритмами, а вычисляет вероятность применения того или иного слова или выражения. Слово или последовательность слов, имеющие оптимальную вероятность, считаются наиболее соответствующими переводу исходного текста и подставляются компьютером в получаемый в результате текст.

В статистическом машинном переводе ставится задача не перевода текста, а задача его расшифровки. Мы предполагаем, что статья, написанная на английском языке, на самом деле является статьей написанной на английском, но текст зашифрован (или искажен шумом). При таком подходе становится понятно почему, чем дальше языки, тем лучше работает статистический метод, по сравнению с классическими подходами.

Слайд 15- Читать со слайда