- •Оглавление
- •1. Понятие прикладной лингвистики. Основные проблемы и направления.
- •2. Денотатные модели содержания текста. Понятие о денотатной структуре текста.
- •3. Принципы формального описания языков. Формальные грамматики.
- •4. Разрешение семантической неоднозначности. Основные методы.
- •5. Вероятностное моделирование лингвистических процессов
- •6. Моделирование как основной метод прикладной лингвистики. Типы моделей
- •7. Тема-рематическое структурирование текста. Понятие темы и ремы. Формальный анализ.
- •10. Типы и виды диалогов. Модели управления диалогом
- •11. Понятие политической лингвистики. Специфика речевого общения в политической сфере коммуникации.
- •12. Проблемы квантитативной лингвистики
- •13. Принципы морфологической разметки в корпусе русского литературного языка (narusco).
- •14. Корпусная лингвистика. Типы корпусов.
- •15. Аннотирование корпусов. Виды разметки корпусов.
- •18. Оптимизация обработки информации с помощью компьютера
- •20. Характеристика основных программ анализа звучащей речи (Praat, CoolEditPro, WinPitch) (основные действия, для чего, основные принципы анализа)
- •21. Основы современных программ распознавания речи. Марковские цепи
- •22. Характеристика программ распознавание письменного текста.
- •24. Дешифровка текста и диагностика искажений в словах.
- •25. Экспертные системы. Лингвистическое обеспечение экспертных систем
- •26. Автоматический семантический анализ. Проблемы и достижения. Поверхностные и глубинные уровни семантического анализа
- •27. Семантические сети. Принципы организации и применение. WordNet, RusNet
- •28. Автоматический морфологический анализ. Словарные и бессловарные методы. Тэггинг
- •29. Моделирование речевой деятельности. Модели порождения речи.
- •30. Автоматический синтаксический анализ. Парсинг. Деревья зависимостей.
- •31. Модели восприятия речи. Соотношение восприятия и понимания.
- •32. Основные проблемы терминоведения. Терминологические словари. Представление терминологии в информационных системах.
- •33. Мультимедийные и онлайновые словари. Компьютерная лексикография.
- •34. Проблемы компьютерной лингводидактики. Типы обучающего по.
- •35. Основные проблемы преподавания иностранных языков. Этапы и типы обучения ия. Структурный и коммуникативный подходы.
- •37. Обучающие и образовательные технологии и системы. Проблема эффективности компьютерных обучающих средств.
- •39. Проблемы речевого взаимодействия: коммуникативные стратегии, тактики, постулаты, импликатуры.
- •41. Пропозициональный анализ текста как одно из направлений формально-логического анализа.
- •44. Типология текстов и особенности перевода различных типов текста (Художественный и специальный перевод).
- •45. Формальный подход к переводческой эквивалентности. Методы. Особенности реализаций.
- •46. Понятие машинного перевода, классификация систем мп.
- •47. Понятие эквивалентности в теории перевода. Типы и уровни эквивалентности.
- •48. Формальный подход к оценке качества перевода. Методы. Особенности реализаций.
- •49. Системы прямого перевода, алгоритм прямого перевода.
- •50. Системы статистического перевода, особенности формирования массива переводческих пар.
- •51. Системы автоматизированного перевода. Назначение, классификация, особенности реализации.
- •52. Моделирование как метод исследования перевода. Языковые и коммуникативные модели.
- •I этап: 40-ые гг. «Первые шаги»
- •II этап: 50-ые гг. «Первое разочарование»
- •III этап: 60-ые гг. «Низкий старт»
- •IV этап: 70-80-ые гг. «Новый импульс»
- •V этап: Современное состояние:
- •53. Судебная (юридическая) лингвистика как одно из актуальных направлений прикладной лингвистики. Предмет, цели, задачи
- •55. Методология и методика лингвистической экспертизы.
- •56. Основные понятия когнитивной лингвистки. Общая характеристика когнитивного подхода к языку и речевой деятельности.
- •57. Модель концептуальной зависимости р. Шенка. Применение в пл.
- •59. Теория концептуальной метафоры Дж. Лакоффа.
- •60. Модель «смысл - текст» и.А. Мельчука. Применение в пл.
50. Системы статистического перевода, особенности формирования массива переводческих пар.
Статистический машинный перевод (СМП) – разновидность машинного перевода текста, основанная на сравнении больших объемов языковых пар.
Сущность СМП составляет оценка вероятности, с которой любое слово в предложении на одном языке соотносится со словами в предложениях на языке перевода в корпусе параллельных текстов. Варианты перевода конкретного предложения исходного языка на язык перевода ранжируются по вероятности их соответствия, лучшим признается тот вариант, вероятность соответствия сочетаний слов в котором выше, чем в остальных.
Вычисление вероятностей зависит от 2-х измерений:
1. Вероятность соответствия слов в исходном и переводном предложениях;
2. Вероятность правильности комбинации слов в языке перевода.
Показатель вероятности соответствия слов в исходном и переводном предложениях получают на основе обработки параллельных корпусов, определяя относительное распределение слов в текстах на 2-х языках.
Следующей задачей вычисления вероятности является определение наилучшего комбинирования выбранных слов в языке перевода. И задача тем проще, чем больше расстояние м\у словами в предложении на языке перевода: чем больше расстояние, тем меньше вероятность сочетания, поскольку ближайший контекст более предсказуем.
Языковые пары (ЯП) – тексты, содержащие предложения на одном языке и соответствующие им предложения на втором, м.б. вариантами написания двух предложений человеком – носителем двух языков, так и переводом с исходного на язык перевода, выполненный человеком. можно говорить о СМП как о применении корпусной лингвистики.
Таким образом, статистический машинный перевод обладает свойством «самообучения». Чем больше в распоряжении имеется языковых пар и чем точнее они соответствуют друг другу, тем лучший результат статистического машинного перевода.
Источники языковых пар:
Экспертные – набор текстов подготавливается переводчиком-экспертом;
Двуязычные тексты, например, отчеты правительств n – язычных стран; отчеты Европравительства; материалы конференций; художественная литература.
Основная задача: поиск наиболее вероятного перевода предложения с использованием данных, полученных из набора языковых пар.
Правила выбора варианта перевода:
Грязный – выбирается первый встреченный вариант.
Статистический – выбирается наиболее частотный вариант. Требуется больший массив ЯП.
Контекстный - статистический, но производится учет контекста ключа.
Аналитический – вместо прямого сравнения производится синтаксический анализ ЯП. Такой способ позволяет переводить более широкий класс текстов, чем предусмотрено массивом ЯП.
«+» система машинного перевода двуязычна (n-язычна) и включает в себя словари с опорой на морфологию, синтаксис, семантику,
используется для передачи переводных соответствий (эквивалентных, вариантных, трансформационных),
отличается легкой настройкой на межъязыковой перевод без серьезной потери качества.
51. Системы автоматизированного перевода. Назначение, классификация, особенности реализации.
Машинный перевод - процесс перевода текстов (письменных, а в идеале и устных) с одного естественного языка на другой полностью специальной компьютерной программой.
Системы машинного перевода бывают 2-х типов:
1. Автоматический перевод – перевод выполняется без взаимодействия с пользователем.
2. Автоматизированный перевод – система «помогает» пользователю выполнять перевод (machine-assisted translation (MAT)). Как правило, применяются при переводе компьютерных программ.
Автоматизированный перевод (АП, англ. Computer-Aided Translation) - перевод текстов на компьютере с использованием компьютерных технологий. От машинного перевода (МП) он отличается тем, что весь процесс перевода осуществляется человеком, компьютер лишь помогает ему произвести готовый текст либо за меньшее время, либо с лучшим качеством.
Назначение:
- при письменном переводе - работа со словарями и глоссариями, памятью переводов (англ. Translation Memory, TM), содержащей примеры ранее переведенных текстов, а также использование так называемых корпусов, больших коллекций текстов на одном или нескольких языках, что дает сжатое описание того, как слова и выражения реально используются в языке в целом или в конкретной предметной области.
- для локализации программного обеспечения применяются специализированные средства, например, Passolo, которые позволяют переводить меню и сообщения в программных ресурсах.
- для перевода аудиовизуальных материалов (главным образом фильмов) также используются специализированные средства, например, Swift, которые объединяют в себе некоторые аспекты памяти переводов, но дополнительно обеспечивают возможность появления субтитров по времени, их форматирования на экране, следования видеостандартам и т.п.
- при синхронном переводе использование средств автоматизированного перевода по необходимости ограничено. Одним из примеров является использование словарей, загружаемых на ПК. Другим примеров может служить полуавтоматическое извлечение списков терминов при подготовке к синхронному переводу в узкой предметной области.
Классификация:
К системам АП можно отнести: системы памяти перевода, словари, проверка грамматики, терминология, автоопределения языка, а также другие приложения (учёт заданий на перевод текста и необходимого времени, статистика в документах разных форматов и др.).
При использовании систем автоматизированного перевода значительно повышается эффективность работы переводчика: качество и скорость перевода существенно отличаются в лучшую сторону.
Автоматизированный перевод охватывает широкий спектр простых и сложных инструментов. Они могут включать:
Программы для проверки правописания, которые могут быть встроены в текстовые редакторы или дополнительные программы;
Программы для проверки грамматики, которые также встраиваются в текстовые редакторы или дополнительные программы;
Программы для управления терминологией, которые позволяют переводчикам управлять своей собственной терминологической базой в электронной форме.
Словари на компакт-дисках, одноязычные или многоязычные;
Терминологические базы данных, хранимые на компакт-дисках или подключаемые по Интернету.
Программы для полнотекстового поиска (или индексаторы), которые позволяют пользователю обращаться с запросами к ранее переведенным текстам или разного рода справочным документам.
Программы конкорданса, которые позволяют находить примеры слов или выражений в употребляемом контексте в одноязычном, двуязычном или многоязычном корпусе, как например, битекст или память переводов. Битекст, одно из нововведений последнего времени, это результат слияния исходного текста и его перевода, который впоследствии может быть проанализирован при помощи программ для полнотекстового поиска или конкорданса;
Программное обеспечение для управления проектами, которое позволяет лингвистам структурировать сложные переводческие проекты, передавать выполнение различных задач разным сотрудникам и наблюдать за процессом выполнения этих задач;
Программы управления памятью переводов (TMM), состоящие из базы данных сегментов текста на исходном языке и их переводов на один или более целевых языков;
Почти полностью автоматические системы, напоминающие машинный перевод, но позволяющие пользователю вносить определенные изменения в сомнительных случаях. Иногда такие программы называют машинным переводом с участием человека.
Чаще всего при работе в системе АП используется функция «Памяти перевода». Эта функция дает переводчику несомненные преимущества:
Одинаковое предложение, встречающееся в разных местах, не нужно переводить дважды.
Если до этого было переведено подобное предложение, то необходимо лишь откорректировать предыдущий перевод.
Если перевод текста выполняет группа переводчиков, то законченный текст получается более однородным стилистически, чем без применения CAT. Редактирование и вычитка убыстряются, и срок сдачи заказа соответственно сокращается.
Системы автоматизированного перевода позволяют сохранять единую терминологию в тексте.
Память переводов (ПП, англ. translation memory, TM иногда называемая «Накопитель переводов») - база данных, содержащая набор ранее переведенных текстов. Одна запись в такой базе данных соответствует «единице перевода» (англ. translation unit), за которую обычно принимается одно предложение (реже — часть сложносочинённого предложения, либо абзац). Если очередное предложение исходного текста в точности совпадает с предложением, хранящимся в базе (точное соответствие, англ. exact match), оно может быть автоматически подставлено в перевод. Новое предложение может также слегка отличаться от хранящегося в базе (неточное соответствие, англ. fuzzy match). Такое предложение может быть также подставлено в перевод, но переводчик будет должен внести необходимые изменения.
Помимо ускорения процесса перевода повторяющихся фрагментов и изменений, внесенных в уже переведенные тексты (например, новых версий программных продуктов или изменений в законодательстве), системы ПП также обеспечивают единообразие перевода терминологии в одинаковых фрагментах, что особенно важно при техническом переводе. С другой стороны, если переводчик регулярно подставляет в свой перевод точные соответствия, извлеченные из баз переводов, без контроля их использования в новом контексте, качество переведенного текста может ухудшиться.
Большинство систем ПП как минимум поддерживают создание и использование словарей пользователя, создание новых баз данных на основе параллельных текстов (англ. alignment), а также полуавтоматическое извлечение терминологии из оригинальных и параллельных текстов.
Пример: Trados (наиболее популярная программа, долгое время бывшая стандартом ПП)
Архитектура автоматизированной системы и ее функциональные возможности могут различаться:
- средства поиска могут работать как с целыми сегментами, так и с отдельными словами или фразами, позволяя переводчику выполнять терминологический поиск.
- в систему также включают отдельную программу для работы с глоссарием, содержащим утвержденные для применения в проекте термины. Некоторые системы работают с программами машинного перевода. Основной рабочий интерфейс либо встраивается непосредственно в имеющийся текстовый процессор, такой как Word, либо представляет собой отдельный редактор. В состав системы обязательно включают фильтры для импорта-экспорта файлов различных форматов. Кроме того, многие системы, если не все, имеют средство для добавления в память перевода сегментов из, как правило, имеющихся у переводчика старых переведенных файлов.
Применение: Несмотря на то, что идея автоматизированного перевода (с привлечением глоссариев, словарей, «памяти переводов» и базовых корпусов текстов) в последнее время чрезвычайно популярна, хороших автоматизированных переводчиков пока нет. Пока что автоматизированные переводчики используются только в том случае, если текст для перевода представлен узкоспециальный (технический, к примеру), а база памяти переводов и корпусная база (база тематических текстов) в компьютере достаточно велики. Но и такой перевод требует человеческого редактирования (пост-редактирования) по результатам работы компьютера. На сегодня уже многие юридические тексты переведены именно таким путем.
