Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Корпуса текстов.docx
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
52.51 Кб
Скачать

Выводы и методические рекомендации

Из изложенного выше следует, что параллельные корпуса могут служить наглядным примером способов переводов, образцами применения приемов перевода в дальнейшей практике. Они являются своего рода наглядными пособиями для перевода.

Кроме того, сравнивая параллельные корпуса с двуязычными словарями, можно выявить несколько важных различий: двуязычные словари – наборы лексических эквивалентов (обычные словари) или терминов (специализированные словари и терминологические), представленные создателями словарей в качестве вариантов перевода. Параллельные корпуса же являются своего рода сборниками стратегий и эквивалентов перевода, которыми руководствовались и использовали переводчики. При выборе эквивалента перевода из обычного двуязычного словаря переводчик должен оценить, подходит ли предложенный вариант к новому контексту, проверяя уместность каждого из предложенных. Параллельный корпус же предлагает примеры способов перевода подобных проблематичных моментов. Параллельные корпусы могут обеспечить нас информацией, которую двуязычные словари обычно не содержат. Они не только предлагают эквиваленты на уровне одного слова, но также и случаи перевода безэквивалентной лексики. Параллельный корпус наглядно демонстрирует, как именно переводчик справился с подобными проблемами. Поэтому он может не раз помочь при выяснении каких-то проблематичных моментов при переводе текстов. Опять же, с помощью компьютерных технологий переводчик может накапливать свои параллельные электронные тексты для дальнейших работ.

Виртуальный специализированный корпус

Виртуальный специализированный корпус – это обширная по объему выборка текстов по конкретной тематике, специально составленная для поиска переводчиком определенной лингвистической информации. Тексты отбираются из разных источников (периодические издания, энциклопедии, Интернет) по строго определенной тематике и обязательно представлены в электронной форме, преимущественно в формате .txt. сам по себе электронный корпус не имеет особой важности для переводчика, но в сочетании с программой-конкордансером он просто незаменим, особенно для тех, кто переводит с родного языка на иностранный.

Напомним, что коркондансер – это компьютерная программа, которая помогает автоматически построить конкорданс, т.е. список контекстов, в которых слово или словосочетание предстает в своем лексическом окружении и характеризуется определенным набором статистических данных.

Преимущества специализированных корпусов

Вы сами определяете, что именно вы хотите проиндексировать. Здесь следует иметь в виду несколько моментов:

  • Индексы поисковых систем очень обширны, вас же может интересовать употребление того или иного слова в текстах строго определенного типа.

  • Не все сайты индексируются на 100%: ограничения на глубину индексирования накладываются по разным причинам как владельцами поисковых систем, так и владельцами сайтов. Такие сайты, тем не менее, поддаются скачиванию оффлайновыми браузерами.

  • Существует феномен т.н. «невидимой Сети» (invisible Web): все большее число сайтов переходит от статического формирования вэб-страниц к динамическому и размещает всю основную информацию в базах данных. Страницы в этом случае формируются «на лету» в зависимости от запросов или «профилей» пользователей; этот метод также очень удобен для сайтов с постоянно обновляемой информацией (новости, развлечения и т.д.), однако большая часть материалов при этом становится недоступной для поисковых машин, которые в результате как бы скользят по поверхности. Такие сайты могут содержать уникальную информацию, которую вполне можно сохранить на жестком диске вручную или с помощью программы докачки.

  • Все основные поисковые системы имеют т.н. «stop lists», т.е. списки сверхчастотных слов (the, and, is, to), которые не подлежат индексации. Переводчика же зачастую интересуют особенности употребления выражений, содержащих такие служебные слова.

  • Профессиональные поисковые программы предоставляют гораздо более широкий набор функций, чем онлайновые поисковые системы: поиск с заданным интервалом между ключевыми словами, варианты интерпретации дефиса, многочисленные логические операторы и маски, «нечеткий поиск» (fuzzy search), одновременный поиск по нескольким корпусам и проч.

  • Наличие корпуса на жестком диске, естественно, не требует выхода в Интернет. Переход от одного результата поиска к другому также происходит на порядок быстрее, при этом все результаты поиска автоматически подсвечиваются.

Технические рекомендации

Для формирования корпусов текстов лучше всего использовать популярный оффлайновый браузер Teleport Pro (http://www.tenmax.com/teleport/pro/home.htm). В тех случаях, когда сайт не поддается автоматическому скачиванию, интересующие вас материалы можно загрузить вручную, используя программу докачки ReGet (http://www.reget.com/ru) или ее аналоги.

Для индексации и поиска информации можно рекомендовать программу dtSearch (www.dtsearch.com). Программа поддерживает все основные типы файлов (htm *, doc , txt (ANSI и ASCII), xls), индексирует zip-архивы с минимальной потерей скорости, может работать с любыми языками на основе латиницы, с кириллицей и греческими шрифтами. Платная версия также поддерживает формат pdf .

(См. Плунгян, В.А. Почему современная лингвистика должна быть лингвистикой корпусов // Публичная лекция, 2009. [Электронный ресурс]. – URL: http://www.polit.ru/lectures/2009/10/23/corpus.html (дата обращения: 22.01.2011))

Обзор программ для извлечения терминологии

Особую значимость составление собственного глоссария приобретает при переводе больших объемов текста, если присутствует несколько файлов на перевод с единой терминологией (например, серия технических руководств). Использование глоссария позволяет, в таком случае, сохранить единство терминологии при переводе и сэкономить время, необходимое на поиск нужного варианта перевода.

Кроме того, после завершения работы и сдачи перевода заказчику, глоссарий сохраняется у вас для возможного повторного использования.

Чем извлекать терминологию?

Существует множество программ для автоматизированного извлечения терминологии. Перечислим наиболее распространенные:

  1. Simple Concordance Program 4.09 – Автоматическое извлечение терминологии

Simple Concordance Program: Простая в использования и предоставляемой функциональности программа для переводчика, с помощью которой можно извлекать термины и словосочетания, задавая число слов в словосочетании.

Поддерживаются алфавиты: Английский, Французский, Немецкий, Польский, Греческий, Русский.

Сайт разработчика: http://www.textworld.com

Условия распространения: Бесплатная.

Ссылка на скачивание: скачать Simple Concordance Program 4.09 (обязательно проверьте наличие новой версии на сайте разработчика)

Программа извлекает найденные термины в список, которые, после этого, могут быть отредактированы вручную.

Существует возможность подключить так называемый stop list – список из слов, которые не относятся к терминологии. К примеру, артикли, предлоги, общие слова (little, large). Вы можете взять stop list по следующей ссылке – скачать stop list (англ. язык, названия стран, предлоги, артикли, общие слова).

  1. SynchroTerm – Извлечение терминологии из параллельных текстов

SynchroTerm является мощным инструментом для извлечения терминологии из параллельных текстов и памяти переводов. Программа имеет интуитивно понятный Windows интерфейс и реализует извлечение терминов, поиск и функции проверки контекста.

Автор: http://www.bridgeterm.com

Условия распространения: Платная

Ссылка: Скачать SynchroTerm (23 МБ). Для установки программы вам необходимо будет запросить код у разработчика SynchroTerm!

Как работает SynchroTerm?

Во-первых, SynchroTerm сканирует обе части параллельного текста и составляет список исходных и целевых выражения. Часто встречаемые выражения могут быть идентифицированы автоматически. После этого, SynchroTerm применяет статистический, синтаксический и морфологический алгоритмы для сканирования результатов поиска для выявления возможных эквивалентов. Вы можете редактировать, добавлять, удалять, импортировать и экспортировать записи выявленной SynchroTerm терминологии, а также настраивать шаблоны для поиска терминологии.

  1. Concordance 3.3 – Анализ текста, терминология, статистика

Concordance – гибкая система для анализа текстов, которая позволяет получить детальную информацию об электронных текстах и производить глубокий и всесторонний анализ текстов на других языках.

Сайт разработчика: http://www.concordancesoftware.co.uk

Условия распространения: Платная

Ссылка на скачивание: Скачать Сoncordance

Подробное описание:

С помощью Concordance можно подсчитать количество слов и частотность для списка слов. Данный инструмент широко применяется при анализе текстовых данных, в науках, связанных с языками, лингвистике, для извлечения информации, лексикографии, переводе, а также в ряде других коммерческих областей и научных дисциплин.

Concordance может быстро построить соответствия с указанием контекста для каждого из слов, выполнить обработку текстов практически любых размеров. С помощью Concordance можно одновременно просматривать полный список слов, найденные соответствия и исходный текст, а также просматривать оригинальный текст, просто нажав на любое из слов, после чего будут показаны все появления данного слова в контексте. Возможен анализ текстов из любых других программ Windows посредством использования буфера обмена, либо заданием набора входных файлов.

Concordance реализует поиск веб-соответствий, конвертируя после этого результат анализа в HTML файлы, связанные между собой. Наличие списка выбора и «черного списка» позволяет задать слова, которые должны быть включены или исключены из вашего анализа. Concordance работает почти cо всеми языками, поддерживаемыми системой Windows. Concordance позволяет выбрать вариант сортировки слов: поиск фраз, учет расстановки слов при поиске, а также использовать регулярные выражения для поиска. Просмотреть статистику по тексту можно по типу слов, процентному соотношению, количеству символов и предложений. Полностью поддерживается полноэкранный предпросмотр перед печатью и печать с контролем размера страниц, полей, заголовков, нижних колонтитулов и шрифтов. Concordance, пожалуй, наиболее гибкое и мощное аналитическое программное обеспечение для анализа текстов.