Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Корпуса текстов.docx
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
52.51 Кб
Скачать
  1. Word Tabulator

Сайт разработчика: http://www.rvb.ru

Условия распространения: Бесплатно.

Ссылка на скачивание: Word Tabulator 2.2.3 (обязательно проверьте наличие новой версии на сайте разработчика)

Описание: Быстрая и простая программа. Однако из-за отсутствия возможности установки «черного списка» терминов, также выдает большое количество предлогов, артиклей и общих слов, таким образом, время и усилия, необходимые на редактуру увеличиваются. Поддерживается русский язык, а также присутствует подробная справка на русском языке.

Сравнение эффективности программ извлечения терминологии

Рассмотрим возможности программ, на примере обработки текста взятого из книги G. J. Myers - The Art of Software Testing, 2nd Edition (глава 1).

Название программы

Количество найденных терминов

Плюсы

Минусы

PROMT Terminology Manager – PROMT TerM

терминов: 68;

словосочетаний: 8;

слов, найденных в словарях: 57;

словосочетаний, найденных в сло-варях: 4

  • настройка «черного списка» (слова которые не являются терминами);

  • гибкая настройка условий поиска (частота встречае-мости, установка разделите-лей слов, и предложений и т.д.);

  • мгновенный перевод найден-ных терминов;

  • наглядная демонстрация контекста для найденного термина;

  • интеграция с TM Trados.

входит в состав системы PROMT, система платная.

MultiTerm Extract 7.0.2 DEMO

терминов: 33;

словосочетаний: 18

  • извлечение терминологии из одноязычных текстов;

  • извлечение терминологии из параллельных текстов с последующим переводом;

  • перевод существующей не-переведенной базы терми-нов;

  • анализ и улучшение качества терминологии существую-щих баз терминов и до-кументов;

  • извлечение терминов из сложных форматов файлов (.html, .xml и т.п.);

  • наличие собственного «чер-ного списка» терминов,

  • возможность добавления собственного списка;

  • настройка точности поиска терминов – мин/макс коли-чество слов в словосоче-тании,

  • возможность установки ко-личественным или качест-венным должен быть поиск.

  • входит в состав системы Trados Multiterm, система плат-ная.

  • DEMO версия не позволяет сохранить извлеченные тер-мины и созданный проект

Simple Concordance Program,

версия 4.09

терминов: 224

  • настройка «черного списка» – stop list (слова, которые не являются терминами);

  • фильтрация по длине слов, по частоте встречаемости термина, по шаблонам (пре-фиксы и суффиксы термина, части в середине слова);

  • программа бесплатна.

MonoConc Pro, версия 2.2 DEMO

терминов: 69

  • настройка «черного списка» (слова, которые не являются терминами);

  • фильтрация по частоте встречаемости.

  • программа платная.

Concordancer for Windows, версия 3.0

терминов: 360

  • настройка для поиска ключевых слов в контексте;

  • программа бесплатна.

  • отсутствует воз-можность настройки «черного списка» (слова, которые не являются термина-ми);

  • отсутствует возмож-ность настройки по частоте встречаемос-ти.

Word Tabulator 2.2.3

терминов: 118

  • настройка поиска: установка символов разделителей, клю-чевых слов для поиска, частота встречаемости тер-мина и длина слов;

  • программа бесплатна.

  • отсутствует возмож-ность настройки «черного списка» (слова которые не являются терминами);

Выводы

На основе приведенных данных, можем заключить, что лидерами среди программ автоматизированного извлечения терминологии можно считать коммерческие продукты PROMT Terminology Manager (PROMT TerM) и MultiTerm Extract. Эти продукты поддерживают большое количество функций, значительно улучшающих эффективность работы и сокращающие время, необходимое на постредактирование полученных данных. Из бесплатных программ, можно выделить Simple Concordance Program – весьма простая в применении программа, имеет приемлемое количество настроек для поиска и предлагает хорошие результаты обработки.

(Источник: http://www.englishelp.ru/component/content/article/11.html)

Лингвисты очень высоко оценивают возможности специализированных корпусов, используемых в интересах переводчиков совместно с программами-конкордансерами. Так, К. Варантола считает, что виртуальные корпуса дают переводчику огромные возможности для решения возникающих переводческих проблем (Varantola, Krista (2003) Translation and Disposable Corpora. – In: Federico Zanettin, Silvia Bernardini and Dominic Steward (eds.) Corpora in Tranlator Education. – Vanchester: St.Jerome. – P. 59). Более того, они являются источником дополнительной энциклопедической и языковой информации, которую нельзя найти в таких источниках, как словари, Интернет и стилистические руководства (например, о лексико-грамматической сочетаемости слова, словоупотреблении, типовой структуре абзаца и текста в языке перевода и т.д.). Например, конкорданс помогает найти наиболее подходящее в конкретном случае имя прилагательное, выступающее в роли препозитивного определения по отношению к существительному, а двойной щелчок мышкой по этому слову в строке дает возможность увидеть полный контекст, в котором оно употребляется.

Специализированный электронный корпус помогает также понять, что означает тот или иной неизвестный термин, встретившийся в переводимом тексте и не зафиксированный ни в одном из словарей или глоссариев, т.е. для поиска дефиниции.

Кроме того в специализированном корпусе можно отыскать терминологические дублеты, антонимы, референты и номенклатурные наименования, а также расшифровку встретившихся в оригинале сокращений.

Контрольные вопросы и задания:

  1. Что такое виртуальный (специальный) корпус?

  2. Что представляет собой программа-конкордансер?

  3. Какие существуют программы такого типа? Назовите несколько из них.

  4. Как подается лингвистическая информация в такой программе? (в качестве примера протестируйте программу AntConc 3.1. (Windows). Термин: turret.

Для построения конкордансера выполните следующие действия:

  • выберите один или несколько файлов в формате txt, в которых вы собираетесь вести поиск необходимой информации, и воспользуйтесь опцией Open File(s) или Dir в меню File;

  • в колонке Corpus files появится список выбранных файлов;

  • впечатайте поисковое слово в нижнем окне Search Term и нажмите Start;

  • в первой колонке (Hit) появятся цифры, указывающие на количество предложений, в которых встречается искомое слово в обследуемом корпусе;

  • в средней колонке размещаются в формате KWIK все предложения с данным словом, которое выделено с помощью затемненного фона;

  • в третьей колонке (File) указывается наименование файла, в котором был зафиксирован данный пример;

  • внизу окна приведены статистические данные с суммарным количеством встречающихся в корпусе словоупотреблений (Concordance Hit);

  • полученные результаты можно сортировать по разным параметрам.

  1. В каком формате представлены файлы текстов в специализированном корпусе?

  2. Какие переводческие проблемы помогает решить корпус?

Список литературы:

  1. Семенов А.Л. Современные информационные технологии и перевод. – М.: Издательский центр «Академия», 2008. – 224 с.

  2. Шевчук В. Н. Электронные ресурсы переводчика. – М.: Либрайт, 2010. – 136 с.