Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
КТ.docx
Скачиваний:
2
Добавлен:
01.07.2025
Размер:
270.35 Кб
Скачать

- Http://www.Online-literature.Com/quotes/quotations.Php – Bartlett's Familiar Quotations-коллекция высказываний известных личностей на английском языке, составленная Барлеттом;

- http://www.bartleby.com/81/ – Brewer’s Dictionary of Phrase and Fable –справочник фразеологических выражений на английском языке;

Словари проверки орфографии:

- http://www.gramota.ru/ – Словарь трудностей русского языка;

- http://www.rusyaz.ru/pr/ – Правила русской орфографии и пунктуации;

- https://languagetool.org/de/?ot=3 – Проверка немецкой орфографии.

Специализированные словари:

- http://www.beyars.com/kunstlexikon/lexikon_a_1.html – Das große Kunstlexikon von P.W. Hartmann – словарь искусств Гартмана;

- http://www.beyars.com/lexikon/lexikon_a.html – Schmucklexikon von Prof. Leopold Rössler – словарь украшений Рёсслера;

- http://www.beyars.com/edelstein-knigge/lexikon_a.html – Edelstein-Knigge von Prof. Leopold Rössler словарь драгоценных украшений;

- http://www.www-kurs.de/glossar.htm – большой немецкий словарь интернет-лексики;

- http://www.tee.org/ulexikon/index.php?id=200 – Gesundheitsdatenbank- Немецкий медицинский словарь;

- http://wirtschaftslexikon.gabler.de/ – Gabler Wirtschaftslexikon – Экономический словарь немецкого языка Габлера. Даёт подробные определения экономических терминов и приводит смысловые связи между экономическими понятиями.

Коллекция словарей:

- http://www.sprachnudel.de/ – комплекс словарей немецкого языка;

- http://www.onlinedics.ru/ – крупнейший сборник онлайн-словарей русского языка.

- https://lexikographieblog.wordpress.com/deutsche-worterbucher-online/ – немецкие словари онлайн.

При желании переводчик может найти в Интернете огромное количество одноязычных словарей. Здесь приведен лишь основной список, иллюстрирующий потенциальные возможности применения электронных средств при работе со словарем.

Контрольные вопросы:

1 На какие две группы условно разделяются все электронные лексикографические ресурсы?

2 Каково предназначение электронных одноязычных словарей?

3 На какие группы подразделяются одноязычные словари?

4 Изучив представленный список одноязычных словарей, выберите те, которые Вы могли бы использовать.

  1. Корпусная лингвистики и перевод

Одним из основных источников языкового материала, необходимого для проведения лингвистических и филологических исследований, является текст, письменный или устный. На основе анализа множества текстов можно сделать вывод об интересующем исследователя языковом явлении, например, о поведении грамматической конструкции, использовании выразительных средств в языке и т.п. Развитие вычислительной техники способствовало тому, что большое количество текстов стало доступно в электронном виде. Для того чтобы можно было работать с такими объемами текстов, извлекая из них нужную информацию, во всем мире стали создаваться лингвистические корпусы, т.е. коллекции текстов, специально отобранных, размеченных по различным лингвистическим параметрам и обеспеченных системой поиска. Увеличение объема материала исследования потребовало применения новых методов анализа лингвистических данных, включая их статистическую обработку.

Корпусная лингвистика – раздел прикладной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов при помощи компьютеров [1].

Исходя из такого определения можно констатировать, что корпусная лингвистика включает два аспекта:

1) создание корпусов текстов с автоматическими инструментами и их использование;

2) разработка способов экспериментальных исследований различных уровней языка на базе корпусов разных типов [1].

Современные исследователи-лингвисты могут как создавать свои собственные корпусы, а затем проводить необходимые исследования на их базе, так и использовать общедоступные корпусы, созданные другими исследователями и их коллективами.

Кроме проведения научных исследований корпусы могут использоваться:

1) в лексикографии для создания словарей, определения значения многозначных слов и т.д.;

2) в грамматике для определения частоты морфем, типов словосочетаний и предложений и т.д.;

3) в лингвистике текста для дифференциации типов текста, выявления связей внутри абзаца и между абзацами и т.д.;

4) в автоматическом переводе текстов для поиска контекстов слов, имеющих несколько переводных эквивалентов, поиска переводных эквивалентов в параллельных текстах и т.д.;

5) в учебных целях для выбора цитат, фрагментов произведений, примеров для организации учебных занятий, создания учебных пособий и т.д.

6) в тестировании программ автоматического анализа и синтеза речи и т.д.

Использование корпусов текстов для переводчика дает следующие возможности:

- наблюдать поведение интересующих исследователя языковых единиц (слов, словосочетаний, грамматических категорий, синтаксических конструкций и т.д.) в естественной языковой среде, т.е. в реально существующих, а не искусственно сконструированных контекстах;

- определить при переводе предложения, правильно ли выбрана соответствующая синтаксическая конструкция;

- выяснить, допустим ли в данном конкретном случае буквальный перевод предложения;

- установить на основе данных объективного анализа современного словоупотребления, в каком значении искомое слово чаще всего используется на данном этапе развития языка, не вызывает ли оно у носителя языка каких-либо негативных ассоциаций;

- проверить грамматические возможности слова, например, можно ли употребить определенный артикль перед существительным во фразе;

- в некоторых случаях корпус можно использовать в качестве источника о той предметной области, к которой имеет отношение переводимый текст. Особенно это важно в отношении терминов.

Одним из приоритетных направлений корпусной лингвистики является создание и расширение универсальных национальных корпусов (корпусов того или иного естественного языка), представительных по отношению ко всему языку, которые могут служить для исследования самых разнообразных явлений этого языка [1, с. 53].

Все существующее множество корпусов текстов можно разделить на три обширные категории: 1) находящиеся в свободном доступе; 2) находящиеся в частичном доступе и 3) коммерческие. К первой категории относится довольно ограниченное количество из существующих на данный момент корпусов текстов (см. таблицу). Наиболее обширным (общим объемом более 500 млн слов) является Национальный корпус русского языка (www.ruscorpora.ru).

Большинство из существующих корпусов относится ко второй категории, однако для решения конкретных лингвистических задач такой частичный доступ является чаще всего достаточным. Так, в Британском национальном корпусе (http://www.natcorp.ox.ac. uk/) выдача результата ограничена 50 случайными примерами, кроме того, отсутствуют многие возможности поискового интерфейса, поставляемого вместе с полной (платной) версией корпуса. Наряду с этим существует некоммерческая версия данного корпуса (http://corpus.byu.edu/bnc/), доступная после несложной процедуры регистрации, в которой для поиска представлено 100 млн. слов в текстах 1980–1993 гг. Довольно представительная подборка из Мангеймского корпуса немецкого языка (http:// www.ids-mannheim.de/kl/projekte/korpora/) доступна также после процедуры регистрации установки специальной программы (оболочки COSMAS II). К третьей группе можно отнести, например, Банк английского языка (Bank of English) с возможностью пробной бесплатной подписки на один месяц для получения доступа в Collins Wordbanks Online (553 млн слов) (http://www.collinslanguage. com/ content -solutions/wordbanks), после чего необходимо приобрести платную версию корпуса.

Следующим существенным признаком лингвистического корпуса текстов является наличие или отсутствие разметки, так как для решения лингвистических задач наличия простого массива текстов недостаточно. Под разметкой понимается приписывание текстам и их компонентам специальных меток: внешних, экстралингвистических, структурных и собственно лингвистических, описывающих лексические, грамматические и прочие характеристики элементов текста [1]. Метаразметка включает в себя сведения об авторе и о самом тек-сте. Рассмотрим собственно лингвистические виды разметки на примере некоторых из существующих корпусов. Остановимся, прежде всего, на морфологической (или частеречной) разметке. Данный вид разметки является наиболее распространенным в существующих корпусах, при этом учитывается не только признак части речи, но и признаки грамматических категорий. Морфологическая разметка осуществляется с помощью специальных программ автоматического морфологического анализа.

Например, в небольшой части Национального корпуса русского языка (объемом 6 млн словоупотреблений) произведено ручное снятие морфологической омонимии и дополнительная коррекция результатов работы программы автоматического морфологического анализа. «Эта часть образует так называемый корпус со снятой омонимией, который может служить удобным полигоном для тестирования различных программ поиска, морфологического анализа и автоматической обработки текстов, а также для исследований современной русской морфологии, требующих повышенной точности поиска» (см.: [http://ruscorpora.ru/corpora-structure.html]). В Британском национальном корпусе, как и в Банке английского языка, также представлены метатекстовая и морфологическая разметки. В Мангеймском корпусе немецкого языка морфологическая разметка присутствует в основном в подкорпусах публицистических текстов. Среди других видов разметки особо следует выделить синтаксическую, которая представлена не во всем массиве корпуса (Национального корпуса русского языка, Мангеймского корпуса немецкого языка), а только в его небольшой части, так как данный вид разметки, подразумевающий указание синтаксической структуры для каждого предложения, осуществляется фактически вручную и требует огромных временных затрат. Кроме того, в корпусе могут присутствовать и другие виды разметки, такие как семантическая, просодическая, анафорическая, графематическая и др. – все это во многом позволяет облегчить процесс непосредственного сбора материала исследователем при условии правильно заданных критериев поиска.

Однако, чтобы созданный корпус текстов удовлетворял различным лингвистическим задачам, стоящим перед исследователем языка, он должен также обладать еще по меньшей мере двумя признаками. Прежде всего, речь идет о так называемой репрезентативности корпуса текстов.

По мнению А. Е. Кибрика, М. М. Брыкиной, А. П. Леонтьева и А. Н. Хитрова, репрезентативность можно оценить «по изменению относительной частоты рассматриваемого явления при увеличении выборки. Если относительная частота явления от прибавления каждого последующего фрагмента текста будет изменяться все меньше и меньше, то это означает, что корпус в целом репрезентативен» [Кибрик и др., 2006. С. 21]. При этом хоть и отмечается невозможность при такой трактовке репрезентативности установить связи со статистикой, подчеркивается, что данное условие является необходимым, но все же недостаточным для определения репрезентативности корпуса текстов. В целом, вопрос определения репрезентативности того или иного корпуса текстов является по сей день актуальным, однако, к сожалению, недостаточно разработанным. Именно репрезентативность превращает обычный набор разнообразных текстов непосредственно в корпус текстов, пригодный для проведения лингвистического исследования. Однако языковая деятельность человека настолько разнообразна, что чрезвычайно трудно объективно отразить все существующие «варианты» языка, о которых мы уже упоминали выше. Вследствие этого вопрос репрезентативности корпуса текстов является скорее вопросом из области объективности любого научного исследования. Здесь следует опираться на здравый смысл самого исследователя, если речь идет о пользовательском корпусе (создается самим исследователем в зависимости от целей его исследования), либо группы исследователей, если речь идет о создании корпуса, претендующего на всеохватность языковых явлений, стилей, жанров и т. п. (например, национального корпуса определенного языка). Немаловажным критерием при определении корпуса выступает также и простота его использования, другими словами, корпус должен быть обеспечен специализированной поисковой системой, которая должна быть ( в идеальном случае) довольно понятна и проста в использовании . Так, предлагаемая поисковая система в Мангеймском корпусе немецкого языка довольно сложна в использовании, в то время как при использовании Национального корпуса русского языка, Британского национального корпуса и Банка английского языка особых трудностей не возникает. На наш взгляд, корпус должен сокращать количество времени, необходимое на поиск конкретного явления, а не предлагать сложный алгоритм этого поиска, ознакомление с основными пунктами которого требует от исследователя-лингвиста подчас чисто технических и математических знаний.

Типология корпусов

Среди существующего многообразия исследовательских корпусов подчас очень сложно ориентироваться, ведь цели и задачи, стоящие перед лингвистом, очень часто совпадают в общем, но разнятся в отдельных отраслях и областях. Правильный выбор соответствующего корпуса – это первый шаг, который должен осуществить исследователь при анализе «изучаемых объектов». Все разнообразие существующих корпусов «определяется многообразием исследовательских и прикладных задач, для решения которых они создаются» [1], и может быть представлено следующей схемой (см. рисунок).

1) Устные – письменные – смешанные. Под устным корпусом подразумевается структурированная совокупность речевых фрагментов, которая обеспечена программными средствами доступа к ним [Кривнова, 2006]. Первые устные корпуса появились в начале 80-х гг. прошлого века на материале американского варианта английского языка. Позже возникли специальные координационные центры по сбору, хранению, распространению и созданию устных корпусов.

Например, LDC (Linguistic Data Consorcium, http://www.ldc.upenn.edu), CSLU (Center for Spoken Language Understanding, http://www. cslu.ogi.edu), ELRA (European Language Re-sources Association, http://www.elra.info).

Большинство из существующих корпусов относятся к письменным (например, находящаяся в свободном доступе часть Мангеймского корпуса немецкого языка, http:// www.ids-mannheim.de) либо смешанным, однако доля лингвистически размеченных устных текстов даже в смешанных корпусах (чаще всего это национальные корпуса какого-либо языка, например: русского языка – http://www.ruscorpora.ru, американского варианта английского языка – http://corpus. byu.edu/coca, английского языка – http:// corpus.byu.edu/bnc) ничтожно мала по отношению ко всему массиву корпуса.

2) Одноязычные – двуязычные / многоязычные.

Среди одноязычных корпусов можно выделить две группы: с одной стороны, корпуса, охватывающие весь язык, с другой – охватывающие только язык для специальных целей. Например, Corpus of Early English Medical Writing (CEEM) (подробнее см.: http://www.helsinki.fi/varieng/CoRD/corpora/ CEEM/index.html) – корпус медицинских текстов на английском языке 1375–1750 гг. общим объемом около 1,5 млн. слов, в котором содержатся теоретические работы, справочники, стихотворные тексты на медицинские темы.

В двуязычных и многоязычных корпусах тексты могут быть представлены соизмеримо или параллельно. Так, в 1992 г. была создана Европейская корпусная инициатива (European Corpus Initiative (ECI)) – международная организация, занимающаяся созданием огромного многоязычного корпуса для научных целей (см.: http://www.elsnet. org/resources/eciCorpus.html). В данном соизмеримом корпусе содержатся в основном тексты европейских языков, а также тексты на таких языках, как турецкий, китайский, японский , русский и др., общим объемом более 98 млн слов, данный корпус носит коммерческий характер. Корпуса параллельных текстов предназначены, в первую очередь, для сопоставительного анализа текстов «оригинал – перевод» в целях обучения методам и приемам перевода. Удачный пример такого вида корпусов – European Parliament Proceedings Parallel Corpus 1996–2011 (http://www.statmt.org/europarl), где представлены параллельные тексты заседания Европейского парламента на всех европейских языках с переводом на английский.

3) Синхронный – диахронный. Синхронные корпуса предполагают представление текстового материала для рассмотрения состояния языка как системы в определенный момент времени. В частности, в некоммерческой версии Британского национального корпуса (http://corpus.byu. edu/bnc) представлены лишь тексты конца ХХ в. – с 1980 по 1993 г.

Для рассмотрения исторического развития какого-либо языкового явления либо всей языковой системы в целом существуют диахронные корпуса. Например, Thesaurus Indogermanischer Text- und Sprachmaterialien (http://titus.uni-frankfurt.de), в котором представлены индогерманские тексты различных эпох.

4) Неразмеченные – размеченные. Неразмеченный корпус это массив текстов, которые содержат определенное количество упоминаний искомого элемента. При этом результаты поиска, предоставляемые в неразмеченных корпусах, могут быть использованы в лингвистических исследованиях, но только с чисто статистической точки зрения.

Размеченные (морфологически, синтаксически, просодически и др., см. выше) корпуса предоставляют намного больше возможностей для проведения лингвистического анализа.

Таким образом, корпус – это представленный в электронном виде, как правило, размеченный для анализа в лингвистических целях, обеспеченный сравнительно простой в использовании поисковой системой репрезентативный массив неотредактированных текстов, представляющих как можно большее количество «вариантов» языка.

Несомненным достоинством компьютерного корпуса текстов является то, что он дает представление о типовой лексической и синтаксической сочетаемости встречающихся в нем слов, об их окружении и особенностях функционирования в речи, сообщает наиболее полную информацию о нормах словоупотребления в современном языке. В отличие от бумажных словарей корпус имеет ряд преимуществ:

- с помощью электронного корпуса результаты примеров словоупотреблений можно получить за считанные доли секунд, что существенно упрощает задачу лингвистам;

- высокая степень репрезентативности, т.е. огромное количество примеров, иллюстрирующих современное употребление искомого слова в языке;

- регулярное пополнение состава корпуса и расширение объема выборки;

- возможность проведения собственного мини-исследования и самостоятельного принятия решения относительно типовой сочетаемости искомого слова в языке перевода.

Однако существует и ряд ограничений, которые задают перспективы для дальнейшего развития корпусов. Во-первых, корпусная лексикография не дает готовых рекомендаций и советов относительно того, что хорошо и что плохо при выборе нормативных словосочетаний и чему именно следует отдать предпочтение. Для работы с корпусами нужны определенные исследовательские навыки, умение вести поиск, анализировать приметы и делать правильные выводы. Во-вторых, до сих пор нет готовых корпусов для отдельных подъязыков, например, по экономике, технике, финансам и др.

В любом случае компьютерный корпус текстов живого языка является мощным ресурсом или «виртуальным носителем языка», помогающим решать целый комплекс переводческих проблем. Корпус дает четкое представление о лексических, грамматических, стилистических, орфографических и пунктуационных нормах, действующих в современном языке.

Таблица 4 – Корпуса различных языков

Название

Состав

Доступ

Разметка

Национальный корпус русского языка http://www.ruscorpora.ru

Более 500 млн слов. Кроме основного корпуса содержит газетный, параллельный, диалектный, поэтический, обучающий, устной речи, акцентологический и мультимедийный (пополн

Свободно доступный, оффлайновая версия недоступна, однако для свободного пользования предоставляется случайная выборка предложений из корпуса со снятой омонимией объемом 180 тыс. словоупотреблений

Морфологическая (для 6 млн слов со снятой морфологической омонимией), морфосинтаксическая со снятой омонимией

Хельсинкский аннотированный корпус русских текстов ХАНКО, http://www.ling.helsinki.fi/projects/hanco/

Содержит тексты журнала «Итоги» (пополняется)

Свободно доступный

Морфологич. и синтаксическая

Продолжение таблицы 4 – Корпуса различных языков

Машинный фонд русского языка, http://cfrl.ru/

Тексты русской прозы, поэзии и драмат. XIX-XX вв., подкорпус текстов росс. газет 90 гг. XXв., произведения русс. историков XIX-XXвв., а также подкорпус по фольклору (русс.нар. сказки А.Н. Афанасьева)

Свободно доступный

Морфологичес-кая (частично)

BYU-BNC: British National Corpus, созданный Марком Дэвисом, http://corpus.byu.edu/bnc/

100 млн. слов британского варианта английского языка (198-1993 гг.)

Свободный доступ для выполнения исследоват. задач после несложной процедуры регистрации на сайте.

Морфологич. (можно искать словоформу, все формы одной лексемы)

Bank of English,

http://www.collinslanguage.com/content-solutions/wordbanks

Более 553 млн. слов различных вариантов английского языка, сбалансировано по различным жанрам (пополняется)

Коммерческий, пробная версия предоставляется бесплатно на один месяц после процедуры регистрации

Частеречная с элементами морфологической

Продолжение таблицы 4 – Корпуса различных языков

Название

Состав

Доступ

Разметка

Corpus of Contemporary American English (COCA), созданный Марком Дэвисом, http://corpus.byu.edu/coca/

Более 450 млн. слов американского варианта англ. языка (1990-2012 гг.). Содержит в одинаковых пропорциях тексты разговорной речи (скрипты более чем 150 ТВ- и радио-передач)

Свободный доступ для выполнения исследовательских задач после несложной процедуры регистрации на сайте.

Морфологичес-кая (можно искать конкретную словоформу, все формы одной лексемы по возможным начальным формам, словосочетания, выбранные грамматические формы лексемы)

LIMAS, http://korpora.zim.uni-duisburg-essen.de/Limas/

Более 1 млн. словоупотреблений. Состоит из 500 текстов 33 различных рубрик

Свободно доступный

Поиск по слову, контексту, фразе

Продолжение таблицы 4 – Корпуса различных языков

Название

Состав

Доступ

Разметка

Мангеймский корпус немецкого языка, DeReCo, http://www.ids-manneim.de/kl/projekte/korpora

Самый представительный корпус немецкого языка, поддерживаемый Институтом немецкого языка (Мангейм). Более 5,4 млрд. слов. Содержит тексты художественной, научной и научно-популярной литературы периодики, а также подкорпус устной речи.

Свободно доступный после регистрации на сайте и подписания лицензионного соглашения. Требуется установка специальной программы – оболочки COSMAC II

Частичная морфологическая. Можно искать конкретную словоформу, все формы одной лексемы по возможным начальным формам словосочетания.

Корпус Берлинско-Бранденбурсгкой Академии наук DWDS, http://www.stamt.org/europarl

Около 1,8 млрд. слов. Содержит тексты художественной лит-ры XX-XXI вв, периодики (Berliner Zeitung, Bild, Süddeutsche Zeitung, Tagesspiel, WELT, ZEIT), устной речи и др.

Свободно доступный после регистрации на сайте

Можно искать конкретную словоформу, формы одной лексемы по возможным начальным формам, словосочетаниям.

Виртуальные корпуса

Чтобы определить правильность перевода текста с русского языка на иностранный язык, мы используем три пути:

1) консультируемся с носителем языка (носитель языка тоже может ошибаться);

2) читаем много книг на языке, анализируем, сравниваем и постепенно накапливаем необходимое количество знаний о языке, его грамматике, стиле, словоупотреблении (путь, требующий большого количества усилий и времени);

3) используем электронный корпус текстов типа Bank of English (наиболее оптимальный вариант и является основой для допустимых и недопустимых вариантов перевода).

Использование электронных корпусов, по мнению многих переводчиков, допустимо, если осуществляется перевод текстов общего характера (газетные и журнальные статьи). Но для перевода специальных текстов, переводчики обычно создают свои собственные специализированные (виртуальные) корпуса.

Специализированный (виртуальный) корпус – это обширная по объему подборка текстов по конкретной тематике, специально составленная для поиска переводчиком определенной лингвистической информации. Тексты отбираются из разных источников (периодические издания, энциклопедии, интернет) по строго определенной тематике и обязательно представлены в электронной форме, преимущественно в формате txt. Такой корпус в сочетании с программой-конкордансером незаменим при переводе, в особенности с родного языка на иностранный [Шевчук В.Н., 2010].

Конкордансер – это компьютерная программа, которая помогает автоматически построить конкорданс – вертикальный список случаев употребления слова, расположенных в алфавитном порядке в электронном корпусе текстов. Слово или словосочетание предстает в своем лексическом окружении и характеризуется определенным набором статистических данных. Это дает возможность получить достоверные статистические данные о частотности как самого слова, которое ,как правило, располагается в центре строки, так и соседних слов и определить наиболее частотные словосочетания с его участием.

Имеется несколько программ этого типа, которые можно скачать через Интернет бесплатно или за минимальную плату. Программы-конкордансера – AntConc 3.1 (Winodws), TACT (Text Analysis Computing Tools), WordSmith Toolz, WebQuiz, Microconcord, MonoConc, Word Splitter, TACTWeb, SARA, Concordance (http://www.concordancesoftware.co.uk/index.htm), Lexa, TextSTAT (http://neon.niederlandistik.fu-berlin.de/textstat/), ConcGram 1.0.

В число задач, решаемых с помощью виртуальных корпусов в переводе, включаются следующие:

1) определение левого или правого окружения;

2) выбор из нескольких вариантов лексического эквивалента исходного слова, предлагаемого в разных словарях или в Интернете;

  1. проверка правильности решения, интуитивно выбранного переводчиком;

4) поиск дополнительной энциклопедической информации по теме;

5) поиск терминологических дублетов, антонимов, номенклатурных наименований, дефиниций терминов и т.д.;

6) расшифровка встретившихся сокращений;

  1. установка коннотации, используемой при переводе слова.

Контрольные вопросы:

1 Дайте определение корпусной лингвистики?

2 Какие два аспекта включает в себя корпусная лингвистика?

3 В каких случаях использование корпусной лингвистики оправдано?

4 Какие возможно дает использование корпусов текстов для переводчика?

5 Что является одним из приоритетных направлений корпусной лингвистики?

6 На какие три категории можно разделить существующее множество корпусов текстов?

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]