- •Практические основы компьютерных технологий в переводе
- •Содержание
- •Введение
- •1 Лабораторная работа № 1 «Работа с Google почтой»
- •2 Лабораторная работа №2 «Работа с текстовым редактором Microsoft Office»
- •6 Вставьте текущую дату в документ Microsoft Word 2007.
- •Чтобы создать свою подложку, выполните следующие действия:
- •3 Лабораторная работа №3 «Аннотирование и реферирование»
- •4 Лабораторная работа №4 «Использование Excel для представления результатов лингвистических исследований»
- •5 Лабораторная работа № 5 «Двуязычные электронные словари»
- •6 Лабораторная работа № 6 «Одноязычная компьютерная лексикография»
- •7 Лабораторная работа № 7 «Распознавание речи»
- •8 Лабораторная работа №8 «Автоматическое составление словарей и словников»
- •9 Лабораторная работа № 9 «Корпусная лингвистика. Национальный корпус русского языка»
- •Лабораторная работа № 10 «Корпусная лингвистика. Мангеймский корпус немецкого языка»
- •11 Лабораторная работа № 11 «Корпусная лингвистика. Корпус современного американского варианта английского языка (coca)»
- •12 Лабораторная работа №12 «Корпусная лингвистика. Создание собственного корпуса»
- •13 Лабораторная работа №13 «Работа с приложением Wordfast»
- •2 Установите приложение Wordfast. Wordfast.Dot не следует открывать как документ; его надо добавить в список шаблонов ms Word.
- •3) При необходимости деинсталляция Wordfast закройте ms Word. Найдите и удалите файлы Wordfast.Dot, Wordfast.Doc и Wordfast.Ini.
- •4) Чтобы обновить Wordfast до новой версии, надо всего лишь закрыть ms Word и заменить существующий файл Wordfast.Dot новым.
- •Waschmaschine Siemens iQ800 (рисунок 14)
- •Waschmaschine Samsung ww8gk6400qw (рисунок 15)
- •Huawei Mate 9 (рисунок 16)
- •Smartphone Nokia Lumia 1520 (рисунок 17)
- •W ashing machine siemens wmh6y790gb, wmh4y790gb (рисунок 21)
- •Serie | 6 wat28660gb I-dos (рисунок 22)
- •Tv philips 49pus7809/12 (рисунок 23)
- •Philips television 32pfl4208t/12 – 4000 series (рисунок 24)
- •Built-in oven bosch hba13b253a (рисунок 26)
- •E spresso machine saeco minuto hd8763/18 (рисунок 27)
- •Set the beverages to suit your taste Рисунок 27
- •Список использованных источников
- •Приложение а Морфологический состав названий англоязыч-ных художественных произведений
12 Лабораторная работа №12 «Корпусная лингвистика. Создание собственного корпуса»
1 Для создания своего собственного корпуса необходимо скачать программу конкорданс (например, AntConc http://www.laurenceanthony.net/software.html или TextSTAT http://neon.niederlandistik.fu-berlin.de/textstat/). Другие программы конкордансы Вы можете найти, пройдя по ссылке http://nit-for-you.wikispaces.com/%D0%9B%D0%B8%D0%BD%D0%B3%D0%B2%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0. Изучите краткую информацию о рекомендованных программах.
AntConc – это бесплатная, мультиплатформенная программа для проведения корпусных лингвистических исследований и управления данными. Она работает на любом компьютере под управлением Microsoft Windows (проверено на Win 98/Me/2000/NT, XP, Vista, Windows 7, Linux. AntConc содержит семь инструментов, к которым можно получить доступ, нажав на клавишу табуляции в меню инструментов, или используя функциональные клавиши F1-F7.
В качестве источников текстов для корпуса можно использовать как цифровые, так и не цифровые носители. Естественно, в последнем случае понадобится каким-то образом ввести текст в компьютер: заново набрать его, либо отсканировать и распознать (конечно, с последующим редактированием).
Храните тексты для корпуса в простом текстовом формате (plain text, *.txt). Во-первых, он занимает меньше места, чем сложные форматы типа MS Word. Во-вторых, хотя современные программы анализа корпусов обычно могут работать с документами в формате HTML (XML), но всё-таки это менее надёжно, чем простой текст. Plain text — это простоя последовательность букв, пробелов и знаков пунктуации.
Не храните Ваши корпусы в MS Word — это не имеет никакого смысла! Не забывайте про резервные копии. Ещё один тонкий момент — кодировка ваших файлов. Существует несколько так называемых «кодировок» (англ. encodings), которые описывают русский алфавит — среди них koi8-r или cp1251. Ни одну из них нельзя назвать стандартом. Кроме того, не так давно появилась кодировка Unicode, которая поддерживает символы всех алфавитов всех языков мира, включая даже египетские иероглифы. Но пока не все программы готовы с ней работать. Любой текстовый файл сохранён в одной из этих кодировок. Соответственно, если программа анализа корпуса считает, что кодировка одна, а на самом деле она другая — то файл будет прочитан неверно и вместо слов Вы получите бессмысленные наборы символов. Рекомендуется пользоваться либо Unicode (предпочтительнее), либо CP-1251. CP-1251 является стандартной кодировкой для MS Windows, а Unicode удобнее, поскольку может использоваться для любого языка. Анализируя текст в AntConc, Вы можете указать кодировку для файлов, которые загружаете в него (в меню Global Settings — Encodings). Corsis воспринимает кириллические тексты только если они сохранены в кодировке Unicode. Dialing, напротив, считает, что кириллические тексты должны быть только в CP-1251. Вы можете сохранять один и тот же текст сколько угодно раз в различных кодировках. С английскими текстами таких проблем нет, они будут нормально читаться и анализироваться вне зависимости от кодировки.
TextSTAT- это простая программа для анализирования текстов, читающая текстовые файлы и файлы расширения HTML (непосредственно из Интернета). Она выдает лист частоты встречаемости слов и конкордансы этих файлов. Данная версия включает в себя вэб-паука, который читает так много страниц, сколько вы захотите с какого-либо выбранного сайта и переносит их в программу. А новинка «читатель новостей» так же находит самостоятельно информацию и помещает их в окно программы TextSTAT. TextSTAT читает MS Word и OpenOffice файлы. Нет никакой нужды в преобразовании, просто добавьте файлы в корпус программы.
В программе можно использовать регулярные выражения, обеспечивающие вас возможностями мощного поиска. Программа многоязыковая. TextSTAT может справиться с множеством различных языков и кодировок файлов.
2 Соберите корпус не менее 10 тысяч словоупотреблений. Прежде чем начать планирование корпуса, определите, что именно Вы будете исследовать. Какова логическая идея, которая положена в основу корпуса? С каким объёмом данных Вы будете работать при составлении корпуса? Насколько это необходимо и реалистично? Что Вы будете использовать: отрывки из текстов, полные тексты или то и другое? Какова процедура отбора текстов в корпус? При наборе текстов в корпус всегда желательно учитывать такие экстралингвистические факторы, как источники текстов, их авторы (их пол, возраст, профессия, национальность), носитель текста, место действия, тематика, дата публикации, возраст и размер предполагаемой аудитории и т.д.
3 Проведите анализ исследуемого корпуса, рассмотрев употребление конкретных лексем, словосочетаний и изучив все возможные функции конкорданса.
