Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Laboratornye_raboty_kt.docx
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
2.19 Mб
Скачать

12 Лабораторная работа №12 «Корпусная лингвистика. Создание собственного корпуса»

1 Для создания своего собственного корпуса необходимо скачать программу конкорданс (например, AntConc http://www.laurenceanthony.net/software.html или TextSTAT http://neon.niederlandistik.fu-berlin.de/textstat/). Другие программы конкордансы Вы можете найти, пройдя по ссылке http://nit-for-you.wikispaces.com/%D0%9B%D0%B8%D0%BD%D0%B3%D0%B2%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0. Изучите краткую информацию о рекомендованных программах.

AntConc – это бесплатная, мультиплатформенная программа для проведения корпусных лингвистических исследований и управления данными. Она работает на любом компьютере под управлением Microsoft Windows (проверено на Win 98/Me/2000/NT, XP, Vista, Windows 7, Linux. AntConc содержит семь инструментов, к которым можно получить доступ, нажав на клавишу табуляции в меню инструментов, или используя функциональные клавиши F1-F7.

В качестве источников текстов для корпуса можно использовать как цифровые, так и не цифровые носители. Естественно, в последнем случае понадобится каким-то образом ввести текст в компьютер: заново набрать его, либо отсканировать и распознать (конечно, с последующим редактированием).

Храните тексты для корпуса в простом текстовом формате (plain text, *.txt). Во-первых, он занимает меньше места, чем сложные форматы типа MS Word. Во-вторых, хотя современные программы анализа корпусов обычно могут работать с документами в формате HTML (XML), но всё-таки это менее надёжно, чем простой текст. Plain text — это простоя последовательность букв, пробелов и знаков пунктуации.

Не храните Ваши корпусы в MS Word — это не имеет никакого смысла! Не забывайте про резервные копии. Ещё один тонкий момент — кодировка ваших файлов. Существует несколько так называемых «кодировок» (англ. encodings), которые описывают русский алфавит — среди них koi8-r или cp1251. Ни одну из них нельзя назвать стандартом. Кроме того, не так давно появилась кодировка Unicode, которая поддерживает символы всех алфавитов всех языков мира, включая даже египетские иероглифы. Но пока не все программы готовы с ней работать. Любой текстовый файл сохранён в одной из этих кодировок. Соответственно, если программа анализа корпуса считает, что кодировка одна, а на самом деле она другая — то файл будет прочитан неверно и вместо слов Вы получите бессмысленные наборы символов. Рекомендуется пользоваться либо Unicode (предпочтительнее), либо CP-1251. CP-1251 является стандартной кодировкой для MS Windows, а Unicode удобнее, поскольку может использоваться для любого языка. Анализируя текст в AntConc, Вы можете указать кодировку для файлов, которые загружаете в него (в меню Global Settings — Encodings). Corsis воспринимает кириллические тексты только если они сохранены в кодировке Unicode. Dialing, напротив, считает, что кириллические тексты должны быть только в CP-1251. Вы можете сохранять один и тот же текст сколько угодно раз в различных кодировках. С английскими текстами таких проблем нет, они будут нормально читаться и анализироваться вне зависимости от кодировки.

TextSTAT- это простая программа для анализирования текстов, читающая текстовые файлы и файлы расширения HTML (непосредственно из Интернета). Она выдает лист частоты встречаемости слов и конкордансы этих файлов. Данная версия включает в себя вэб-паука, который читает так много страниц, сколько вы захотите с какого-либо выбранного сайта и переносит их в программу. А новинка «читатель новостей» так же находит самостоятельно информацию и помещает их в окно программы TextSTAT. TextSTAT читает MS Word и OpenOffice файлы. Нет никакой нужды в преобразовании, просто добавьте файлы в корпус программы.

В программе можно использовать регулярные выражения, обеспечивающие вас возможностями мощного поиска. Программа многоязыковая. TextSTAT может справиться с множеством различных языков и кодировок файлов.

2 Соберите корпус не менее 10 тысяч словоупотреблений. Прежде чем начать планирование корпуса, определите, что именно Вы будете исследовать. Какова логическая идея, которая положена в основу корпуса? С каким объёмом данных Вы будете работать при составлении корпуса? Насколько это необходимо и реалистично? Что Вы будете использовать: отрывки из текстов, полные тексты или то и другое? Какова процедура отбора текстов в корпус? При наборе текстов в корпус всегда желательно учитывать такие экстралингвистические факторы, как источники текстов, их авторы (их пол, возраст, профессия, национальность), носитель текста, место действия, тематика, дата публикации, возраст и размер предполагаемой аудитории и т.д.

3 Проведите анализ исследуемого корпуса, рассмотрев употребление конкретных лексем, словосочетаний и изучив все возможные функции конкорданса.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]