Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Семинар 3 - корпуса

.docx
Скачиваний:
74
Добавлен:
20.04.2015
Размер:
16.77 Кб
Скачать

Вопросы для обсуждения

1) Что может являться единицей корпуса?

2) Как отбираются тексты для корпуса?

3) Дополните классификацию корпусов, дав определение понятиям «Исследовательский корпус», «Статический корпус», «Параллельный корпус»

4) Изучите один из корпусов в списке ниже, опишите его по следующим критериям: количество словоупотреблений, вид корпуса по разным признакам :

- Британский национальный корпус ( www.natcorp.ox.ac.uk)

-Американский национальный корпус (www.americannayionalcorpus.org)

-Национальный корпус русского языка (www.russcorpora.ru)

-Национальный корпус русского литературного языка ( www.narusco.ru)

-Компьютерный корпус текстов русских газет конца ХХ века ( www.philol.msu.ru/-lex/corpus)

-Словарь – корпус языка А.С. Грибоедова ( www.inforeg.ru/electron/concord/concord.htm)

-Корпус института немецкого языка в Мангейме (www.ids-mannheim.de/kl/)

- Составьте глоссарий по теме «Корпусная лингвистика». Включите понятия: конкорданс, рандомизация, коллокация, подмассив, парсинг, лемматизация, корпус- менеджер.

- Найдите сетевые ресурсы по теме «Корпусная лингвистика» и кратко охарактеризуйте их.

1) Что может являться единицей корпуса?

Корпус текстов - это вид корпуса данных, единицами которого являются тексты или их достаточно значительные фрагменты, включающие, например, какие-то полные фрагменты макроструктуры текстов данной проблемной области.

Корпус текстов характеризуется четырьмя основными параметрами: во-первых, он должен быть достаточно большого объема, во-вторых, корпус должен быть структурированным или размеченным, в-третьих, тексты, составляющие определенного корпуса, должны быть в электронном варианте; в-четвертых, в понятие "Электронный корпус" входит, как правило, специальное программное обеспечение для работы с этим корпусом.

2) Как отбираются тексты для корпуса?

В состав корпуса текстов отбираются фрагменты из справочной и учебной литературы, научные статьи и рефераты, посвященные определенной тематике.

3) Классификация корпусов

  • Разметка

• Размеченные

• Неразмеченные

  • Доступность

• Свободно доступные

• Коммерческие

• закрытые

  • Тип языковых данных

• письменные

• смешанные

• устные

  • «Параллельность»

• Одноязычные

• Двуязычные

• Многоязычные

  • Цель

• Многоцелевые

• Специализированные

  • Жанр

• Литературные

• Фольклорные

• Драматургические

• Публицистически

Параллельные корпусы можно разделить на два основных типа:

1) корпусы, представляющие множество текстов-оригиналов, написанных на каком-либо исходном языке, и текстов-переводов этих исходных текстов на один или несколько других языков;

2) корпусы, объединяющие тексты из одной и той же тематической области, независимо написанные на двух или нескольких языках

По назначению выделяют исследовательские и иллюстративные корпусы. Исследовательские корпусы создаются с целью изучения различных аспектов функционирования языка. Этот тип корпусов ориентирован на широкий класс лингвистических задач. Неспецифицированность задачи требует при построении исследовательских корпусов использовать пропорциональное сужение, являющееся наиболее простым способом обеспечения репрезентативности. Как правило, такие корпусы текстов содержат от нескольких десятков миллионов до сотен миллионов словоупотреблений.

Критерий «динамичность» подразделяет корпусы на динамические и статические. Статические корпусы содержат тексты какого-то небольшого временнóго промежутка. Типичными представителями этого вида корпусов являются авторские корпусы – коллекции текстов писателей. Однако значительная часть чисто лингвистических и не только лингвистических задач требует выявления функционирования.

Глоссарий по теме «Корпусная лингвистика»

Конкорданс - алфавитный перечень всех слов какого-либо текста с указанием контекстов их употребления; тип словаря, представленный в таком виде.

Рандомизация - процедура случайного выбора элементов статистической совокупности при проведении выборочного исследования

Коллокация - в корпусной лингвистике под коллокацией понимается последовательность слов или терминов, частотность совместного появления которых в корпусе выше, чем ожидаемая вероятность их совместного появления.

Подмассив - это любая последовательность чисел в массиве (непрырывная)

Парсинг - это синтаксический анализ, который автоматически производится парсером – специальной программой или скриптом.

Лемматизация - процесс привода словоформы к лемме — её нормальной (словарной) форме. Примеры кошками → кошка бежал → бежать боязненных → боязненный

Корпус- менеджер - программное обеспечение для корпуса, которое подсчитывает конкретные словоформы, группы словосочетаний и также может выводить результаты статистики, представить в виде диаграммы.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]