Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ПЛ_матер_зач_2012_ОЗО.doc
Скачиваний:
1
Добавлен:
01.03.2025
Размер:
112.13 Кб
Скачать

Корпусная лингвистика

Любое лингвистическое исследование в той или иной мере опирается на анализ языкового материала, языковых данных. Чем больше материал, тем выше достоверность выводов, тем шире сфера действия наблюдаемых закономерностей. В традиционном языкознании сбору материала всегда придавалось особое значение. Более того, во многих областях лингвистики сбор новых языковых фактов может считаться основной задачей лингвистического описания — ср. исследование неописанных и плохо описанных языков, выявление фонетических и морфологических различий в диалектах, изучение функционирования жаргонов, определение изменений в функционировании языка и множество других задач, которые невозможна даже перечислить.

Новые информационные технологии и технические средства (компьютерные системы, системы связи, системы мультимедиа) значительно облегчили сбор языковых данных.

Встает задача разработки общих принципов построения лингвистических корпусов данных с использованием современных компьютерных технологий.

Рассмотрим некоторые понятия корпусной лингвистики, которые составляют базовый категориальный аппарат этой дисциплины.

Проблемная область. Под проблемной областью понимается область реализации языковой системы, содержащая феномены, подлежащие лингвистическому описанию. Проблемная область для конкретного корпуса данных может быть сколь угодно велика или мала — все определяется выбранным объектом анализа.

Корпус данных. Корпус данных представляет собой сформированную по определенным правилам выборку данных из проблемной области. Тем самым корпус данных представляет собой результат отображения проблемной области.

Единица хранения корпуса данных. Поскольку корпус данных — это некоторая выборка из проблемной области, сформированная по определенным принципам, то единица хранения непосредственно зависит от того, по каким основаниям осуществляется выборка. Единица хранения — это некоторая совокупность естественно-языковых выражений проблемной области. Это могут быть отдельные слова, короткие фразы, предложения, словосочетания (синтагмы). Если корпус предполагается для синтаксического анализа, то он должен включать целые тексты или их достаточно большие фрагменты.

Корпус текстов. Корпус текстов — это вид корпуса данных, единицами которого являются тексты или их достаточно значительные фрагменты, включающие, например, какие-то полные фрагменты макроструктуры текстов данной проблемной области.

Типы корпусов данных.

Исследовательские корпусы. Исследовательскими называются такие корпусы, которые предназначены преимущественно для изучения различных аспектов функционирования языковой системы. Они строятся не post factum — после проведения какого-либо исследования, а до его проведения. Этот тип корпусов данных, как правило, ориентирован на широкий класс лингвистических задач, что требует при построении исследовательских корпусов использовать пропорциональное сужение, являющееся наиболее простым способом обеспечения репрезентативности.

Иллюстративные корпусы. Иллюстративные корпусы создаются после проведения научного исследования: их цель не столько выявить новые факты, сколько подтвердить и обосновать уже полученные результаты. Такие корпусы не являются слепком, правильным (с точки зрения статистики) отображением проблемной области. Они включают лишь то, что достаточно для иллюстрации описываемого феномена. Типичный пример иллюстративного корпуса представлен в «Путеводителе по дискурсивным словам русского языка», где семантический анализ частиц и выделенные значения сопровождаются значительным текстовым материалом, позволяющим читателю проверить предложенные семантические интерпретации.

Динамические и статические корпусы текстов. Первоначально корпусы текстов создавались как статические образования, отражающие определенное временное состояние языковой системы. Типичными представителями этого вида корпусов являются авторские корпусы — коллекции текстов писателей. Однако значительная часть чисто лингвистических и не только лингвистических задач требует выявления функционирования языковых феноменов на временной шкале — например, изменения значения слов, частоты использования тех или иных синтаксических конструкций и пр. Для отражения процессуального аспекта проблемной области была разработана новая технология построения и эксплуатации динамического корпуса текстов. В имеющейся литературе такие корпусы получили также название мониторных (ср. «лингвистический мониторинг»). Особенность сборки мониторных корпусов заключается в том, что они не предполагают раз и навсегда заданного набора текстов. В течение заранее фиксированного промежутка времени происходит обновление и/или дополнение множества текстов корпуса.

Корпусы параллельных текстов. Для научных и практических целей (в частности, для преподавания иностранных языков) формируются корпусы параллельных текстов. По своей структуре это подмножество текстов на языке-источнике и одно или несколько подмножеств текстов, которые являются переводами текстов языка-источника на языки-цели.