Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Диплом.doc
Скачиваний:
44
Добавлен:
31.05.2015
Размер:
2.27 Mб
Скачать

1.2 Понятие учебного корпуса и лингвистической разметки

В связи с развитием технических средств появилась возможность более эффективных лингвистических исследований разного рода на базе корпусной лингвистики. Одним из таких перспективных приложений является разработка учебных корпусов текстов (Learner Corpora), ориентированных на лингводидактический формат и применимых для анализа языка и речи тех, кто изучает иностранный язык.

Под учебным корпусом (Learner Сorpus) понимается электронный корпус текстов группы лиц, изучающих иностранных язык [25]. Основной целью организации учебных корпусов является их анализ на предмет выявления способов и эффективности освоения изучаемого языка (Language Acquisition). Учебные корпусы текстов изначально создавались с целью мониторинга и анализа ошибок, допускаемых при овладении инофонами чужим языком. Корпусные технологии позволили обнаружить наиболее распространенные ошибки в словоупотреблении и словообразовании, характер которых заставил пересмотреть содержание многих учебных материалов, поскольку выявленные отклонения от нормы свидетельствовали о влиянии интерференции родных языков инофонов и так называемой «промежуточных грамматик» или, от чего не предупреждает ни один традиционный учебник или учебный словарь. На основе исследований в LC(LearnerCorpora) создаются словари и учебники нового типа, включающие предупреждающие ошибки комментарии.

LC-технологии совершенствуются с каждым годом, в результате чего появляются все новые и новые направления в данной области. Отметим основные из них:

  • При сохранении основных принципов проектирования и строительства LC развитие технологий предполагает новые форматы и процедуры. Многие корпусы включают аудио – и видеоматериалы, сканы и pdf-файлы оригинальных рукописей информантов, что требует разработки процедур встраивания их в корпус инструментов для дальнейшей обработки.

  • Кроме обязательной морфологической и синтаксической разметки, возникает необходимость в просодической разметке аудио и видео материалов. Новые запросы создателей LC – семантическая и дискурсивная разметки.

  • Специфическая для LC задача – разметка ошибок. Достаточно трудоемкой задачей является сам процесс обнаружения ошибок в тексте, который обычно проводится вручную.

  • LC перестают быть только базой для извлечения ошибок, но становятся полезным и эффективным средством обучения. Примером последнего может быть обучающая система Т.Кобба, созданная на основе оригинального учебного корпуса.

  • Большинство известных LC фиксируют определенный этап языковой компетенции. Новое направление в LC – создание лонгитюдных корпусов, накопление текстов одного и того же автора (авторов) в течении некоторого времени, что позволяет представить процесс овладения языком в динамике.

Практически все учебные корпусы являются лингвистически размеченными. (Лингвистическая) разметка (англ. tagging, annotation) – это процесс или результат приписывания текстам и их компонентам специальных меток. [29]

Лингвистическая разметка является одним из основных понятий корпусной лингвистики. Разметка даёт возможность идентифицировать тексты по различным параметрам, позволяя осуществлять осмысленный поиск по корпусу.

Разметка должна быть независима от текста: должна быть возможность убрать разметку и просмотреть текст без неё и, наоборот, вычленить только разметку. Принципы разметки и их разработчики должны быть известны конечному пользователю. Пользователь должен быть поставлен в известность о том, что разметка не является безошибочной, а представляет собой лишь потенциально полезный инструмент. В основу разметки должны быть положены общепринятые и, по возможности, теоретически нейтральные лингвистические принципы. И, наконец, ни одна разметка не может априорно считаться стандартом.

Существует несколько видов разметки. Экстралингвистическая, или метаразметка, сообщает сведения о данных. Метаразметку можно условно подразделить на внешнюю, структурную и техническую разметки. Внешняя разметка содержит сведения об авторе и сведения о тексте (автор, название, год и место издания, жанр и тематика). Структурная разметка маркирует главы, абзацы, предложения и словоформы. Техническая разметка отмечает кодировку, даты обработки, исполнителей и источник электронной версии. Метаразметка нужна для исследования условий существования языка, выявления в нём взаимосвязей и для изучения отдельных подмножеств языка. Большое внимание уделяется стандартизации метаразметок:

  • проект TEI (Text Encoding Initiative),

  • рекомендации EAGLES (Expert Advisory Group on Language Engineering Standards),

  • стандарт CES (Corpus Encoding Standard),

  • стандарт XCES (Corpus Encoding Standard for XML),

  • проект ISLE (International Standards for Language Engineering),

  • стандарт CDIF (Corpus Document Interchange Format, BNC).

Собственно лингвистическая разметка делится на:

  • морфологическую (выделение аффиксов, сложных слов и т.п.),

  • лемматизацию (указание для каждой словоформы из текста ее исходной формы),

  • морфо-синтаксическую, или частеречную (part-of-speech-tagging) (выделение основ, определение части речи и признаков грамматических категорий),

  • синтаксическую (характер синтаксической связи, тип предложения, член предложения и т.п.),

  • семантическую (снятие семантической омонимии, разрешение анафоры и кореферентности, фиксирование информационной структуры и т.п.),

  • дискурсивную (реплики, коммуникативные акты и т.п.). [25]

Обычно корпус аннотирован сразу по нескольким или по всем видам разметки. Для исследования любого учебного корпуса обычно рассматриваются способы классификации ошибок, выбирается методика их кодирования в корпусе для последующей автоматической либо ручной разметки (error tagging), а также методика количественного автоматизированного подсчета ошибок по типам, что позволяет провести их всесторонний лингвистический и лингводидактический анализ.