Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Тугаринова Настя (7).doc
Скачиваний:
11
Добавлен:
21.11.2018
Размер:
2.71 Mб
Скачать

1.2 Учебные корпуса: определение и назначение

В настоящее время корпусы письменных и устных текстов успешно применяются при обучении иностранному языку и в лингвистической педагогике. На базе корпусов формируются списки активной лексики студентов, частотные списки терминов для использования в профессиональных курсах и т.п. Разработчики академических словарей и учебных пособий опираются на аутентичные массивы текстов (Corpora). Кроме того, коллекции, библиотеки и массивы текстов отражают реальное функционирование того или иного языка, а их перенос в компьютерные среды только активизировал их практическое и широкое использование в прикладной лингвистике.

Корпусная лингвистика дает материал для различного рода исследований языка и его вариантов, и определяет основной метод анализа текстов на базе корпусов (Corpus-Based Approach). Корпусный подход, или метод лингвистического исследования, основанный на корпусах текстов, ориентирован на прикладное изучение языка, его функционирование в реальных средах и текстах, что важно для преподавания языка. Например, лексикографический анализ на базе корпусов явно помогает раскрыть контекстное употребление тех или иных слов, особенно синонимичных (например, small/little, big/large), частотную сочетаемость их с другими словами, регулярность в тех или иных стилях, и четко определить их семантику.

В связи с развитием технических средств появилась возможность более эффективных лингвистических исследования разного рода на базе корпусной лингвистики. Одним из таких перспективных приложений является разработка учебных корпусов текстов (Learner Corpora), ориентированных на лингводидактический формат и применимых для анализа языка и речи тех, кто изучает иностранный язык.

Под учебным корпусом (Learner Сorpus) понимается электронный корпус текстов группы лиц, изучающих иностранных язык. Основной целью организации учебных корпусов является их анализ на предмет выявления способов и эффективности освоения изучаемого языка (Language Acquisition).

Такого рода корпусы, например, могут быть использованы для лингвистического анализа на предмет выявления лексических или синтаксических ошибок при освоении иностранного языка. Такой подход помогает установить частотность тех или иных типов языковых ошибок, характерные контексты, что необходимо для выработки планов и методических приемов для дальнейшей коррекции в обучении языку.

На сегодняшний день учебные корпусы наиболее распространены в Азии и Европе. Значительных успехов в этой области достигло изучение английского языка. Международный Учебный Корпус Английского языка (The International Corpus of Learner English) является первым и самым известным учебным корпусом. Корпус включает в себя аргументативные эссе, написанные студентами продвинутого языкового уровня, т.е. студентами, изучающими английский язык на третьем-четвертом курсах. Основная цель ICLE – исследование языка межнациональной коммуникации студентов, изучающих этот язык.

Версия 1.1 ICLE, изданная на CD-ROM в 2002, содержала более чем 2.5 миллиона слов в форме 3 640 текстов, располагающихся между 500-1 000 словами по длине. Она была написана студентами EFL из 11 стран. А именно, из Болгарии, Чехии, Голландии, Финляндии, России, Франции, Германии, Италии, Польши, Испании и Швеции. Корпус все еще расширяется дополнительными подкорпусами (каждый содержит по 200 000 слов) студентами из восьми других стран, включая Бразилию, Китай, Японию, Литву, Норвегию, Португалию, Турции, а также студентами Южной Африки носителями языка Тсвана. В ICLE, изданном на CD-ROM, нет пометок о частях речи и учебных ошибках.

В дополнение к разрешению сравнения учебного письма различного происхождения корпус может использоваться в комбинации с LOCNESS, чтобы сравнить английский язык уроженца и студента, изучающего английский. Корпус ICLE доступен для лингвистического исследования, но не может использоваться в коммерческих целях.

Данный корпус является показательным примером эффективности разработок в области корпусной и прикладной лингвистики.

Не менее известным учебным корпусом английского языка является Кембриджский Учебный корпус (The Cambridge Learner Corpus http://www.cambridge.org). Как часть Кембриджского Международного Корпуса, Кембриджский Учебный Корпус это огромная коллекция примеров английского языка, который пополняют изучающие всего мира. Он содержит свыше 20 млн. слов и непрерывно расширяется. Корпус в настоящее время содержит 50 000 подлинников из 150 стран (100 различных фонов L1). Каждый подлинник содержит информацию о родном языке студента, национальности, уровне английского языка, возраста, и т.д. Более чем восемь миллионов слов (или приблизительно 25 000 подлинников) были закодированы для ошибок, используя Учебную Кодирующую Систему Ошибок, развитую издательством Кембриджского университета. CIC является коммерческим корпусом. В настоящее время получить доступ к корпусу могут только авторы текстов и авторы, работающие на издательство Кембриджского университета, а также члены штата в Кембридже ESOL.

Первым учебным корпусом устной речи стал корпус LINDSEI. Он является разговорной копией ICLE. Первый версия корпуса была составлена на CECL и содержала стенограммы пятидесяти 15-минутных интервью со студентами 3-4-го года обучения. Она содержала приблизительно 100 000 слов. База данных в настоящее время расширяется дополнительными компонентами, представляющими другие языки, включая болгарский, китайский, итальянский, японский, испанский, и шведский. Поскольку большинство учебных корпусов использовало только письменные данные, этот тип данных дает новое исследование относительно широкого диапазона особенностей устного языка межнационального общения.

Изучив интернет ресурсы, нами была составлена таблица существующих на сегодняшний день учебных корпусов (см. приложение 3). В данную таблицу вошли учебные корпуса следующих языков: английского, немецкого, французского, испанского и итальянского, также были включены многоязычные корпуса. Таблица содержит следующие данные: имя корпуса (ссылка на корпус или сайт с описанием данного корпуса), изучаемый язык, родной язык, типы текстов и жанры, уровень владения языком, количество слов в корпусе, информация об авторах и доступе корпуса (если свободный доступ, то ссылка на корпус). Всего таблица содержит 80 корпусов. На рисунке 1 представлен фрагмент таблицы.

Рисунок 1 Таблица учебных корпусов

На основе данной таблицы была составлена сводная таблица для сравнения количества двуязычных учебных корпусов (см. приложение 2). В данную таблицу вошли следующие поля: изучаемый язык, родной язык и название корпуса.

Рисунок 2 Фрагмент таблицы приложения 2

Распределение по количеству корпусов для каждого изучаемого языка представлено в виде диаграммы.

Рисунок 1. Процентное соотношение двуязычных учебных корпусов

Из диаграммы видно что, больше половины учебных корпусов создается для изучения английского языка, т.к. он является международным языком. Все остальные языки изучаются значительно меньше по сравнению с английским в силу не такой большой распространенности. Что же касается русского языка, то нами не найдено ни одного учебного корпуса.