Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Диплом.doc
Скачиваний:
44
Добавлен:
31.05.2015
Размер:
2.27 Mб
Скачать

1.3 Краткий обзор разработок по созданию учебных корпусов текстов

На сегодняшний день учебные корпусы наиболее распространены в Азии и Европе. Изучение английского языка достигло в этой области значительных успехов. Международный Учебный Корпус Английского языка (TheInternationalCorpusofLearnerEnglish) является первым и самым известным учебным корпусом. Корпус включает в себя аргументативные эссе, написанные студентами 3-4 курсов продвинутого языкового уровня. Основная цельICLE– исследование языка межнациональной коммуникации студентов, изучающих этот язык.

Версия 1.1 ICLE, изданная на CD-ROM в 2002, содержала более чем 2.5 миллиона слов в форме 3 640 текстов, располагающихся между 500-1 000 словами по длине. Она была написана студентами EFL из 11 стран, а именно, из Болгарии, Чехии, Голландии, Финляндии, России, Франции, Германии, Италии, Польши, Испании и Швеции. Корпус все еще расширяется дополнительными подкорпусами (каждый содержит по 200 000 слов) студентами из восьми других стран, включая Бразилию, Китай, Японию, Литву, Норвегию, Португалию, Турции, а также студентами Южной Африки носителями языка Тсвана. В ICLE, изданном на CD-ROM, нет пометок о частях речи и учебных ошибках.

Корпус ICLE доступен для лингвистического исследования, но не может использоваться в коммерческих целях. Данный корпус является показательным примером эффективности разработок в области корпусной и прикладной лингвистики.

Не менее известным учебным корпусом английского языка является Кембриджский Учебный корпус (The Cambridge Learner Corpus). Как часть Кембриджского Международного Корпус, Кембриджский Учебный Корпус - это огромная коллекция примеров английского языка, который пополняют изучающие всего мира. Он содержит свыше 20 млн. слов и непрерывно расширяется. Корпус в настоящее время содержит 50 000 подлинников из 150 стран (100 различных фонов L1). Каждый подлинник содержит информацию о родном языке студента, национальности, уровне английского языка, возрасте, и т.д. Более чем восемь миллионов слов (или приблизительно 25 000 подлинников) были закодированы для ошибок, используя Учебную Кодирующую Систему Ошибок, развитую издательством Кембриджского университета.CICявляется коммерческим корпусом. В настоящее время получить доступ к корпусу могут только авторы текстов и авторы, работающие на издательство Кембриджского университета, а также члены штата в Кембридже ESOL (http://www.cambridge.org/).

Среди отечественных разработок в данной области, одним из самых известных является Корпус Текстов Петербургских Школьников (КТПШ).

Объём корпуса составляет 38.122 словоупотребления. Сбор материала проходил в школах Санкт-Петербурга и осуществлялся в рамках педагогической практики студентами 4 курса филологического факультета РГПУ им. А. И. Герцена. В качестве информантов (авторов текстов) выступили 78 учащихся 7, 9-11 классов. Родной язык информантов – русский. Возраст учащихся – от 13 до 17 лет (средний возраст 15.4 лет; стандартное отклонение – 0,8 года). Жанры текстов – эссе и письмо другу (письменные тексты), монолог и диалог (устные тексты).

В таблице 4 представлены основные характеристики корпуса.

Характеристики КТПШ

Таблица 2

Признак

Тип корпуса

Тип данных

Смешанный (устные и письменные)

Язык текстов

Английский

«Параллельность»

Одноязычный

Специфичность

Содержит тексты обучающихся английскому зыку

Доступность

Свободный доступ

Назначение

Исследовательский

Динамичность

Мониторный

Разметка

Размеченный

Характер разметки

Синтаксическая разметка ошибок (errortagging)

Объем текстов

Полнотекстовый

Хронология

Диахронический

«Общность»

Общий

Работа по созданию корпуса текстов обучающихся английскому языку проводилась в рамках программы «Методология проектирования гуманитарных технологий извлечения информации в условиях инновационной образовательной среды: коммуникативный аспект»

Руководитель программы: Беляева Лариса Николаевна, доктор филологических наук, профессор, заслуженный деятель науки РФ, почетный работник высшего профессионального образования РФ.

Работа над программой проводилась в рамках инновационного образовательного проекта РГПУ им. А.И. Герцена «Создание инновационной системы подготовки специалистов в области гуманитарных технологий в социальной сфере» (2008 г).

На данном сервисе представлены тексты петербургских учащихся, разделенные по типам и жанрам и синтаксически размеченные. В корпусе есть возможность свободного наполнения, т.е. любой пользователь может разместить в нем свой текст.

Разметка текста на ошибки

Разметка ошибок в КТПШ была выполнена полуавтоматическим способом с помощью программ Microsoft Word и Advanced Auto Renamer. Для того, чтобы разместить размеченный вариант текста нужно следовать предложенной в корпусе инструкции:

  1. Загрузите на локальный компьютер предлагаемый список ошибок;

  2. Скопируйте текст, который будете размечать в отдельный файл редактора Microsoft Word 2007. (! в другом файле у Вас должен остаться текст без разметки!) Убедитесь, что в настройках "Правописание" - "Набор правил" выбран пункт "Строго (все правила)";

  3. Кликните на ошибочном варианте слова правой кнопкой мыши и в открывшемся меню выберите пункт "Грамматика";

  4. Выделите слово с ошибкой цветом, соответствующим типу ошибки. Для этого воспользуйтесь инструментом "маркер";

  5. Впишите номер ошибки (см. список ошибок) после слова через пробел в круглых скобках;

  6. Пройдите по ссылке http://www.whitesmoke.com/online-writing-assistant, разместите в диалоговом окне сайта ваш неразмеченный текст;

  7. Осуществите разметку текста, нажав на кнопку "check spelling";

  8. Выделите в вашем документе слово с ошибкой цветом, соответствующим типу ошибки (см. список ошибок);

  9. Впишите номер ошибки (см. список ошибок) после слова через пробел в круглых скобках;

  10. По окончании работы воспользуйтесь программой Advanced Auto Renamer, присвоив ошибкам соотвествующие названия;

  11. Сохраните документ в формате HTML присовив ему имя типа «textcode»_error tagged.htm (веб-страница с фильтром);

  12. Отправьте полученный документ на электронный адрес администрации сайта. Ваш текст будет добавлен в корпус после рассмотрения его администратором сайта.

Практически все уже существующие на данном сервисе тексты размечены на ошибки. На рисунке 1 показан фрагмент размеченного текста.

Рисунок 1. Фрагмент текста КТПШ

Кроме разметки на ошибки, сервис предлагает пользователю разметить текст синтаксически. Для синтаксической разметки текстов корпуса предлагается использовать сервис Machinese Syntax © компании Connexor Oy. Для того, чтобы разместить размеченный вариант текста нужно также проследовать предложенной инструкции.

Создание конкорданса

Для создания конкордансов используется программа AntConc. В корпусе дано подробное описание этой программы, а также ссылка для скачивания и тексты для работы с программой.

Наполнение сервиса

Для того чтобы добавить текст в корпус, сначала нужно выбрать раздел Corpus Builder (конструктор корпуса).

  • Перед тем как добавить свой текст, нужно заполнить следующие поля:

  • тип текста (эссе, письмо другу, монолог, диалог),

  • уникальный идентификатор (ID),

  • возраст, пол, школа, класс,

  • родной язык, второй язык,

  • дополнительное образование (подготовительные курсы, репетитор, не занимается),

  • уровень владения языком (новичок, начальный, ниже среднего, средний, выше среднего, продвинутый),

  • тема

  • и последнее, вставить свой текст в соответствующее поле.