Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Диплом.doc
Скачиваний:
44
Добавлен:
31.05.2015
Размер:
2.27 Mб
Скачать

1.6 Учебный Мультимодальный Корпус

Корпус, разрабатываемый в Иркутском государственном лингвистическом университете, который был назван УМКО (Учебный Мультимодальный Корпус), в настоящее время содержит 28 видеозаписей неподготовленных учебных диалогов носителей и «не носителей» русского, китайского и немецкого языков по определенным темам, размеченных в программе ELAN. В качестве подкорпуса создаваемого мультимодального корпуса разрабатывался параллельный одноязычный подкорпус, в котором между собой выравнивались тексты на одном из языков, произнесённые носителями и «не носителями» языка.

Рисунок 3. Параллельный корпус УМКО

Выполнение данного проекта относится к сфере одного из восьми приоритетных направлений развития науки РФ «Информационно-телекоммуникационные системы» в русле информационных технологий и создания электронных баз данных и преследует несколько важных целей:

1) Лингводидактическая цель проекта заключается в разработке новых методик преподавания русского, китайского и немецкого языков как иностранных на эмпирическом материале нового поколения, в том числе с учетом типичных ошибок при построении устных высказываний на иностранном языке студентами старших курсов. Данный корпус предназначен, в первую очередь, для выработки методических рекомендаций по обучению китайскому и немецкому языков русских студентов и обучению русскому языку китайских студентов, поскольку позволяет найти пути устранения ошибок в ходе учебных занятий и самостоятельной работы студентов.

2) Лингвистическая цель заключается в анализе различных языковых и сопутствующих им паралингвистических явлений, зафиксированных в подкорпусах, созданных на основе видеозаписей диалогов носителей русского и китайского языков. С помощью корпусов текстов можно не только с большей точностью анализировать отдельные факты реализации языковых единиц, но и выявлять общие закономерности, присущие языковой системе. В частности, очевидным образом звучащий корпус является подспорьем для исследователей фонетики и орфоэпии.

В отличие от мультимедийных корпусов, которые основываются на уже существующем видеоматериале, цели УМКО требовали создания собственных видеозаписей. Первоначальное проектирование мультимодального корпуса включает определение субъектов коммуникации, физических условий, при которых будет происходить запись, инструментального обеспечения процесса записи, а также выбор тем, которые будут обсуждаться коммуникантами в процессе разговора.

В соответствии с ранее определенной спецификой корпуса были выбраны участники-волонтеры из числа студентов 3-4 курса изучающих немецкий и китайский языки.

Выбор тем диалогов осуществлялся на основании исследования, выявившего список общих разговорных тем, которые являются актуальными в независимости от изучаемого языка и необходимыми для установления контакта и ведения бесед в стандартных ситуациях: «Ориентирование в городе»; «В аэропорту»; «Знакомство»; «Питание. Ресторан»; «Магазины. Покупки», «На приеме у врача», «Свободное время. Обсуждение фильма», «Увлечения. Спорт», «В гостинице».

Для каждой темы был составлен опорный план диалога, содержащий несколько (обычно 4-5) пунктов, которые так или иначе должны были быть включены в текст диалога. Несмотря на заданные заранее темы, речь студентов можно назвать спонтанной, так как темы сообщались участникам лишь незадолго до момента записи, при этом уточнялось, что предложенный план является лишь опорным, и участникам самим предлагалось развить тему в любом направлении. Записи было решено проводить в помещениях университета.

В результате анализа существующих программных продуктов для создания корпуса была выбрана программа ELAN. На основании сопоставительного анализа функциональных возможностей нескольких программ, мы пришли к выводу, что программа ELAN обладает рядом преимуществ. Во-первых, она является бесплатной и свободно распространяемой. Во-вторых, поддерживает русский язык для интерфейса. В-третьих, обладает продвинутыми поисковыми возможностями (например, позволяет производить структурированный поиск по нескольким файлам).

Параллельный подкорпус

Рисунок 4. Параллельный подкорпус на китайском языке

Главными задачами при построении параллельного мультимедийного подкорпуса были:

  • Выбор оптимального способа хранения корпусных данных

  • Разработка метода выравнивания корпуса

  • Создание корпус-менеджера

Для хранения данных мультимедийного параллельного корпуса был выбран формат баз данных Microsoft Access 2003. Данный формат позволяет наглядно представить структуру корпуса, упростить процесс его заполнения и выравнивания, является широко известным, что позволит любому уверенному пользователю ПК работать с корпусом. Каждая таблица корпуса имеет жесткую структуру и хранит в себе данные одной языковой ситуации.

Поскольку исходные тексты характеризуются высокой степенью спонтанности, произвести выравнивание по предложениям не представляется возможным. По этой причине за единицу выравнивания было решено принять тематический блок – часть текста, относящуюся к одной теме. Граница тематического блока может проходить как между репликами коммуникантов, так и в рамках реплики одного из коммуникантов.

Каждый тематический блок записывается в отдельную ячейку таблицы. Выравнивание между текстами осуществляется на основе текста носителей языка: соответствующие друг другу тематические блоки записываются в рядом стоящие ячейки. Если же тематическому блоку из одного текста невозможно поставить в соответствие ни один блок из другого текста, то рядом стоящая ячейка остаётся пустой.

Наряду с самим корпусом на платформе Delphi XE был создан корпус-менеджер, позволяющий удобно просматривать мультимедийный параллельный корпус. Данный корпус-менеджер в наглядном виде представляет текстовую часть корпуса со всей разметкой и выравниванием по тематическим блокам, позволяет воспроизвести отрывок видео, относящийся к тому или иному блоку корпуса, а также позволяет просматривать метаданные.

ВЫВОДЫ ПО ПЕРВОЙ ГЛАВЕ

На сегодняшний день корпусная лингвистика является довольно популярным направлением прикладного языкознания среди лингвистов. Особую область в этом направлении представляют учебные корпусы, которые предназначены для выявления ошибок в речи носителей и изучающих язык. На данный момент существует огромное количество письменных учебных корпусов по всему миру. Большинство из них направлено на изучение английского языка как иностранного. В России данное направление только входит в практику, поэтому значительных успехов пока не зафиксировано.

Что касается корпусов текстов устной речи, то с развитием технологий записи аудио и видео, а также компьютерных программ, позволяющих систематизировать и хранить мультимедийные данные, они приобретают все большую значимость в языкознании. Позволяя изучить вербальную и невербальную составляющую речи, они являются все более востребованными на рынке образования.

Как уже отмечалось выше, создание мультимедийных корпусов требует наличие специальных компьютерных программ. Таких программ уже достаточно много в глобальной сети. Главное – выбрать ту, которая наиболее подходит для достижения поставленных целей.

Рассмотрев структуру учебных корпусов письменной речи и устных корпусов текстов на конкретных примерах, мы поставили перед собой задачу создать подкорпус немецкого языка, который будет использоваться в лингводидактических целях.