- •«Иркутский государственный лингвистический университет»
- •Инструментальные средства разработки учебного корпуса ошибок по русскому языку
- •Иркутск
- •Глава I Понятие корпусной лингвистики и учебного корпуса….………....4
- •Глава II Аналитический обзор средств разработки учебного корпуса...…15
- •Введение
- •Глава I. Понятие корпусной лингвистики и учебного корпуса
- •1.1. Краткий обзор разработок по созданию корпусов текстов
- •1.2 Учебные корпуса: определение и назначение
- •Глава II. Аналитический обзор средств разработки учебного корпуса
- •2.1. Аналитический обзор программных средств для аннотирования текста
- •2.2. Классификация ошибок
- •2.3 Примеры строения учебных корпусов
- •2.3.1 Корпус Текстов Петербургских Школьников
- •1. Разметка текста на ошибки
- •2. Синтаксическая разметка текста
- •3. Создание конкорданса
- •4. Наполнение сервиса
- •2.3. 2. Учебный многоязычный корпус MeLlange
- •2.4. Общие рекомендации по выбору инструментальных средств для создания корпуса по русскому языку
- •Заключение
- •Библиография
- •Приложение 1
2.4. Общие рекомендации по выбору инструментальных средств для создания корпуса по русскому языку
Корпус должен содержать особую дополнительную информацию о свойствах входящих в него текстов (так называемую разметку, или аннотацию). Основные виды разметки синтаксическая, грамматическая (семантическая, морфологическая), расстановка ударения, разметка на ошибки.
Синтаксическая разметка может осуществляться с помощью онлайн сервиса Machinese Syntax © (http://www.connexor.eu/technology/machinese/demo/syntax/).
При грамматической разметке текстов (морфологической и семантической), а также при расстановке ударений - программы морфологического анализа Mystem (разработка компании Яндекс) и Dialing (коллектив авторов под руководством А. В. Сокирко). Программы Mystem и Dialing распространяются свободно и доступны для некоммерческого использования согласно соответстветствующим лицензионным соглашениям.
Разметка на ошибки будет происходить по классификации, используемой в КТПШ (приложение 2) с применением программы White Smoke (http://www.whitesmoke.com/online-writing-assistant,). Размеченные тексты будут доступны пользователям для просмотра и поиска в режиме онлайн.
Для статистики текста можно использовать онлайн сервис AVEGO (http://advego.ru/text/). Данный сервис автоматически подсчитывает количество символов, слов, количество уникальных (а также значимых и стоп-слов, вода) слов, количество грамматических ошибок и т.д.
Конкорданс, списки ключевых слов и другие элементы корпуса можно создавать при помощи программного средства AntConc, учитывая все его преимущества перед другими программными средствами, которые были описаны выше.
Заключение
На сегодняшний день учебные корпуса наиболее распространены в Европе, а именно в Великобритании, Германии, Франции. Также немалых успехов в этой области добились и в Китае. Что касается отечественных разработок в этой области, то здесь мы добились не больших успехов по сравнению с вышеперечисленными странами.
Для создания учебных корпусов можно использовать такие программные продукты как AntConc, WordSmith, MonoConc Pro, MonoConc Easy, CATMA. В них включены инструменты для создания конкорданса, кластеров, расположения, списков ключевых слов, для просмотра файлов и др. За счет легкости в использовании и свободного доступа наиболее мы считаем AntConc.
Учебные корпуса являются наиболее эффективными, если они размечены на ошибки. Для того чтобы разметить текст на ошибки нужно иметь определенную классификацию ошибок. Несмотря на то, что на сегодняшний день не существует универсальной классификации, создатели учебных корпусов стараются придерживаться основных типов ошибок таких как синтаксические, морфологические, лексические, грамматические, орфографические, спеллинг и некоторые другие. В зависимости от преследуемой цели, создатели корпусов в каждом типе ошибок выделяют свои подтипы.
Рассмотренные нами примеры учебных корпусов служат ярким примером того, каким должен быть учебный корпус, т.е. с помощью каких программ может создаваться, какова его структура, функциональные возможности.
Полученные результаты исследования можно будет использовать в дальнейшем при создании нового учебного корпуса в качестве вспомогательного материала.