Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Тугаринова Настя (7).doc
Скачиваний:
11
Добавлен:
21.11.2018
Размер:
2.71 Mб
Скачать

2.4. Общие рекомендации по выбору инструментальных средств для создания корпуса по русскому языку

Корпус должен содержать особую дополнительную информацию о свойствах входящих в него текстов (так называемую разметку, или аннотацию). Основные виды разметки синтаксическая, грамматическая (семантическая, морфологическая), расстановка ударения, разметка на ошибки.

Синтаксическая разметка может осуществляться с помощью онлайн сервиса Machinese Syntax © (http://www.connexor.eu/technology/machinese/demo/syntax/).

При грамматической разметке текстов (морфологической и семантической), а также при расстановке ударений - программы морфологического анализа Mystem (разработка компании Яндекс) и Dialing (коллектив авторов под руководством А. В. Сокирко). Программы Mystem и Dialing распространяются свободно и доступны для некоммерческого использования согласно соответстветствующим лицензионным соглашениям.

Разметка на ошибки будет происходить по классификации, используемой в КТПШ (приложение 2) с применением программы White Smoke (http://www.whitesmoke.com/online-writing-assistant,). Размеченные тексты будут доступны пользователям для просмотра и поиска в режиме онлайн.

Для статистики текста можно использовать онлайн сервис AVEGO (http://advego.ru/text/). Данный сервис автоматически подсчитывает количество символов, слов, количество уникальных (а также значимых и стоп-слов, вода) слов, количество грамматических ошибок и т.д.

Конкорданс, списки ключевых слов и другие элементы корпуса можно создавать при помощи программного средства AntConc, учитывая все его преимущества перед другими программными средствами, которые были описаны выше.

Заключение

На сегодняшний день учебные корпуса наиболее распространены в Европе, а именно в Великобритании, Германии, Франции. Также немалых успехов в этой области добились и в Китае. Что касается отечественных разработок в этой области, то здесь мы добились не больших успехов по сравнению с вышеперечисленными странами.

Для создания учебных корпусов можно использовать такие программные продукты как AntConc, WordSmith, MonoConc Pro, MonoConc Easy, CATMA. В них включены инструменты для создания конкорданса, кластеров, расположения, списков ключевых слов, для просмотра файлов и др. За счет легкости в использовании и свободного доступа наиболее мы считаем AntConc.

Учебные корпуса являются наиболее эффективными, если они размечены на ошибки. Для того чтобы разметить текст на ошибки нужно иметь определенную классификацию ошибок. Несмотря на то, что на сегодняшний день не существует универсальной классификации, создатели учебных корпусов стараются придерживаться основных типов ошибок таких как синтаксические, морфологические, лексические, грамматические, орфографические, спеллинг и некоторые другие. В зависимости от преследуемой цели, создатели корпусов в каждом типе ошибок выделяют свои подтипы.

Рассмотренные нами примеры учебных корпусов служат ярким примером того, каким должен быть учебный корпус, т.е. с помощью каких программ может создаваться, какова его структура, функциональные возможности.

Полученные результаты исследования можно будет использовать в дальнейшем при создании нового учебного корпуса в качестве вспомогательного материала.