Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
21-25.rtf
Скачиваний:
22
Добавлен:
14.08.2019
Размер:
173.15 Кб
Скачать

21. Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности.

Корпус — это информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме. Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования и во всём многообразии жанров, стилей, территориальных и социальных вариантов и т. п.

Под текстовым корпусом в корпусной лингвистике понимается структурированный, размеченный массив текстов или их значительных фрагментов, представленный в электронном виде и обеспеченный специализированной поисковой системой. Текстовые корпусы могут быть предназначены для решения различных лингвистических задач. Цель построения корпуса определяет его тип. Типы корпусов (фундаментальные корпусы текстов; динамические/мониторные vs. статические корпусы; исследовательские vs. иллюстративные корпусы; авторские корпусы) .Важнейшим общим принципом формирования текстовых корпусов является их репрезентативность, которая определяется не только и не столько количеством языкового материала, но прежде всего его пропорциональностью. Другим отличительным свойством корпуса текстов является разметка (аннотирование) текстового массива.

Корпус русского языка — это информационно-справочная система, основанная на собрании русских текстов в электронной форме, объемом более 140 млн. слов.

Создание корпусов текстов русской речи началось сравнительно недавно.

Среди русских текстовых корпусов есть как корпусы, стремящиеся отразить состояние русского языка в целом на современном этапе его существования, так и корпусы, обращенные к отдельным его явлениям и подсистемам. Не все созданные или создающиеся корпуса доступны сегодня для широкого круга пользователей.Наиболее представительным из русских текстовых корпусов первой группы (в целом) является сегодня Национальный корпус русского языка.К этой же

группе корпусов можно отнести, также такие корпусы, как:

– Тюбингенские корпусы русских текстов:

– Корпус русского литературного языка:

Характеризуется представительностью, или сбалансированным составом текстов. Это означает, что корпус содержит по возможности все типы письменных и устных текстов, представленные в данном языке (художественные разных жанров, публицистические, учебные, научные, деловые, разговорные, диалектные и т.п.), и что все эти тексты входят в корпус по возможности пропорционально их доле в языке соответствующего периода, содержит особую дополнительную информацию о свойствах входящих в него текстов (так называемую разметку, или аннотацию). Разметка — главная характеристика корпуса; она отличает корпус от простых коллекций (или «библиотек») текстов, в изобилии представленных в современном Интернете, в том числе и на русском языке (таких, как, по-видимому, наиболее известная «библиотека Максима Мошкова» или, например, «Русская виртуальная библиотека»).

Предназначен для обеспечения научных исследований лексики и грамматики языка, тонких, но непрерывных процессов языковых изменений, происходящих в языке на протяжении сравнительно небольших периодов — от одного до двух столетий. Другая задача — предоставление всевозможных справок, относящихся к указанным областям (лексика, грамматика, акцентология, история языка).

НКРЯ открыт в сети Интернет 29 апреля 2004 г. Текстовый массив корпуса охватывает период от начала XVIII до начала XXI в., при этом количественно преобладают в корпусе тексты современного периода – 2-й половины XX – нач. XXI в. Этот период отражен в НКРЯ также и наиболее разнообразно по жанрам и типам речи. Объем НКРЯ в настоящее время – более 140 млн. словоупотреблений. Русский язык представлен в НКРЯ в разных социальных формах его существования – литературной, разговорной, диалектной. Наиболее полно на сегодняшний день отражен в корпусе литературный вариант русского языка, который представлен значительным массивом художественных текстов разных жанров, другими видами письменной и (в меньшей мере) устной литературной речи: публицистика, научная и научно-популярная литература, частная переписка, дневники, документы, публичные выступления, газетные объявления и т.д. Корпус включает также небольшой пока подкорпус параллельных текстов – английских и русских, немецких и русских; планируется создание параллельных текстов и для других языков. Специфика НКРЯ состоит в его принципиальной «нелитературоцентричности», хотя роль текстов классической и современной художественной литературы в корпусе достаточно велика. Такая установка продиктована представлением о том, что «учет именно этих текстов не является для многих задач приоритетным», стремлением представить в корпусе «образцы доминирующего в данном языковом коллективе дискурса». «На роль последнего, – пишет В.А. Плунгян, – может в современной ситуации претендовать скорее литература, относимая к жанру‘non-fiction’, то есть литература с минимально декларируемой «художественностью», а также образцы устного городского фольклора: анекдоты, анонимные «истории из жизни», вербализующие стереотипы и мифы современного массового сознания»

В настоящее время в НКРЯ используются метатекстовая, морфологическая, семантическая, акцентная разметки, разрабатывается синтаксическая разметка. Структура НКРЯ и система разметки в нем постоянно совершенствуются.

Тексты, включенные в НКРЯ, не доступны для чтения и копирования как целые тексты. Они служат источниками примеров (контекстов), получаемых в результате поисковых запросов. Контекст выдачи равен одному предложению, однако по запросу пользователя может быть расширен до нескольких предложений. Каждая из текстоформ в контексте выдачи сабжена информацией о ее грамматических признаках (результат морфологической разметки), появляющейся в виде всплывающих окон. В НКРЯ предоставляется возможность поиска по слову, словоформе, словосочетанию, сочетанию слов, находящихся на определенном расстоянии друг от друга, по сегменту слова, по заданным грамматическим и семантическим характеристикам. В поисковый запрос могут быть включены также дополнительные признаки: повтор слова или грамматических характеристик, знаки препинания (находящиеся до или после запрашиваемого слова).Поиск в НКРЯ может вестись как по целому корпусу, так и по определенному подмножеству текстов. Пользователь может, например, ограничить область поиска текстами определенного автора, определенного периода, определенного жанра, определенной тематики и т.п. Есть также возможность сформировать свой исследовательский подкорпус по принятым в

НКРЯ параметрам его структурирования корпуса.

НКРЯ – динамично развивающийся корпус. В его составе активно разрабатываются новые подкорпуса, совершенствуются уже созданные.

НКРЯ включает подкорпуса: глубоко аннотированный корпус, в котором для каждого предложения построена полная морфологическая и синтаксическая структура (дерево зависимостей);

параллельный русско-английский корпус текстов, в котором можно найти все переводы для определенного русского или английского слова или словосочетания;

корпус диалектных текстов, включающий запись диалектной речи различных регионов России с сохранением их грамматической специфики; предусмотрен специальный поиск с учётом диалектной морфологии;

корпус поэтических текстов, в котором возможен поиск не только по лексическим и грамматическим, но и по специфическим для стиха признакам (поиск определённого сочетания в сонетах, в эпиграммах, в стихотворениях, написанных амфибрахием, с определённым типом рифмовки и т. п.);

обучающий корпус русского языка — корпус со снятой омонимией, разметка которого ориентирована на школьную программу русского языка;

корпус устной речи - включает расшифровки магнитофонных записей публичной и частной устной речи, а также транскрипты кинофильмов 1930-2000-х годов.

Все тексты, составляющие Национальный корпус русского языка, находятся на этом сайте и доступны для некоммерческого использования в научно-исследовательских и учебных целях. Тексты, помещаемые на сайт, не предназначены ни для чтения, ни для копирования: они могут использоваться в режиме поиска как источники примеров (цитат), иллюстрирующих то или иное языковое явление.

В Национальный корпус русского языка включены прежде всего прозаические оригинальные тексты, представляющие русский литературный язык (с середины XVIII века), но также и переводные сочинения, поэтические тексты, тексты, представляющие разговорную (записи устной речи, публичной и непубличной), диалектную формы.

Основной корпус — тексты, представляющие русский литературный язык, — можно подразделить на три главных массива, имеющих свои особенности: это современные письменные тексты (середина XX — начало XXI века), корпус живой русской речи (записи устных текстов того же периода) и ранние тексты (середина XVIII — середина XX века). По умолчанию поиск по этим трём массивам ведётся одновременно, выбрать один из них (и задать дополнительные параметры) можно на странице установки пользовательского подкорпуса.

Все тексты, входящие в основной корпус, проходят процедуру метаразметки и морфологической разметки. Морфологическая разметка осуществляется с помощью специальных программ автоматического морфологического анализа.

Представительный корпус современных текстов с морфологической разметкой является основным и самым объёмным из подкорпусов. Планируемый объем этого корпуса — 100 млн. словоупотреблений. В этот корпус входят различные типы текстов, представляющие современный русский литературный (письменный) язык:

современная художественная проза разных жанров и направлений, современная драматургия, мемуарно-биографическая литература, журнальная публицистика и литературная критика, газетная публицистика и новости, научные, научно-популярные и учебные тексты, религиозные и религиозно-философские тексты, производственно-технические тексты, официально-деловые и юридические тексты, бытовые тексты (в том числе тексты, не предназначенные для публикации: личная переписка, дневники и т.п.)

Тексты представлены в определенной пропорции, отражающей их долю в общем массиве современных текстов. Так, доля художественных текстов (включая драматургию и мемуары) составляет не более 40%.

Источниками текстов, входящих в Корпус, для опубликованных книжных, журнальных и газетных текстов, как правило, являются выверенные электронные версии, предоставляемые издателями этих текстов (и используемые в Корпусе с разрешения издателей). Ограничить поиск современными текстами можно по параметру «дата создания» на странице выбора подкорпуса.

http://www.ruscorpora.ru/

Послание от самого Гольдина :

1. При подготовке к экзамену совершенно необходимо познакомиться с современным состоянием Национального корпуса русского языка (ruscorpora.ru): он очень сильно изменился, добавилось много новых материалов, разделов и возможностей (напр., мультимедийный корпус в его составе, МУРКО), появился семантический поиск (см. непременно!) и др.

2. На основе НКРЯ создан ряд новых словарей русского языка, с ними надо познакомиться на сайте Института русского языка РАН (ruslang.ru) http://www.ruslang.ru/ в разделе «Ресурсы». Они так и названы: «Словари, созданные на основе Национального корпуса русского языка. Там же множество других электронных словарей. Там же вход в Образовательный портал НКРЯ (см.!).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]