Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Відповіді на модуль з Кульчицького.docx
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
51.43 Кб
Скачать

1. Основні поняття корпусної лінгвістики

Корпусна лінгвістика - розділ комп'ютерної лінгвістики, що займається розробкою загальних принципів побудови та використання лінгвістичних корпусів (корпусів текстів) із застосуванням комп'ютерних технологій. Під лінгвістичним, чи мовним, корпусом текстів розуміється великий, представлений в машиночитаному вигляді, уніфікований, структурований, розмічений, філологічно компетентний масив мовних даних, призначений для вирішення конкретних лінгвістичних завдань. В даний час існує безліч визначень поняття «корпус». Наприклад, визначення, наведене в підручнику Е. Фінегана, говорить: корпус - репрезентативне зібрання текстів, зазвичай в машиночитаному форматі і включає інформацію про ситуацію, в якій текст був проведений, таку як інформація про що говорить, автора, адресата або аудиторії

У наведених визначеннях підкреслюються основні риси сучасного корпусу текстів - мета («логічна ідея»), машиночитаний формат, репрезентативність як результат особливої ​​процедури відбору, наявність металінгвістічної інформації.

Доцільність створення та зміст використання корпусів визначається такими передумовами:

1) досить великий (репрезентативний) об'єм корпусу гарантує типовість даних і забезпечує повноту представлення всього спектру мовних явищ;

2) дані різного типу знаходяться в корпусі в своїй природній контекстної формі, що створює можливість їх всебічного та об'єктивного вивчення;

3) одного разу створений і підготовлений масив даних може використовуватися багаторазово, різними дослідниками і в різних цілях.

У поняття «корпус текстів» входить також система управління текстовими і лінгвістичними даними, яку останнім часом найчастіше називають корпусним менеджером (або корпус-менеджером) (англ. corpusmanager). Це спеціалізована пошукова система, що включає програмні засоби для пошуку даних в корпусі, отримання статистичної інформації і надання користувачу результатів у зручній формі.

Пошук в корпусі дозволяє по будь-якому слову побудувати конкорданси - список всіх вживань даного слова в контексті з посиланнями на джерело. Корпуси можуть використовуватися для отримання різноманітних довідок і статистичних даних про мовних і мовних одиницях. Зокрема, на основі корпусів можна отримати дані про частоту словоформ, лексем, граматичних категорій, простежити зміну частот і контекстів в різні періоди часу, отримати дані про спільну зустрічальності лексичних одиниць і т.д.

Корпуси покликані служити також джерелом і інструментом багатоаспектних лексикографічних робіт з підготовки різноманітних історичних і сучасних словників. Дані корпусів можуть бути використані для побудови та уточнення граматик і в цілях навчання мови.

Корпусна лінгвістика має, принаймні, дві риси, що дають їй підставу претендувати на положення самостійної дисципліни: 1) характер використовуваного словесного матеріалу; 2) специфіка інструментарію.

 Якщо такі розділи лінгвістики як синтаксис, семантика і соціолінгвістика мають на меті опис або оцінку мовної структури або мовного використання, то корпусні лінгвістика є більш широким поняттям, методологією, яку можна застосувати до багатьох аспектів мовних досліджень. Двоїстий характер корпусної лінгвістики (націленість як на створення, так і на використання корпусів текстів) обумовлюється двоїстим характером її об'єкта - корпусу текстів, який, з одного боку, являє собою вихідний мовний матеріал для корпусної лінгвістики і для інших лінгвістичних дисциплін, з іншого боку, є результатом діяльності корпусної лінгвістики.

Існує проблема, пов'язана з термінологією корпусної лінгвістики в російській мові, яка поки не встановилася в силу наступних причин: її відносно недавнє походження і її зародження в США і Великобританії, що обумовила той факт, що термінологія складалася і продовжує складатися в надрах англійської мови. Російські терміни, в основному, являють собою запозичення англійських термінів; деякі з них в інших значеннях давно існують в російській мові.