
- •1. Основні поняття корпусної лінгвістики
- •2. Напрями у лінгвістиці, що передували появі корпусної лінгвістики: від картотеки до корпусу.
- •3. Історія створення лінгвістичних корпусів
- •4. Поняття репрезентативності корпусів
- •6. Загальна характеристика особливих типів корпусів
- •7. Загальна характеристика паралельних корпусів
- •8. Загальна х-ка корпусів усної мови
- •9. Проектування та технологічний процес створення корпусів.
- •10. Відбір джерел. Критерії відбору
- •11. Основні процедури обробки природної мови
- •12. Розмітка, засоби розмітки
- •13. Лінгвістична розмітка
- •15.Стандартизація в корпусній лінгвістиці
1. Основні поняття корпусної лінгвістики
Корпусна лінгвістика - розділ комп'ютерної лінгвістики, що займається розробкою загальних принципів побудови та використання лінгвістичних корпусів (корпусів текстів) із застосуванням комп'ютерних технологій. Під лінгвістичним, чи мовним, корпусом текстів розуміється великий, представлений в машиночитаному вигляді, уніфікований, структурований, розмічений, філологічно компетентний масив мовних даних, призначений для вирішення конкретних лінгвістичних завдань. В даний час існує безліч визначень поняття «корпус». Наприклад, визначення, наведене в підручнику Е. Фінегана, говорить: корпус - репрезентативне зібрання текстів, зазвичай в машиночитаному форматі і включає інформацію про ситуацію, в якій текст був проведений, таку як інформація про що говорить, автора, адресата або аудиторії
У наведених визначеннях підкреслюються основні риси сучасного корпусу текстів - мета («логічна ідея»), машиночитаний формат, репрезентативність як результат особливої процедури відбору, наявність металінгвістічної інформації.
Доцільність створення та зміст використання корпусів визначається такими передумовами:
1) досить великий (репрезентативний) об'єм корпусу гарантує типовість даних і забезпечує повноту представлення всього спектру мовних явищ;
2) дані різного типу знаходяться в корпусі в своїй природній контекстної формі, що створює можливість їх всебічного та об'єктивного вивчення;
3) одного разу створений і підготовлений масив даних може використовуватися багаторазово, різними дослідниками і в різних цілях.
У поняття «корпус текстів» входить також система управління текстовими і лінгвістичними даними, яку останнім часом найчастіше називають корпусним менеджером (або корпус-менеджером) (англ. corpusmanager). Це спеціалізована пошукова система, що включає програмні засоби для пошуку даних в корпусі, отримання статистичної інформації і надання користувачу результатів у зручній формі.
Пошук в корпусі дозволяє по будь-якому слову побудувати конкорданси - список всіх вживань даного слова в контексті з посиланнями на джерело. Корпуси можуть використовуватися для отримання різноманітних довідок і статистичних даних про мовних і мовних одиницях. Зокрема, на основі корпусів можна отримати дані про частоту словоформ, лексем, граматичних категорій, простежити зміну частот і контекстів в різні періоди часу, отримати дані про спільну зустрічальності лексичних одиниць і т.д.
Корпуси покликані служити також джерелом і інструментом багатоаспектних лексикографічних робіт з підготовки різноманітних історичних і сучасних словників. Дані корпусів можуть бути використані для побудови та уточнення граматик і в цілях навчання мови.
Корпусна лінгвістика має, принаймні, дві риси, що дають їй підставу претендувати на положення самостійної дисципліни: 1) характер використовуваного словесного матеріалу; 2) специфіка інструментарію.
Якщо такі розділи лінгвістики як синтаксис, семантика і соціолінгвістика мають на меті опис або оцінку мовної структури або мовного використання, то корпусні лінгвістика є більш широким поняттям, методологією, яку можна застосувати до багатьох аспектів мовних досліджень. Двоїстий характер корпусної лінгвістики (націленість як на створення, так і на використання корпусів текстів) обумовлюється двоїстим характером її об'єкта - корпусу текстів, який, з одного боку, являє собою вихідний мовний матеріал для корпусної лінгвістики і для інших лінгвістичних дисциплін, з іншого боку, є результатом діяльності корпусної лінгвістики.
Існує проблема, пов'язана з термінологією корпусної лінгвістики в російській мові, яка поки не встановилася в силу наступних причин: її відносно недавнє походження і її зародження в США і Великобританії, що обумовила той факт, що термінологія складалася і продовжує складатися в надрах англійської мови. Російські терміни, в основному, являють собою запозичення англійських термінів; деякі з них в інших значеннях давно існують в російській мові.