
- •Напрям у лінгвістиці , який передував появі корпусної лінгвістики : від картотеки до корпусу
- •Історія створення лінгвістичних корпусів
- •Поняття репрезентативності корпусів.
- •Практика показує , що корпусні лінгвістика оперує як мінімум двома різними типами об'єктів ( корпусів текстів) :
- •Класифікація корпусів за різними ознаками.
- •Загальна характеристика особливих типів корпусів.
- •Корпуси усного мовлення
- •Проектування та технологічний процес створення корпусів.
- •Відбір джерел. Критерії відбору.
- •Основні процедури обробки природної мови.
- •Поняття розмітки.
- •Стандартизація в корпусній лінгвістиці.
Відбір джерел. Критерії відбору.
Важливою особливістю корпусу текстів є те , що це не просто безліч випадковим чином об'єднаних текстів того чи іншої мови . При його створенні виникає цілий ряд проблем. Основними з них є наступні:
1 . Що має бути основною одиницею корпусу текстів?
2 . Яким повинен бути обсяг корпусу текстів (скільки одиниць він повинен містити ) ?
3 . Які письмові текстові джерела повинні бути представлені в корпусі текстів і в якій кількості?
4 . З якої вихідної мовної області повинні бути обрані тексти , що включаються до складу корпусу ?
Перші відповіді на ці питання були дані в численних дослідженнях професора Р.Г. Піотровського і його учнів в 1965-1980 роках , вони стосувалися відбору текстів для складання частотних словників і проведення лінгвостатістіческіх досліджень . Ті ж проблеми обговорювалися в передмові до частотних словників під ред. Л.Н. Засорін ( 1977 ) [ 13 ] . Саме тоді були вперше використані різні статистичні прийоми для оцінки генеральної сукупності вибірки , обсягу вибірки , порції вибірки ( елементарної ви ¬ бірки ) і т.д. [ 17 ] .
Основною одиницею корпусу текстів можуть бути слововживання (зазвичай їх називають слова ¬ ми ), основи (корені , леми ) і пропозиції . Обсяг створюваного корпусу текстів у прийнятих одиницях залежить від цілей створення. Він може бути невеликим при вивченні частоти вживання букв , буквосполучень , звуків , звукосполучень . Набагато більшим він повинен бути при вивченні лексики , морфологічних явле ¬ ний і при изу ¬ чении синтаксичних або стилістичних особливостей текстів [ 17 ] . Проблемними є також наступні питання:
1 . Тексти яких функціональних жанрів включати в корпус текстів ( художню прозу , драму , вірші , наукові тексти , газети , журнали , технічні описи тощо)?
2 . Тексти яких часових проміжків включати в корпус тек ¬ стів (сучасні , 10 -річної давності , 50 -річної давності , древ ¬ ня і т.д.)?
3 . Чи включати тексти тільки літературної мови або також інші типи джерел? І що вважати літературною мовою ?
При відповіді на ці питання розробники корпусу текстів зазвичай використовують консультації фахівців з мовознавства та лінгвостатістіке або метод анкет. Виходячи зі свого досвіду досліджень , фахівці визначають загальний обсяг корпусу текстів , час видання текстів , число текстів і розмір елементарного ¬ ної вибірки , жанри відбираються текстів і їх кількість , чис ¬ ло елементарних вибірок з кожного жанру . Метод анкет в поєднанні з досвідом фахівців був викорис ¬ зовано при створенні корпусу текстів «Американський корпус спадщини» ( The American Heritage Inter ¬ mediate Corpus ) . Фахівці визначили його обсяг у 5 млн. слів ( словоупо - требления ) і рекомендували включити в нього лексику з 22 раз ¬ делов ( жанрів ) дитячої та юнацької літератури англійською мовою. У 221 школу США були разо ¬ Слани анкети з проханням вказати , які тексти бажано вклю ¬ чить в корпус. Після вивчення анкет був складений список з 19 тис. назв книг. З цієї безлічі було відібрано 1045 тек ¬ стів . На їх основі було складено 10 тис. елементарних вибірок по 500 слововживань кожна [ 17 ] .