
- •Напрям у лінгвістиці , який передував появі корпусної лінгвістики : від картотеки до корпусу
- •Історія створення лінгвістичних корпусів
- •Поняття репрезентативності корпусів.
- •Практика показує , що корпусні лінгвістика оперує як мінімум двома різними типами об'єктів ( корпусів текстів) :
- •Класифікація корпусів за різними ознаками.
- •Загальна характеристика особливих типів корпусів.
- •Корпуси усного мовлення
- •Проектування та технологічний процес створення корпусів.
- •Відбір джерел. Критерії відбору.
- •Основні процедури обробки природної мови.
- •Поняття розмітки.
- •Стандартизація в корпусній лінгвістиці.
Поняття репрезентативності корпусів.
Термін « корпус» зазвичай позначає зібрання текстів кінцевого фіксованого розміру . З плином часу обсяг і склад корпусу може змінюватися , проте ці зміни повинні або не змінювати його структуру , або міняти її обгрунтовано. Показність корпусу , співвідношення його окремих частин (за різними характеристиками ) отримали назву репрезентативності , або сбалансировнно . Обсяг першого корпусів , як уже говорилося , становив 1 млн. слововживань ( Браунівський корпус , корпус Ланкастер - Осло - Берген , Упсальський корпус російської мови) . Такий обсяг не дозволяв відображати мову у всьому його різноманітті. В даний час вважається , що загальномовного ( національний) корпус повинен включати не менше 100 млн. слововживань . Національний корпус представляє даний мову на певному етапі (або етапах ) його існування у всьому різноманітті жанрів , стилів , територіальних і соціальних варіантів і т. п. (наприклад , НКРЯ , доступний за адресою http://ruscorpora.ru , BNC , обмежено доступний за адресою http://www.natcorp.ox.ac.uk/ або http://sara.natcorp.ox.ac.uk ) . Можна сказати , що всі сучасні лінгвістичні дослідження і роботи зі складання словників і граматик так чи інакше орієнтовані на використання представницьких ( репрезентативних ) корпусів текстів.
Завдання авторів корпусу - зібрати якомога більшу кількість текстів , що відносяться до того подмножеству мови , для вивчення якого корпус створюється . Можна сказати , що корпус - це зменшена модель мови або підмови . Під репрезентативністю розуміється необхідно - достатнє і пропорційне представлення в корпусі текстів різних періодів , жанрів , стилів , авторів і т.д. , тобто здатність відображати всі властивості проблемної області [ 31 ] . Є різні підходи до визначення репрезентативності . Зокрема , є думка , що стосовно до загальномовних (національному ) корпусу це поняття неможливо розрахувати і описати строго математично , однак до цього можна і потрібно прагнути , як на етапі проектування корпусу , так і на етапі його експлуатації.
Практика показує , що корпусні лінгвістика оперує як мінімум двома різними типами об'єктів ( корпусів текстів) :
1 . Корпуси першого типу універсальні, вони відбивають у собі все різноманіття мовної діяльності.
2 . Корпуси другого типу відображають побутування деякого лінгвістичного чи культурного феномена в суспільній мовній практиці , вони побудовані ad hoc ( для спеціальної мети ) , наприклад , корпус прислів'їв або корпус політичних метафор в газетної мови [31].
В обох випадках репрезентативність розглядається тільки як статистична оцінка того , чи всі властивості проблемної області відображені в корпусі текстів. Проте статистичні критерії оцінки тут не завжди є єдиними або визначальними , оскільки корпус виступає як деякий об'єкт , покликаний послужити моделлю деякої зовнішньої по відношенню до нього реальності. Саме репрезентативність корпусу визначає достовірність отриманих на його матеріалі результатів . Цю проблему також можна розглядати як проблему адекватного відображення , адаптації чи інтеграції великих масивів текстів чи деяких інших фрагментів мовної діяльності в істотно менший за обсягом корпус текстів.
Мовленнєва дійсність надзвичайно різноманітна , представлена в різних фактурах ( усна , письмова, друкована мова і т.д.) , і різноманітність зафіксованих в ній лінгвістичних явищ просто неозора . У 60 -ті роки корпуси текстів , що відносяться до першого типу , претендували на те , що вони універсальні , тобто відображають статистично коректно всю картину побутування даної мови або деякий представницький її фрагмент [51]. Наприклад , Браунівський корпус текстів був створений для відображення друкованої мови США 60 -х років із задовільною для того часу ступенем репрезентативності . Відібрані тексти , як уже говорилося , мали представляти 15 жанрів ( регістрів ) , з яких було зроблено від 6 до 80 елементарних вибірок :
1 ) преса : репортаж ;
2 ) преса : передовиця ;
3 ) преса : огляди ;
4 ) релігійні тексти ;
5 ) навички , заняття , хобі;
6 ) науково -популярна література;
7 ) белетристика , біографії , есе ;
8 ) різне (урядові документи , звіти підприємств , промислові звіти , каталоги коледжів ) ;
9 ) наукові твори ;
10 ) художня література;
11 ) містика і детективи ;
12 ) наукова проза ;
13 ) пригодницька література та вестерни ;
14 ) любовні романи ;
15 ) гумористичні твори .
У корпусах другого типу критерієм репрезентативності буде служити вимога максимально об'єктивного уявлення побутування даного його творців явища . Так , корпус англійських прислів'їв , максимально репрезентативно відображає їх вживання в мовній практиці носіїв англійської мови певного часу і географічного регіону, що не буде репрезентативним для вивчення , наприклад , англійської політичної метафори [31].
На початку XXI століття вільно обговорюються такі корпуси текстів , як корпус газетних заголовків , корпус англійських текстів , призначених для налагодження систем машинного перекладу , корпус політичних метафор [ 2 ] . Очевидно , що тут критерій відбору текстів для корпусу його творець задає сам , виходячи з цілей своєї практичної чи наукової діяльності , оскільки в основі корпусу завжди лежить постановка проблеми для проведення наукового пошуку .
Методологія конструювання такого об'єкта , як корпус , повинна залежати від типу корпусу. Ця проблема є актуальною і недостатньо розробленою. Методологія побудови корпусів першого типу так чи інакше грунтується на принципі дедукції - реалізації проблеми коректності руху від загального ( об'єктивно існуючої мовної практики носіїв мови ) до отражающему це загальне приватному корпусу текстів. Методологія побудови корпусів другого типу повинна коректно відображати приватні , поодинокі лінгвістичні феномени в корпусі текстів , спеціально створеному для їх відображення [ 20 ] . Теорія і практика показують , що обидва ці підходи , проте , часто застосовуються в комбінованому вигляді.