Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Відповіді на модуль з Кульчицького.docx
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
51.43 Кб
Скачать

4. Поняття репрезентативності корпусів

Термін «корпус» зазвичай позначає збори текстів кінцевого фіксованого розміру. З плином часу обсяг і склад корпусу може змінюватися, однак ці зміни повинні або не міняти його структуру, або міняти її обгрунтовано. Показність корпусу, співвідношення його окремих частин (за різними характеристиками) отримали назву репрезентативності, або збалансованості.

Можна сказати, що всі сучасні лінгвістичні дослідження і роботи по складанню словників і граматик так чи інакше орієнтовані на використання представницьких (репрезентативних) корпусів текстів.

Корпус - це зменшена модель мови або підмови. Під репрезентативністю розуміється необхідно-достатнє і пропорційне представлення в корпусі текстів різних періодів, жанрів, стилів, авторів і т.д., тобто здатність відбивати всі властивості проблемної області.

Корпусна лінгвістика оперує як мінімум двома різними типами об'єктів (корпусів текстів):

1. Корпуси першого типу універсальні, вони відображають в собі все різноманіття мовної діяльності.

2. Корпуси другого типу відображають побутування деякого лінгвістичного або культурного феномена в суспільній мовній практиці, вони побудовані ad hoc (для спеціальної мети), наприклад, корпус прислів'їв або корпус політичних метафор у газетному мовленні

Репрезентативність розглядається тільки як статистична оцінка того, чи всі властивості проблемної області відображені в корпусі текстів. Однак статистичні критерії оцінки тут не завжди є єдиними або визначальними, оскільки корпус виступає як деякий об'єкт, покликаний послужити моделлю деякої зовнішньої по відношенню до нього реальності. Саме репрезентативність корпусу визначає достовірність отриманих на його матеріалі результатів. Цю проблему також можна розглядати як проблему адекватного відображення, адаптації чи інтеграції великих масивів текстів чи деяких інших фрагментів мовної діяльності в істотно менший за обсягом корпус текстів.

У 60-і роки корпуси текстів, що відносяться до першого типу, претендували на те, що вони універсальні, тобто відображають статистично коректно всю картину побутування даної мови або деякий представницький її фрагмент [51]. Наприклад, Браунівський корпус текстів був створений для відображення друкованої мови США 60-х років із задовільним для того часу ступенем репрезентативності. Відібрані тексти, як уже говорилося, повинні були представляти 15 жанрів (регістрів), з яких було зроблено від 6 до 80 елементарних вибірок:

1) преса: репортаж;

2) преса: передовиця;

3) преса: огляди;

4) релігійні тексти;

5) навички, заняття, хобі;

6) науково-популярна література;

7) белетристика, біографії, есе;

8) різне (урядові документи, звіти підприємств, промислові звіти, каталоги коледжів);

9) наукові твори;

10) художня література;

11) містика і детективи;

12) наукова проза;

13) пригодницька література та вестерни;

14) любовні романи;

15) гумористичні твори.

У корпусах другого типу критерієм репрезентативності буде служити вимога максимально об'єктивного представлення побутування явища ,яке цікавить його творців . Так, корпус англійських прислів'їв, максимально репрезентативно відображає їх вживання в мовній практиці носіїв англійської мови певного часу і географічного регіону, не буде репрезентативним для вивчення, наприклад, англійської політичної метафори .

5. Класифікація корпусів за різними підставами

Незважаючи на різноманітність корпусів, можна виділити два основних способи їх розподілу на класи:

1) протиставлення корпусів, що відносяться до всього мові (часто до мови певного періоду), корпусам, що належать до якого-небудь под'язик (жанр, стиль, мова певної вікової чи соціальної групи, мова письменника або вченого і т.д.);

2) поділ корпусів за типом лінгвістичної розмітки. Незважаючи на наявність безлічі типів розмітки, більшість реально існуючих корпусів відноситься до корпусів морфологічного або синтаксичного типу (останні в англомовній літературі називають treebanks, що можна перекласти як «банки синтаксичних структур»).

Отже, за типом мовних даних корпуси поділяються на письмові, усні і змішані. У письмових корпусах усне мовлення не представлена ​​(Браунівського корпус, LOB), в усних корпусах представлена ​​тільки усна мова, змішаними зазвичай бувають національні корпуси, що являють побутування мови в певний період часу (НКРЯ, BNC та ін.)

За критерієм паралельності корпуси діляться на одномовні, двомовні і багатомовні. В одномовних корпусах протиставляються діалекти, варіанти мови. Двомовні і багатомовні корпуси об'єднують тексти з однієї і тієї ж тематичної області, незалежно написані на двох або декількох мовах (

За критерієм «літературності» виділяються літературні, діалектні, розмовні, термінологічні та змішані корпуси. За мету створення корпуси діляться на багатоцільові і спеціалізовані. Багатоцільові корпуси зазвичай містять тексти різних жанрів (сюди належать національні корпуси), в той час як спеціалізовані корпуси можуть обмежуватися одним жанром або групою жанрів.

Корпуси текстів можуть бути класифіковані за жанрами і підрозділятися на літературні, фольклорні, драматургічні, публіцистичні та ін

Важливим критерієм для користувачів корпусу є його доступність. Вільно доступні корпуси дозволяють в будь-який час в режимі on-line мати доступ до всіх текстам корпусу в повному обсязі.. Закриті корпуси створюються для вузько специфічних цілей і не призначені для публічного використання.

За призначенням виділяють дослідні та ілюстративні корпуси. Дослідні корпуси створюються з метою вивчення різних аспектів функціонування мови. Цей тип корпусів орієнтований на широкий клас лінгвістичних завдань. Ілюстративні корпуси створюються після проведення наукового дослідження: їх мета не стільки виявити нові факти, скільки підтвердити і обгрунтувати вже отримані результати. 

Критерій «динамічність» підрозділяє корпуси на динамічні та статичні. Спочатку корпуси текстів створювалися як статичні утворення, що відображають визна ¬ ленне временнóе стан мовної системи. Статичні корпуси містять тексти якогось невеличкого часового проміжку [17]. \ Динамічні корпуси називають також моніторними або моніторинговими. Мета моніторних корпусів - «складувати» постійно зростаючу кількість текстів в пам'яті комп'ютера.

Критерій «розмітка» ділить корпуси на розмічені і нерозмічену. Існують і інші терміни, що позначають це поділ: індексовані і неіндексовані, анотовані і неаннотірованние, таггірование і нетаггірованние. У розміченому корпусі словами або пропозиціями присвоюються мітки (теги) у відповідності з характером розмітки: морфологічні, синтаксичні, семантичні, просодические та ін

За критерієм «обсяг текстів» виділяють повнотекстові і так звані фрагментотекстовие корпуси.