Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
корпусна теорія 2.docx
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
70.88 Кб
Скачать

Відбір джерел. Критерії відбору.

Важливою особливістю корпусу текстів є те , що це не просто безліч випадковим чином об'єднаних текстів того чи іншої мови . При його створенні виникає цілий ряд проблем. Основними з них є наступні:

1 . Що має бути основною одиницею корпусу текстів?

2 . Яким повинен бути обсяг корпусу текстів (скільки одиниць він повинен містити ) ?

3 . Які письмові текстові джерела повинні бути представлені в корпусі текстів і в якій кількості?

4 . З якої вихідної мовної області повинні бути обрані тексти , що включаються до складу корпусу ?

Перші відповіді на ці питання були дані в численних дослідженнях професора Р.Г. Піотровського і його учнів в 1965-1980 роках , вони стосувалися відбору текстів для складання частотних словників і проведення лінгвостатістіческіх досліджень . Ті ж проблеми обговорювалися в передмові до частотних словників під ред. Л.Н. Засорін ( 1977 ) [ 13 ] . Саме тоді були вперше використані різні статистичні прийоми для оцінки генеральної сукупності вибірки , обсягу вибірки , порції вибірки ( елементарної ви ¬ бірки ) і т.д. [ 17 ] .

Основною одиницею корпусу текстів можуть бути слововживання (зазвичай їх називають слова ¬ ми ), основи (корені , леми ) і пропозиції . Обсяг створюваного корпусу текстів у прийнятих одиницях залежить від цілей створення. Він може бути невеликим при вивченні частоти вживання букв , буквосполучень , звуків , звукосполучень . Набагато більшим він повинен бути при вивченні лексики , морфологічних явле ¬ ний і при изу ¬ чении синтаксичних або стилістичних особливостей текстів [ 17 ] . Проблемними є також наступні питання:

1 . Тексти яких функціональних жанрів включати в корпус текстів ( художню прозу , драму , вірші , наукові тексти , газети , журнали , технічні описи тощо)?

2 . Тексти яких часових проміжків включати в корпус тек ¬ стів (сучасні , 10 -річної давності , 50 -річної давності , древ ¬ ня і т.д.)?

3 . Чи включати тексти тільки літературної мови або також інші типи джерел? І що вважати літературною мовою ?

При відповіді на ці питання розробники корпусу текстів зазвичай використовують консультації фахівців з мовознавства та лінгвостатістіке або метод анкет. Виходячи зі свого досвіду досліджень , фахівці визначають загальний обсяг корпусу текстів , час видання текстів , число текстів і розмір елементарного ¬ ної вибірки , жанри відбираються текстів і їх кількість , чис ¬ ло елементарних вибірок з кожного жанру . Метод анкет в поєднанні з досвідом фахівців був викорис ¬ зовано при створенні корпусу текстів «Американський корпус спадщини» ( The American Heritage Inter ¬ mediate Corpus ) . Фахівці визначили його обсяг у 5 млн. слів ( словоупо - требления ) і рекомендували включити в нього лексику з 22 раз ¬ делов ( жанрів ) дитячої та юнацької літератури англійською мовою. У 221 школу США були разо ¬ Слани анкети з проханням вказати , які тексти бажано вклю ¬ чить в корпус. Після вивчення анкет був складений список з 19 тис. назв книг. З цієї безлічі було відібрано 1045 тек ¬ стів . На їх основі було складено 10 тис. елементарних вибірок по 500 слововживань кожна [ 17 ] .

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]