Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Prikladna / L_10

.docx
Скачиваний:
57
Добавлен:
12.02.2016
Размер:
57.18 Кб
Скачать

11

10. Корпусна лінгвістика

  1. Мовний матеріал в лінгвістичному дослідженні.

  2. Вихідні поняття корпусної лінгвістики.

  3. Вимоги до корпусу текстів з погляду користувача.

  4. Досвід розроблення корпусів текстів.

Будь-яке лінгвістичне дослідження тією чи іншою мірою спирається на аналіз мовного матеріалу, мовних даних. Чим більшим є матеріал, тим вищою є достовірність висновків, тим ширшою є сфера дії спостережуваних закономірностей.

Традиційно мовний матеріал збирали, обробляючи писемні тексти, опитуючи інформантів за різними методиками тощо. Традиційні способи вимагають надзвичайно багато часу. Важко оновлювати картотеки. Раніше корпуси текстів існували в дуже обмеженому за обсягом вигляді – наприклад, як хрестоматії чи збірки текстів.

Нові інформаційні технології й технічні засоби (комп’ютерні системи, системи зв’язку, системи мульмедіа) значно полегшили збирання даних, оскільки більшість текстів представлені в Інтернеті. Окрім того, є продуктивні пристрої сканування тексту – сканери й ефективні програми розшифрування графічної інформації («картинки» тексту) у власне текстовий формат (текст як сукупність графем). Багато видавництв використовують для укладання словників спеціально підготовлені корпуси текстів – Бірмінгемський корпус англійської мови і відповідна база даних, створені як джерела підготовки англомовних словників видавництва «Коллінз» (Collins COBUILD English language dictionary 1987).

Цей технологічний ривок створив інші проблеми, які суттєво утруднюють використання матеріалу як для чисто наукової, так і для науково-практичної мети. Справа в тому, що надмірний обсяг досліджуваних даних може утруднити опис феномену. Такий ефект виникає у двох випадках: коли інформації занадто багато; коли вибраний мовний матеріал спотворює реальну картину функціювання мови відносно описуваного феномену. За накладання першої і другої ситуації – і матеріалу занадто багато, і він не відображає реальний узус – результати дослідження практично жодним чином не можна реально оцінити.

Постає завдання розробити загальні принципи побудови лінгвістичних корпусів даних з використанням сучасних комп’ютерних технологій.

Найголовніше під час конструювання корпусів текстів:

  • сформулювати загальні вимоги до корпусу з погляду користувача;

  • обговорити досвід створення корпусів даних для різних дослідницьких проектів.

Вихідні поняття корпусної лінгвістики.

Проблемна ділянка. Під проблемною ділянкою розуміють сферу реалізації мовної системи, яка містить феномени, які підлягають лінгвістичному опису. Проблемна ділянка для конкретного корпусу даних може бути якою завгодно великою чи малою – все визначає об’єкт аналізу. Проблемна ділянка має два виміри – мовний та мовленнєвий. Мовленнєвий вимір представлений мовленнєвими висловами (реалізаціями). а мовний вимір виявляється в існування потенційної можливості появи інших уживань, які доповнюють масив наявних реалізацій. У корпусній лінгвістиці мовний аспект фактично ігнорують, оскільки початково фіксують ділянку використовуваних даних – реалізацій мовної системи. Це логічно, оскільки не можна зібрати «можливість», потенційні вживання. Проте для регулярно змінюваних корпусів даних мовний аспект проблемної ділянки відразу вилізає під час розроблення принципів модифікації корпусу. Окрім того, для лінгвістичного дослідження (окрім спеціальних випадків) у центрі уваги перебуває саме мовний вимір, оскільки його треба реконструювати в результаті аналізу.

З практичного погляду проблемна ділянка найчастіше постає перед розробником корпусу як множина даних, оброблення яких утруднено через те, що мовних реалізацій занадто багато.

Корпус даних. Корпус даних – це сформована за певними правилами вибірка даних із проблемної ділянки. Це результат відображення з проблемної ділянки. На відміну від проблемної ділянки, корпус даних має лише один вимір – мовленнєвий, оскільки сам по собі він не має потенції продукування своїх складників. Останнє, проте, не означає, що корпус даних не можна використовувати для реконструкції мови як системи. Навпаки – це одне з головних завдань лінгвістичного дослідження корпусу. Перед нами одна з головних суперечностей, властивих будь-якому продуктові мовної системи – від звуку до тексту. Лінгвістові доводиться за окремими результатами діяльності мови робити висновки про функціювання мови як цілого, як системи.

Одиниця зберігання корпусу даних. Оскільки корпус даних – це деяка вибірка із проблемної ділянки, сформована за певними принципами, то одиниця зберігання безпосередньо залежить від того, за якими принципами сформовано вибірку. Одиниця зберігання - це деяка сукупність природномовних висловів проблемної ділянки, якій дають один опис деякою метамовою, яку визначає процедура формування корпусу. Це можуть бути окремі слова, короткі фрази, речення. словосполуки. Якщо корпус створюють для синтаксичного дослідження, то він має містити цілі тексти чи їхні достатньо великі фрагменти.

Корпус текстів. Корпус текстів – це вид корпусу даних, одиницями якого є тексти чи їхні достатньо великі фрагменти, які містять, наприклад, якісь повні фрагменти макроструктури текстів цієї проблемної ділянки.

Дослідницькі корпуси. Дослідницькими називають такі корпуси, які призначені здебільшого для вивчення різних аспектів функціювання мовної системи. Їх будують не постфактум – після здійснення якого-небудь дослідження, а до його проведення. Цей тип корпусів даних, як правило. орієнтовано на широке коло лінгвістичних задач. Неспецифікованість задачі вимагає під час побудови дослідницьких корпусів використовувати пропорційне звуження, яке є найпростішим способом забезпечити репрезентативність.

Ілюстративні корпуси. Ілюстративні корпуси створюють після проведення наукового дослідження: їхня мета не стільки виявити нові факти, скільки підтвердити й обґрунтувати вже здобуті результати. Такі корпуси це не зліпок, правильне (з погляду статистики) відображення проблемної ділянки. Вони містять лише те, що достатньо для ілюстрації досліджуваного феномену.

Динамічні та статичні корпуси текстів. Початково корпуси текстів будували як статичні утворення, які відбивали певний часовий стан мовної системи. Типовими представниками цього виду корпусів є авторські корпуси – колекції текстів письменників. Однак значна частина чисто лінгвістичних і не лише лінгвістичних задач вимагає виявлення функціювання мовних феноменів на часовій шкалі – наприклад, зміни значення слів, частоти використання тих чи інших синтаксичних конструкцій тощо. Для відображення функційного аспекту проблемної ділянки було розроблено нову технологію побудови й експлуатації динамічного корпусу текстів. Інколи такі корпуси називають моніторними. Особливість збирання таких моніторних текстів полягає в тому, що вони не передбачають раз і назавжди заданого переліку текстів. Упродовж наперед фіксованого відтинку часу відбувається оновлення і/або доповнення множини текстів корпусу.

Специфіка експлуатації динамічного корпусу полягає в тому, що користувач під час проведення дослідження може виокремити із загального генерального корпусу робочий корпус, який містить лише частину генерального корпусу. Як динамічний збудовано Бірмінгемський корпус англійської мови.

Корпуси паралельних текстів. Для наукової та практичної мети (зокрема для викладання іноземних мов) формують корпуси паралельних тестів. За своєю структурою ця підмножина тестів мовою-джерелом і одна чи декілька підмножин текстів, які є перекладами текстів мови-джерела на мову-мету. Наприклад, англійський текст «Аліса в Країні Чудес» та його переклади на німецьку, французьку та російську мови можуть формувати такий корпус чи бути частиною більшого корпусу паралельних текстів.

Спосіб представлення і зберігання корпусу даних. Найцікавішими є ті способи. які спираються на сучасні комп’ютерні технології зберігання та оброблення даних. Для подальшого викладу важливо розрізняти два основних способи представлення – неструктурований текстовий формат зберігання (запис графем тексту в ASCI-кодах) і структурований формат зберігання (текст зі спеціальною розміткою); до останнього можна віднести також представлення даних в форматах баз даних різного типу.

Поріг відображення. Оскільки корпус даних є звуженням проблемної ділянки, то очевидно, що під час «пропорційного» звуження, яке є найпростішим випадком реалізації принципу репрезентативності, деякі проблемні ділянки опиняються поза корпусом даних. Візьмімо такий приклад. Нехай проблемна ділянка містить 20 контекстів, а в корпусі даних має бути четверта частина - 5 контекстів. Контексти є прикладами реалізації різних синтаксичних феноменів: у десяти контекстах представлені прості речення, а у восьми - складні. Два останні контексти містять приклади парцеляції. У корпусі даних один контекст відповідає чотирьом контекстам проблемної ділянки. Це означає, що контексти парцеляції за пропорційного звуження в чотири рази не потраплять до корпусу даних. Співвідношення між корпусом даних і проблемною ділянкою за пропорційного звуження називатимемо порогом відображення. Чим вище поріг, тим більша ймовірність, що якісь феномени проблемної ділянки, що мають порівняно низьку частотність, не потраплять до корпусу даних.

Параметризація проблемної ділянки. Звуження проблемної ділянки до дослідницького корпусу засновано на виокремленні деяких характеристик проблемної ділянки, які релевантні для передбачуваного дослідження. Сукупність цих характеристик (їхні можливі комбінації) утворюють багатомірну матрицю, яка слугує основою для відбирання текстів до корпусу. Часто для оцінювання релевантних параметрів проблемної ділянки використовують експертне оцінювання.

Вимоги до корпусу текстів з погляду користувача.

Корпус текстів. будучи відображенням проблемної ділянки, має суміщати, з погляду користувача, найсуперечливіші вимоги. Оскільки послідовне дотримання будь-якої з вимог призводить до руйнування корпусу як такого, необхідно дотримуватися балансу між ними. Те, як укладач корпусу намагається сумістити різні вимоги, формує стратегію побудови корпусу.

Репрезентативність. Найважливіша властивість корпусу текстів - його репрезентативність стосовно до проблемної ділянки. Під репрезентативністю розуміють здатність корпусу текстів відображати всі властивості проблемної ділянки, релевантні для цього типу лінгвістичного дослідження, в певній пропорції, яку визначає частотою появи у проблемній ділянці. Частота появи в корпусі має бути наближеною до частоти появи у проблемній ділянці. Ця вимога орієнтує укладача корпусу текстів на спеціалізацію розроблюваного продукту за рівневою тематикою: фонетичні, морфологічні, синтаксичні, лексичні, текстові тощо корпуси.

Текстові корпуси мають містити у відповідній пропорції тексти з базовими, найтиповішими макроструктурами, наявними в цій проблемній ділянці. З іншого боку, лексичні корпуси мають містити вибрані дослідником поля лексичних одиниць.

Прагнення до репрезентативності накладає відповідні обмеження на одиниці зберігання корпусу: якщо для морфології це можуть бути максимум словосполуки та окремі речення (для мов з різною морфологією), то для власне текстових корпусів одиницями зберігання мають бути цілі тексти і фрагменти їхніх макроструктур.

Репрезентативність, звичайно, не вичерпується переліченими параметрами. Так, у кожному конкретному випадку може виявитися необхідним урахувати стилістичну, часову, авторську та інші складові частини текстового масиву проблемної ділянки.

Вимоги репрезентативності у найпростішому варіанті відображаються у пропорційному звуженні проблемної ділянки. У цьому випадку можна говорити про «пропорційну стратегію» організації корпусу текстів. Вимога адекватного відображення статистики може бути порушеною, якщо мета дослідження полягає не стільки в оцінюванні частотності того чи іншого явища, скільки у вивченні множини вже виокремлених мовних структур. Для таких завдань розумніше та економніше використовувати ілюстративні корпуси текстів.

Повнота. Репрезентативність корпусу вказує на те, що одиниці проблемної ділянки відображаються пропорційно в корпусі даних, але за певного порогу деякі релевантні явища пропадуть, зникнуть із корпусу. Повнота вимагає ураховувати релевантні явища, навіть якщо це не відповідає ідеї пропорційного звуження. Вимога повноти необхідна у тому випадку, коли лінгвіст-конструктор корпусу приблизно знає, що шукати. У такій ситуації дослідницький корпус може набути тих чи інших рис ілюстративного корпусу.

Економічність. Корпус текстів має економити зусилля дослідника під час вивчення проблемної ділянки. Зокрема, він має бути не просто строгою підмножиною текстів проблемної ділянки, але, за змогою, суттєво відрізнятися від неї за обсягом. Загалом чим більш «економічний» корпус, тим вище поріг відображення. Тимчасом як для дослідницьких корпусів економія не може проводитися на шкоду репрезентативності: статистичні пропорції мають бути адекватно відображені, якщо це не обумовлено спеціально.

Структуризація матеріалу. Визначення одиниць зберігання корпусу має бути посильним завданням для користувача. Бажано подавати опис даних, у якому одиниці зберігання характеризуються за тими параметрами, які можуть виявитися важливими для користувача.

Інколи на склад одиниць зберігання накладають суттєві обмеження. Якщо одиницею зберігання є фрагмент тексту (речення чи групу пов’язаних між собою речень), то важливо, щоб він був самодостатнім. Це означає, що він не має містити неоднозначності будь-яких типів, зокрема, займенників, для яких неможливо встановити антецедент тощо. Коли одиниці зберігання містять явища мовної гри, пов’язаної з неоднозначністю, межі контексту мають бути такими, щоб користувач міг легко визначити, що йдеться про мовну гру, а не про помилку у виокремленні одиниці зберігання. Це не дуже суттєво для таких корпусів, які орієнтовано, наприклад, на морфологічну чи фонетичну інвентаризацію проблемної ділянки.

Комп’ютерна підтримка. Корпуси текстів необхідно підтримувати комплексом програм з оброблення даних, які мають функції укладання конкордансів, статистичної інвентаризації, автоматичного словникового оброблення (укладання повних і часткових словників за різними ознаками – за частотністю, за абеткою тощо). Корпус має бути прозорим для комп’ютерного опрацювання (відсутність переносів, зайвих пробілів тощо).

Існує низка комп’ютерних програм. с. 120

Для здійснення досліджень української мови в сучасних умовах інформативного суспільства як у діахронному, так і в синхронному аспекті, послуговуючись найновішими методами і технологіями у дослідженнях природних мов на великому за обсягом, репрезентативному мовному матеріалі (що фактично продовжує традицію формулювання теоретичних положень, виходячи з аналізу емпіричного матеріалу), необхідно мати репрезентативний, збережений на електронних носіях, відкритий для доступу мовний матеріал, організований як корпус текстів чи Український національний корпус (УНК).

Зазначимо, що побудова корпусу національного типу довільної мови є предметом дослідження корпусної лінгвістики, яка стрімко розвивається впродовж останніх десятиліть у англо-саксонському, романо-германському, слов’янському та ін. мовознавстві. Про популярність та інтенсивність розвитку корпусної лінгвістики свідчить як чимале число теоретичних і технологічних праць, підручників так і самих корпусів (1). Йдеться про праці Х. Кучери (Francis, Kucera 1979), У. Френсиса (1983), Д.Байбера (Biber 1990, 1992) Дж. Синклера (Sinclair 1994), В. Тойберта (Teubert 2000), Ґ. Кеннеді (Kennedy 1998), Н. Іде (2000), М. Банька (Bańko 1994-1996; 2003), T. Ерявця (Erjavec 2001), Й. Гаїча (Hajič 1998), А. Баранова (2001), С. Шарова (2002), В. Рикова (2001а, 2001б), Л. Ричкової (2002, 2003) та ін. Для лінгвоукраїністики і побудова національного корпусу, і впровадження корпусного мовознавства перебуває на початковому етапі та базується як на теоретичних положення, розроблених для інших національних мов, зокрема для англійської (Brown Corpus, British National Corpus), французької (FRANTEXT), чеської (Českэ Nбrodnн Korpus), польської (Korpus Państwowego Wydawnictwa Naukowego) та російської (Большой корпус русского языка, Национальный корпус русского языка), так і на працях українських комп’ютерних лінгвістів, які розглядають проблеми співзвучні з проблематикою корпусного мовознавства, Т. Грязнухіної (1983), Н. Дарчук (2000), Є. Капріловської (2003), Н. Клименко (1990), В. Перебийніс (1981) В. Русанівського і Н. Клименко (1995),  Пещак (1999) та ін. Крім того, проблематика корпусної лінгвістики є завданням, яке розв’язується у ряді наших статей, наприклад, у „Корпус текстов украинской периодики”, „Базові поняття корпусної лінгвістики” (Демська-Кульчицька 2001, 2003) та ін. І на сьогодні уже розроблено теоретичне обґрунтування положень побудови Українського національного корпусу, що є обов’язковим етапом в укладанні національних корпусів усіх мов і є метою корпусної лінгвістики.

Отже, стоїть завдання з’ясувати: що таке національний корпус і як слід дефініювати Український національний корпус, яким повинен бути його обсяг і структура, яким параметрам відповідати і якою може бути сфера його застосування?

Загальна дефініція корпусу текстів, в тім і національного типу, як об’єкта корпусного мовознавства вкладається у таке формулювання: машиночитане, стандартно подане зібрання репрезентативних для певної мови, діалекту або іншої підмножини мов писемних або усних текстів, призначених для лінгвального аналізу та лінгвістичного опису, відібраних і впорядкованих згідно з експліцитними екстра- та інтралінгвістичними критеріями. Відштовхуючись від наведеного визначення, сформулюємо дефініцію Українського національного корпусу як: організована, систематизована, програмно оброблена сукупність текстів української мови, які є репрезентативними для всіх як історичних, так і географічних варіантів та форм її існування, призначена для лінгвістичного аналізу й технологічного застосування, де говорячи про лінгвістичний аналіз, маємо на увазі академічні лінгвістичні дослідження різних рівнів мовної системи (орфографії, морфології, лексики, синтаксису, семантики etc.), методику викладання мови як рідної і як іноземної, натомість технологічне застосування передбачає використання корпусу з метою побудови машинної мовної моделі як основи для розробок у галузі інформаційних технологій, створення програм автоматичного розпізнавання і синтезу мовлення, забезпечення автоматичних методів перетворення текстової інформації.

Створення національного корпусу передовсім ставить вимогу визначення його обсягу і структури. Традиційно за обсягом текстові корпуси бувають малими, середніми та великими. У класифікації корпусів за обсягом точкою відліку служить Браунівський корпус на: а) 1 млн. слововживань; б) 500 уривків; в) 2 000 слововживань у кожному з уривків. І корпуси з менші, ніж один мільйон слововживань – це малі, від одного мільйона до десяти мільйонів – середні та від десяти і понад сто мільйонів – великі. На сьогодні існує небагато прикладів малих корпусів і практика засвідчує, що створюють головно середні та великі корпуси. Наприклад, до розряду середніх корпусів належать: American Heritage Intermediate (AHI) на 5 млн. слововживань; Esti kirjakeele korpus (корпус текстів естонської мови) на 1 млн. слововживань; а великих: FRANTEXT – один із найбільших французьких лінгвістичних проектів, розпочатий у 1963 році, в межах якого створено корпус обсягом понад 90 млн. слововживань; Bank of English на 320 млн. слововживань; Mannheimer Korpora (корпус німецької мови) обсягом 778 млн. слововживань.

Український національний корпус вважаємо за доцільне будувати як середній і стосовно обсягу дотримуватися такої стратегій його укладання: по-перше, визначити нижню статистичну межу в 1 млн. слововживань, за аналогією до більшості слов’янських національних корпусів; по-друге, передбачити передовсім технологічні можливості перманентного поповнення корпусу текстовими даними; і, по-третє, не ставити обмежень на верхню статистичну межу.

Структуру УНК пропонуємо подати через модель „генеральний корпус – система підкорпусів” де генеральний корпус як одиницю найвищого рівня складають спеціалізовані підкорпуси текстів української мови. Для української мови вважаємо за доцільне спеціалізувати підкорпуси за хронологією, чи історичними періодами розвитку української мови.

Так, залежно від аплікованої періодизації історії української мови, можна виділити різні хронологічні підкорпуси. Пропонуємо скористатися класифікацією, згідно з якою розрізняють давньоукраїнський, ранньоукраїнський та середньоукраїнський періоди і сучасну українську мову (Німчук 1997-1998) в межах якої додатково виділити кінець ХХ – початок ХХІ століття. Таким чином, структура УНК буде:

Виділення останнього періоду мотивовано головно екстралінгвальними чинниками, а саме політичними змінами, наслідком яких стало утворення української держави, і слід би було здійснити дослідження сучасної української мови на предмет: початку нового періоду vs продовження періоду сучасної української мови в її розвитку. Очевидно, що без попереднього дослідження різних – структурного, контрастивного, історичного, функціонального тощо – аспектів мови цього хронологічного відтинку, не можна висловлювати тезу про якісно новий етап у розвитку сучасної української мови, але перевірити цю думку зручніше, якщо паралельно у структурі генерального корпусу поряд з іншими окремо функціонуватиме підкорпус української мови кінця ХХ – початку ХХІ ст.

Стосовно характерних параметрів, корпуси в корпусному мовознавстві прийнято класифікувати як:

динамічні / моніторингові vs статичні;

дослідницькі vs ілюстративні;

загальномовні vs спеціалізовані (діалектні, термінологічні, дитячої мови тощо);

синхронні vs діахронні;

усної мови vs писемні vs мішані корпуси;

повнотекстові vs фрагментні;

оригінальні vs перекладні;

мономовні vs полімовні;

паралельні vs порівняльні;

неанотовані vs анотовані;

І, виходячи з цього, визначимо набір індивідуальних характеристик для Українського національного корпусу. Так, УНК слід будувати як корпус:

а) дослідницький: орієнтований на широкий клас лінгвістичних завдань;

б) фрагментний: будується з текстових фрагментів, тобто уривків текстів, відібраних за попередньо детермінованими засадами відбору текстових даних до корпусу;

в) мішаний: передбачено введення текстових фрагментів обидвох варіантів реалізації мовної системи – писемних і усних;

г) динамічний: передбачає константне поповнення множини корпусних текстів;

ґ) синхронно-діахронний: охоплює текстовий матеріал давньоукраїнського (ХІІ – ХIV), ранньоукраїнського (XV – XVІ) і середньоукраїнського (XVІ – XVIII) періодів та сучасну українську мову (ХІХ – ХХІ) з виокремленням періоду кінця ХХ – початку ХХІ ст., організований як система підкорпусів генерального Українського національного корпусу;

д) загальнонародної мови: з урахуванням територіальної специфіки як у межах України, так і за її кордонами;

е) мономовний: тексти, що увійшли до корпусу є результатом мовної діяльності носіїв української мови;

є) морфологічно анотований: усі текстові дані розмічені до рівня слова і кожне слово передбачає маркування частиномовної належності та відповідних морфологічних значень.

І врешті найважливіший аспект – сфера застосування загальномовного корпусу, в тім і УНК. Національний корпус перш за все призначений для забезпечення наукових досліджень лексичної і граматичної структури мови, а також відслідковування динаміки та якості змін у мові протягом певного хронологічного відрізка. Сучасні корпусні технології значно спрощують і прискорюють процедури лінгвістичного опрацювання великих масивів текстів. Якщо у докорпусний період дослідники головно послуговувалися методикою ручного фрагментарного розписування більших або менших текстів, то зараз обмежень на обсяг аналізованого матеріалу і швидкість пошуку інформації у ньому по суті немає, а це означає, що дослідник має можливість працювати з колосальними масивами найрізноманітніших текстів, реалізуючи найскладніший запит. Можна отримати інформацію, зокрема, на такі запити: а) видати весь / всі тексти вказаного автора, б) видати всі тексти / фрагменти тестів за такою тематикою, в) видати мікрореєстр тексту з частотною інформацією про кожне слово, г) видати контексти до слова / слів тощо. Або відповіді на запитання: У яких джерелах, текстах, фрагментах текстів зустрічається певне слово, термін, фразема? Якими є всі форми певного слова, включно з графічними формами? Коли вперше зафіксовано певне слово? Які його історичні варіанти? Загалом інформація, яку можна екстрагувати з електронного корпусу, надзвичайно велика. Наприклад, на базі London-Lund корпусу реалізовано завдання семантизації лексеми good ‘добрий’ в англійській мові. Спочатку, впродовж кількох секунд, що в принципі неможливо без застосування комп’ютерного корпусу, виявлено 800 прикладів вживання аналізованої лексеми у корпусі, обсягом на 1 млн. слововживань. Далі, проаналізовано конструкції, в яких лексема good виступала як ад’єктив, і в результаті експліковано понад 20 значень цієї лексеми, в тім: ‘гарний’ (good mood ‘гарний настрій’), ‘зручний’ (a good dress ‘зручний одяг’), ‘великий’ (a good crowd ‘великий натовп’), ‘такий, що приносить задоволення’ (a good film ‘фільм, від перегляду якого отримано задоволення’), ‘високоякісний’ (a good car ‘високоякісна машина’), ‘досвідчений’ (a good cook ‘досвідчений кухар’) ‘смачний’ (a good meal ‘смачна їжа’), ‘гарний’ (good weather ‘гпрна погода’), ‘добрий’ (be good ‘будь добрим’), ‘дійсний’ (the licence is good ‘дійсна ліцензія’), ‘чудовий’ (a good report ‘чудова доповідь’). Крім того, good також зафіксовано у контекстах, де це слово виступає структурним елементом вигука: Good heavens! ‘Святі небеса’, констатує кінець комунікації, чи зміну теми розмови: Good, let’s leave it at that ‘Добре, давайте залишимо це як є’ тощо.

Інший приклад досліджень, реалізованих на цьому ж корпусі: визначення статистичних характеристик слів, залежно від їхніх частиномовних характеристик:

А одним із прикладів граматичних досліджень (зауважимо – надзвичайно простим і невеликим за обсягом як результатів, так і кількістю виконаних робіт) здійснених на LOB корпусі є визначення граматичної ролі прислівників more ‘більш / більше’ і less ‘менш / менше’ в англійські мові:

Сферу застосування Українського національного корпусу на початках його експлуатації можна розглядати як реалізацію таких корпусно-базованих досліджень української мови:

Соседние файлы в папке Prikladna