
- •1. Основні поняття корпусної лінгвістики
- •2. Напрями у лінгвістиці, що передували появі корпусної лінгвістики: від картотеки до корпусу.
- •3. Історія створення лінгвістичних корпусів
- •4. Поняття репрезентативності корпусів
- •6. Загальна характеристика особливих типів корпусів
- •7. Загальна характеристика паралельних корпусів
- •8. Загальна х-ка корпусів усної мови
- •9. Проектування та технологічний процес створення корпусів.
- •10. Відбір джерел. Критерії відбору
- •11. Основні процедури обробки природної мови
- •12. Розмітка, засоби розмітки
- •13. Лінгвістична розмітка
- •15.Стандартизація в корпусній лінгвістиці
7. Загальна характеристика паралельних корпусів
Паралельний корпус (Parallel Corpora) - це електронний аналог паралельних перекладних текстів, як правило складається з безлічі блоків "текст-оригінал і один / декілька його перекладів". Електронні тексти в корпусі можуть являти собою ціле оригінальне словесний твір або якусь його частину. У сучасних корпусних лінгвістиці виділяється два види паралельних корпусів (1): 1) багатомовний, або Comparable (Мultilingual) Сorpora, 2) перекладний, або Translation Сorpora. Структурна організація корпусу може бути сама різна, залежно від прагматичних цілей його творця чи користувача:
у вигляді традиційного тексту з посиланням на переклад(и),
в табличній "дзеркальній" формі, що більш зручно для сприйняття і порівняння,
у вигляді бази даних.
Паралельні тексти є незамінними "помічниками" в навчанні перекладу, і фактично жоден практичний посібник з практики перекладу не обходиться без них.
Електронні паралельні корпуси та лінгвістичні комп'ютерні технології дозволяють значно скоротити час, що витрачається на переклад.
8. Загальна х-ка корпусів усної мови
Дослідження усної мови є дуже важливим . Та створення репрезентативного корпусу усної мови виявилося складним завданням. Корпус Лондон-Лунд (TheLondon-LundCorpus) був розроблений у рамках проекту «Дослідження вживання англійської мови» (TheSurveyofEnglishUsage). Проект розроблявся з 1960 року в Лондонському університетському коледжі. Об’єм корпуса – 1 млн. слововживань. Машинний варіант корпусу створювався в Лундському університеті. Саме цей корпус був одним із перших корпусів усної мови, який могла прочитати машина.
Поява корпуса Лондон-Лунд призвела до багатьох досліджень лексики, граматики, просодії мовлення і особливо структури і функціонування дискурсу. Так, були дослідженні вживання слів actually, really, youknow, yousee, I mean, well, питання і відповіді в англійській розмові, вживання пасиву і т. д.
В силу різних причин побудова корпусу усної мови просувається набагато повільніше ніж письмової. В першу чергу усне мовлення потрібно якимось чином зафіксувати – на приклад, за допомогою магнітної стрічки, цифрового запису чи відеокасети. Потім його потрібно записати буквами, що є стомлюючою та дорогою роботою. Головною складністю створення фонетичних лінгвістичних ресурсів пов’язана із транскрибуванням усного мовлення. При цьому виникають наступні проблеми:
Який алгоритм використовувати для транскрибування?
Чи враховувати індивідуальні особливості вимови?
Враховувати весь усний текст чи його фрагменти?
Чи враховувати діалектні варіанти вимови слів?
Чи маркувати слова, які при прослуховуванні не були розпізнанні?
Чи маркувати паралінгвістичні явища, що супроводжують мовлення (сміх, бурмотіння, кашель)?
В наш час загально прийнято, що для створення корпусів усного мовлення використовують транскрипції на основі орфографічного представлення звуків, з додатковими знаками, що передають просодійні(просодический) , паралінгвістичні та інші особливості вимови.