
- •1. Основні поняття корпусної лінгвістики
- •2. Напрями у лінгвістиці, що передували появі корпусної лінгвістики: від картотеки до корпусу.
- •3. Історія створення лінгвістичних корпусів
- •4. Поняття репрезентативності корпусів
- •6. Загальна характеристика особливих типів корпусів
- •7. Загальна характеристика паралельних корпусів
- •8. Загальна х-ка корпусів усної мови
- •9. Проектування та технологічний процес створення корпусів.
- •10. Відбір джерел. Критерії відбору
- •11. Основні процедури обробки природної мови
- •12. Розмітка, засоби розмітки
- •13. Лінгвістична розмітка
- •15.Стандартизація в корпусній лінгвістиці
6. Загальна характеристика особливих типів корпусів
Паралельні корпуси можна розділити на два основних типи:
1) корпуси, що являють безліч текстів-оригіналів, написаних на якійсь вихідній мові, і текстів-перекладів цих вихідних текстів на одину або декілька інших мов;
2) корпуси, що поєднують тексти з однієї і тієї ж тематичної області, незалежно написані на двох або декількох мовах.
І ті, й інші корпуси створюються і використовуються для порівняльних досліджень мов (в області лексикології, граматики, стилістики, перекладознавства і т.д.), а також в цілях розробки ефективних методів перекладу, в тому числі, машинного.
При підготовці паралельних корпусів текстів першого типу і розробці пакетів програм для їх обробки виникає проблема, яка полягає у встановленні відповідностей між текстом оригіналу і його перекладами. Для вирішення цього завдання використовується так званий метод автоматичного вирівнювання (alignment) текстів. Суть цього методу полягає в паралельній сегментації оригінального тексту і його перекладу за пропозиціями, Клаузен (граматичним конструкціям), словосполученнями і словами
Шість можливих відповідностей між пропозиціями обох текстів:
1) одне вихідне речення перекладається одним реченням;
2) два вихідних речення перекладаються одним ;
3) одне вихідне речення перекладається двома реченнями;
4) два вихідних речення переводяться двома реченнями, але внутрішні кордони цих речень у тексті оригіналу та тексті перекладу не збігаються;
5) пропозиція вихідного тексту не перекладається;
6) пропозиція в тексті перекладу не має еквівалента в тексті оригіналу.
На практиці існують різні програми вирівнювання, які автоматично зіставляють тексти на основі збігу відносних довжин речення, поділу тексту на абзаци, аналізу розділових знаків, зовнішнього словника та інших факторів. Найчастіше ці програми використовуються в людино-машинному варіанті, з постредагуванням результатів автоматичного вирівнювання.
Паралельні корпуси текстів дозволяють отримати великий обсяг інформації. З їх допомогою можна:
• будувати двомовні і багатомовні перекладацькі словники;
• створювати та поповнювати словники для систем машинного перекладу;
• усувати полісемію лексичних одиниць шляхом використання комп'ютером контекстного оточення багатозначного слова, що перевищує по довжині речення;
• перекладати термінологічні та фразеологічні одиниці тексту;
• здійснювати повністю автоматичний переклад в рамках нових систем машинного перекладу, званих системами з перекладацькою пам'яттю, шляхом накопичення в пам'яті комп'ютера корпусів вихідних текстів та їх перекладів, вирівняних між собою на різних рівнях.
У процесі перекладу така система намагається відшукати речення яке перекладається або його фрагмент в масиві вихідних паралельних текстів. Якщо воно знайдене у вихідному масиві текстів-оригіналів, то система вибирає переклад такого речення, або його частини в масиві перекладених текстів.
Система автоматичного перекладу тексту може бути заснована на розширених морфологічних союзах між двома мовами з використанням простих правил для вибору відповідних граматичних пар. Наприклад, у паралельному російсько-словацькому корпусі текстів зняття семантичної і морфологічної омонімії проводиться із застосуванням ланцюга Маркова першого або другого порядку, яка тренована на великому одномовному корпусі.
Системи перекладацької пам'яті можуть бути використані творчо для більшої автоматизації процесу перекладу, не залежної від конкретних мов. Система машинного перекладу ґрунтується на застосуванні синтаксичної подібності між більш чи менш спорідненими природними мовами.
В даний час загально прийнято, що для створення машино читальних фонетичних корпусів використовується транскрипція на основі орфографічного представлення звуків мови з додатковими знаками, які передають (при необхідності) паралінгвістичні