Сучасний стан машинного перекладу
Загальна теорія перекладу досліджує загальні закономірності перекладу як процесу перетворення тексту з однієї мови на іншу зі збереженням змісту цих текстів. Часткові теорії перекладу розглядають проблеми перекладу між двома конкретними мовами. На цей час питання МП в основному пов’язанні з одним видом літератури – науково-технічна.
Повністю автоматизований високоякісний МП слід вважати деяким ідеалом.
Визначають два напрямки сучасного розвитку МП:
створення МП з опорою на використання універсальної мови;
створення електронних словників лінгвістичних одиниць, а також автоматизованих термінологічних банків даних.
СМП першого напрямку призначені для повного перекладу тексту з однієї мови на іншу і, в принципі, націлені на заміну людини-перекладача ПК, яка працює в електронному режимі або в режимі діалогу з редактором. Сучасні промислові МП характеризуються низкою певних характеристик: двомовність (переклад з однієї мови на іншу), асиметричність (переклад тільки в один бік), вузька тематика текстів, висока швидкість перекладу, орієнтація систем на виконання великих обсягів перекладів стандартизованих текстів. (Дивись Рисунок 1.3)
Рисунок 1.3 – Англійсько-корейський машинний переклад
Для цих систем важливо передбачити, що вживання загальнолітературної і наукової лексики в перекладі підлягає якісним змінам. Якісна специфіка загальнолітературної лексики, уживаної в загальнонауковому значенні, виявляється:
у повній зміні значеннєвої структури слова і формуванні в ній нових загальнонаукових варіантів значення і втраті загальнолітературних;
у частковій зміні значення слова і формуванні загальнонаукового варіанта значення;
у перегрупуванні варіантів значення слова і формуванні загальнонаукового варіанта значення;
Причини низької якості МП у рамках другого напрямку такі:
неоптимальна організація словника і роботи з ним;
відсутність ефективних алгоритмів семантико-синтаксичного аналізу;
відсутність належної моделі перекладу і чіткої формалізації опису процедур перетворення текстів з однієї мови на іншу.
На сучасному етапі МП характеризується деяким поєднанням результатів двох підходів а рівні нових моделей, тобто моделювання дій людини-перекладача і створення як великих за обсягом словників загальнолексичного значення, так і специфічних словників субмов. Існує безліч вимог користувача до машинного перекладу. (Дивись рисунок 1.4)
Рисунок 1.4 – Вимоги до машинного перекладу
Одними з найбільш відомих програм машинного перекладу на ринку України є STILUS, ПАРС, Language Master. Ці програми - WINDOWS-додатки, які підтримують технологію Drag&Drop, OLE-автоматизацію, мають оперативну довідкову систему, графічну діалогову настройку, а також інші елементи управління вікнами та опціями, що робить ці програми справді популярними серед користувачів.
Машинний переклад – галузь комп`ютерної лінгвістики
Найважливіші методи машинного перекладу
Прямий комп`ютерний переклад. Слова вихідного тексту перекладаються окремо і в однаковій послідовності. Після цього порядок слів та закінчення пристосовуються до відповідної мови. Це найдавніший і найпростіший метод комп`ютерного перекладу, який створив основу для вище названої системи мовних пар російської та англійської мов.
Трансфер. Метод трансферу – класичний метод комп`ютерного перекладу, який відбувається трьома кроками, які зображенні на рисунку 2.1.
Рисунок 2.1 – Фази метода трансферу
Спочатку аналізується граматична структура вихідного речення, часто в структурі дерева. Після цього аналізу, залежно від вибору методу трансферу, визначається семантична структура. Потім ці структури переносяться у відповідну мову. В кінці текст, який перекладається, генерується, при цьому ці структури перетворюються, враховуючи граматичні правила, на речення.
Інтерлінгва. Граматична інформація вихідного тексту спочатку виражається на нейтральній мові “інтерлінгва”, з якої потім утворюється граматична інформація відповідної мови. Метод інтерлінгва продуктивний для перекладу комплексних висловів. Наприклад, речення німецької мови: „Wenn ich arbeiten würde, würde ich mir ein Auto kaufen“ (Якби я працював, я б купив собі машину) не можна перекласти за правилом würde →would, тому що в англійській мові в реченні з if не можна вживати would.
EBMT (Example-Based Machine Translation, машинний переклад, базований на прикладі). Ядро системи EBMT – блок пам`яті перекладу, в якому зберігаються речення або фрази, які часто повторюються та їх переклад. Система статистично вираховує (за допомогою методів інформаційного пошуку), чи наявні перекладені записи схожі на відповідне речення вихідної мови. Генерування перекладу відбувається таким чином, що речення, які найбільше схожі одне на одне, перекладаються і в кінці комбінуються.
SBMT (Statistics-Based Machine Translation – машинний переклад, на основі статистики). Перед перекладом програма аналізує великий обширний корпус двомовних текстів. Цей процес піклується про те, щоб слова і граматичні форми, знаходились разом на обох мовах, залежно від частоти використання та змістовної близькості. Таким чином, генерується словник та граматичні правила і тексти перекладаються на цій основі. Метод SBMT користується в останній час популярністю, тому що він не ставить за передумову ніяких знань відповідної мови. Переваги SBMT – в лінгвістичних рамках теоритично встановлюються ще точно не пояснені правила, аналізуючи “правильні” частини тексту. Якість перекладу SBMT гірша, ніж інших, основаних на правилах систем, частково, тому що SBMT ще достатньо нова програма. SBMT охоче використовується, наприклад, міністерством оборони Америки, коли йдеться про мови, які потрібно швидко перекласти за допомогою машинного перекладу і не має часу на встановлення правил людиною.
HAMT (Human-Aided Machine Translation, машинний переклад за допомогою людини). Не тільки комп`ютер перекладає весь документ, але й користувач, який уникає при цьому неясних, двозначних, складних конструкцій (так звана контрольована мова”). Це відбувається завдяки тому, що користувач зазделегіть вкорочує довгі речення або завдяки інтеракції між користувачем та програмою, наприклад, коли користувач повинен обрати значення слова.
На практиці більшість систем – це суміш з декількох методів (домінуючою тут є система трансферу з елементами “Interlingua” та EBMT).
MAHT (Machine-Aided Human Translation, комп`ютеризований переклад) означає, що людина перекладає, а комп`ютер автоматично перевіряє тим часом термінологію, шукаючи її у словнику і порівнюючи її з іншими перекладами (пам`ять перекладу). MAHT – це не машинний переклад.
Отже, всі системи комп`ютерного перекладу використовують двомовні словники і посідають щонайменше модулі базових граматичних правил. Але індивідуальні методи значно відрізняються.
