- •Автоматичне читання тексту
- •2.Реферат та анотація, Задача автоматичного реферування тексту.
- •4.Машинний переклад Класифікація перекладів
- •Основні поняття та проблеми машинного перекладу.
- •Лінгвістичні ресурси –класифікація
- •7.Типи словників, структурні одиниці словників
- •8. Тезауруси
- •Термінологічні словники та банки даних
- •Письмові лінгвістичні ресурси.
- •14. Класифікація за ступенем формальності. "Спектр онтологій"
- •15. Классификация онтологий по содержимому
- •16. Класифікація онтологій за ціллю створення
- •17.Лексичні онтології
- •18.Онтологія предметної області
- •20. Інформаційний пошук
- •21.Інтеграція різнорідних джерел даних
- •22. Рубрикатори як вид онтологій
- •24.Опис ресурсу Euro WordNet
- •25.Структурні складові Euro WordNet
- •26.Інформаційно пошукові тезауруси
- •27.Тезауруси для концептуального індексування
24.Опис ресурсу Euro WordNet
WordNet - потужний інструмент, який використовують для вирішення різноманітних завдань галузі опрацювання природної мови, адже він надає можливості розробки дієвих алгоритмів встановлення значень полісемантичних слів, що є ключем до вирі¬шення цілої низки прикладних лінгвістичних завдань.
WordNet версії 2.1 охоплює приблизно 155 000 різних лексем і словосполучень, організованих в 117 000 понять, або сукупностей синонімів (synset); загальне число пар "лексема-значення" налічує 200 000.Новим етапом в еволюції Wordnet був проект EuroWordNet, в рамках якого не тільки створено декілька тезаурусів для європейських мов (гол- ландської, іспанської, італійської, німецької, французької), але і вперше була реалізована ідея про об’єднання окремих понятійних мереж у заяйцІгальну систему. Всі компоненти EuroWordNet були побудовані за єдиною моделлю, що, однак, не означало прямого перекладу англомовного варіанта WordNet.
У рамках проекту EuroWordNet [3] первинна структура словника зазнала деяких змін. Був розширений набір семантичних відношень за рахунок парадигматичних відношень, що зв’язують слова різних частин мови і синтагматичних відношень між дієсловами й актантами- іменниками.
Створення ворднетов для різних мов в рамках проекту EuroWordNet включає два етапи. На першому етапі (1996-1999) ворднети створювалися для голландського, іспанської та італійської мов. На другому - для французької, чеської, німецької та естонської мов.
У проекті стояв серйозний вибір: чи потрібно прагнути до розробки мовно-незалежної структури, з якою необхідно зіставити одиниці кожної мови, чи, може, потрібно мати єдину систему сінсетов - нова одиниця в ієрархічній мережі може бути включена, якщо хоча б одна мова з розглянутих має лексему або стійкий оборот з таким значенням.
За прийнятим в проекті рішенням кожен ворднет повинен зберігати специфіку своєї мови. При цьому кожен ворднет повинен містити посилання на значення англійського ворднета, що дозволяє порівнювати ворднети, виявляти непослідовності в їх побудові і бачити відмінності у пристрої мовних систем.
25.Структурні складові Euro WordNet
Базовою структурною одиницею WordNet є синонімічна множина (синсет), що об’єднує слова з тотожним семантичним значенням. Кожен синсет представляє в словникові деяке лексикалізоване поняття даної мови. Для зручності використання словника людиною
кожний синсет доповнений дефініцією і прикладами вживання слів у контексті. Синсети в
WordNet зв’язані між собою такими семантичними відношеннями, як гипонімія (родовидове),
меронімія (частина-ціле), лексичне виведення (каузація, пресупозиція) та ін.; серед них особ-
ливу роль відіграє гипонімія (IS_A): вона дає змогу організовувати синсети в ієрархічні структури (дерева). Лексика кожної частини мови представлена у вигляді набору дерев (лісу). Для різних частин мови родовидові відношення можуть мати додаткові характеристики і розрізнятися областю розповсюдження.
Автори вважають, що синсет іменників являє поняття іменників, дієслова виражають дієслівні концепти, прикметники - концепти прикметників і т.п.
Крім того, автори вважають, що такий поділ відповідає психолінгвістичним експериментам, де подання інформації про прикметників, іменників, дієсловах і говірками влаштовано в людській пам'яті по-різному.
Більшість синсетів забезпечені тлумаченням, подібним тлумаченням в традиційних словниках, - це тлумачення розглядається однаково для всіх синонімів сінсета. Якщо слово має кілька значень, то воно входить в кілька різних синсетів.