Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
21-27.doc
Скачиваний:
2
Добавлен:
04.09.2019
Размер:
93.7 Кб
Скачать

25 Структурні складові Euro WordNet

Основоположник WordNet Джордж Міллер формулює основні гіпотези, що лежать в основі розробки WordNet, наступним чином:

гіпотеза відділення: опис лексичного компонента природної мови може бути відокремлене і може вивчатися окремо;

гіпотеза "зразка" (patterning hypothesis): існує таке формальне опис слів, яке може бути застосоване до більшості слів мови;

гіпотеза про покриття (comprehensiveness hypothesis): для ефективного використання комп'ютерного словника в додатках автоматичної обробки текстів такі словники повинні бути дуже великий величини.

У той час була популярною теорія семантичного компонентного аналізу, в якій передбачалося, що значення слова, як і значення пропозиції, може бути представлено на основі набору семантичних примітивів. Проте роки досліджень не виявили кращого набору семантичних примітивів, придатного для використання в ресурсах для обробки природної мови.

В якості альтернативи був обраний підхід так званої реляційної семантики, коли значення слів представляються деяким виразом компонентів, а не на основі опису відносин між значеннями різних слів.

Основним ставленням в WordNet є ставлення синонімії. Набори синонімів - сінсети - основні структурні елементи WordNet.Поняття синонімії базується на критерії, що два вирази є синонімічні, якщо заміна одного з них на інше в реченні не змінює значення істинності цього висловлювання.Поняття синонімії, що використовується в WordNet, не вимагає заменяемости синонімів у всіх контекстах - за таким критерієм в природній мові було б занадто мало синонімів. Використовується значно більш слабке твердження, що синоніми WordNet повинні бути синоніми хоча б у деякій множині контекстів. Наприклад, заміна plank для слова board рідко змінює значення істинності в контексті теслярської справи, але існують контексти, де така заміна не може вважатися прийнятною.Саме визначення синонімії в термінах замінності робить необхідним поділ WordNet на окремі підструктури за частинами мови.До складу словника входять лексеми, пов'язані з чотирьох частин мови: прикметник, іменник, дієслово і прислівник. Лексеми різних частин мови зберігаються окремо, і описи, відповідні кожній частині мови, мають різну структуру/Автори вважають, що сінсет іменників являє поняття іменників, дієслова виражають дієслівні концепти, прикметники - концепти прикметників і т.п.

26. Інформаційно пошукові тезауруси

Інформаційно-пошуковий тезаурус (ІПТ) - це контрольований словник термінів на природній мові, явно вказує відносини між термінами і призначений для інформаційного пошуку.

Основними цілями розробки традиційних ІПТ є наступні:

забезпечення перекладу природної мови документів і користувачів на контрольований словник, який застосовується для індексування та пошуку;

забезпечення послідовного використання одиниць індексування;

опис відносин між термінами;

використання як пошукового засобу при пошуку документів.

Основною одиницею тезаурусів є терміни, які поділяються на дескриптори (авторизовані терміни) і недескріптори (аскріптори).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]