
25 Структурні складові Euro WordNet
Основоположник WordNet Джордж Міллер формулює основні гіпотези, що лежать в основі розробки WordNet, наступним чином:
гіпотеза відділення: опис лексичного компонента природної мови може бути відокремлене і може вивчатися окремо;
гіпотеза "зразка" (patterning hypothesis): існує таке формальне опис слів, яке може бути застосоване до більшості слів мови;
гіпотеза про покриття (comprehensiveness hypothesis): для ефективного використання комп'ютерного словника в додатках автоматичної обробки текстів такі словники повинні бути дуже великий величини.
У той час була популярною теорія семантичного компонентного аналізу, в якій передбачалося, що значення слова, як і значення пропозиції, може бути представлено на основі набору семантичних примітивів. Проте роки досліджень не виявили кращого набору семантичних примітивів, придатного для використання в ресурсах для обробки природної мови.
В якості альтернативи був обраний підхід так званої реляційної семантики, коли значення слів представляються деяким виразом компонентів, а не на основі опису відносин між значеннями різних слів.
Основним ставленням в WordNet є ставлення синонімії. Набори синонімів - сінсети - основні структурні елементи WordNet.Поняття синонімії базується на критерії, що два вирази є синонімічні, якщо заміна одного з них на інше в реченні не змінює значення істинності цього висловлювання.Поняття синонімії, що використовується в WordNet, не вимагає заменяемости синонімів у всіх контекстах - за таким критерієм в природній мові було б занадто мало синонімів. Використовується значно більш слабке твердження, що синоніми WordNet повинні бути синоніми хоча б у деякій множині контекстів. Наприклад, заміна plank для слова board рідко змінює значення істинності в контексті теслярської справи, але існують контексти, де така заміна не може вважатися прийнятною.Саме визначення синонімії в термінах замінності робить необхідним поділ WordNet на окремі підструктури за частинами мови.До складу словника входять лексеми, пов'язані з чотирьох частин мови: прикметник, іменник, дієслово і прислівник. Лексеми різних частин мови зберігаються окремо, і описи, відповідні кожній частині мови, мають різну структуру/Автори вважають, що сінсет іменників являє поняття іменників, дієслова виражають дієслівні концепти, прикметники - концепти прикметників і т.п.
26. Інформаційно пошукові тезауруси
Інформаційно-пошуковий тезаурус (ІПТ) - це контрольований словник термінів на природній мові, явно вказує відносини між термінами і призначений для інформаційного пошуку.
Основними цілями розробки традиційних ІПТ є наступні:
забезпечення перекладу природної мови документів і користувачів на контрольований словник, який застосовується для індексування та пошуку;
забезпечення послідовного використання одиниць індексування;
опис відносин між термінами;
використання як пошукового засобу при пошуку документів.
Основною одиницею тезаурусів є терміни, які поділяються на дескриптори (авторизовані терміни) і недескріптори (аскріптори).