Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
mini-WPORKA.docx
Скачиваний:
3
Добавлен:
04.09.2019
Размер:
61.73 Кб
Скачать
  1. Письмові лінгвістичні ресурси.

У Мережі розміщено безліч спеціалізованих словників та глосаріїв з різних областей знань.великий інтерес представляють різноманітні лінгвістичні ресурси, особливо в сфері термінології, лексикографії та комп'ютерної лінгвістики.

Встановлення відповідностей між ієрархічними лексичними ресурсами типу WordNet і деякої онтологією. WordNet-ресурси описують лексичні відносини між значеннями слів, представлені у вигляді окремих одиниць в ієрархічній мережі - синсетов. Відносини між лексичними одиницями в значній мірі відображають відношення об'єктів зовнішнього світу, тому такі ресурси часто розглядаються як особливий вид онтологій - лексичні або лінгвістичні онтології.

Головною характеристикою лінгвістичних онтологій є те, що вони прив'язані до значень мовних виразів (слів, іменних груп і т.п.). Лінгвістичні онтології охоплюють більшість слів мови і одночасно мають онтологічну структуру, яка виявляється у відносинах між поняттями. Тому лінгвістичні онтології можуть розглядатися як особливий вид лексичної бази даних і особливий тип онтології.

Лінгвістичні онтології відрізняються від формальних онтологій за ступенем формалізації.

Так, змістом одного з проектів є встановлення відносин між WordNet і EuroWordNet, c одного боку, і формальної онтологією SUMO - Standardized Upper Merged Ontology - з іншого. Проект полягає в тому, щоб встановити відповідність між сінсетамі WordNet і поняттями онтології, при якому кожен сінсет WordNet або безпосередньо зіставляється з поняттям онтології, або є гіпонімія для деякого поняття чи примірником (елементом) поняття онтології.

Учасники іншого проекту - OntoWordNet - вважають, що недостатньо провести формальну склейку ресурсу типу WordNet і формальної онтології: необхідна значна реструктуризація вихідного лексичного ресурсу. Аналогічна робота проводиться і в проекті Cyc.

11. Корпус текстів — це вид корпусу даних, одиницями якого є тексти або їх достатньо значні фрагменти, що включають, наприклад, якісь повні фрагменти макроструктури текстів даної проблемної області.

Корпус текстів характеризується чотирма основними параметрами: по-перше, він повинен бути достатньо великого обсягу; по-друге, корпус повинен бути структурованим або розміченим; по-третє, тексти, складові певного корпусу, повинні бути в електронному варіанті; по-четверте, в поняття «Електронний корпус» входить, як правило, спеціальне програмне забезпечення для роботи з цим корпусом.

Цінність корпусу вбачається в наступному:

 одного разу зроблений корпус може багато разів використовуватися;

 корпус показує мовні дані в їх реальному оточенні, що дозволяє досліджувати лексичну і граматичну структуру мови, а також безперервні процеси мовних змін, що відбуваються в мові впродовж певного відрізка часу;

 корпус характеризується показністю, або збалансованим складом текстів, що дозволяє використовувати його для тестування пошукових машин, машинних морфологій, систем перекладу, а також використовувати його в різних лінгвістичних дослідженнях;

 корпус має важливе значення для викладання мови, оскільки за допомогою корпусу можна швидко і ефективно перевірити особливості вживання незнайомого слова або граматичної форми.

Існування корпусів текстів дає можливість значно розширити і автоматизувати аналіз мовного матеріалу, який є найважливішою базою будь-якого лінгвістичного дослідження. Чим більше матеріалів аналізується, тим вища значущість висновків і рівень їх достовірності.

Сучасні комп'ютерні програми дозволяють знаходити потрібні приклади з корпусів текстів, які зберігаються в електронному вигляді на комп'ютері. Це економить значну кількість часу в порівнянні з традиційною технологією збору прикладів вручну.

Відзначимо, що саме анотація, або розмітка, — головна характеристика корпусу, яка і відрізняє його від електронних колекцій, бібліотек, енциклопедій, широко представлених в сучасному Інтернеті. Розмітка тексту — це приписування тексту певної інформації для зручнішого аналізу.

Існують різні типи розмітки:

 метатекстова розмітка (автор, назва, дата створення, обсяг, тематика тексту і т. д.), яка характеризує текст в цілому;

 структурна розмітка є інформацією про структуру тексту, яка дозволяє відокремити одне слово від іншого, виділити межі словосполучення, пропозиції, тексту;

 лінгвістична розмітка полягає в приписуванні одиницям тексту певної лінгвістичної інформації (негативна пропозиція або питальне, управління або примикання і т. д.).

Як відомо, чим багатша і різноманітніша

13. Онтоло́гія — представлення деякою мовою знань про певну предметну область (середовище, світ). Онтологію неодмінно супроводжує деяка концепція цієї області інтересів. Найчастіше ця концепція виражається за допомогою визначення базових об’єктів (індивідуумів, атрибутів, процесів) і відношень між ними. Визначення цих об'єктів і відношень між ними зазвичай називають концептуалізацією.

Наступне визначення онтології є узагальнюючим: Онтологія — це загальноприйнята і загальнодоступна концептуалізація певної області знань (світу, середовища), яка містить базис для моделювання цієї області знань і визначає протоколи для взаємодії між агентами, які використовують знання з цієї області, і, нарешті, включає домовленості про представлення теоретичних основ даної області знань.[1]

Сучасні онтології будуються в більшій мірі однаково, незалежно від мови написання. Зазвичай вони складаються з екземплярів, понять, атрибутів і відношень.

Літературні джерела багаті описом різних онтологій і очікуваних від їхнього використання перспектив. Ці перспективи можна підрозділити на наступні категорії:

• поліпшення взаємодії розробників та програмних агентів;

• уніфікація обміну даними;

• формалізація процесів специфікації, підвищення надійності і забезпечення багаторазовості використання.