- •Автоматичне читання тексту
- •2.Реферат та анотація, Задача автоматичного реферування тексту.
- •4.Машинний переклад Класифікація перекладів
- •Основні поняття та проблеми машинного перекладу.
- •Лінгвістичні ресурси –класифікація
- •7.Типи словників, структурні одиниці словників
- •8. Тезауруси
- •Термінологічні словники та банки даних
- •Письмові лінгвістичні ресурси.
- •14. Класифікація за ступенем формальності. "Спектр онтологій"
- •15. Классификация онтологий по содержимому
- •16. Класифікація онтологій за ціллю створення
- •17.Лексичні онтології
- •18.Онтологія предметної області
- •20. Інформаційний пошук
- •21.Інтеграція різнорідних джерел даних
- •22. Рубрикатори як вид онтологій
- •24.Опис ресурсу Euro WordNet
- •25.Структурні складові Euro WordNet
- •26.Інформаційно пошукові тезауруси
- •27.Тезауруси для концептуального індексування
Письмові лінгвістичні ресурси.
У Мережі розміщено безліч спеціалізованих словників та глосаріїв з різних областей знань.великий інтерес представляють різноманітні лінгвістичні ресурси, особливо в сфері термінології, лексикографії та комп'ютерної лінгвістики.
Встановлення відповідностей між ієрархічними лексичними ресурсами типу WordNet і деякої онтологією. WordNet-ресурси описують лексичні відносини між значеннями слів, представлені у вигляді окремих одиниць в ієрархічній мережі - синсетов. Відносини між лексичними одиницями в значній мірі відображають відношення об'єктів зовнішнього світу, тому такі ресурси часто розглядаються як особливий вид онтологій - лексичні або лінгвістичні онтології.
Головною характеристикою лінгвістичних онтологій є те, що вони прив'язані до значень мовних виразів (слів, іменних груп і т.п.). Лінгвістичні онтології охоплюють більшість слів мови і одночасно мають онтологічну структуру, яка виявляється у відносинах між поняттями. Тому лінгвістичні онтології можуть розглядатися як особливий вид лексичної бази даних і особливий тип онтології.
Лінгвістичні онтології відрізняються від формальних онтологій за ступенем формалізації.
Так, змістом одного з проектів є встановлення відносин між WordNet і EuroWordNet, c одного боку, і формальної онтологією SUMO - Standardized Upper Merged Ontology - з іншого. Проект полягає в тому, щоб встановити відповідність між сінсетамі WordNet і поняттями онтології, при якому кожен сінсет WordNet або безпосередньо зіставляється з поняттям онтології, або є гіпонімія для деякого поняття чи примірником (елементом) поняття онтології.
Учасники іншого проекту - OntoWordNet - вважають, що недостатньо провести формальну склейку ресурсу типу WordNet і формальної онтології: необхідна значна реструктуризація вихідного лексичного ресурсу. Аналогічна робота проводиться і в проекті Cyc.
11. Корпус текстів — це вид корпусу даних, одиницями якого є тексти або їх достатньо значні фрагменти, що включають, наприклад, якісь повні фрагменти макроструктури текстів даної проблемної області.
Корпус текстів характеризується чотирма основними параметрами: по-перше, він повинен бути достатньо великого обсягу; по-друге, корпус повинен бути структурованим або розміченим; по-третє, тексти, складові певного корпусу, повинні бути в електронному варіанті; по-четверте, в поняття «Електронний корпус» входить, як правило, спеціальне програмне забезпечення для роботи з цим корпусом.
Цінність корпусу вбачається в наступному:
одного разу зроблений корпус може багато разів використовуватися;
корпус показує мовні дані в їх реальному оточенні, що дозволяє досліджувати лексичну і граматичну структуру мови, а також безперервні процеси мовних змін, що відбуваються в мові впродовж певного відрізка часу;
корпус характеризується показністю, або збалансованим складом текстів, що дозволяє використовувати його для тестування пошукових машин, машинних морфологій, систем перекладу, а також використовувати його в різних лінгвістичних дослідженнях;
корпус має важливе значення для викладання мови, оскільки за допомогою корпусу можна швидко і ефективно перевірити особливості вживання незнайомого слова або граматичної форми.
Існування корпусів текстів дає можливість значно розширити і автоматизувати аналіз мовного матеріалу, який є найважливішою базою будь-якого лінгвістичного дослідження. Чим більше матеріалів аналізується, тим вища значущість висновків і рівень їх достовірності.
Сучасні комп'ютерні програми дозволяють знаходити потрібні приклади з корпусів текстів, які зберігаються в електронному вигляді на комп'ютері. Це економить значну кількість часу в порівнянні з традиційною технологією збору прикладів вручну.
Відзначимо, що саме анотація, або розмітка, — головна характеристика корпусу, яка і відрізняє його від електронних колекцій, бібліотек, енциклопедій, широко представлених в сучасному Інтернеті. Розмітка тексту — це приписування тексту певної інформації для зручнішого аналізу.
Існують різні типи розмітки:
метатекстова розмітка (автор, назва, дата створення, обсяг, тематика тексту і т. д.), яка характеризує текст в цілому;
структурна розмітка є інформацією про структуру тексту, яка дозволяє відокремити одне слово від іншого, виділити межі словосполучення, пропозиції, тексту;
лінгвістична розмітка полягає в приписуванні одиницям тексту певної лінгвістичної інформації (негативна пропозиція або питальне, управління або примикання і т. д.).
Як відомо, чим багатша і різноманітніша
13. Онтоло́гія — представлення деякою мовою знань про певну предметну область (середовище, світ). Онтологію неодмінно супроводжує деяка концепція цієї області інтересів. Найчастіше ця концепція виражається за допомогою визначення базових об’єктів (індивідуумів, атрибутів, процесів) і відношень між ними. Визначення цих об'єктів і відношень між ними зазвичай називають концептуалізацією.
Наступне визначення онтології є узагальнюючим: Онтологія — це загальноприйнята і загальнодоступна концептуалізація певної області знань (світу, середовища), яка містить базис для моделювання цієї області знань і визначає протоколи для взаємодії між агентами, які використовують знання з цієї області, і, нарешті, включає домовленості про представлення теоретичних основ даної області знань.[1]
Сучасні онтології будуються в більшій мірі однаково, незалежно від мови написання. Зазвичай вони складаються з екземплярів, понять, атрибутів і відношень.
Літературні джерела багаті описом різних онтологій і очікуваних від їхнього використання перспектив. Ці перспективи можна підрозділити на наступні категорії:
• поліпшення взаємодії розробників та програмних агентів;
• уніфікація обміну даними;
• формалізація процесів специфікації, підвищення надійності і забезпечення багаторазовості використання.