Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
21-27.doc
Скачиваний:
2
Добавлен:
04.09.2019
Размер:
93.7 Кб
Скачать

22 Рубрикатори як види онтологій

Під рубрикатором розуміється класифікаційна таблиця ієрархічної класифікації, що містить повний перелік включених в систему класів і призначена для систематизації інформаційних фондів, масивів і видань, а також для пошуку в них (ГОСТ 7.74-96).Є головне теоретичне відміну термінів тезауруса від рубрик рубрикатора. Терміни тезауруса є фундаментально мовними, в той час як рубрики відповідають концептуальним категоріями. Мета розробки інформаційно-пошукового тезауруса - знайти хороші, компактні слова і фрази для опису основних тем документів, звівши синоніми і квазісіноніми до дескрипторів тезауруса.Мета створення рубрикаторів, яка не завжди досягається, але завжди ставиться, - це розробити абсолютно окремі концептуальні категорії, які взаємно не перетинаються. В ідеалі не повинно бути перетинань між рубриками і не повинно бути проміжків, тобто жодна підобласть не повинна залишитися поза рубрик рубрикатора. Для досягнення таких строгих цілей рубрикатор структурується, що може бути виконано двома основними способами - ієрархічної організацією рубрикатора і фасетної організацією рубрикатора.Щоб визначити рубрики досить строго і виключити перетин значень, часто необхідно називати рубрики довгими і "незграбними" іменами, наприклад, "Тропічні та субтропічні фрукти та горіхи"; "Польові культури (Plantation crop)". Призначення такого словосполучення - чітко визначити окрему концептуальну категорію; подібне словосполучення не зустріти в тезаурусі. Оскільки працювати з такими складно сформульованими сутностями досить важко, їм зазвичай присвоюється певна система класифікаційних кодів.Ще одним наслідком такого роду формулювань рубрик є те, що в такому вигляді їх практично не зустріти в реальних текстах і на інтернет-сайтах, тому якщо потрібно автоматизувати обробку переліків товарів, то необхідно кожній рубриці зіставити набори слів і словосполучень, на основі яких можна буде виводити приналежність документа даній рубриці.

23. Архітектура метаданих в World Wide Web

Документи, метадані, зв'язки

Коли ви переходите за посиланням URL, то отримуєте щось. Ми будемо називати це щось ресурсом Мережі. Часто під ресурсом розуміється документ, оскільки в Мережі багато читабельних (зручних для читання людиною) документів - HTML-сторінок, PDF-документів і т.п. Іноді ресурс - це просто якийсь об'єкт, коли отриманий ресурс має машінопонятний вид або володіє прихованим внутрішнім станом.

В рамках цього розділу терміни "ресурс", "об'єкт" і "документ" є синонімами.

Невід'ємною характеристикою будь-якого ресурсу Мережі є супроводжуюча його інформація. Цю "сверхінформацію", або інформацію про інформацію (про ресурс), прийнято називати метаданими.

Під метаданими будемо розуміти машінопонятную інформацію про веб-ресурсах та інших сутності.

Термін "машінопонятная" є ключовим. Мова йде про розуміння інформації програмними агентами. Причому "розумінні" з однією метою - використовувати інформацію для вирішення завдань, покладених на них (агентів) користувачем.

Метадані повинні мати добре певну ясну структуру і семантику.

Приклад 1. Метадані.

Об'єкт, витягнутий з мережі по протоколу HTTP, може мати додаткову інформацію (метадані):

дата створення або дата припинення дії;

власник;

інша інформація.

Таким чином, в Мережі є дані - ресурси, є метадані - інформація про ресурси. Ця інформація, у свою чергу, теж може розглядатися як дані (ресурс).

Наведемо два постулати (А1 і ​​А2), на яких заснована архітектура метаданих Мережі.

А1. Метадані - це дані (іншими словами, інформація про інформацію - це теж інформація).

Оскільки метадані - це дані, то вони можуть зберігатися в ресурсі (можуть бути представлені як ресурс). Тобто будь-який ресурс Мережі може зберігати як дані, так і метадані про себе або про інших ресурсах. На практиці в Мережі існує 3 способи передачі / отримання метаданих:

метадані зберігаються і передаються всередині документа (тег HEAD в HTML, дані про документ MS Word);

повідомлення метаданих відбувається під час HTTP (GET, POST або PUT) передачі;

метадані зберігаються в якомусь іншому документі.

Отже, метадані можуть зберігатися всередині самого документа, усередині іншого документа або передаватися разом з документом засобами протоколу HTTP.

Форма метаданих

Метадані складаються з висловлювань про дані і при поданні мають форму імені (або типу висловлювання) і набору параметрів.

А2. Архітектура, яка надається метаданими, є набором незалежних висловлювань (тверджень).

Як наслідок, при угрупованню двох і більше висловлювань про один ресурс вони об'єднаються логічним "І". Альтернативні висловлювання є незалежними, а їх набори представляють собою невпорядковані множини

Звичайно, висловлювання можна комбінувати і іншим способом, використовуючи складні синтаксичні правила, але основною формою подання є невпорядкований список, елементи якого пов'язані логічним "І".

Найбільш поширеною формою висловлювання є наступна модель:

Ресурс - атрибут - значення

Тут ресурс - це об'єкт, про який фіксується висловлювання, атрибут - деяке властивість чи параметр об'єкта, значення представляє деяке значення з області значень атрибута (або діапазону значень атрибута даного об'єкта).

Приклад 2. Модель "Ресурс - атрибут - значення".

E-mail - Date - 01.01.2006

E-mail - From - Vasya

В загальному вигляді висловлювання може бути виражене так:

(A u1 p q ...),

де А - ім'я (або ідентифікатор) типу висловлювання (такі як Author, Date і т.п.), u1 - URI ресурсу, про який робиться висловлювання, p, q, ... - інші параметри, що залежать від типу висловлювання, в тому числі і представляють значення атрибута.

Тут можна провести аналогію з мовами програмування. При описі метаданих фіксування висловлювання можна порівняти з викликом функції в процедурному мовою.

В об'єктно-орієнтованих мовах програмування об'єкт, для якого викликається метод, має особливе місце серед інших параметрів (аргументів виклику). Для прикладу досить згадати ключове слово "this" в C + +. Також і в метаданих об'єкт, про який фіксується висловлювання (u1), має особливе місце.

В ООП набір методів (функцій), які можна викликати для даного об'єкта, обмежений (інтерфейсами або типом об'єкту). При описі метаданих набір типів висловлювань, які можливо зробити для даного об'єкта, потенційно не обмежений і визначається тільки вибором словника.

Простір імен атрибутів

Значення атрибутів і відносин можуть сильно варіюватися, вони можуть задаватися специфікацією архітектури або протоколу. Але значення атрибутів можуть бути визначені для потреб одного конкретного додатка. Тому набір відносин та імен атрибутів повинен бути легко розширюваним, а отже, він повинен бути розширюваним децентралізовано. Простір URI підходить для визначення імен атрибутів.

Приклад 3. Словники з іменами атрибутів.

HTML-елементи всередині елемента HEAD;

заголовки HTTP-запиту, уточнюючі атрибути об'єкта.

(Обидва словника визначені всередині конкретних специфікацій, написаних англійською мовою)

Зв'язки

Відношення між двома ресурсами будемо називати зв'язком. Зв'язок представляється трійкою

(A u1 u2),

де А - тип відносини, U1 - URI першого ресурсу, U2 - URI другого ресурсу.

Зв'язки є основою навігації в Мережі. Вони можуть використовуватися для побудови структур всередині WWW, а також для створення семантичної Мережі, в якій можуть бути представлені знання про навколишній світ. Іншими словами, зв'язки можуть застосовуватися для визначення структури даних (у цьому випадку вони є метаданими), але можуть бути використані і як форма представлення даних.

Зв'язки, як і інші метадані, можуть бути передані трьома (зазначеними вище) способами.

Одна з основних задач, що вирішуються при проектуванні архітектури метаданих Мережі, полягає в тому, щоб зробити інформацію самоопісивающейся (self-describing).

Однак вузьким місцем системи завжди є спосіб визначення семантики метаданих та даних, що застосовуються всередині системи. Наприклад, семантика метаданих заголовків e-mail і HTTP-повідомлень визначається вручну англійською мовою у вигляді специфікацій відповідних протоколів. Ця семантика зрозуміла людям (звичайно, тим, хто знає англійську). Щоб тепер перейти до семантиці, зрозумілою машині, потрібно використовувати відповідний логічний мову або мову подання знань. Тоді семантика (точне значення) деякого висловлювання може бути виражена в термінах інших відносин (більш абстрактних концептів логічного мови).

Перевага самоопісивающейся інформації полягає в тому, що немає необхідності узгоджувати значення кожного терміна централізовано, стандартизувати семантику висловлювань. Мова RDF дозволяє описувати метадані про будь ресурсах Мережі (і навіть про сутності, що знаходяться за її межами).

RDF

RDF - мова представлення інформації про ресурси WWW. Зокрема, RDF служить для представлення метаданих, пов'язаних з ресурсами Мережі, таких як "заголовок", "автор", "дата останнього зміни сторінки". Але RDF може використовуватися і для подання інформації про ресурси "другого типу", на які можна тільки посилатися (або ідентифікувати в Мережі за допомогою URI), але неможливо безпосередньо отримати до них доступ через Мережу.

Може виявитися, що в деяких випадках для управління метаданими досить використовувати XML і XML Schema (або взагалі обмежитися піделементи HEAD елемента HTML). Але цей підхід слабо масштабується: при збільшенні обсягу метаданих, ускладненні їх структури управління метаданими, побудованими на основі XML Schema, стає трудомістким завданням, для вирішення якої і призначений RDF.

Модель даних RDF. RDF-граф

Базовою структурною одиницею RDF є колекція трійок (або триплетів), кожна з яких складається з суб'єкта, предиката і об'єкта (S, P, O). Набір триплетів називається RDF-графом. В якості вершин графа виступають суб'єкти та об'єкти, як дуг - предикати (або властивості). Напрямок дуги, що відповідає предикату в даній трійці (S, P, O), завжди вибирається так, щоб дуга вела від суб'єкта до об'єкта.

Рис. 6.1. RDF-трійка

Кожна трійка представляє деякий вислів, що погоджує S, P і O.

Перші два елементи RDF-трійки (суб'єкт і предикат) ідентифікуються за допомогою URI. Об'єктом же може бути як ресурс, ідентифікований за допомогою URI, так і RDF-літерал (значення).

RDF-літерали (або символьні константи)

RDF-літерали бувають двох видів: типізовані і нетипізовані.

Кожен літерал в RDF-графі містить одну або дві іменовані компоненти.

Всі літерали мають лексичну форму у вигляді рядка символів Unicode.

Прості літерали складаються з лексичної форми і необов'язковою посилання на мова (ru, en, :).

Типізовані літерали складаються з лексичної форми і URI-посилання на тип даних, що задається в форматі RDF URI.

Зауваження. Мова літерала не потрібно плутати з ідентифікатором (мовою) локалі. Мова відноситься тільки до текстів, написаних природною мовою. Всі труднощі, які виникають при поданні даних на конкретному комп'ютері (при визначенні локалі), повинні вирішуватися кінцевим споживачем метаданих.

Порівняння літералів

Два літерала рівні тоді і тільки тоді, коли виконуються всі перераховані нижче умови.

Рядки обох лексичних форм збігаються посимвольно.

Або обидва літерала мають теги мови, або обидва не мають.

Теги мови, якщо вони є, збігаються.

Або обидва літерала мають URI типу даних, або обидва не мають.

При наявності URI типу даних ці URI збігаються посимвольно.

24. Опис ресурсу. EuroWordNet

Лінгвістичний ресурс WordNet розроблений в Прінстонському університеті США. WordNet відноситься до класу лексичних онтологій, вільно доступний в Інтернеті, і на його основі були виконані тисячі експериментів у галузі інформаційного пошуку.

WordNet версії 2.1 охоплює приблизно 155 000 різних лексем і словосполучень, організованих в 117 000 понять, або сукупностей синонімів (synset); загальне число пар "лексема-значення" налічує 200 000.

Розробка тезауруса була розпочата в 1984 році. У 1995 році WordNet з'явився в Інтернеті у вільному доступі і викликав сплеск досліджень щодо його використання в різних комп'ютерних програмах автоматичної обробки текстів. Результати застосування WordNet виявилися не настільки однозначно позитивними, але WordNet відкрив нову епоху розробки надвеликих структурованих лінгвістичних ресурсів, викликав появу великої кількості послідовників в різних країнах, що створюють такі "ворднети" для своїх мов, а також став базою для багатопланових дискусій і досліджень того, на основі яких принципів повинні будуватися великі лінгвістичні ресурси, придатні для різноманітних програм в галузі комп'ютерної лінгвістики

Спочатку WordNet створювався як модель людської пам'яті. Багато рішень подання описів слів в WordNet мотивуються психолінгвістичний експеримент. Однак потрібно зазначити, що WordNet викликав значно більший інтерес у комп'ютерних лінгвістів, ніж у психолингвистов.

WordNet: основні принципи

Основоположник WordNet Джордж Міллер формулює основні гіпотези, що лежать в основі розробки WordNet, наступним чином:

гіпотеза отделимости: опис лексичного компонента природної мови може бути відокремлене і може вивчатися окремо;

гіпотеза "зразка" (patterning hypothesis): існує таке формальне опис слів, яке може бути застосоване до більшості слів мови;

гіпотеза про покриття (comprehensiveness hypothesis): для ефективного використання комп'ютерного словника в додатках автоматичної обробки текстів такі словники повинні бути дуже великий величини.

У той час була популярною теорія семантичного компонентного аналізу, в якій передбачалося, що значення слова, як і значення пропозиції, може бути представлено на основі набору семантичних примітивів. Проте роки досліджень не виявили кращого набору семантичних примітивів, придатного для використання в ресурсах для обробки природної мови.

В якості альтернативи був обраний підхід так званої реляційної семантики, коли значення слів представляються деяким виразом компонентів, а не на основі опису відносин між значеннями різних слів.

Основним ставленням в WordNet є ставлення синонімії. Набори синонімів - сінсети - основні структурні елементи WordNet.

Поняття синонімії базується на критерії, що два вирази є синонімічні, якщо заміна одного з них на інше в реченні не змінює значення істинності цього висловлювання.

Поняття синонімії, що використовується в WordNet, не вимагає заменяемости синонімів у всіх контекстах - за таким критерієм в природній мові було б занадто мало синонімів. Використовується значно більш слабке твердження, що синоніми WordNet повинні бути синоніми хоча б у деякій множині контекстів. Наприклад, заміна plank для слова board рідко змінює значення істинності в контексті теслярської справи, але існують контексти, де така заміна не може вважатися прийнятною.

Саме визначення синонімії в термінах замінності робить необхідним поділ WordNet на окремі підструктури за частинами мови.

До складу словника входять лексеми, пов'язані з чотирьох частин мови: прикметник, іменник, дієслово і прислівник. Лексеми різних частин мови зберігаються окремо, і описи, відповідні кожній частині мови, мають різну структуру.

Сінсет може розглядатися як уявлення лексікалізованнимі поняття (концепту) англійської мови.

Автори вважають, що сінсет іменників являє поняття іменників, дієслова виражають дієслівні концепти, прикметники - концепти прикметників і т.п.

Крім того, автори вважають, що такий поділ відповідає психолингвистическим експериментам, що подання інформації про прикметників, іменників, дієсловах і говірками влаштовано в людській пам'яті по-різному.

Більшість сінсетов забезпечені тлумаченням, подібним тлумаченням в традиційних словниках, - це тлумачення розглядається як одне для всіх синонімів сінсета. Якщо слово має кілька значень, то воно входить в кілька різних сінсетов.

Опис іменників

Між іменниками в словнику встановлені наступні семантичні відносини:

синонімія;

антонімія;

гіпонімія / гіперонімом - ставлення, яке інакше може бути названо ВИЩЕ-НИЖЧЕ, isA-відношення. Ставлення транзитивно і несиметрично. Гіпонім успадковує всі властивості Гіпероніми. Це ставлення є центральним ставленням для опису іменників;

меронімія (відношення ЧАСТИНА-ЦІЛЕ). Усередині цього відношення виділяються відносини бить_елементом і бить_сделанним_із.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]