
Розділ 5. Семантичний веб
Ідея семантичного веб
Дві основні проблеми Інтернет: переповненість інформацією і формат подання інформації, який орієнтований переважно на людей, а не на програми.
Подальший розвиток Інтернету багато хто пов’язує з концепцією семантичного веб. Його концепцію висунув Тім Бернерс-Лі, основоположник www.
За задумом Тіма Бернерс-Лі основана ідея полягає в організації такого подання даних в мережі, щоб допускалася не лише їх візуалізація, а і їх ефективна автоматична обробка прогамами різних виробників. Семантичний веб це розширення існуючої мережі інтернет, в якому інформація представляється в чіткому смисловому значенні, що дає можливість працювати людям і комп’ютерам працювати з більш високим ступенем розуміння. Передбачає об'єднання різних видів інформації в єдину структуру, де кожному смисловому елементу даних буде відповідати синтаксичний блок (тег). Теги повинні складати одну єдину ієрархічну структуру.
Структура семантичного веб
Семантичний веб можна представити як симбіоз двох напрямів.
Перший охоплює мови представлення даних. На сьогодні основними такими мовами є: XML (eXtensible Markup Language), а також RDF (засоби опису ресурсів). Існує також ряд інших форматів.
Другий концептуальний напрямок заключає в собі теоретичне уявлення про моделі предметних областей. У термінології семантичного веб такі моделі наз. онтологіями.
У 2004 році W3C затвердив технологію специфікації мови мережевих отнологій OWL. Таким чином семантичний веб використовує 3 ключові мови: XML, який дозволяє визначити структуру і синтаксис документу, механізм опису ресурсів RDF, який надає модель кодування для тих значень, які будуть визначатися в онтології, мова онтологій OWL, що дозволяє визначати поняття і відношення між ними.
Що стосується логічних рівнів семантичного веб, то найнижчий рівень це URI (уніфікований ідентифікатор, який визначає спосіб запису адреси до вільного ресурсу, зокрема URL, яка є адресою ресурсу в Інтернеті).
Наступний рівень це XML і засоби описання XML-документів (DTD, XML Shema). Тут можна також виділити окремий рівень, орієнтований на роботу з цифровими підписами.
На базі XML розгортаються засоби описання ресурсів RDF i RDF-схеми, які пояснюють, як стикуються XML-дані в мережі і дозволяють будувати каталоги і словники понять. RDF дозволяє виконувати пошук необхідних понять в семантичному веб.
І, нарешті, мова мережевих онтологій забезпечує більш повну автоматичну обробку контенту, надаючи поряд з формальною семантикою додаткову семантичну підтримку.
Xml-синтаксична основа семантичного веб
За визначеннями відомої рейтингової компанії XML у 2001 році був віднесений до головних технологічних досягнень, здатних змінити, у перспективі, ввесь комп’ютерний світ.
Як мова це досить універсальна синтаксична основа, що забезпечує як представлення даних, так і задавання відношень між ними.
Вихідна версія розроблена у 1998 році і з тих пір розвинулася до рівня метамови на базі якої визначаються сотні нових предметно-орієнтованих мов.
XML дозволяє створювати власні теги, які є прихованими мітками веб-сторінки, або розділи тексту на сторінках для описання їх інформаційного наповнення. Наприклад, бібліотекарі могли б для описання книг використовувати теги: автор, ціна, назва, кількість сторінок тощо. Хоча для тих же самих цілей теги могли б називатись інакше. Тобто, програма, яка працює з XML-документом не розуміє їх змісту.
Оскільки XML не має фіксованого словника тегів, то вони можуть визначаться незалежно від будь-яких програм. Спочатку було передбачене описання тегів за допомогою визначника DTD, який включається в сам документ XML як тег, і який накладає обмеження на теги і задає допустиму граматику, яка вказує якими можуть бути комбінації і вкладення імен тегів, імен атрибутів тощо.
У XML використовуються два види вказівки на DTD:
У самому XML-документі.
Вказанням інтернет адреси файла з DTD.
Мова DTD відрізняється від мови XML і це є її недоліком.
DTD дозволяє задавати:
порядок слідування елементів
вкладеність елементів
кількість можливих елементів
типи атрибутів
сутності і нотації.
Останнім часом замість DTD використовується інший підхід, який наз. XML-схема. Зокрема XML-схеми використовуються в програмах MS Office.
XML-схема записується на мові XML і надає розробнику більше можливостей ніж DTD.
Доступність схеми надає різним розробникам можливість організовувати обмін даними між різними документами.
Засоби описання ресурсів RDF
Призначення RDF полягає в описанні відношень між мережевими ресурсами та інформацією. RDF є ланкою між XML-документами і програмами, які здійснються пошук і навігацію на основі логічних тверджень. RDF є технологією представлення смислу термінів і понять у вигляді доступному для автоматичного опрацювання. Принцип побудови відношень між менежевими ресурсами передбачає наявність 3 компонентів об’єкта, атрибута і значення, який є аналогом класичної схеми: підмет-присудок-доповнення.
Кожен елемент такого триплету має присвоєний йому ідентифікатор URI за допомогою якого при вказанні однієї із ланок триплету можна отримати весь ланцюжок. Із триплетів мови RDF можуть формуватися мережі на основі зв’язків між об’єктами. Використання URI ідентифікаторів забезпечує унікальність кожного означення для всієї мережі інтернет.
Базовий блок RDF записують по-різному: А(О,V), де О – об’єкт, А - атрибут із значенням V. RDF Дозволяє міняти місцями обєкти і значення. З самого початку в RDF використовувався синтаксис мови XML, але існують також інші мови описання, наприклад, у вигляді набору трійок:
hasName
(“http…”,”Dmitriy”)
autorOf
(“http…”,’ISBN584…0’)
hasPrise
(‘ISBN54…0’,”$8”)
Крім того допускається форма представлення у якій будь-який вираз RDF у триплеті може бути об’єктом або значенням, тобто, дозволяє вказати, що даний об’єкт має певний тип.
<rdf:Description about= www.about...>
<rdf: type rdf: resource=http://description/schema/#book>
</rdf:Description>
Специфікація RDF забезпечує підтримку тегів, які дозволяють визначати практично будь-які поняття. Наприклад, <price>, <invois>, яким приписувати відповідні значення ціни і рахунку відповідно. Інформаційні ресурси описуються за допомогою сукупності термінів. Семантика термінів і їх словників фіксується за допомогою глобальних універсальних імен URI. Також існує RDF-схема, яка може визначати, які терміни можуть використовуватись в RDF твердженнях про властивості ресурсів, представляє ієрархію понять предметної області, описує характеристики кожного з термінів.
Онтологія
Онтології є більш універсальними і ефективними засобами, по суті, БЗ.
Найчастіше онтологія представляється як ієрархія понять зв’язаних відношенням деяких спеціальних видів. Такі онтології є аналогами так званих семантичних мереж, які можна задавати у вигляді орієнтованих графів, у яких вершини означають поняття або їх властивості, а дуги – відношення певних типів. Таких як: «належить», «є наслідком» і деяких інших.
Більш складні онтології формалізуються засобами мов логіки і допускають можливість логічного виводу. У найпростішому випадку онтології використовуються для підвищення точності пошуку в Інтернеті. Також, якщо одні і ті ж поняття представляються різними термінами, механізм онтологій дозволяє формувати осмислені ієрархічні зв’язки між об’єктами, узагальнювати різні дані, реалізувати нечіткий пошук.
Передбачалося, що інтелектуальні програми будуть використовувати онтології для пошуку інформації і виявлення зв’язаної з нею структурою знань і правил виводу.
Програма, яка інтерпретує онтології може, наприклад, вивести, що якщо Корнельський університет знаходиться у місці Ітака, який знаходиться у штаті Нью-йорк, який є частиною США, то адресу цього університету потрібно писати у американському форматі.
Формальна семантика мови OWL, яка рекомендована W3C, описує як отримати логічні виводи на основі онтологій, тобто, отримати факти, які не представлені буквально, а випливають із семантики онтологій. При чому ці виводи можуть будуватися на аналізі як одного документа, так і множити документів, розподілених у мережі.
На практиці створення онтологій починається з ієрархії класів понять, які складають предметну область. Фундаментальним конструктором для класів є вираз - rdfs: subClassOf. Він зв’язує частинний клас із загальним класом.
Властивості можуть обмежуватися так званими доменами і діапазоном. Наприклад, властивість ВиготовленоЗВинограду має домен вино і діапазон виноград. Множинні домени означають, що доменом властивості є перетин вказаних класів.
Знання
Проект семантичного вебу передбачає створення системи з елементами штучного інтелекту, яка б допомагала спеціальним програмам (агентам) ефективно шукати інформацію в мережі і обмінюватися інформацією між собою. Мови семантичного веб дозволяють представляти будь-який вид даних, створювати синтаксичні аналізатори і інтерфейси прикладних програм необхідні для маніпулювання даними.
Основані принципи функціонування автономних агентів:
агент не має повної інформації, необхідної для рішення поставленої задачі
дані, які опрацьовуються розподілені в мережі
агенти працюють асинхронно
взаємодія агентів між собою і з людиною відбувається на високому семантичному рівні
відсутній глобальний контроль за діяльністю агентів