
- •Тема 6. Базы данных и сети (окончание)
- •6.6. Семантическая сеть (Semantic Web)
- •Критика (проблемы)
- •Архитектура
- •Проекты
- •1) Дублинское ядро
- •2) Rss (версий 0.90 и 1.0)
- •3) Foaf - создание модели машинно-читаемых домашних страниц и социальных сетей (Facebook, Вконтакте и т.Д.)
- •4) Проект Swoogle Web (компания Google)
ЛЕКЦИЯ 7 (окончание)
Тема 6. Базы данных и сети (окончание)
Тенденция современного развития Интернет - это переход от документов, читаемых компьютером (machine readable) к документам, понимаемым компьютером (machine understandable).
Tim Berners-Lee «The Semantic Web». Scientific American, 17 мая 2003
6.6. Семантическая сеть (Semantic Web)
Термин был введен сэром Тимоти Бернерсом Ли, человеком, который сделал самую первую в мире веб-страницу и самый первый в мире веб-браузер
Свое видение Тим и его коллеги изложили в публицистической статье The Semantic Web. Центральным элементом видения Тима являются действующие в Сети семантические агенты - умные программы, работающие от имени людей. Эти агенты могут выполнять интеллектуальные поисковые запросы, добывать новые знания из уже имеющихся и таким образом помогать людям принимать важные решения.
Футуристический пример сэра Тимоти выглядит примерно так. Люси хочет записать свою маму на мед.процедуры в какую-нибудь из клиник города. При этом ей хочется, чтобы до клиники не требовалось долго ехать, а расписание врачей подходило под расписание её мужа Пита. У Пита есть так называемый интеллектуальный агент, который, получив набор требований к клинике
Финансирование – гранты от государственных структур, проекты крупных коммерческих компаний (Oracle, IBM и т.д.).
Заинтересованность – частные лица, коммерческие компании, государственные структуры.
В настоящее время, Семантическая Паутина все чаще и чаще используется маленькими и большими компаниями. Oracle, IBM, Adobe, Software AG или Northrop Grumman – лишь небольшая часть тех, кто уже воспользовался этой технологией, и продает как инструменты, так и целостные бизнес решения.
Гугл купил Метавеб - компанию, основным продуктом которой была Freebase - свободная база знаний, где каждый мог вводить факты обо всем на свете. Благодаря совместной работе со специалистами из Metaweb поисковая система сможет лучше отвечать на вопросы вроде [актёры старше 40 лет, которые получили хотя бы одного Оскара] или [колледж на западном побережье дешевле $30 тыс. в год].
Большие корпорации потихоньку встраивают Semantic Web технологии в свои системы внутреннего управления, например, BMW использует Aletheia, для интеграции всех знаний организации в одном месте, то же самое делают Volkswagen (плюс Volkswagen vehicle ontology)и Renault. Другой хороший пример - BBC, которые в полную мощь используют ресурсы Linked Data для связывания разнородных ресурсов
Крупные прикладные области, финансируемые государством, такие как Медицина и Науки о Человеке, заинтересованы в тех средствах интеграции данных, которые предоставляет Семантическая Паутина.
Целью является реализация возможности машинной обработки информации, доступной во Всемирной паутине.
Основной акцент концепции делается на работе с метаданными, однозначно характеризующими свойства и содержание ресурсов Всемирной паутины, вместо используемого в настоящее время текстового анализа документов.
Реализация
Для её внедрения предполагается создание сети документов, содержащих метаданные о ресурсах Всемирной паутины и существующей параллельно с ними.
РЕСУРСЫ (текст, графика, видео, звук) предназначены для восприятия человеком.
МЕТАДАННЫЕ используются машинами (поисковыми роботами и другими интеллектуальными агентами) для проведения однозначных логических заключений о свойствах этих ресурсов.
Основная идея
В семантической паутине предполагается повсеместное использование:
во-первых, универсальных идентификаторов ресурсов (URI),
во-вторых — онтологий и языков описания метаданных.
Использование универсальных идентификаторов ресурсов (URI).
К идентификатору предъявляются несколько простых требований: он должен быть строкой определённого формата, уникальной, а также адресующей реально существующий объект
Три типа (вида) ресурсов
1) Ресурсы, доступные для загрузки.
2) Информационные ресурсы недоступные для загрузки.
3) Материальные ресурсы (т.е. реальные объекты вне Web).
Традиционная схема использования таких идентификаторов в современном Интернете сводится к установке ссылок, ведущих на объект, им адресуемый. Очевидным свойством такой ссылки является возможность «загрузки» объекта, на который она указывает. Таким объектом может быть (1) веб-страница, файл произвольного содержания, фрагмент веб-страницы,
Другой вариант неявное указание на обращение к реально существующему информационному ресурсу по протоколу, отличному от HTTP (например, ссылки mailto:).
Концепция семантической паутины расширяет это понятие, включая в него (3) материальные ресурсы, недоступные для скачивания. Адресуемыми с помощью URI ресурсами могут быть, например, отдельные люди, города и другие географические сущности, художественные артефакты и т. д.
|
Визитная карточка основателя Википедии в формате RDF. Все элементы этого графа (как узлы, так и дуги) являются URI, включая литерал, изображённый в оранжевом прямоугольнике.
|
Использование онтологий и языков описания метаданных.
СЕЙЧАС. Современные методы автоматической обработки данных, доступных в Интернете, как правило, основаны на частотном и лексическом анализе текстового содержимого, которое, прежде всего, предназначено для восприятия человеком.
ПРЕДЛАГАЕТСЯ.
В семантической паутине предлагается использовать форматы описания, доступные для машинной обработки. Например, семейство форматов, часто упоминаемое в литературе как «Semantic Web family»: RDF, RDF Schema или RDF-S, и OWL.
Эти форматы, в свою очередь, используют URI для адресации описываемых и описывающих объектов, а также онтологии и дескриптивные логики в качестве базовых математических формализмов.