Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Semantic web.docx
Скачиваний:
0
Добавлен:
08.01.2020
Размер:
1.1 Mб
Скачать
    1. Rdfs – rdf схема

RDFS (RDF Schema) – объектно-ориентированный язык представления моделей (структур) данных в синтаксисе XML как ресурсов Web; разработан Консорциумом W3C (1999) и является частью спецификаций языка RDF, стандартизующей описание словаря понятий, используемых в RDF-спецификации.

Каждый из элементов тройки, составляющей RDF-спецификацию:

<объект> <свойство> <значение>

может определяться ссылкой URI на тип элемента. В этой тройке <свойство> может пониматься и как атрибут, и как отношение между двумя ресурсами. То есть если <объект> и <значение> являются какими-либо ресурсами, то <свойство> устанавливает отношение между этими ресурсами. А если <значение> является конкретной величиной, <свойство> является атрибутом и описывает конкретное свойство ресурса.

RDF не предоставляет никаких механизмов ни для описания атрибутов ресурсов, ни для определения отношений между ними. Для этого разработан язык RDFS – язык описания словарей для RDF, который определяет, какие термины могут быть использованы в RDF-утверждениях о свойствах ресурсов, представляет иерархию понятий предметной области, описывает характеристики каждого из терминов.

RDFS-описание определяет уникальные классы ресурсов, представляющие концептуальную модель конкретной предметной области, и уникальные свойства ресурсов, интересующие нас в этой области. Принадлежность ресурса к конкретному классу RDFS задается в RDF-документе с помощью элемента rdf:type.

Основные элементы RDFS – класс (Class) и свойство (Property), являются независимыми конструкциями. Классы и свойства могут связываться отношениями наследования (SubClassOf и SubPropertyOf), могут использоваться ограничения области определения (Range) и принадлежности свойства классу (Domain). Для определения структуры классов и свойств используется также спецификация вложенности (container) типов: bag – неупорядоченного множества элементов, seq – упорядоченного множества элементов и alt – одного из списка элементов. Особенностью RDFS является его описательный характер, то есть состав языковых элементов может использоваться не для того, чтобы наложить ограничения, а для предоставления информации приложению, обрабатывающему эти данные.

Таким образом, RDFS предоставляет механизмы для описания групп связанных ресурсов и отношений между этими ресурсами. Все определения RDFS описаны на RDF (поэтому RDF и называется «самоописывающимся»).

Классы и свойства RDFS похожи на систему классов объектно-ориентированных языков программирования. Но главное отличие RDFS в том, что центральным является определение свойства, а не класса, и свойства и классы независимы. Для свойства в RDFS определяются некоторое множество классов RDFS, к которым данное свойство применимо, тогда как в объектно-ориентированных языках программирования определение класса имеет законченную форму – свойства класса содержатся внутри описания класса. Это позволяет добавлять новые свойства к объекту не меняя его описания, то есть сторонние пользователи могут расширять RDFS описание не изменяя его первоначального смысла и, соответственно, не спрашивая разрешения у автора.

  1. Определяется свойство «Автор» для класса «Документ» и ограничения области определения «Человек». В случае появления дополнительной информации о свойствах «Документа», нет необходимости изменять описание класса «Документ». Достаточно добавить новое свойство с соответствующим доменом.

Класс (Документ);

Класс (Человек);

Свойство (Автор; Документ; Человек).

XML представление:

<rdf:RDF

xmlns:rdf ="http://www.w3.org/1999/02/22-rdf-syntax-ns#"

xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#">

<rdfs:Class rdf:ID="document">

<rdfs:label>Документ</rdfs:label>

</rdfs:Class>

<rdfs:Class rdf:ID="man">

<rdfs:label>Человек</rdfs:label>

</rdfs:Class>

<rdfs:Property rdf:ID="author">

<rdfs:domain rdf:resource="#document"/>

<rdfs:range rdf:resource="#man"/>

</rdf:Property>

<document rdf:ID="http://www.ksu.ru/book.pdf">

<creator>

<rdf:type rdf:resource="#author"/>

Иванов И.И.

</creator>

</document>

</rdf:RDF>

В приведенном примере создается два класса «Документ» и «Человек» и свойство «Автор», в конце приводится описание конкретного документа http://www.ksu.ru/book.pdf.

Недостатки RDFS – RDFS не обеспечивает достаточно богатой семантики для описания предметных областей, он слишком беден, чтобы достаточно детально описывать ресурсы. Для более подробного описания предметной области используются онтологии.

Документация и литература:

  1. Стин Декер, Сергей Мельник, и др.; Semantic Web: роли XML и RDF, 26.10.2001

  2. Джошуа Тауберер. Перевод: А.Скробов. Краткое введение в RDF http://xmlhack.ru/texts/06/rdf-quickintro/rdf-quickintro.html

  3. Начальное руководство по RDFa Перевод: PhD Щербак Сергей, 2009 http://shcherbak.net/

  4. Представление объектов vCard в RDF/XML. Записка W3C от 22 февраля 2001 г.

  5. Resource Description Framework http://www.w3.org/RDF/

  6. Петр Михеев Resource Description Framework – механизм описания ресурсов в Semantic Web http://www.optim.su/cs/2003/2/RD

  1. Онтология CITATION Тим01 \l 1049

Онтоло́гия в философии (новолат. ontologia от др.-гр. ών род. п. όντος – сущее, то, что существует и λόγος – учение, наука) – раздел философии, изучающий проблемы бытия; наука о бытии.

Онтология в информатике – это попытка формализации некоторой области знаний с помощью концептуальной схемы.

Неформально, онтология представляет собой некоторое описание конкретной области знаний, деятельности, интересов и т.д. Это описание состоит из терминов и правил использования этих терминов, ограничений в рамках конкретной области.

Более точное определение: онтология – это формально представленные на базе концептуализации знания о предметной области.

Одно из самых известных определений онтологии, сформулированное Т. Грубером: Онтология – это точная спецификация концептуализации.

Под концептуализацией понимается процесс перехода от представления предметной области на естественном языке к точной спецификации этого описания на некотором формальном языке, ориентированном на компьютерное представление. Концептуализация также трактуется как результат подобного процесса, то есть описание множества понятий (концептов) предметной области, знаний о них и связях (отношениях) между ними.

Онтология – это система, состоящая из набора понятий и набора утверждений об этих понятиях, на основе которых можно строить классы, объекты, отношения, функции и теории.

Например, если мы рассматриваем простую предметную область, описывающую кубики на столе, то концептуализацией является набор возможных положений кубиков, а не конкретное их расположение в текущий момент времени.

Онтология является не абсолютной (единственной) спецификацией концептуализации предметной области, а зависит от целей ее создания, т. е. задач, при решении которых планируется ее применять. Независимо от вида онтологии она должна включать словарь терминов и некоторые спецификации их значений, что позволяет ограничивать возможные интерпретации терминов и отражать взаимосвязь понятий данной предметной области.

Тезаурус – (от греч. θησαυρός – сокровище) – в современной лингвистике – особая разновидность словарей общей или специальной лексики, в которых указаны семантические отношения (синонимы, антонимы, паронимы, гипонимы, гиперонимы и т . п.) между лексическими единицами. Таким образом, тезаурусы, особенно в электронном формате, являются одним из действенных инструментов для описания отдельных предметных областей.

В отличие от толкового словаря, тезаурус позволяет выявить смысл не только с помощью определения, но и посредством соотнесения слова с другими понятиями и их группами, благодаря чему может использоваться в системах искусственного интеллекта.

Таксономия – иерархически выстроенная система целей и результатов от простой к сложной системе.

Математически таксономией является древообразная структура классификаций определенного набора объектов. Вверху этой структуры – объединяющая единая классификация (корневой нод), которая относится ко всем объектам данной таксономии. Ноды, находящиеся ниже корневого, являются более специфическими классификациями, которые относятся к поднаборам общего набора классифицируемых объектов. Например, в классификации организмов Карла Линнея корневым нодом является организм. Ниже в этой таксономии находятся тип, класс, отряд, семейство, род и вид.

Сетевая модель представления знаний – реализуется с помощью, так называемых семантических сетей, имеет вид ориентированного графа. Семантическая сеть реализует идею о том, что любые знания можно представить в виде совокупности объектов (понятий) и связей (отношений между ними). Его базовыми функциональными элементами служит структура из двух компонентов – узлов и связующих их дуг. Каждый узел представляет собой некоторое понятие, а дуга – отношения межу парами понятий. Формализм в виде семантической сети особенно эффективен для решения технологических задач структурного синтеза и декомпозиции объектов проектирования – технологических процессов, операций, маршрута обработки. Основное преимущество семантических сетей - наглядность представления знаний.

Определение онтологии как формального представления предметной области, построенного на базе концептуализации, предполагает выделение ее трех взаимосвязанных компонентов: таксономии терминов, описаний смысла терминов, а также правил их использования и обработки. Таким образом, модель онтологии О задает тройка:

О = (X, R, Ф),

где X – конечное множество терминов (понятий, концептов) предметной области, которую представляет онтология; R – конечное множество отношений между терминами; Ф – конечное множество функций, заданных на терминах и (или) отношениях.

Возможны вырожденные случаи, когда одна или две составляющих пусты. Например, если R = и Ф = , то онтология вырождается в модель простого словаря V:

О = (Х,,)=V,

и смысл терминов явно не выражается.

Другой вариант возникает, если R  , а Ф = . Пусть R содержит лишь один тип отношения is-a (вид-род). Тогда

О = (X, {is-a}, ) == T

простая таксономия или иерархическая система понятий, то есть структура понятий онтологии задается деревом.

Некоторые основные типы онтологии:

Онтологии верхнего уровня (Generic / Top-level ontology) – онтологии, содержащие общие знания, предназначенные для многократном использования. Такая онтология должна охватывать все стороны бытия, вся явления физического мира и т.д. Существует несколько серьезных проектов: SUMO, Sowa’s Ontology, Cyc. Попытки создать онтологию верхнего уровня, на все случаи жизни очень сложны и пока не привели к ожидаемым результатам.

Предметно-ориентированная онтология (Domain-oriented ontology) – онтология конкретной предметной области, области знаний или части реального мира. Обобщает понятия, использующиеся в предметной области (авиация, медицина, культура), абстрагируясь от конкретных задач. В такой онтологии содержатся специальные для этой области значения терминов. К примеру, слово «поле» в сельском хозяйстве означает участок земли, в физике – один из видов материи, в математике – особую структуру.

Онтология, ориентированная на прикладную задачу (Task-oriented ontology) – онтология, разрабатываемая вместе с конкретным приложением. Она отражает специфику приложения и может также содержать некоторые общие характеристики.

Лексические онтологии (Lexical Ontology) . Лексические онтологии описывают лексику того или иного естественного языка и основные лексические отношения между словами и множествами слов. Исторически первыми были созданы лексические онтологии. Так, работы по созданию лексической онтологии английского языка WordNet (PWN) были начаты в Принстонском университете (США) в начале 80-х годов и продолжаются сегодня. За период с марта 1996 по сентябрь 1999 года при финансировании Европейской комиссии был создан многоязычный вариант WordNet – EuroWordNet. Эта лексическая система объединила в себе WordNet английского, датского, испанского, итальянского, немецкого, французского, чешского и эстонского языков, а за основу был взят Принстонский WordNet версии 1.5. В 2004 году завершена работа над проектом BalkaNet, объединяющим греческий, болгарский, турецкий, чешский, французский, румынский и сербский языки. В настоящее время создается версия русского WordNet .

Некоторые задачи, решаемые с помощью онтологии:

1. Организация эффективного поиска в базах данных, информационных каталогах, базах знаний. Совершенствование механизмов атрибутного поиска (по ключевым словам) и развитие формальных языков запросов не избавляет от высокого уровня информационного шума и неполноты получаемых результатов. Идеальным решением было бы формулирование запросов на естественном языке. Однако приемлемых методов, реализующих такой подход, в настоящее время нет. Использование онтологии позволяет точнее интерпретировать смысл терминов, фигурирующих в запросах, а также дополнять или расширять запрос понятиями, которые связаны с терминами запроса отношениями род-вид, синоним, часть-целое, ассоциация и др. Подобное расширение запроса преследует цель уменьшения неполноты ответа на него.

С другой стороны, в современных информационно-поисковых системах и поисковых машинах Интернет онтологии используются для уточнения смысла запросов путем «фильтрации» их содержания, что способствует уменьшению информационного шума. При этом применяются процедуры формирования так называемых профилей информационных интересов пользователей и процедуры семантического пересечения запроса или информации, приготовленной к выдаче, с этими профилями. В первом случае семантическое представление запроса, расширенное с помощью онтологии, сопоставляется с профилем информационных интересов, «фильтруется» и передается поисковой машине. Во втором случае «фильтрации» подвергается не запрос, а результат его выполнения, т. е. найденная по нему информация.

2. Создание систем, реализующих механизмы рассуждений (экспертные системы, системы управления, интеллектуальные роботы и др.). Прежде всего, к ним относятся экспертные системы для технической и особенно медицинской диагностики. Обязательным компонентом таких систем является блок объяснения решения. Объяснения должны раскрывать суть возникающих ситуаций и их причины, а также обосновывать предлагаемые сценарии действий. Наличие объяснений позволяет человеку действовать осмысленно, а не слепо доверять интеллектуальной автоматизированной системе. И при принятии решения, и при объяснении должна учитываться семантика, как отдельных терминов, так и составленных из них высказываний и их композиций. Достижению данной цели способствует использование онтологии. Реализация средств формирования объяснений на базе онтологического подхода позволяет существенно снизить уровень ошибок, обусловленных человеческим фактором. И чем сложнее система, тем актуальнее такой путь.

3. Организация поиска по смыслу в текстовой информации. Текстовая информация до сих пор является основой документооборота. Ее объем очень велик, а задачи поиска и систематизации ответственны и сложны. Механизм индексирования текстовых документов весьма трудоемок. К тому же он не решает проблем неполноты и поискового шума. Это особенно проявляется при использовании запросов типа "где" и "как", а также фактографических запросов.

Для организации поиска по смыслу в текстовой информации необходимы методы извлечения семантики из текстовых документов и запросов и сопоставления получаемых семантических представлений. Подобные методы также повысят эффективность автоматического реферирования, аннотирования и классификации документов, позволят автоматизировать построение гипертекста. Новыми задачами, связанными с извлечением знаний из текста, являются:

  • формирование сообщений на заданную тему;

  • извлечение новых фактов по интересующей теме;

  • реализация виртуального собеседника.

Пример извлечения семантики из текста. Фраза из отчета о футбольном матче: «Футболисты покинули поле без голов». Разрешение присущей ей двусмысленности формальными средствами достаточно непросто. Онтология общих понятий позволяет установить две группы отношений. В первую входят отношения R3(«футболист», «человек») и R4(«человек», «голова»), где R3 – отношение вид-род, R4 – отношение целое-часть. Вторую группу образуют отношения Rа(«футболист», «игра»), Ra(«футболист», «гол»), Rа(«игра», «гол»), Rа(«игра», «поле»), Ra(«футболист», «поле»). Вторая группа является более сильной, так как входящие в нее ассоциации представляют общую предметной области (футбол) и покрывают большее число терминов предложения (футболисты, поле, голы). С учетом сказанного система может сделать заключение, что, по всей видимости, в предложении имеется в виду, что футболисты покинули поле, не забив мячей, а с их головами ничего страшного не случилось.

5. Семантический поиск в Интернет. Одной из центральных проблем Интернет является организация эффективного поиска информации. Онтологии позволяют формировать информационные профили узлов сети и на этапе предварительного отбора подходящих для поиска узлов отсеивать нерелевантные узлы.

Существуют идеи выделения семантических областей Интернет с описанием на онтологическом уровне их информационных профилей. Подобная организация, базирующаяся не на географическом, а информационно-профильном принципе, позволяет на порядок снизить как время поиска, так и нагрузку на сеть.

Общей целью практически всех проектов в данной области является разработка новых подходов к построению пространств знаний Интернет и средств работы с ними, которые бы обеспечивали:

  • использование семантики при управлении процедурами выполнения запросов;

  • возможность формирования информационных ресурсов, содержащих компоненты, формально представляющие семантику и обладающие простым синтаксисом, которые могут интерпретироваться программными агентами и другими программными системами;

  • гомогенный доступ к информации, которая физически распределена и гетерогенно представлена в Internet;

  • возможность получения информации, которая явно не присутствует среди фактов, извлеченных из сети, но может быть выведена из этих фактов и базовых знаний, зафиксированных в онтологии.

5. Представление смысла в метаданных об информационных ресурсах. Современные языки представления метаданных, как правило, строятся на базе языка XML и модели RDF. В рамках данной задачи онтологии применяются при формировании пространств имен, словарей и квалификаторов для обеспечения их единообразных интерпретаций. Заметим, что без RDF (или другой модели такого рода) конструкциям, основанным на XML, недостает семантической выразительности.

Методология управления знаниями (Knowledge Management) при использовании онтологического подхода позволяет решать задачи каталогизации и классификации информационных ресурсов (в том числе неструктурированной информации) путем создания аналитических метаданных. Для этого применяются стандартизованные открытые интерфейсы с общими структурами и определениями метаданных.

6. Обеспечение общей терминологии для множества специалистов и совместно используемых приложений. Большинство практических задач относятся не к одной, а к нескольким предметным областям. Такие задачи, как правило, решаются в рамках совместной деятельности группы специалистов, имеющих разную предметную подготовку. Члены группы могут взаимодействовать друг с другом с помощью телекоммуникационных технологий. Все это требует формирования общих понятийных пространств, обеспечивающих адекватное понимание информации, которой обмениваются специалисты. Онтологический подход существенно упрощает решение данной проблемы.

Суть Semantic Web состоит в автоматизации «интеллектуальных» задач обработки значения (в семантическом смысле) тех или иных ресурсов, имеющихся в Интернет. Обработкой и обменом информации должны заниматься не люди, а специальные интеллектуальные агенты (программы, размещенные в Интернет). Но для того, чтобы взаимодействовать между собой агенты должны иметь общее (разделяемое всеми) формальное представление значения для любого ресурса. Именно для цели представления общей, явной и формальной спецификации значения в Semantic Web используются онтологии.

Документация и литература:

  1. Добров Б.В., Иванов В.В., Лукашевич Н.В., Соловьев В.Д. Онтологии и тезаурусы. Казань 2006

  2. А.И. Башмаков, И.А. Башмаков. Интеллектуальные информационные технологии: учеб. пособие для студентов вузов по направлению подготовки дипломир. спец. "Информатика и вычислительная техника". – Москва: Изд-во МГТУ, 2005.

  3. OWL, язык веб-онтологий. Краткий обзор. Перевод Дмитрий Щербина. 2004 http://book.uraic.ru/files/owl/REC-owl-features-20040210_ru.htm Оригинал: http://www.w3.org/TR/2004/REC-owl-features-20040210/

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]