Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ГОСы / ФБИ ИИС 2016

.pdf
Скачиваний:
75
Добавлен:
04.01.2020
Размер:
5.97 Mб
Скачать

По степени формальности (ниже черты машино-понятные, выше черты человеко-

понятные):

Первой точке на спектре соответствует контролируемый словарь, т.е. конечный список терминов (простейшим примером является каталог на основе идентификаторов). Каталоги представляют точную (не многозначную) интерпретацию терминов. Например, каждый раз, ссылаясь на термин "машина", мы будем использовать одно и то же значение

(соответствующее некоторому ID в словаре), вне зависимости от того, о чем идет речь в контексте: о "стиральной машине", "автомобиле" или "государственной машине".

Другой спецификацией онтологии может быть глоссарий, представляющий собой список терминов с их значениями. Значения описываются в виде комментариев на естественном языке. Это дает больше информации, поскольку люди могут прочесть такой комментарий и понять смысл термина. Интерпретации терминов могут быть многозначными. Глоссарии непригодны для автоматической обработки программными агентами, но можно, как и ранее, присвоить терминам ID.

Тезаурусы несут дополнительную семантику, определяя связи между терминами.

Отношения, свойственные для тезаурусов: синонимия, иерархическое отношение и ассоциация. Ранние иерархии терминов, появившиеся в Сети, определяли термины через операции обобщения и уточнения. Yahoo, например, ввела небольшое число категорий верхнего уровня, таких, как " предметы одежды ". Затем " платье " определялось как вид

(женской) одежды. Явная иерархия Yahoo не соответствовала в точности формальным свойствам иерархического отношения ПОДКЛАСС-КЛАСС. В таких иерархиях может встретиться ситуация, в которой экземпляр класса-потомка не является экземпляром класса-предка. Например, общая категория " предметы одежды " имеет подкатегорию "

женские " (которая должна была бы более точно называться " женские предметы одежды

"), а эта категория, в свою очередь, включает подкатегории " аксессуары " и " платья ".

Ясно, что аксессуары, например " броши ", не являются предметами одежды. Здесь не выполняется важное свойство отношения ПОДКЛАСС-КЛАСС - транзитивность.

Далее следует точка формальные таксономии. Эта разновидность онтологий включает точное определение отношения ПОДКЛАСС-КЛАСС (обозначаемого как isA ). В таких системах строго соблюдается транзитивность отношения isA: если A является подклассом класса B, то каждый подкласс класса A также является подклассом класса B. Строгая иерархия классов необходима при использовании наследования для процедуры логического вывода.

Следующая точка спектра - наличие в онтологической системе формального отношения ЭКЗЕМПЛЯР-КЛАСС (обозначаемого как isInstanceOf ). Некоторые классификации включают только имена классов, другие содержат на нижнем уровне экземпляры

(индивиды). Для отношения ЭКЗЕМПЛЯР-КЛАСС выполняется так называемая

"наследуемость" вдоль отношения isA: если A является подклассом класса B, то каждый экземпляр класса A также является экземпляром класса B. Поэтому в приведенном выше примере " броши " не могут быть помещены в иерархии ниже " предмет одежды ", даже в подкатегорию " женские предметы одежды ", или стать экземпляром этой категории.

Далее среди структурных элементов появляются слоты. Здесь классы (иногда их называют фреймами ) могут иметь информацию о свойствах (слотах). Например, класс " предмет одежды " может иметь свойства " цена ", " сделан из ". Свойства бывают особенно полезными, когда они определены на верхних уровнях иерархии и наследуются подклассами. Так, в потребительской иерархии класс " продукт " может иметь свойство "

цена ", которое получат все его подклассы.

Большей выразительностью обладают онтологии, включающие ограничения на область значений свойств. Значения свойств берутся из некоторого предопределенного множества

(целые числа, символьные константы) или из подмножества концептов онтологии

(множество экземпляров данного класса, множество классов). Можно ввести дополнительные ограничения на то, что может заполнять свойство. Например, для свойства " сделан из " класса " предмет одежды " значения могут быть ограничены экземплярами класса " материал ". Легко увидеть проблемы, которые могут возникнуть в этом случае при использовании нестрогой таксономии. Если " духи " - потомок класса "

предмет одежды ", то он унаследует свойство " сделан из " вместе с ограничением на его значения (" материал ").

Области применения онтологий

Можно говорить о неявном применении онтологий в качестве систем понятий в естественных науках (биология, медицина, геология и другие), где они служат своего рода фундаментом для построения теорий. Поскольку классификационная структура

(таксономия) является неотъемлемой частью любой онтологии, можно говорить о присутствии элементов онтологий в специальных классификациях и системах индексации (например, в библиотечных классификационных кодах).

В явном виде онтологии используются как источники данных для многих компьютерных приложений (для информационного поиска, анализа текстов,

извлечения знаний и в других информационных технологиях), позволяя более эффективно обрабатывать сложную и разнообразную информацию. Этот способ представления знаний позволяет приложениям распознавать те семантические отличия,

которые являются само собой разумеющимися для людей, но не известны компьютеру.

Используется в:

машинном переводе;

вопросно-ответных системах;

информационном поиске;

системах извлечения знаний;

общих системах ведения диалога между компьютером и человеком;

системах понимания языка (автоматическое реферирование текста, рубрикация)

Конкретные примеры:

1. Семантическая паутина (Semantic web) — это общедоступная глобальная семантическая сеть, формируемая на базе Всемирной паутины путѐм стандартизации представления информации в виде, пригодном для машинной обработки. Суть ее состоит в автоматизации "интеллектуальных" задач обработки значения (в семантическом смысле)

тех или иных ресурсов, имеющихся в Сети. Обработкой и обменом информации должны заниматься не люди, а специальные интеллектуальные агенты (программы, размещенные

в Сети). Но для того, чтобы взаимодействовать между собой, агенты должны иметь общее

(разделяемое всеми) формальное представление значения для любого ресурса. Именно для цели представления общей, явной и формальной спецификации значения в Semantic Web

используются онтологии.

В обычной Всемирной паутине, основанной на HTML-страницах, информация заложена в тексте страниц и предназначена для чтения и понимания человеком.

Семантическая паутина состоит из машинно-читаемых элементов — узлов семантической сети, с опорой на онтологии. Благодаря этому программы-клиенты получают возможность непосредственно получать из интернета утверждения вида «предмет — вид взаимосвязи

— другой предмет» и вычислять по ним логические заключения. Семантическая паутина работает параллельно с обычной Всемирной паутиной и на еѐ основе, используя протокол

HTTP и идентификаторы ресурсов URI. 2. Информационный поиск

В современных поисковых системах тексты автоматически индексируются по набору слов, составляющих эти тексты.

Такое представление текстов как простого набора слов ("bag of words") имеет большое количество очевидных недостатков, затрудняющих поиск релевантных текстов,

например:

избыточность - в пословном индексе используются слова-синонимы,

выражающие одни и те же понятия;

слова текста считаются независимыми друг от друга, что не соответствует свойствам связного текста;

многозначность слов - поскольку многозначные слова могут рассматриваться как дизъюнкция двух или более понятий, выражающих различные значения многозначного слова, то маловероятно, что все элементы этой дизъюнкции интересуют пользователя.

Этих недостатков лишено так называемое концептуальное индексирование, то есть такое индексирование, когда текст индексируется не по словам, а по понятиям, которые обсуждаются в данном тексте. При такой технологии:

все синонимы сведены к одному и тому же понятию;

многозначные слова отнесены к разным понятиям;

связи между понятиями и соответствующими словами описаны и могут быть использованы при анализе текста.

Для того чтобы попытаться реализовать схему автоматического концептуального индексирования и концептуального поиска, необходимо иметь ресурс, описывающий

систему понятий данной предметной области, то есть онтологию в данной предметной области.

Нужно отметить, что использование онтологий для информационного поиска в реальных широких предметных областях имеет ряд особенностей:

эта онтология должна быть очень большой величины;

понятия онтологии должны иметь аккуратно установленные связи с языковыми единицами - терминами предметной области;

онтология реальной предметной области не может быть полной, поэтому методы информационного поиска на основе онтологий должны сочетаться с методами информационного поиска на основе пословных методов в едином поисковом механизме;

задача информационного поиска предполагает использование онтологий для анализа свободных неограниченных связных текстов, для которых не существует хорошо развитых методов автоматической обработки.

3. Интеграция разнородных источников данных Интеграция разнородных источников данных - фундаментальная проблема,

возникшая в последние десятилетия перед сообществом разработчиков БД. Цель интеграции данных состоит в том, чтобы предоставить единый интерфейс к различным источникам и позволить пользователям сосредоточиться на определении того, что они хотят узнать. В результате интеграция должна освободить пользователя от поиска релевантных источников данных, взаимодействия с ними по отдельности, отбора и комбинирования данных из различных источников. Проектирование системы интеграции данных - очень сложная задача.

Онтологический подход может успешно применяться для решения двух подзадач:

спецификации содержимого разнородных источников данных в виде онтологии

(моделирование концептуальных схем БД при помощи онтологий);

получения ответов на запросы, адресованные интегрирующей системе и основанные на спецификации источников.

36 Редакторы

онтологий,

формализмы

и

форматы

представления онтологий

При создании онтологий (как и при проектировании программного обеспечения или написании электронного документа) целесообразно пользоваться подходящими инструментами. Будем называть инструментальные программные средства, созданные специально для проектирования, редактирования и анализа онтологий, редакторами онтологий.

Основная функция любого редактора онтологий состоит в поддержке процесса формализации знаний и представлении онтологии как спецификации (точного и полного описании).

В большинстве своем современные редакторы онтологий предоставляют средства "

кодирования " (в смысле "описания") формальной модели в том или ином виде.

Некоторые дают дополнительные возможности по анализу онтологии, используют механизм логического вывода.

Поддерживаемые редактором формализмы и форматы представления

Под формализмом понимается теоретический базис, лежащий в основе способа представления онтологических знаний. Примерами формализмов могут служить логика предикатов (First Order Logic - FOL), дескриптивная логика, фреймовые модели (Frames),

концептуальные графы и т.п. Формализм, используемый редактором, может не только существенно влиять на внутренние структуры данных, но и определять формат представления или даже пользовательский интерфейс.

Формат представления онтологии задает вид хранения и способ передачи онтологических описаний. Под форматами подразумеваются языки представления онтологий: RDF, OWL, KIF, SCL.

По языку представления онтологических знаний онтологии классифицируются следующим образом:

1) RDF. Язык разработан в рамках проекта семантик-веб (Semantic Web). Основное предназначение языка - описание метаданных документов, размещаемых в Интернет. RDF

использует базовую модель представления данных "объект - атрибут - значение", и

способен сыграть роль универсального языка описания семантики ресурсов и связей между ними.

2)DAML+OIL – семантический язык разметки Web-ресурсов, который расширяет стандарты RDF і RDF Schema за счет более полных примитивов моделирования. В

последнюю версию DAML+OIL включен набор дополнительных конструкций для создания онтологий и разметки информации в легко интерпретируемом машиной виде.

3)OWL (Web Ontology Language) – язык представления онтологий следующего поколения после DAML+OIL. Обладает более богатым набором возможностей чем XML, RDF, RDF Schema і DAML+OIL. Проект предполагает создание мощного механизма семантического анализа. Планируется, что в нем будут устранены ограничения конструкций DAML+OIL. Онтология OWL – это последовательность аксиом, фактов и ссылок на другие онтологии.

4)KIF (Knowledge Interchange Format или формат обмена знаниями) - основан на S-

выражениях синтаксис для логики. KIF - специальный язык, предназначенный для обмена знаниями между разными компьютерными системами. Разрабатывался для описания общего формата представления знаний независимого от конкретных систем.

5) CycL (язык описания онтологии Cyc) – это гибридный язык, в котором объединены свойства фреймов и логики предикатов. Синтаксис языка CycL схожий с синтаксисом языка Lisp. CycL различает такие сущности, как экземпляры, классы,

предикаты и функции. Словарь CycL состоит из термов. Множество термов можно разделить на константы, неатомарные термы и переменные. Термы используются при составлении значащих выражений CycL, из которых формируются суждения. Из суждений состоит база знаний.

6) OCML (Operational Conceptual Modeling Language) язык поддерживает построение нескольких типов конструкций представления знаний. Он позволяет задавать спецификацию и операционализацию функций, связей, классов, экземпляров и правил. Он также включает механизмы для описания онтологий и методов решения задач - основные

технологии, разработанные в области представления знаний. Около десятка проектов в

KMi (Knowledge Media Institute) в настоящее время используют OCML для разработки моделей в таких областях как управление знаниями, разработка онтологии, электронная торговля и системы обработки знаний.

7) LOOM и PowerLoom® - языки представления знаний, разработанные исследователями из группы Artificial Intelligence Research Group Университета Южной Калифорнии (University of Southern California's Information Sciences Institute). Цель проекта

Loom – разработка и внедрение продвинутых средств для представления знаний и рассуждений в области искусственного интеллекта. Loom и PowerLoom распространяются по открытой лицензии (open source licenses), но являются интеллектуальной собственностью Университета Южной Калифорнии и не являются общедоступными.

8) Loom это и язык и среда для построения интеллектуальных приложений.

Центром языка является система представления знаний, которая используется для построения дедуктивных выводов на основе декларативных знаний. Декларативные знания состоят из определений, правил, фактов и правил по умолчанию. Дедуктивный движок использует прямые цепочки логического вывода, семантическую унификацию и объектно-ориентированные технологии поддержания достоверности.

9) F-Logic – онтологический язык, который базируется на логиках первого порядка,

однако классы и свойства в нем представлены как термины, а не как предикаты. Язык создавался для осуществления взаимодействия между онтологиями, построенными на основе предикатов, и онтологиями, построенными на основе F-Logic. Создатели определили интуитивные трансляторы для преобразования знаний из предикатных онтологий в F-Logic онтологии и показали, что такой перевод сохраняет логические связи

(preserves entailment) для большого количества онтологических языков, в том числе и для многих OWL DL. Также, язык может применяться для мета-моделирования расширений

Description Logics (v-semantics).

Таким образом, некоторая формальная модель представляется в формализме FOL и

может быть выражена средствами языка KIF.

Редакторы онтологий обычно поддерживают работу с несколькими формализмами и форматами представления, но часто только один формализм является "родным" (native)

для данного редактора.

Функциональность редактора онтологий

Важной характеристикой является функциональность редактора, т.е. множество сценариев его использования.

Базовый набор функций обеспечивает:

работу с одним или более проектами:

сохранение проекта в нужном формализме и формате (экспорт);

открытие проекта;

импорт из внешнего формата;

редактирование метаданных проекта (в широком смысле: от настройки форм редактирования и представления данных до поддержки версий проекта);

редактирование онтологии. Набор возможных действий обычно включает создание, редактирование, удаление понятий, отношений, аксиом и прочих структурных элементов онтологии, редактирование таксономии.

К дополнительным возможностям редакторов относят поддержку языка запросов

(для поиска нетривиальных утверждений), анализ целостности, использование механизма логического вывода, поддержку многопользовательского режима, поддержку удаленного доступа через Интернет.

Сложные инструментальные средства

Эти средства нужны для того, чтобы не только вводить и редактировать онтологическую информацию, но и анализировать ее, выполняя типичные операции над онтологиями, например:

выравнивание (alignment) онтологий - установка различного вида соответствий между двумя онтологиями для того, чтобы они могли использовать информацию друг друга;

отображение (mapping) одной онтологии на другую - нахождение семантических связей между подобными элементами разных онтологий;

объединение (merging) онтологий - операция, которая по двум онтологиям генерирует третью, объединяющую информацию из первых двух.

Основные редакторы онтологий

Ontolingua

Кроме собственно редактора онтологий, эта система содержит:

сетевой компонент Webster, предназначенный для определения концептов;

сервер, обеспечивающий доступ к онтологиям Ontolingua по протоколу OKBC

(Open Knowledge Base Connectivity);

Chimaera - инструментарий для анализа и объединения онтологий.

Protege

Это свободно распространяемая Java-программа, предназначенная для построения

(создания, редактирования и просмотра) онтологий той или иной прикладной области.

Она включает редактор онтологий, позволяющий проектировать онтологии, разворачивая иерархическую структуру абстрактных и конкретных классов и слотов. На основе сформированной онтологии Protege позволяет генерировать формы получения знаний для введения экземпляров классов и подклассов.

Данный инструмент поддерживает использование языка OWL и позволяет генерировать HTML-документы, отображающие структуру онтологий. Поскольку он использует фреймовую модель представления знаний ОКВС, это позволяет адаптировать его и для редактирования моделей предметных областей, представленных не в OWL, а в других форматах ( UML, XML, SHOE, DAML+OIL, RDF / RDFS и т.п.). Подробнее об этом редакторе будет рассказано далее в этой лекции.

DOE

DOE (Differential Ontology Editor) - простой редактор, который позволяет пользователю создавать онтологии. Процесс спецификации онтологии состоит из трех этапов.

На первом этапе пользователь строит таксономию понятий и отношений, явным образом очерчивая позицию каждого элемента (понятие) в иерархии. Затем пользователь указывает, в чем специфика понятия относительно его "родителя", и в чем это понятие подобно или отлично от его "братьев". Пользователь может также прибавить синонимы и энциклопедическое определение на нескольких языках для всех понятий.

На втором этапе две таксономии рассматриваются с разных точек зрения.

Пользователь может расширить их новыми объектами или добавить ограничения на области отношений.

На третьем этапе онтология может быть переведена на язык представления

знаний.

OntoEdit

OntoEdit - инструментальное средство, обеспечивающее просмотр, проверку и модификацию онтологии. Оно поддерживает языки представления онтологии OIL и RDFS, а также внутренний язык представления знаний OXML, основанный на XML. Как и

Protege, это автономное Java-приложение, но его коды закрыты. Свободно распространяемая версия OntoEdit Free ограничена 50 концептами, 50 отношениями и 50

экземплярами.

OilEd