Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

1412

.pdf
Скачиваний:
8
Добавлен:
07.01.2021
Размер:
1.13 Mб
Скачать

выразительные возможности концептуального моделирования слабо структурированных Web-данных.

Распространение онтологического подхода к представлению знаний оказало содействие при создании разнообразных языков представления онтологии и инструментальных средств, предназначенных для их редактирования и анализа. Существуют традиционные языки спецификации онтологий: Ontolingua, CycL, языки, основанные на дескриптивных логиках (такие как LOOM), языки, основанные на фреймах (OKBC, OCML, F-Logic). Более поздние языки основаны на Web-стандартах (XOL, SHOE, UPML). Специально для обмена онтологиями через Web были созданы языки

RDF, RDFS, DAML+OIL, OWL.

Языки, о которых пойдет речь в данном разделе, являются основными языками так называемой Семантической Сети (Semantic Web). О Semantic Web упоминалось ранее. Там же было отмечено, что на сегодняшний день наблюдается разрыв между способами представления метаданных (языками их определения) и теми интеллектуальными агентами, которые должны ими пользоваться. Языки описания метаданных и онтологий в Web развиты очень хорошо, языки запросов и языки описания правил доведены до стадии технологических стандартов в данной области. Однако узким местом всё еще являются механизмы взаимодействия агентов на основе онтологий.

Многие популярные редакторы онтологий, которые будут описаны ниже, используют в качестве основного формализма дескриптивную логику (DL) и предоставляют средства для создания OWL-онтологий.

RDFS

Каждый из элементов триплета определяется ссылкой на тип элемента и URI. Предикат (в контексте RDF его обычно называют свойством) может пониматься либо как атрибут, либо как бинарное отношение между двумя ресурсами. Но RDF сам по себе не предоставляет никаких механизмов ни для описания атрибутов ресурсов, ни для определения отношений между ними. Для этого предназначен язык RDFS (RDF Schema) - язык описания словарей для RDF. RDFS определяет классы, свойства и другие ресурсы.

RDFS является семантическим расширением RDF. Он предоставляет механизмы для описания групп связанных ресурсов и отношений между этими ресурсами. Все определения RDFS выражены на RDF (поэтому RDF называется "самоописывающимся" языком). Новые термины, вводимые RDFS, такие как "домен", "диапазон" свойства, являются ресурсами RDF.

Система классов и свойств языка описания RDF-словарей похожа на систему типов объектно-ориентированных языков программирования, например, Java. Но RDF отличается от большинства таких систем тем, что здесь центральным аспектом является определение свойства, а не класса. Свойства в RDF определяются как пары (домен, диапазон). При этом домен представляет некоторое множество классов RDF, к которым данное свойство применимо, диапазон определяет допустимое множество ресурсов - значений свойства. Для сравнения: в Java определение класса имеет законченную форму (свойства класса выражаются в полях и методах класса). В RDF, напротив, описание класса всегда остается открытым (набор свойств класса определяется вне самого класса).

Основное преимущество такого подхода - в легкой расширяемости: добавление/удаление свойств интуитивно проще, чем управление множеством классов, обладающих каждый своим индивидуальным набором свойств (как в ООП). Фактически, любой может расширять описание существующих ресурсов (лозунг Web: "Кто угодно может сказать что угодно о чем угодно!").

OWL

OWL (Web Ontology Language, в аббревиатуре буквы намеренно переставлены местами, чтобы получилось английское слово "сова") - язык представления онтологий в Web. Фактически это словарь, расширяющий набор терминов, определенных RDFS. OWL-онтологии могут содержать описания классов, свойств и их экземпляров. Создание OWL - это ответ на необходимость представления знаний в Сети в едином формате. Исторически предшественником OWL был язык DAML+OIL, объединивший 2 инициативы: проект DAML

(DARPA Agent Markup Language) и проект OIL (Ontology Inference

Layer). Наиболее ранним проектом представления онтологий в Web

был SHOE (Simlpe HTML Ontology Extensions). Верхний уровень: OIL, DAML+OIL и OWL продолжают развиваться, но наибольшей популярностью пользуется OWL.

OWL с 2004 года является рекомендацией W3C и объединяет лучшие черты своих предшественников.

SPARQL

Вероятно, сами по себе языки представления онтологий не были бы так сильно востребованы, если бы не возникало необходимости автоматически обрабатывать онтологии, наполнять их содержимым и выполнять к ним запросы. Наиболее популярными среди языков запросов к RDF-хранилищам на сегодняшний день являются языки

RDQL и SPARQL.

Тема 4.2. Задачи, решаемые с помощью онтологий

Основные вопросы темы: Задачи информационного поиска, интеграция гетерогенных источников данных.

Рекомендуемая литература: 1, 2, 8, 9, 10, 11.

Перечень дополнительных ресурсов: 3, 4, 5, 6, 7, 12, 13. Наименование вида самостоятельной работы: написание

конспектов, изучение литературы. Выполнение контрольной работы.

Краткое содержание лекции, основные термины, понятия и определения темы

Анализ возможностей онтологических систем показывает, что они способны обеспечить:

повышение интеллектуальности СУЗ на основе представления того, что часто остается неявным;

стандартизацию на основе описания целевого мира в виде словаря, согласованного среди людей;

разделение знаний между пользователями и (или) между компьютерными системами, их совместное или повторное использование для новых ситуаций;

систематизацию знаний, позволяющую интегрировать разнородные источники знаний на основе многоаспектной таксономии, представляемой в общем словаре;

реализацию метамодельной функциональности для конструирования, так как она снабжает необходимыми понятиями, отношениями, ограничениями, которые используются как строительный материал для создания конкретных моделей решения задач.

Перечислим основные сферы применения онтологий.

1. Системы обучения. Действительно, для первого знакомства с предметной областью очень полезно в качестве «опорного сигнала» иметь легко воспринимаемую структуру этой области. С помощью онтологии можно быстро находить ссылки на источники информации.

2. Поисковые системы. Наметившийся сейчас переход от поиска информации по ключевым словам к использованию семантически значимых фрагментов текстов существенно облегчается, если используется онтология ПрО. Совершенствование механизмов поиска по ключевым словам и формальных языков

запросов не избавляет от высокого уровня информационного шума и неполноты получаемых результатов. Использование онтологии позволяет томнее интерпретировать смысл терминов,

фигурирующих в запросах, а также дополнять или расширять запрос понятиями, которые связаны с терминами запроса, и отношениями типа: род вид, синоним, масть — целое, ассоциация и др.

3.Научные исследования. Большое значение имеет унификация терминологии ПрО. Наличие онтологии ПрО позволит автоматизировать процесс отслеживания полезных данных и знаний в потоке текущей информации.

4.Системный анализ предметной области. Онтология предоставляет структурированную и частично формализованную основу для проведения системного анализа предметной области.

5.Интегрирование данных и знаний. При объединении информационных баз онтология будет помогать устанавливать семантическую эквивалентность одинаковых фактов и понятий, сформулированных в разных терминах.

6.Создание и использование БЗ. Практическое формирование БЗ, хотя в области ИИ они декларируется уже 30—40 лет, получило новый импульс развития с появлением онтологического подхода.

7.Создание систем, реализующих механизмы рассуждений (ЭС, СУЗ, интеллектуальные роботы и др.). Онтологический подход к разработке и реализации средств формирования объяснений

вЭС позволяет существенно снизить уровень ошибок, связанных с человеческим фактором, и чем сложнее система, тем актуальнее такой путь.

8.Организация поиска, но смыслу в текстовой информации. Текстовая информация до сих нор является основой документооборота. Ее объем очень велик, а задачи поиска и систематизации ответственны и сложны. Механизм индексирования текстовых документов весьма трудоемок, к тому же он не решает проблем неполноты и поискового шума. Это особенно проявляется при использовании запросов типа «где» и «как», а также фактографических запросов. Для организации поиска по смыслу в текстовой информации необходимы методы извлечения семантики из текстовых документов и запросов, а также сопоставления получаемых семантических представлений. Подобные методы повышают эффективность автоматического реферирования, аннотирования и классификации документов, они позволяют автоматизировать построение гипертекста.

Новыми задачами, связанными с извлечением знаний из текста, являются:

формирование сообщений на заданную тему;

извлечение новых фактов по интересующей теме;

реализация виртуального собеседника.

Онтологии являются важным средством повышения эффективности решения всех перечисленных выше задач.

9.Семантический поиск в Интернете. Одной из центральных проблем Интернета является организация эффективного поиска информации. Онтологии позволяют формировать информационные профили узлов сети и уже на этапе предварительного отбора подходящих для поиска узлов отсеивать нерелевантные. Существуют идеи выделения семантических областей Интернета с описанием их информационных профилей па онтологическом уровне. Подобная организация, базирующаяся не на географическом, а на информационно-профильном принципе, позволяет на порядок снизить как время поиска, гак и нагрузку на сеть. Общей целью практически всех проектов в данной области является разработка новых подходов к построению пространств знаний Интернета и средств работы с ними, которые бы обеспечивали:

использование семантики при управлении процедурами выполнения запросов;

• возможность формирования информационных ресурсов (ИР), содержащих компоненты, формально представляющие семантику и обладающие простым синтаксисом, которые могут интерпретироваться программными агентами и другими программными системами;

гомогенный доступ к информации, которая физически распределена и гетерогенно представлена в Интернете;

• возможность получения информации, которая явно не присутствует среди фактов, извлеченных из Интернета, но может быть выведена из этих фактов и БЗ, зафиксированных в онтологии.

10.Представление смысла в метаданных об ИР. Современные языки представления метаданных, как правило, строятся на базе языка XML и модели RDF. В рамках данной задачи онтологии применяются при формировании пространств имен, словарей и квалификаторов для обеспечения их единообразных интерпретаций.

Методология управления знаниями (knowledge management) при применении онтологического подхода позволяет решать задачи каталогизации и классификации ИР (в том числе неструктурированной информации) путем создания аналитических метаданных. Для этого применяются стандартизованные открытые интерфейсы с общими структурами и определениями метаданных.

11.Построение и использование баз общих знаний для различных интеллектуальных систем. Человек в процессе рассуждений использует не только знания, ассоциируемые с данной ПрО, но и знания более высокой степени общности. К таким знаниям относятся описания свойств пространства, времени, личности и т.п. Знания верхнего уровня (common knowledge) позволяют доопределять модели конкретных предметных ситуаций с учетом взглядов и роли человека. Эти знания представляются в онтологиях верхнего уровня (общих онтологиях, метаонтологиях, онтологиях общих знаний).

Создание онтологии общих знаний под силу только крупным консорциумам. В одиночку их не построить. Подобные онтологии размещаются в Интернете с поддержкой открытого доступа к ним. Приложения, основанные на частных предметных онтологиях и онтологиях задач, могут обращаться к онтологиям общих знаний для получения информации, выходящей за их рамки. Формирование онтологии общих знаний и обеспечение доступа к ним через Интернет стало возможным только в последние годы.

12.Обеспечение общей терминологии и совместно используемых приложений множества специалистов. Большинство практических задач относятся не к одной, а к нескольким ПрО. Такие задачи, как правило, решаются в рамках совместной деятельности группы специалистов, имеющих разную предметную подготовку. Члены группы могут взаимодействовать друг с другом с помощью телекоммуникационных технологий. Такое взаимодействие требует общих понятийных пространств, обеспечивающих адекватное понимание информации, которой обмениваются специалисты.

Онтологический подход существенно упрощает решение данной проблемы. Очевидно, что в данном случае применяются онтологии, относящиеся ко всем трем перечисленным выше уровням.

13.Многократное применение БЗ и информационных массивов, представляющих сведения о технических системах на различных стадиях их жизненного цикла. Данная задача приобрела актуальность

всвязи с развитием CALS-технологий, в рамках которых жизненный цикл технической системы (технического объекта) рассматривается с единых позиций, начиная с момента выявления потребности и до момента прекращения эксплуатации объекта и его утилизации. Каждый этап жизненного цикла должен быть обеспечен соответствующей информационной моделью. Важно, чтобы эта модель не создавалась каждый раз заново, а передавалась с этапа на этап, дополнительно определяясь и развиваясь на каждом этапе. Состояния единой информационной модели для всех этапов жизненного цикла технической системы сохраняются в репозитории

и используются при решении задач анализа, формирования статистики и прогнозирования.

Примеры онтологий. В последние годы разработка онтологий переходит из мира лабораторий по искусственному интеллекту на рабочие столы экспертов по предметным областям. Во Всемирной паутине онтологии стали обычным явлением. Онтологии в сети варьируют от больших таксономий, категоризирующих веб-сайты (как на сайте Ycihoo), до категоризации продаваемых товаров и их характеристик (как на сайте Amazon.com). Консорциум WVKW’

(W3C) разрабатывает RDF (Resource Description Framework) — язык кодирования знаний на веб-страницах, — чтобы сделать их понятными для электронных агентов, которые осуществляют поиск информации. Управление перспективных исследований и разработок Министерства обороны США (Defense Advanced Research Projects Agency, DARPA) в сотрудничестве с консорциумом W3C разрабатывает Язык разметки для агентов DARPA (DARPA Agent Markup Language, DAML)y насыщая RDF более выразительными конструкциями, предназначенными для облегчения взаимодействия агентов в сети. Разрабатываются стандартные онтологии, которые могут использоваться экспертами по предметным областям для совместного применения и аннотирования информации в своей области. Например, в области медицины созданы большие стандартные структурированные словари: SNOMFD и семантическая сеть Системы унифицированного медицинского языка ( Unified

Medical Language System).

Также появляются обширные общецелевые онтологии. Например, Программа ООН по развитию (United Nations Development Program) и компания Dun & Bradstreet объединили усилия для разработки онтологии UNSPSC, которая предоставляет терминологию товаров и услуг (http//www.unspsc.org).

Примером общей онтологии является CYC. Одноименный проект - CYC — ориентирован на создание мультиконтекстной БЗ и специальной машины вывода, разрабатываемой СуСогр. Основная цель этого гигантского проекта — построить БЗ для всех общих понятий (начиная с таких, как время, сущность и т.д.), включающую семантическую структуру терминов, связи между ними и аксиомы. Предполагается, что такая БЗ может быть доступна разнообразным программным средствам, работающим со знаниями, и будет играть роль базы «начальных знаний». В онтологии по некоторым данным уже представлены 106 концептов и 1()5 аксиом. Для представления знаний в рамках этого проекта разработан специальный язык CYCL.

Другим примером онтологии верхнего уровня является онтология Generalized Upper Model, ориентированная на поддержку процессов обработки трех естественных языков — английского, немецкого и итальянского. Уровень абстракции этой онтологии находится между лексическими и концептуальными знаниями, что определяется требованиями упрощения интерфейсов с лингвистическими ресурсами. Модель Generalized Upper Model включает таксономию, организованную в виде иерархии концептов (около 250 понятий), и отдельную иерархию связей. Предметные онтологии и онтологии задач описывают соответственно словарь, связанный с предметной областью (медицина, коммерция и т.д.), конкретной задачей или деятельностью (диагностика, продажи и т.н.) за счет специализации терминов, введенных в онтологии верхнего уровня.

Онтология в системе TOVE (Toronto Virtual Enterprise Project),

предметно ориентирована на представление модели корпорации. Основная цель се разработки — отвечать на вопросы пользователей но реинжинирингу бизнес-процессов, извлекая эксплицитно представленные в онтологии знания. При этом система может проводить дедуктивный вывод ответов. В онтологии нет средств для интеграции с другими онтологиями. Формально онтология описывается с помощью фреймов для описания концептов, зависящих как от конкретной предметной области, так и от решаемых в них задач. Концепты в таких онтологиях часто соответствуют ролям, которые играют объекты в предметной области в процессе выполнения определенной деятельности. Пример прикладной онтологии — онтология системы Plinius, предназначенная для полуавтоматического извлечения знаний из текстов в области химии. В онтологии описано около 150 концептов и шесть правил. Формально онтология Plinius тоже описывается с помощью фреймов.

2. ПРАКТИЧЕСКИЕ РАБОТЫ

2.1 Практическая работа №1

«Анализ предметной области и представления знаний об объектах»

Практическая работа к теме 1.2 «Знания как объект научного рассмотрения»

Рекомендуемая литература: 2, 1, 11.

Перечень дополнительных ресурсов: 5, 6, 7, 8, 9, 11, 13.

Задания:

1.Провести анализ предметной области, указанной преподавателем, и выделить классы объектов, знания о которых необходимы для решения задачи.

2.Задать представление знаний о классах объектов.

3.В представлении знаний о классах объектов выделить минимальные представления.

4.Представить знания о конкретных объектах предметной области в атрибутивном и позиционном форматах (взять по одному объекту каждого из классов).

5.Подготовить исходные данные для решения задачи в виде

таблиц.

Варианты заданий

1.Построить модель представления знаний в предметной области «Компьютерные сети» (организация).

2.Построить модель представления знаний в предметной области «Университет» (учебный процесс).

3.Построить модель представления знаний в предметной области «Компьютерная безопасность» (средства и способы ее обеспечения).

4.Построить модель представления знаний в предметной области «Компьютерная безопасность» (угрозы).

5.Построить модель представления знаний в предметной области «Разработка информационных систем» (ведение информационного проекта).

6.Построить модель представления знаний в предметной области «Туристическое агентство» (работа с клиентами).

7.Построить модель представления знаний в предметной области «Больница» (прием больных).

8.Построить модель представления знаний в предметной области «Кинопрокат» (ассортимент и работа с клиентами).

9.Построить модель представления знаний в предметной области «Прокат автомобилей» (ассортимент и работа с клиентами).

10.Построить модель представления знаний в предметной области «Операционные системы» (функционирование).

11.Построить модель представления знаний в предметной области «Информационные системы» (виды и функционирование).

12.Построить модель представления знаний в предметной области «Предприятие» (структура и функционирование).

2.2 Практическая работа №2

«Представление знаний классифицирующей сетью»

Практическая работа к теме 1.2 «Знания как объект научного рассмотрения»

Рекомендуемая литература: 2, 1, 11.

Перечень дополнительных ресурсов: 5, 6, 7, 8, 9, 11, 13.

Задания:

1.Построить классифицирующую сеть для предметной области из занятия 1 (по вариантам).

2.Проанализировать возможность использования классифицирующей сети для решения задач из данной проблемной области.

3.Разработать программное представление классифицирующей сети на языке Пролог и одном из языков процедурного программирования.

4.Провести сравнительный анализ программных реализаций классифицирующей сети с позиции решаемых задач и выбрать одну из них.

5.Составить программу, осуществляющую решение задач с использованием классифицирующей сети.

2.3 Практическая работа №3

«Семантические сети»

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]