Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Собственно текст документа.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
8.39 Mб
Скачать

Аннотация Web-документов на базе онтологии

Аннотация HTML-документов в SHOE осуществляется также с использованием тегов. В частности, для этого служат теги USE-ONTOLOGY, INSTANCE, CATEGORY, RELATION. Последние три тега имеют следующие форматы:

<INSTANCE KEY="значение-ключа"

[DELEGATE-TO="список-примеров"]> ... </INSTANCE>

<CATEGORY NAME="префикс. категория" [FOR="Kлюч"]>

<RELATION NAME="префикс. отношение">список-аргументов </RELATION>

Для поиска и обработки домашних страниц с помощью специфицированной вы­ше онтологии необходимо, чтобы авторы Web-публикаций сами (или на основе инструментария SHOE) проаннотировали свои документы.

Так, например, фрагмент аннотации персональной страницы исследователя Ива­нова в формализме SHOE выглядит следующим образом:

<BODY>

<МЕТА HTTP-EQUIV="Instance"

CONTENT="http://www. anywhere. ru/~ivanov">

<USE-ONTOLOGY "HomePageOntology"

VERSION="1.0" PREFIX="our"

URL=" http://www.ont.org/HomePageOntology html">

<CATEGORY "our. Person">

<RELATION "our.firstName" TO="Ivan">

<RELATION "our.lastName" TO="Ivanov">

<RELATION "our.marriedTo"

TO="http://www. somewhere. ru/~Mariya">

<RELATION "our. employee FROM="http.//www. ccas. ru">

……………………………………….

</BODY>

Анализ приведенного HTML-текста показывает, что даже в таком, казалось бы, простом случае задача аннотации Web-документа достаточно сложна. Ситуация становится еще более сложной при аннотировании реальных HTML-документов. Во-первых, уже выбор объектов текста, подлежащих аннотированию, не три­виален, особенно, если Web-документ представляет объекты реального мира. Во-вторых, гиперссылки часто фиксируют лишь наличие определенных отношений между объектами, но не их семантику. И, наконец, можно, конечно, аннотировать каждую именную группу в естественно-языковом представлении HTML-страни­цы, но для реальных документов это слишком трудоемкая задача, которая, к тому же, чревата большим количеством ошибок.

Поэтому в рамках проекта SHOE для автоматизации процессов аннотирования Web-документов разработана специальная система Knowledge Annotator [KA, 1999], одна из экранных форм которой представлена на рис. 8.12.

Рис. 8.12. Экранная форма системы Knowledge Annotator

Основными информационными блоками в приведенной выше экранной форме являются экземпляры (instances), онтологии (ontologies) и утверждения (claims). Пользователь может добавлять, редактировать и/или удалять любой из элемен­тов этих блоков. При создании новых объектов пользователю выдаются соответ­ствующие подсказки в виде, например, списка доступных онтологий, описанных в них категорий, отношений и т. п.

Для визуализации знаний, содержащихся в обрабатываемом документе, Know­ledge Annotator использует различные методы, начиная с аннотированного HTML-текста и заканчивая описаниями утверждений на естественном (англий­ском) языке. Кроме того, система осуществляет проверку корректности действий пользователя и транслирует его выборы в синтаксически правильные конструк­ции SHOE.