Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Уч.пос.ИИС(А4 для А5).04г..doc
Скачиваний:
9
Добавлен:
15.08.2019
Размер:
2.58 Mб
Скачать

9. Интеллектуальные интернет-технологии

9.1. Языки разметки документов

Одним из таких языков является HTML – язык разметки документов с помощью специальных конструкций, называемых тегами. Эти конструкции берутся в угловые скобки. Различают теги «открытия», которые задаются ключевыми словами и допустимыми параметрами, и теги «закрытия» – ключевые слова с символом «/». Общая структура HTML-документа может быть представлена следующим форматом:

!DOCTYPE HTML PUBLIC “-//W3C//DTD HTML 4.0//EN”

“http://www.w3.org/TR/REC-html40/strict/dtd”

HTML

HEAD

TITLEНаименование документа/TITLE

META name=keywords content=”Представление знаний,

Мультиагентные системы”

/HEAD

BODY

Собственно текст документа

/BODY

./HTML

Комментарий !DOCTYPE… фиксирует текущее состояние спецификации версии языка HTML. Кроме того, в HTML-документе выделяются две основные структурные единицы – «голова» документа (между тегами HEAD и /HEAD) и его «тело» (между тегами BODY и /BODY).

Один из элементов головы документа – это заголовок – произвольный текст между тегами TITLE и /TITLE. Не менее, а может быть и более важным элементом головы документа является тег META name=keywords content=”Представление знаний, Мультиагентные системы”. В приведенном примере этот тег с помощью параметров name и content фиксирует значение первого атрибута как keywords, а второго – как ключевые слова ”Представление знаний’ и “Мультиагентные системы”. Эти и некоторые другие теги типа META… ориентированы на аннотирование Интернет-документов и, кроме того, существенно облегчают задачу индексирования их, например, с помощью сетевых роботов.

Собственно содержание документа находится в теле. Как правило, оно состоит из последовательности структурных единиц, базисными среди которых являются заголовки разного уровня (текст, заключенный между тегами Hi и ./Hi) и параграфы – текст между тегами P и ./P. По существу, это минимальные средства форматирования Интернет-документов. В HTML эти средства значительно богаче (выравнивание, табуляция, списки различных типов и т.д.).

Наиболее важными базовыми конструкциями языка HTML являются якоря. Синтаксически эти конструкции представлены тегами А и ./А с атрибутами NAME и HREF. Пример: A NAME=”Метка”текст./А (обеспечивает в пределах документа уникальное имя начала фрагмента). При этом текст, заключенный между тегами А и ./А, как правило, задает семантически значимое наименование заголовка.

Для ссылок на помеченные таким образом части Интернет-документа используют конструкции A HREF =”Метка”текст./А или A HREF =”URL”текст./А. Первая из них задает локальную ссылку на часть документа, начинающуюся с указанной метки. Вторая – глобальную ссылку на документ в сети, однозначно идентифицируемый с помощью URL. По существу, URL – это Интернет-адрес: имя домена, уточненное названием протокола, собственное имя документа, включая путь к нему в пределах данного домена. Пример URL: http://www.anywhere.ru/anywhat.html.

Использование в Интернет-публикациях ссылок позволяет организовать логическое структурирование информации и обеспечивает удобную и единообразную навигацию как в пределах одного документа, так и в целом по множеству документов, если они связаны между собой.

Важными конструкциями HTML являются таблицы с возможностями задания многоуровневых заголовков и формы, с помощью которых в язык введены средства обеспечения диалога с пользователями Интернет-документов. Пример:

TABLE

TR

TD Столбец-1, строка-1 /TD

TD Столбец-1, строка-2 /TD

/TR

/TABLE

FORM METHOD=”POST” …

P

Можно ввести в поле одну строку:

INPYT NAME=”entry”

/P

P

Для обработки результатов ввода:

INPUT TYPE=”submit” VALUE=”Принять запрос”

/P

/FORM

На уровне форм HTML имеются возможности ввода информации в просматриваемый документ и ее обработки с помощью специальных программ, выполняемых на сервере или на клиент-терминале.

Другой важной HTML - конструкцией являются кадры (рамки или фреймы). С их помощью можно разделить документ на части и представить их в отдельных неперекрывающихся областях экрана.

Для семантической разметки Интернет-документов прежде всего пригодны теги типа TITLE, META… и A. Первый важен для фиксации семантики всего HTML-документа, так как текст, заключенный между тегами TITLE и /TITLE, чаще всего отражает его назначение и содержание. Теги типа META… вводят имена атрибутов, а ссылки и якоря фиксируют отношения между частями документа или документами. Теги A фиксируют факт наличия отношения между ссылкой и ее якорем.

Язык HTML имеет ряд недостаков, к которым в первую очередь относятся нерасширяемость и ограниченные средства спецификации семантической структуры документов.

Некоторые недостатки HTML сняты в языке XML. Отличительными свойствами XML являются стандарт на определение синтаксиса и единообразные средства введения в языки разметки новых тегов. Это позволяет конструировать новые языки маркировки Web-документов и обеспечивает возможность различным приложениям и программным агентам понимать и обрабатывать XML-документы.

Каждый XML-документ обладает определенной логикой и физической структурой. Физически это композиция элементов, называемых единицами, которые могут быть связаны взаимными ссылками. Логически документ состоит из деклараций, единиц, комментариев, собственно текстов и инструкций обработки, причем каждая конструкция XML маркируется специальными тегами явным образом. Все теги XML – парные, а конструкции могут быть вложены друг в друга, образуя правильно построенное дерево. Так, например, конструкция item Attribute 1=”Value 1”/item определяет единицу с именем item и списком пар атрибут-значение, который в нашем случае представлен единственным атрибутом с именем Attribute 1, имеющим значение ”Value 1”.

Пример XML-документа, описывающего домашнюю страницу исследователя Иванова:

?xml version=”1.0”?

Homepage>

<Name>Домашняя страница Иванова</Name>

<Person>

<firstName>Ivan</firstName >

<lastName>Ivanov</lastName >

<marriedTo Homepage=”http://www.anywhere.ru”>

Mariya Ivanova</marriedTo>

<employee Homepage=”http://www.ccas.ru”>

CCAS of Russia</employee>

<publications>

<book title=”First Book”/>

<book title=”Second Book”/>

……………………………..

</publications>

</Person>

</Homepage>

Этот XML-документ пока не имеет «смысла», так как из него не следует, как интерпретируются единицы типа Person, publications, book и т. п. Для решения этого вопроса используется специальная спецификация определения типа документа DTD (document type definition). По сути дела, это грамматика языка разметки, в рамках которой определяются, какие элементы могут присутствовать в документе, какие атрибуты они имеют и как элементы соотносятся друг с другом. Такие спецификации тоже входят в стандарт XML .