Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ИТ.doc
Скачиваний:
15
Добавлен:
18.09.2019
Размер:
5.68 Mб
Скачать

2.2. Языки разметки документов

В системах обработки текстов в документ включается допол­нительная информация, называемая разметкой и выполняю­щая следующие функции:

  • выделение логических элементов данного документа;

  • задание функций обработки выделенных элементов.

В обычных текстовых процессорах существуют встроенные команды включения/выключения шрифтов и др., аналогичные командам управления размещением информации на экране или при печати (так называемые Еъсаре-последователъности). Такой подход называется командной или процедурной размет­кой (табл. 2.1).

Альтернативный способ разметки заключается в выделении части текста без указания способа обработки выделения. Затем другие команды назначают фрагментам способ обработки. Такая разметка называется описательной (дескриптивной). Она вклю­чает метки (tags, таги) начала и окончания элемента текста и указывает, как интерпретировать данный фрагмент.

Изменяя набор процедур, соответствующий описательной разметке, можно изменить внешнее представление одного и того же документа. Развитие идей описательной разметки привело к определению разметки как формального языка. Это позволяет проверить правильность разметки и минимизировать ее объем за счет подстановки умолчаний.

Таблица 2.1. Некоторые примеры разметки текстовых файлов (управление представлением)

"

Вид раз­метки

Принтер EPSON

Редактор Лексикон

Формат RTF (Rich Text Format), в т.ч. WinWord

Формат электрон­ной почты (стандарт MIME)

HTML

I1

Полужир­ный шрифт

ESC G...ESC Н

chr( 255)2.. chr(255)0

f\b...}

<bold>...</bo!d>

<b>...</b> ;i

Курсив (италик)

ESC 4... ESC 5

chr(255)1... chr(255)0

{\i...}

<ita!ic>...<italic>

<i>...</i>

Подчерки­вание

ESC-1...ESC-0

chr( 255)... chr(O)

{u(\...}

<underline>... </underline>

<u>...</u>

Индекс верхний

ESC SO ...ESCT

chr(255)5... chr(255)0

(\super...)

<superscript>... </superscript>

<sup>... </sup>

Индекс нижний

ESC S 1 ...ESC T

chr(255)4... chr(255)0

{\sub...}

<subscript>... </subscript>

<sub>... ■

</sub>

Выбор

вида

шрифта

NLQ - ESC x 1 DRAFT - ESC x 0 Отмена chr(18)

\f11 - Courier, \f4 -Times, \f5 - Arial

Перевод страницы

chr(12)

,chr(12)

\page

np

Выравни­вание

\qc - по центру \ql - влево \qr - вправо \qj - по краям

<Center> <FlushLeft> <FlushRight>

Caligh =center> =left> =right> =justify>

Параграф (абзац)

Табуляция (TAB, chr(9))

TAB

\par

Paragraph

<p>

Примечание. Аналогично могут быть рассмотрены управление размером шрифта, вставка математических символов и пр.

Типы файлов для размещения документов

Перечислим наиболее типичные файлы данных: • текстовые файлы — обобщенное название для простых и размеченных текстов, ASCII-файлов и других наборов дан­ных символьной информации, которые интерпретируются и обрабатываются текстовыми редакторами, процессорами, анализаторами (Lexicon, Word. ТЕС, анализаторы SGML, HTML);

  • текст без разметки (планарный) — файл, содержащий толь­ко отображаемые (воспроизводимые на всех печатающих устройствах и терминалах) символы кода ASCII, а также простейшие управляющие символы: CR — возврат каретки; L? — перевод строки; таз — символ табуляции, иногда LF — новая страница (табл. 2.1):

  • текст с разметкой — планарный файл, содержащий бинар­ную (см. табл. 2.1, колонки 1. 2) и символьную (остальные колонки) разметку, управляющую отображением информа­ции (программно и/или аппаратно):

  • ASCII-файл — содержит только отображаемые коды левой части кодовой таблицы ASCII (латиница и служебные сим­волы). обычно применяется для хранения документов с символьной разметкой (RTF. SGML. HTML).

Язык SGML

SGML разработан на базе программного продукта DCF GML фирмы IBM и представляет собой .метод создания структу­рированных документов, а также языков для их разметки.

В языке SGML каждый документ имеет три части:

  • декларации (объявления, определения) языка SGML, привязывающие к определенным значениям параметры об­работки, а также имена синтаксиса:

  • пролог, состоящий из деклараций о типе документа. Они определяют типы элементов, взаимосвязи между элемента­ми и их атрибуты, а также условные обозначения, которые могут быть задействованы при разметке;

  • данные, которые состоят из разметки документа и собст­венно информации.

Основные типы конструкций языка — описания:

  • элементов <!element...>:

  • объектов < ! е:с:Гх . . . >:

  • атрибутов <!ятгр.гвитз list. . .>,

образующих структуру документа (документов), при этом эле­мент — основная компонента документа: объект — группа, род элементов; атрибут — характеристика элемента. Все «квадратики», приведенные на рис. 2.5, являются элементами. Запишем одну из возможных конструкций, соответствующую

! ELEMENT SUB EI 7 I PA? - ! >

выделенной на рис. 2.5 цепочке элементов (подраздел — пара­граф — текст...):

  • подраздел состоит из парагра­фов (повторяющихся):

  • параграф — из текста или таб­лицы/ рисунка (необязательны):

лишь частью документа и должен находиться в элементе body. Декларации SGML:

• body — в противоположность элементу НЗЯЭ элемент body содержит всю ту информацию, из которой собственно и состоит рассматриваемый документ. Декларация SGML:

Приведем некоторые элементы HTML, относящиеся к пред­ставлению документа.

  1. 3 а г о л о в к и разделов документа.

SGML-декларация:

< ! EKTjjTY » heading "HI j H2 • НЗ | Н4 Н5|Нб">.

Возможная интерпретация:

HI — жирный, очень крупный шрифт, текст центрирован. Между заголовком и последующим текстом вставляется одна или две пустые строки. При выводе на принтер заголовок печа­тается на новой странице;

Н2 — жирный крупный шрифт, до и после заголовка поме­щаются одна или две пустые строки;

НЗ — наклонный крупный шрифт, до и после заголовка по­мещаются одна или две пустые строки. Печатается с небольшим отступом;

Н4 — жирный нормальный шрифт, до и после заголовка по­мешается пустая строка;

Н5 — наклонный шрифт, как и для Н4, пустая строка ста­вится перед заголовком;

Н6 — жирный шрифт, перед заголовком ставится пустая строка.

  1. Физические (макетные) стили.

SGML-декларация:

Возможная интерпретация:

ТТ — (телетайп) шрифт фиксированной ширины;

В — жирный или еще каким-либо образом выделенный шрифт;

I — наклонный шрифт (или видоизмененный еще каким-ли­бо образом);

U — подчеркивание.

3. Логические стили. SGML-декларация:

CITE"> .

Интерпретация:

ЕМ — выделение символов (обычно наклон шрифта), смы­словое усиление определенного слова или фразы;

STRONG — более четкое выделение, привлечение внимания (обычно применение более жирного шрифта);

CODE — пример кода: обычно фиксированный шрифт (формулы, выражения):

SAMP — последовательность символов (названия команд, примеры);

VAR — имя переменной (имена переменных в примерах, формулах);

DFN — определение к какому-либо термину — обычно жир­ный наклонный;

CITE — цитата, обычно наклонный шрифт (названия доку­ментов, выдержки из документов, цитируемые фразы и т. д.)

Рассмотрим пример документа с разметкой HTML, содержа­щий приведенные выше элементы управления стилем символов текста:

<KTML>

<IITLE> Примерь: управления шрифтами </TITLE>

<Н1> Заголовок 1 </Н1>

<Н2> Заголовок 2 </Н2>

<Ь> Это текст Bold </ЬХр>

<i> Это текст Italic</ixp>

<u> Это подчеркнутый текст </о> <р>

<strike> Это перечеркнутый текст </strike>

<р>3 обь:чнь:й текст можно вставить <sub> подстрочный

обозначение изотопа в виде Cs<scp>13-:</scp> </HTML>

Пример отображения этого текста браузером MS Explorer представлен на рис 2.6.

-ЮР

Файл Правка Вид Изор.энное Сервис Справка ^^^

S2 Snow _±J Избранное -^Журнал :

: Адрес [i: I iTi IT_vuI;Т_и__т:',т_ТАЕ;'',3"емент ^ | ^'Переход . Ссылки :

Заголовок 1

Заголовок 2

Это текст Bold

-.14нЫП текст ко:1:}

подсгрс

Sj Готово

'-jB'j.-ягт нлпнслть выражение типа Р..^

Зычный те?::! :ло:гн': встлзнть Е;';ляет нлшклть о'А.оклченпе И:

j Мои компьютер

<UL>

<LH>Title of WKv <LI> NCSA KTTPD; <LI> NCSA MOSAIC <UL>

<LH>Title of !«5 <LI> CERN H7TPD; <LI> AGORA - епг <LI> HTTPO CERN;

<II> Arena.

</UL>

<UL>

(NCSI

:oara.Ti.Tie

;gram.Ties (C_

(X€

<LH> Title of m <LI> Ketsite - J <LI> Netscape N; </UL>

Пример интерпретации данного списка приведен на рис. 2.7.

IISS

rVfy^- *

Файл

ПроБКЗ

Вид Избранное Сереиг

Справка

" _iJ lif :ШПоиск

Избранное

АДР« j;

_IT', i- j-1 сIT_TVJU

ГГПЕ-.

Заголовки

10 5

.--•"' .списка

-1,,'r ...'.'. '

s A'EI-JTj

i; -'■ - t rri ail г с ■ V■ о

; Элементы

о --

77*r l' wv; —~ /

..-списка

v.^W Line Broker.

"

It ct pj-Sgrarott!-

s ilTetsc:,,:.,)

С1 1ч о N

- i'fiv^i'j -ts.r.K.eN.iv^aMT

ej Готс-во

NCSA Mosaic - This Is an sxarafrte a! simple HTML is

Hie Edit Options Navigate Annotate Hotlists Heip

je? H i|

ffitli

MCl^fXT/OOC/COURCF/FEXAMPI..E.HTM


Рис. 2.7. Отображение ненумерованного списка: а — ранний браузер Mosaic: б — MS Explorer

Таблицы. Для описания таблиц служит элемент table, кото­рый является контейнером для других элементов описания таб­лицы. Наиболее часто он употребляется с атрибутом BORDER, определяющим разделительные линии граф таблицы, которые могут быть либо трехмерными (рис. 2.8), либо обычными.

File Edit options Navigate &timU:i1t- Им!.--.::-;

r Hj в i |l j(

"|o

»К

Я

I ... I -||//C|?TEXr;DOC/CO»BCF/FFXAMPI F.H1M | Tj

j

рж

1Д Избранное Сервис Спр.

j j J

TE.C'iTABLE Ei'jP

nilll'I

height weifa C'ltegon

■\v>>

IVIisc

mab-s females .

Рис. 2.8. Пример таблицы в HTML: а — Mosaic; б — Explorer

Из элементов формы следует отметить COLSPEC и DP. COLS PEC позволяет заказать параметры отображения каждой ко­лонки таблицы и имеет вид:

COLS РЕС = "L2 С СЗ L43"

Здесь определены три колонки шириной 20. 8 и 40 условных единиц, которые могут измеряться в пикселях и типографских интерватах или зависеть от размеров самой таблицы. Атрибут DP определяет вид десятичной точки.

Элемент IR (Table Rev,') дает общее описание строки табли­цы. Обычно используется для выравнивания содержания граф строки. Способ выравнивания определяют: атрибут ALIGN — горизонтальное выравнивание, который принимает значения left, right, center, justify, decimal, и атрибут VALIGN — вертикальное выравнивание, который принимает значения top, bottom, middle, baseline. По умолчанию графы-заголовки центрируются, а графы-данные выравниваются по левому верх­нему углу.

Элементы ТН (Table Header) и TD (Table Data) использу­ются для описания граф таблицы. Кроме выравнивания ТН и TD позволяют еще и объединять графы, как это показано в при­мере (третья строка из текстового примера, см. ниже). Это дела­ется с помощью атрибутов rowspan (пропуск строки) и colspan (пропуск столбца). Цифра в этих атрибутах определяет количест­во последовательно расположенных граф таблицы, объединен­ных в одну графу.

Приведем пример таблицы (интерпретация отображена на рис. 2.8):

<TABLE BORDER>

<CAPTION>A test "able v:ith merged

cells. <CREDLT> (T.Berr.ers

Lee/WWWC, 1995 . ) c/CRERIEX/ CA?TIO:;>

CTRXTH RОWS P AN=2 XIH COL5?AN=2>Average>

<TH rowspan=2>other<3R>category<IH ROWSPAN=2>Miscc/TR>

CTRXTH>heightcTH>weightc/'TR>

CTRXTH ALIGN=1 eft>ma 1 es<T3> 1 . 9<TD>C . 0C3

CTRXTH ALIGN=1e £ t > f ema1e s с T L >1 . 7cTD>0 . 002

C/TABLE>

Математика. Для реализации математических выражений в языке определен элемент MATH, внутри которого содержатся следующие компоненты:

  • above (запись символа над выражением);

  • BELOW (запись символа под выражением);

  • sqrt. root (радикалы):

  • тех! (для записи текста);

  • в, т, вт (выделение символов);

  • over (черта) и пр.

Например, запись <root>3<of>1+x</root> соответствует

VI + х.

Язык описания документов PostScript

Фактически PostScript представляет собой язык программи­рования, предназначенный для описания разного рода графиче­ских объектов и последующей печати созданных иллюстраций, верстки, простых документов пользователя точно в таком виде, как они видны на экране. Язык PostScript играет важную роль в создании и интерпретации выше упоминавшихся форматов фай­лов .PDF (см. рис. 2.4).

PostScript появился в 1980-е гг., когда использовались мат­ричные принтеры, в них могли быть загружены несколько ос­новных шрифтов, которыми принтер печатал, причем по начер­танию они отличались от экранных. Появление на рынке языка PostScript фирмы Adobe Systems и первых лазерных принтеров Apple, работающих под его управлением, должно было обеспе­чить качественный вывод графики и шрифтовых начертаний в таком виде, как их видит пользователь в своем графическом ре­дакторе или настольной издательской системе.

В процессе конвертации в PostScript программа, выполняю­щая печать, передает готовые данные п ро гра м ме - с пул л еру, поставляемой вместе с операционной системой в виде ее расши­рения. Спуллер является не более чем накопителем данных, по­сле того, как печатающая программа закончила конвертацию и передачу спуллеру информации, укомплектованный временный файл печати (spool file) передается на драйвер принтера, кото­рый либо выводит его на печать, либо, по желанию пользовате­ля. формирует принтерный файл (PostScript-файл). Такой файл, как правило, содержит следующие составляющие:

  • исходный документ, описанный средствами PostScript;

  • использованные в нем внедренные или импортированные по технологии OPI файлы:

  • файлы шрифтов;

  • программу для принтера на языке PostScript.

С развитием компьютеров и принтеров, а также благодаря увеличению пропускной способности интерфейсов, шрифты стали загружать в большинстве случаев в файл, а не в принтер, что вызывает некоторое увеличение PS-файла, зато повышает вероятность выхода работы с первого раза на бумагу в принтере или на пленку в фотонаборном автомате.

Принцип действия фотонаборного автомата (ФНА) сходен с проявкой пленки фотоаппаратов. Информация поступает к нему из компьютера в более переработанном виде, чем на принтер. Эту обработку PostScript-файлов осуществляет модуль RIP. постав­ляемый в пакете программ поддержки фотонаборного автомата.

RIP (Raster Image Processor) — программа, установленная на рабочей станции (компьютере), с которой управляется вывод, производящая растеризацию данных, поступающих из файла пе­чати, руководствуясь программой на языке PostScript, включен­ной в файл драйвером принтера. Получаемая битовая карта по­сылается на вывод в фотонаборный автомат. Составной частью RIP является интерпретатор PostScript — программа, трактую­щая PostScript-данные.