- •5 Введение
- •Глава 1
- •1.1. Информатика — состав и структура
- •1.2. Соотношение понятий «информация», «данные», «знания»
- •1.3. Структуризация взаимосвязи информатики с предметной областью применения
- •1.4. Уровни информационных процессов
- •Глава 2
- •2.1. Текстовая информация. Модель документа
- •2.2. Языки разметки документов
- •2.3. Технологии xml
- •2.4. Текстовый редактор Word
- •Глава 1 5
- •5.3. Физическая организация данных в системах управления данными 296
- •Глава 3
- •3.2. Форматы записи-воспроизведения аудиосигналов
- •3.3. Технологии статических изображений
- •3.4. Программные средства обработки изображений
- •3.5. Цифровое видео
- •Глава 4
- •4.1. Оптическое распознавание символов (ocr)
- •Глава 1 5
- •5.3. Физическая организация данных в системах управления данными 296
- •Глава 5
- •5.2. Базы данных и субд
- •Логический файл
- •Логический файл
- •Очереди
- •Время установки головок чтения-записи
- •5.4. Анализ информации и хранилища данных
- •Глава 6
- •Глава 1 5
- •5.3. Физическая организация данных в системах управления данными 296
- •Глава 7
- •Глава 8
- •Глава 1 5
- •5.3. Физическая организация данных в системах управления данными 296
2.2. Языки разметки документов
В системах обработки текстов в документ включается дополнительная информация, называемая разметкой и выполняющая следующие функции:
выделение логических элементов данного документа;
задание функций обработки выделенных элементов.
В обычных текстовых процессорах существуют встроенные команды включения/выключения шрифтов и др., аналогичные командам управления размещением информации на экране или при печати (так называемые Еъсаре-последователъности). Такой подход называется командной или процедурной разметкой (табл. 2.1).
Альтернативный способ разметки заключается в выделении части текста без указания способа обработки выделения. Затем другие команды назначают фрагментам способ обработки. Такая разметка называется описательной (дескриптивной). Она включает метки (tags, таги) начала и окончания элемента текста и указывает, как интерпретировать данный фрагмент.
Изменяя набор процедур, соответствующий описательной разметке, можно изменить внешнее представление одного и того же документа. Развитие идей описательной разметки привело к определению разметки как формального языка. Это позволяет проверить правильность разметки и минимизировать ее объем за счет подстановки умолчаний.
Таблица
2.1. Некоторые
примеры разметки текстовых файлов
(управление представлением)
"
Вид
разметки
Принтер
EPSON
Редактор
Лексикон
Формат
RTF (Rich Text Format), в т.ч.
WinWord
Формат
электронной почты (стандарт MIME)
HTML
I1
Полужирный
шрифт
ESC
G...ESC Н
chr(
255)2.. chr(255)0
f\b...}
<bold>...</bo!d>
<b>...</b>
;i
Курсив
(италик)
ESC
4... ESC 5
chr(255)1...
chr(255)0
{\i...}
<ita!ic>...<italic>
<i>...</i>
Подчеркивание
ESC-1...ESC-0
chr(
255)... chr(O)
{u(\...}
<underline>...
</underline>
<u>...</u>
Индекс
верхний
ESC
SO ...ESCT
chr(255)5...
chr(255)0
(\super...)
<superscript>...
</superscript>
<sup>...
</sup>
Индекс
нижний
ESC
S 1 ...ESC T
chr(255)4...
chr(255)0
{\sub...}
<subscript>...
</subscript>
<sub>...
■
</sub>
Выбор
вида
шрифта
NLQ
- ESC x 1 DRAFT
- ESC x 0 Отмена chr(18)
\f11
- Courier, \f4 -Times, \f5 - Arial
Перевод
страницы
chr(12)
,chr(12)
\page
np
Выравнивание
\qc
- по центру \ql -
влево \qr - вправо \qj
- по краям
<Center>
<FlushLeft> <FlushRight>
Caligh
=center> =left> =right> =justify>
Параграф
(абзац)
Табуляция
(TAB, chr(9))
TAB
\par
Paragraph
<p>
Примечание. Аналогично могут быть рассмотрены управление размером шрифта, вставка математических символов и пр.
Типы файлов для размещения документов
Перечислим наиболее типичные файлы данных: • текстовые файлы — обобщенное название для простых и размеченных текстов, ASCII-файлов и других наборов данных символьной информации, которые интерпретируются и обрабатываются текстовыми редакторами, процессорами, анализаторами (Lexicon, Word. ТЕС, анализаторы SGML, HTML);
текст без разметки (планарный) — файл, содержащий только отображаемые (воспроизводимые на всех печатающих устройствах и терминалах) символы кода ASCII, а также простейшие управляющие символы: CR — возврат каретки; L? — перевод строки; таз — символ табуляции, иногда LF — новая страница (табл. 2.1):
текст с разметкой — планарный файл, содержащий бинарную (см. табл. 2.1, колонки 1. 2) и символьную (остальные колонки) разметку, управляющую отображением информации (программно и/или аппаратно):
ASCII-файл — содержит только отображаемые коды левой части кодовой таблицы ASCII (латиница и служебные символы). обычно применяется для хранения документов с символьной разметкой (RTF. SGML. HTML).
Язык SGML
SGML разработан на базе программного продукта DCF GML фирмы IBM и представляет собой .метод создания структурированных документов, а также языков для их разметки.
В языке SGML каждый документ имеет три части:
декларации (объявления, определения) языка SGML, привязывающие к определенным значениям параметры обработки, а также имена синтаксиса:
пролог, состоящий из деклараций о типе документа. Они определяют типы элементов, взаимосвязи между элементами и их атрибуты, а также условные обозначения, которые могут быть задействованы при разметке;
данные, которые состоят из разметки документа и собственно информации.
Основные типы конструкций языка — описания:
элементов <!element...>:
объектов < ! е:с:Гх . . . >:
атрибутов <!ятгр.гвитз list. . .>,
образующих структуру документа (документов), при этом элемент — основная компонента документа: объект — группа, род элементов; атрибут — характеристика элемента. Все «квадратики», приведенные на рис. 2.5, являются элементами. Запишем одну из возможных конструкций, соответствующую
!
ELEMENT SUB EI 7 I PA?
- ! >
подраздел состоит из параграфов (повторяющихся):
параграф — из текста или таблицы/ рисунка (необязательны):
лишь частью документа и должен находиться в элементе body. Декларации SGML:
• body — в противоположность элементу НЗЯЭ элемент body содержит всю ту информацию, из которой собственно и состоит рассматриваемый документ. Декларация SGML:
Приведем некоторые элементы HTML, относящиеся к представлению документа.
3 а г о л о в к и разделов документа.
SGML-декларация:
< ! EKTjjTY » heading "HI j H2 • НЗ | Н4 Н5|Нб">.
Возможная интерпретация:
HI — жирный, очень крупный шрифт, текст центрирован. Между заголовком и последующим текстом вставляется одна или две пустые строки. При выводе на принтер заголовок печатается на новой странице;
Н2 — жирный крупный шрифт, до и после заголовка помещаются одна или две пустые строки;
НЗ — наклонный крупный шрифт, до и после заголовка помещаются одна или две пустые строки. Печатается с небольшим отступом;
Н4 — жирный нормальный шрифт, до и после заголовка помешается пустая строка;
Н5 — наклонный шрифт, как и для Н4, пустая строка ставится перед заголовком;
Н6 — жирный шрифт, перед заголовком ставится пустая строка.
Физические (макетные) стили.
SGML-декларация:
Возможная интерпретация:
ТТ — (телетайп) шрифт фиксированной ширины;
В — жирный или еще каким-либо образом выделенный шрифт;
I — наклонный шрифт (или видоизмененный еще каким-либо образом);
U — подчеркивание.
3. Логические стили. SGML-декларация:
CITE"> .
Интерпретация:
ЕМ — выделение символов (обычно наклон шрифта), смысловое усиление определенного слова или фразы;
STRONG — более четкое выделение, привлечение внимания (обычно применение более жирного шрифта);
CODE — пример кода: обычно фиксированный шрифт (формулы, выражения):
SAMP — последовательность символов (названия команд, примеры);
VAR — имя переменной (имена переменных в примерах, формулах);
DFN — определение к какому-либо термину — обычно жирный наклонный;
CITE — цитата, обычно наклонный шрифт (названия документов, выдержки из документов, цитируемые фразы и т. д.)
Рассмотрим пример документа с разметкой HTML, содержащий приведенные выше элементы управления стилем символов текста:
<KTML>
<IITLE> Примерь: управления шрифтами </TITLE>
<Н1> Заголовок 1 </Н1>
<Н2> Заголовок 2 </Н2>
<Ь> Это текст Bold </ЬХр>
<i> Это текст Italic</ixp>
<u> Это подчеркнутый текст </о> <р>
<strike> Это перечеркнутый текст </strike>
<р>3 обь:чнь:й текст можно вставить <sub> подстрочный
обозначение изотопа в виде Cs<scp>13-:</scp> </HTML>
Пример отображения этого текста браузером MS Explorer представлен на рис 2.6.
-ЮР
Файл Правка Вид Изор.энное Сервис Справка ^^^
S2 Snow _±J Избранное -^Журнал :
: Адрес [i: I iTi IT_vuI;Т_и__т:',т_ТАЕ;'',3"емент ^ | ^'Переход . Ссылки :
Заголовок 1
Заголовок 2
Это текст Bold
-.14нЫП текст ко:1:}
подсгрс
Sj
Готово
Зычный те?::! :ло:гн': встлзнть Е;';ляет нлшклть о'А.оклченпе И:
j Мои компьютер
<UL>
<LH>Title of WKv <LI> NCSA KTTPD; <LI> NCSA MOSAIC <UL>
<LH>Title of !«5 <LI> CERN H7TPD; <LI> AGORA - епг <LI> HTTPO CERN;
<II> Arena.
</UL>
<UL>
(NCSI
:oara.Ti.Tie
;gram.Ties
(C_
(X€
Пример интерпретации данного списка приведен на рис. 2.7.
|
IISS |
rVfy^- * |
|
Файл |
ПроБКЗ |
Вид Избранное Сереиг |
Справка |
|
|
" _iJ lif :ШПоиск |
Избранное |
АДР« j; |
|
_IT', i- j-1 сIT_TVJU |
|
|
|
ГГПЕ-. |
Заголовки |
• |
|
10 5 |
.--•"' .списка |
|
|
-1,,'r ...'.'. ' |
s A'EI-JTj |
|
|
i; -'■ - t rri ail г с ■ V■ о |
; Элементы |
|
о -- |
77*r l' wv; —~ / |
..-списка |
|
|
v.^W Line Broker. |
|
|
" |
It ct pj-Sgrarott!- |
s ilTetsc:,,:.,) |
|
С1 1ч о N |
- i'fiv^i'j -ts.r.K.eN.iv^aMT |
|
ej Готс-во |
NCSA Mosaic - This Is an sxarafrte a! simple HTML is
Hie Edit Options Navigate Annotate Hotlists Heip
je? H i|
ffitli
MCl^fXT/OOC/COURCF/FEXAMPI..E.HTM
Рис. 2.7. Отображение ненумерованного списка: а — ранний браузер Mosaic: б — MS Explorer
Таблицы. Для описания таблиц служит элемент table, который является контейнером для других элементов описания таблицы. Наиболее часто он употребляется с атрибутом BORDER, определяющим разделительные линии граф таблицы, которые могут быть либо трехмерными (рис. 2.8), либо обычными.
File
Edit
options Navigate &timU:i1t- Им!.--.::-;
r
Hj в i |l j(
"|o
»К
Я
I
...
I
-||//C|?TEXr;DOC/CO»BCF/FFXAMPI
F.H1M
| Tj
j
рж
1Д
Избранное Сервис Спр.
j
j J
TE.C'iTABLE
Ei'jP
nilll'I
height weifa C'ltegon
■\v>>
IVIisc
Рис. 2.8. Пример таблицы в HTML: а — Mosaic; б — Explorer
Из элементов формы следует отметить COLSPEC и DP. COLS PEC позволяет заказать параметры отображения каждой колонки таблицы и имеет вид:
COLS РЕС = "L2 С СЗ L43"
Здесь определены три колонки шириной 20. 8 и 40 условных единиц, которые могут измеряться в пикселях и типографских интерватах или зависеть от размеров самой таблицы. Атрибут DP определяет вид десятичной точки.
Элемент IR (Table Rev,') дает общее описание строки таблицы. Обычно используется для выравнивания содержания граф строки. Способ выравнивания определяют: атрибут ALIGN — горизонтальное выравнивание, который принимает значения left, right, center, justify, decimal, и атрибут VALIGN — вертикальное выравнивание, который принимает значения top, bottom, middle, baseline. По умолчанию графы-заголовки центрируются, а графы-данные выравниваются по левому верхнему углу.
Элементы ТН (Table Header) и TD (Table Data) используются для описания граф таблицы. Кроме выравнивания ТН и TD позволяют еще и объединять графы, как это показано в примере (третья строка из текстового примера, см. ниже). Это делается с помощью атрибутов rowspan (пропуск строки) и colspan (пропуск столбца). Цифра в этих атрибутах определяет количество последовательно расположенных граф таблицы, объединенных в одну графу.
Приведем пример таблицы (интерпретация отображена на рис. 2.8):
<TABLE BORDER>
<CAPTION>A test "able v:ith merged
cells. <CREDLT> (T.Berr.ers
Lee/WWWC, 1995 . ) c/CRERIEX/ CA?TIO:;>
CTRXTH RОWS P AN=2 XIH COL5?AN=2>Average>
<TH rowspan=2>other<3R>category<IH ROWSPAN=2>Miscc/TR>
CTRXTH>heightcTH>weightc/'TR>
CTRXTH ALIGN=1 eft>ma 1 es<T3> 1 . 9<TD>C . 0C3
CTRXTH ALIGN=1e £ t > f ema1e s с T L >1 . 7cTD>0 . 002
C/TABLE>
Математика. Для реализации математических выражений в языке определен элемент MATH, внутри которого содержатся следующие компоненты:
above (запись символа над выражением);
BELOW (запись символа под выражением);
sqrt. root (радикалы):
тех! (для записи текста);
в, т, вт (выделение символов);
over (черта) и пр.
Например, запись <root>3<of>1+x</root> соответствует
VI + х.
Язык описания документов PostScript
Фактически PostScript представляет собой язык программирования, предназначенный для описания разного рода графических объектов и последующей печати созданных иллюстраций, верстки, простых документов пользователя точно в таком виде, как они видны на экране. Язык PostScript играет важную роль в создании и интерпретации выше упоминавшихся форматов файлов .PDF (см. рис. 2.4).
PostScript появился в 1980-е гг., когда использовались матричные принтеры, в них могли быть загружены несколько основных шрифтов, которыми принтер печатал, причем по начертанию они отличались от экранных. Появление на рынке языка PostScript фирмы Adobe Systems и первых лазерных принтеров Apple, работающих под его управлением, должно было обеспечить качественный вывод графики и шрифтовых начертаний в таком виде, как их видит пользователь в своем графическом редакторе или настольной издательской системе.
В процессе конвертации в PostScript программа, выполняющая печать, передает готовые данные п ро гра м ме - с пул л еру, поставляемой вместе с операционной системой в виде ее расширения. Спуллер является не более чем накопителем данных, после того, как печатающая программа закончила конвертацию и передачу спуллеру информации, укомплектованный временный файл печати (spool file) передается на драйвер принтера, который либо выводит его на печать, либо, по желанию пользователя. формирует принтерный файл (PostScript-файл). Такой файл, как правило, содержит следующие составляющие:
исходный документ, описанный средствами PostScript;
использованные в нем внедренные или импортированные по технологии OPI файлы:
файлы шрифтов;
программу для принтера на языке PostScript.
С развитием компьютеров и принтеров, а также благодаря увеличению пропускной способности интерфейсов, шрифты стали загружать в большинстве случаев в файл, а не в принтер, что вызывает некоторое увеличение PS-файла, зато повышает вероятность выхода работы с первого раза на бумагу в принтере или на пленку в фотонаборном автомате.
Принцип действия фотонаборного автомата (ФНА) сходен с проявкой пленки фотоаппаратов. Информация поступает к нему из компьютера в более переработанном виде, чем на принтер. Эту обработку PostScript-файлов осуществляет модуль RIP. поставляемый в пакете программ поддержки фотонаборного автомата.
RIP (Raster Image Processor) — программа, установленная на рабочей станции (компьютере), с которой управляется вывод, производящая растеризацию данных, поступающих из файла печати, руководствуясь программой на языке PostScript, включенной в файл драйвером принтера. Получаемая битовая карта посылается на вывод в фотонаборный автомат. Составной частью RIP является интерпретатор PostScript — программа, трактующая PostScript-данные.