
- •1. Классификация форматов электронных изданий. Форматы текстовые и бинарные. Представление сред мультимедиа в электронных изданиях. Требования к форматам.
- •2. Подготовка электронных изданий в формате pdf. Структура документа в формате pdf — трейлер, таблица перекрестных ссылок.
- •3. Иерархическая структура объектов в формате pdf. Виды объектов. Объекты, определяющие вывод и форматирование текста.
- •4. Изменение структуры документа pdf при его последовательном редактировании.
- •5. Подготовка электронных изданий в формате DejaVu. Разделение изображения на слои: передний план, задний план и однобитовую маску. Использование текстового слоя. Создание гиперссылок.
- •6. Подготовка электронных изданий в формате rtf. Структура документа в формате rtf. Группировка символов.
- •7. Представление символов, входящих и не входящих в ascii в формате rtf.
- •8. Управляющие слова и управляющие символы в формате rtf. Задание параметров шрифта и типа выключки.
- •Xml документ состоит из пролога и коревого элемента.
- •10. Создание корректно сформированных xml-документов. Структура xml-документа. Пролог, корневой элемент.
- •11. Объявления xml-документов, инструкции по обработке, комментарии, разделы cdata. Требования к иерархии элементов. Атрибуты. Символьные данные.
- •1. Элементы
- •2. Комментарии
- •3. Инструкции обработки
- •4. Секция cdata
- •5 Требования к xml документу и его компонентам
- •12. Использование примитивов в xml-документах.
- •13. Определение типа документа dtd. Валидные xml-документы. Синтаксис dtd, объявления элементов и списков атрибутов.
- •14. Описание содержимого элементов в xml. Вложенные элементы и символьные данные. Типы атрибутов, значения по умолчанию.
- •Объявления атрибутов. Типы атрибутов, значения по умолчанию.
- •15. Пространства имен xml. Использование пространств имен, префиксы. Уникальные идентификаторы в форме url и urn.
- •16.Стандартные пространства имен. Использование элементов xhtml в xml-документах как пространство имен.
- •17. Описание структуры xml-документа при помощи xml Schema. Описание элементов, атрибутов, вложенных элементов и символьных данных. Число вхождений элементов.
- •1 Способ
- •2 Способ
- •18. Простые и комплексные типы в xml Schema. Типы атрибутов.
- •19. Сравнение dtd и xml Schema.
- •20. Визуальное представление xml-документов и таблицы стилей xsl. Структура xsl-документа, элементы пространств имен xsl и xhtml.
- •21. Шаблоны, образец в xsl. Документы с одним и с несколькими шаблонами.
- •22. Фильтрация и сортировка данных при помощи xsl.
- •23. Описание связей в xml при помощи технологии xLink. Простые связи. Связи поведения.
- •24. Расширенные связи в технологии xLink. Правила обхода между ресурсами.
3. Иерархическая структура объектов в формате pdf. Виды объектов. Объекты, определяющие вывод и форматирование текста.
PDF (аббревиатура от англ. Portable Document Format) — разработанный фирмой Adobe Systems с использованием ряда возможностей языка PostScript, как независимый от платформы формат представления в электронном виде полиграфической продукции, различной электронной документации (в том числе электронные книги) и презентаций.
Структура документа – иерархия объектов, содержащихся в «теле» PDF-файла.
Основными объектами в этой иерархии являются таблицы dictionary. Связи в иерархии представлены парами ключ - значение, в которых значение - косвенная ссылка на родительский или дочерний объект. Например, объект Catalog, который является «корнем» иерархического дерева, содержит «ключ страниц» и соответствующее ему значение - косвенную ссылку на объект корень «дерева» страниц (Pages tree).
Каждая страница документа включает ссылки на свои изображения, миниатюры и комментарии, которые появляются на странице. Trailer PDF-файла определяет место объекта Catalog в виде значения корневого ключа (Root) в trailer. Кроме того, trailer задает с помощью ключа Info место информационной таблице dictionary публикации, т.е. структуре, которая содержит общие сведения о документе.
Каталог (Catalog). Catalog - объект типа dictionary, являющийся корневым узлом документа. Он содержит ссылки на дерево страниц в документе, ссылку на дерево объектов, представляющих схему документа (bookmarks или outline), ссылки на статьи и список named destinations. Catalog показывает также, появляется ли схема публикации или миниатюры автоматически, когда документ просматривается (задается атрибутом типа имени со значениями: UseNone, UseOutlines, UseThumbs, Full-Screen), и должна ли быть воспроизведена при открытии иная, чем первая страница. С помощью этого объекта атрибутом ViewerPreferences можно задать также параметры программы просмотра при открытии публикации.
Пример объекта Catalog:
1 0 obj
<<
/Type /Catalog
/Pages 2 0 R
/Outlines 3 0 R
/PageMode /UseOutlines
>>
endobj
Дерево страниц (Pages tree). Доступ к страницам документа открывается через дерево узлов, названное деревом страниц. Это дерево определяет порядок страниц в документе. Для оптимизации производительности программы просмотра Acrobat Distiller и Acrobat PDF Writer конструируют сбалансированное дерево. Структура дерева позволяет приложению быстро открыть документ, содержащий тысячи страниц, используя ограниченный объем памяти. Простейшая структура состоит из единственного узла страниц, который ссылается на все страничные объекты. Структура дерева страниц документа не связана с содержимым документа.
В PDF-файле книги, например, не гарантируется, что глава представлена одним узлом в дереве. Корень и все другие узлы дерева страниц являются объектами типа dictionary. Их основные атрибуты: имя - Pages, список косвенных ссылок на непосредственные дочерние узлы, объект-предок типа dictionary.
Пример:
2 0 obj
<<
/Type /Pages
/Kids [4 0 R 10 0 R 24 0 R]
/Count 3
>>
endobj
Объект «Страницы» может содержать также дополнительные ключи со значениями для объектов-потомков. Такие значения называются наследованными. Например, документ может задавать объект MediaBox для всех страниц, определяя один такой объект в корневом объекте дерева, а каждая страница в документе может перегрузить MediaBox собственным, соответствующим этой странице объектом MediaBox.
Объекты страницы (pages). Эти объекты являются объектами типа dictionary, ключи которого описывают текст, содержащийся на одной странице, и изображения. Основные атрибуты: имя - Page, MediaBox Rectangle - определяет «настоящий размер» страницы, Crop box - размер для печати, Parent - объект, непосредственный предок страницы, Resources - типа dictionary (ресурсы, требующиеся этой странице), Contents - типа stream (определяет страничное описание посредством косвенной ссылки), Thumb - типа stream (содержит ссылку на миниатюру), Annots - типа array (содержит массив объектов, который определяет комментарии на страницу), B - array (если страница содержит части статей), H - boolean (true - страница скрыта во время показа документа) и т.п.
Пример иллюстрирует страницу с миниатюрой и двумя комментариями.
3 0 obj
<<
/Type /Page
/Parent 4 0 R
/MediaBox [0 0 612 792]
/Resources <<
/Font << /F3 7 0 R /F5 9 0 R /F7 11 0 R >>
/ProcSet [/PDF] >>
/Thumb 12 0 R
/Contents 14 0 R
/Annots [23 0 R 24 0 R]
>>
endobj
Три ключа объекта Page: Dur (время показа), Hid (скрытие страницы) и Trans (описывает «эффект» при переходе к данной странице) - содержат информацию, которая используется только в режиме «презентации» и игнорируется в противном случае.
Миниатюры (Thumbnail). PDF-документ может включать миниатюрные схемы страниц. Миниатюра задается значением ключа Thumb объекта страницы. Структура миниатюры подобна, за небольшими исключениями, структуре изображения (см. ниже).
Комментарии (Annotations). Комментарии - это заметки или другие объекты, которые связаны со страницей, но описываются отдельно от дескриптора страницы. PDF поддерживает несколько видов комментариев: текстовые, гипертекстовые связи, видео- и аудиоинформацию.
Если страница содержит комментарии, то они сохраняются в массиве как значение Annots ключа объекта страница. Каждый комментарий - объект типа dictionary. Основными ключами комментария являются: Type, Subtype, Rect. Другие ключи, определяющие цвет (С), заголовок (T), рамку (Border или BS) и т.п., не являются обязательными.
Дерево закладок - Outline tree (bookmarks tree). Структура предоставляет пользователю возможность иметь доступ к различным видам публикации по имени. Активация outline entry (или bookmark - закладки) «переносит» на новый вид, заданный в так называемом «описании места назначения» (destination description) для bookmark. Закладки часто образуют иерархическую структуру. Если документ включает закладки, они доступны по ключу Outlines в Catalog-объекте. Значение этого ключа - корень дерева закладок. Закладка верхнего уровня содержит связный список. В процессе просмотра закладки появляются в той последовательности, в какой они входят в данный список. Основные атрибуты этого объекта типа dictionary: Count (общее количество открытых закладок), First (ссылка на начало списка), Last (ссылка на конец списка).
Пример:
21 0 obj
<<
/Count 6
/First 22 0 R
/Last 29 0 R
>>
endobj
Атрибуты закладки: Title - название, Dest типа array или name - место назначения (Destination), A - действие, выполняемое при активации закладки, Parent - ссылка на закладку верхнего уровня иерархии, Prev - ссылка на предыдущую закладку, Next - ссылка на следующую закладку.
Пример:
22 0 obj
<<
/Parent 21 0 R
/Dest [3 0 R /Top 0 792 0]
/Title (Document)
/Next 29 0 R
/First 25 0 R
/Last 28 0 R
/Count 4
>>
endobj
Место назначения (Destinations). Комментарии и закладки могут определять место назначения, которое состоит из страницы, места на странице и масштаба показа страницы. Назначение может быть представлено явно как массив или посредством имени. В первом случае значениями ключа Dest являются непосредственно данные о странице - Page, Top, Bottom, Left, Right, Zoom, в различных комбинациях задающие страницу и показанный на ней «прямоугольник». Поименованные места назначения (тип string или name) часто применяются, когда закладка ссылается на другой файл. Catalog документа может содержать ключ Names со значениями, каждое из которых представляет собой дерево, подобное дереву страниц. «Листья» содержат пары из strings и косвенных объектов, которые и являются destinations.
Дерево имен (Name tree). Дерево имен похоже на дерево страниц, но листья содержат пары string (имен) и объектов. Такое дерево применяется для организации поименованных мест назначения. Оно состоит из узлов трех видов: корень, промежуточное, листья. Корень содержит атрибуты Kids-массив и Limits-массив. Лист содержит Limits и массив Names (форма массива name value name value ..., где value - косвенная ссылка на объект). Имена в дереве сохраняются только в листьях.
Информационный объект типа dictionary (Info dictionary). Как упоминалось выше, trailer документа может включать ссылки на Info dictionary, который содержит информацию о публикации. Значения строковых атрибутов этого объекта представляют собой информационное окно документа в Acrobat. В качестве атрибутов используются: Author, CreationDate, ModDate, Creator, Title, Subject, Keywords.
Статьи (article threads). Публикация может включать несколько статей (article threads), каждая из которых, в свою очередь, может содержать несколько фрагментов - bead. Статьи (threads) сохраняются в массиве как значение ключа Threads в Catalog-объекте. Каждая статья и ее фрагменты представляют собой объекты dictionary. Атрибуты статьи: F (определяет первый фрагмент), I (содержит информацию о статье, подобен Info dictionary). К атрибутам фрагмента относят: T (ссылка на статью), V (ссылка на предыдущий фрагмент), N (следующий фрагмент), P (страница, на которой размещается фрагмент), R (прямоугольник положения фрагмента на странице).
Также в структуре выделяют Формы (Acrobat Forms), Аудиоинформацию, Спецификацию файла (File specification), Шрифт (Font), и Внешние объекты - External Objects (XObjects - поименованные ресурсы. PDF поддерживает три типа таких объектов: Images, Forms и PostScript language fragments, которые используют подтип Image).
*Еще более подробно здесь:
http://www.hi-edu.ru/e-books/xbook081/01/part-004.htm#i643