Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Konspekt_lektsy_2_semestr.docx
Скачиваний:
2
Добавлен:
01.07.2025
Размер:
3.42 Mб
Скачать

Текстовое представление изображений DjVu

Формат DjVu предусматривает наличие текстового слоя, который содержит текст со страницы. (Используется для поиска и лёгкого копирования текста при работе с ним). В случае, если текстовый слой недоступен, единственный метод получения текста – выполнение оптического распознавания в сторонних программах.

XML-форматы («extensible Markup Language»).

Существует довольно много текстовых форматов, созданных для одного конкретного устройства или программы. Например, электронные книги. К ним можно отнести Rocket e-book (.rb), Microsoft Reader (.lit), PalmDoc, MobiPocket (.pro) и т.д. Как правило, все они созданы с помощью языка XML. Самым удачным и самым распространенным из них является формат FictionBook (FB2). На данный момент это самый прогрессивный и перспективный формат для электронных книг. Единственный его недостаток – длительные временные затраты при подготовке начального текста. Что окупается удобством чтения. В FictionBook упор сделан на структурирование документа: с помощью тегов можно выделять различные области текста (главы, заголовки, цитаты, врезки). Как все будет выглядеть на экране, зависит от программы-ридера. Если требуется оформить документ определенным образом, имеется возможность присоединения таблицы стилей.

FictionBook — один файл формата XML. Иллюстрации (PNG и JPEG) встраиваются прямо в XML, закодированные Base64. FictionBook часто сжимают в ZIP (получается файл .fb2.zip или .fbz), многие программы чтения поддерживают и FB2 со сжатием.

FictionBook похож идеологией на первые версии HTML: все теги относятся к логическому форматированию, а не к визуальному. Нет привязки ни к какому аппаратному обеспечению и ни к какому формату бумаги, нигде в FB2 не указана какая бы то ни было единица измерения — пиксель, пункт, кегль… Как будет выглядеть текст, полученный из формата .fb2, зависит либо от настроек программы-просмотрщика этого формата, либо от параметров, заданных при конвертации файла в другой формат. К примеру, тег заголовка в программе просмотра можно вывести крупным шрифтом, другим цветом или как-то иначе. А при конвертации в формат HTML каждому заголовку может быть сопоставлен определённый HTML-тег, например, <H4> или <B>. Поэтому FB2 претендует на роль универсального формата хранения книг, который можно автоматически переводить в HTML, PDF и другие форматы.

Многие из возможностей FB2 специфичны для электронных книг. В метаданных хранится название книги, ISBN, информация об авторе и жанре книги. Поддерживаются сноски, оглавление, стихи, цитаты. Для переводных книг предусмотрена информация об исходной книге.

Проработанные метаданные дают широкое поле для автоматической обработки книг. К примеру, в электронную библиотеку поступила книга в формате .fb2. Эта книга может быть автоматически помещена в раздел автора книги, а название книги и аннотация могут автоматически отобразиться в колонке новостей библиотеки. Таким образом, намного упрощается процесс помещения в библиотеку новых книг. У документа и авторов есть идентификаторы свободной формы: писателей «Kipling, Rudyard» и «Киплинг, Редьярд» может объединить по совпадению идентификаторов; старая версия книги будет автоматически замещена исправленной. Впрочем, метаданные оказались несколько «СССР-центричными»: были отдельные жанры «русская литература» и «советская литература».

Защита от копирования не предусмотрена. Однако, начиная с версии 2.1, добавлены специальные инструкции для библиотеки, позволяющие выдавать тексты за деньги.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]