Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Эл.издания.docx
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
966.97 Кб
Скачать

3 Типа структурирования pdf-файлов:

  1. Неструктурированные файлы – они не обладают древовидной логической структурой, все содержимое интерпретируется, как единый блок, не имеющий никакой иерархии или внутренней связи. При конвертации таких файлов сохраняется только текст и исходные абзацы, все остальное форматирование исчезает.

  2. Структурированные файлы – обладают древовидной структурой, позволяют сохранять содержимое в естественном порядке. В отличие от неструктурированных, эти файлы сохраняют и внутреннее форматирование (включая, например, атрибуты шрифта), но не сохраняют таблицы, списки и т.д.

  3. Размеченные файлы – характеризуются логической структурой, набором четких связей между различными элементами, содержат дополнительную информацию, позволяющую выполнять форматирование.

9. Формат DjVu. Описание, преимущества, недостатки. Шесть основных технологий, которые лежат в основе формата. Разрушающие и не разрушающие методы сжатия. Технология разделения на слои.

DjVu – графический формат, который используется преимущественно для сохранения и сжатия отсканированных книг, содержащих цветные изображения и текст.

Особенности:

- чисто растровый формат

- применяется для учебной литературы

- для переноса информации с бумажных носителей в электронный вид (сканирование)

- сохраняет структуру фона

- структура формата открыта

- комбинация разрушающего и неразрушающего методов упаковки. Например, упаковка цветов в палитры (преобразование цветовых координат, в том числе преобразование цветного изображения в черно-белое) или схема аппроксимации по опорным точкам относятся к типичным "разрушающим" преобразованиям, в результате которых информация теряется безвозвратно. В качестве неразрушающего преобразования обычно используются различные вариации на тему алгоритма Лемпеля-Зива.

Плюсы:

- главный плюс – это, безусловно, небольшой размер;

- при небольшом размере файла сохраняется хорошее качество изображений и особенно текста;

- обрабатывается только видимое изображение, что снижает нагрузку на потребление ресурсов компьютера, что особо актуально для файлов большого размера и для владельцев слабых машин;

- возможность использования формата для отображения литературы и документов, содержащих формулы, диаграммы, таблицы, а также исторических документов, с сохранением фактуры отсканированного документа;

- текст остается четким даже при сильном увеличении.

Минусы: DjVu – это сжатие изображения с потерями. То есть часть информации неизбежно теряется. В основном, это касается картинок.

В основу разработки формата положено 6 технологий:

  1. Алгоритм отделения текста от фона на отсканированном изображении

  2. Вейвлетный алгоритм сжатия фона IW44

  3. Универсальный алгоритм сжатия ZIP

  4. Алгоритм распаковки «по запросу» (позволяет показать часть изображения, не разворачивая всю картинку в оперативной памяти компьютера, а также легко масштаб. изображение)

  5. Алгоритм «маскировки» изображений

  6. Алгоритм сжатия чёрно-белых изображений JB2

Для сжатия цветных изображений в DjVu применяется специальная технология, разделяющая исходное изображение на три слоя: передний план, задний план и чёрно-белую (однобитовую) маску. Маска сохраняется с разрешением исходного файла; именно она содержит изображение текста и прочие чёткие детали. Разрешение заднего плана, в котором остаются иллюстрации и текстура страницы, по умолчанию понижается для экономии места. Передний план содержит цветовую информацию о маске; его разрешение обычно понижается ещё сильнее. Затем задний и передний планы сжимаются с помощью вейвлет-преобразования, а маска — алгоритмом JB2.

Особенностью алгоритма JB2 является то, что он ищет на странице повторяющиеся символы и сохраняет их изображение только один раз. В многостраничных документах каждые несколько подряд идущих страниц пользуются общим «словарём» изображений.