
Формат DjVu
DjVu (от фр. déjà vu — «уже виденное») — технология сжатия изображений с потерями, разработанная специально для хранения сканированных документов — книг, журналов, рукописей и прочее, где обилие формул, схем, рисунков и рукописных символов делает чрезвычайно трудоёмким их полноценное распознавание. Также является эффективным решением, если необходимо передать все нюансы оформления, например, исторических документов, где важное значение имеет не только содержание, но и цвет и фактура бумаги; дефекты пергамента: трещинки, следы от складывания; исправления, кляксы, отпечатки пальцев; следы, оставленные другими предметами и т. д.
DjVu стал основой для нескольких библиотек научных книг. Он довольно популярен, и в нём делается большое количество разных документов.
Технология сжатия изображений с потерями, разработанная специально для хранения сканированных документов - книг, журналов, рукописей и пр., где наличие формул, схем, рисунков и рукописных символов делает чрезвычайно трудоемким их полноценное распознавание. Также является эффективным решением, если необходимо передать все нюансы оформления, например, исторических документов. Очень распространен, многие библиотеки используют его для хранения отсканированных научных книг. DjVu иногда называют «тексто-графическим» форматом. Суть технологии DjVu заключается в автоматическом разбиении изображения на несколько участков (например, текст, логотип фирмы и растровая фотография), для каждого из которых выбирается оптимальный алгоритм сжатия. Кроме того, DjVu-файл может содержать встроенное интерактивное оглавление и активные области - ссылки, что позволяет реализовывать удобную навигацию.
Формат оптимизирован для передачи по сети таким образом, что страницу можно просматривать ещё до завершения загрузки файла. DjVu-файл может содержать текстовый (OCR) слой, что позволяет осуществлять полнотекстовый поиск по файлу. Кроме того, DjVu-файл может содержать встроенное интерактивное оглавление и активные области — ссылки, что позволяет реализовать удобную навигацию в DjVu-книгах.
Для сжатия цветных изображений в DjVu применяется специальная технология, разделяющая исходное изображение на три слоя: передний план, задний план и чёрно-белую (однобитовую) маску. Маска сохраняется с разрешением исходного файла; именно она содержит изображение текста и прочие чёткие детали. Разрешение заднего плана, в котором остаются иллюстрации и текстура страницы, по умолчанию понижается для экономии места. Передний план содержит цветовую информацию о маске; его разрешение обычно понижается ещё сильнее. Затем задний и передний планы сжимаются с помощью вейвлет-преобразования, а маска — алгоритмом JB2.
Особенностью алгоритма JB2 является то, что он ищет на странице повторяющиеся символы и сохраняет их изображение только один раз. В многостраничных документах каждые несколько подряд идущих страниц пользуются общим «словарём» изображений.
Для сжатия большинства книг можно обойтись только двумя цветами. В этом случае используется всего один слой, что позволяет достичь рекордной степени сжатия. В типичной книге с чёрно-белыми иллюстрациями, отсканированной с разрешением 600 dpi, средний размер страницы составляет около 15 Кб, то есть приблизительно в 100 раз меньше, чем исходный файл. В присутствии сложного заднего плана выигрыш объёма составляет обычно 4—10 раз. Однако при стандартных настройках в DjVu используется сжатие данных с потерями, поэтому для особо важных документов обычно используются форматы сжатия без потерь: PNG, JPEG 2000, TIFF и т. п. В DjVu также можно использовать и сжатие данных без потерь. Так например утилита CJB2 из пакета DjVuLibre предоставляет сжатие без потерь.
В основе формата DjVu лежат несколько технологий, в том числе разработанных в AT&T Labs:
алгоритм отделения текста от фона на отсканированном изображении;
вейвлетный алгоритм сжатия фона IW44;
алгоритм сжатия чёрно-белых изображений JB2;
универсальный алгоритм сжатия ZIP;
алгоритм распаковки «по запросу»;
алгоритм «маскировки» изображений.
Программы для работы с DjVu:
Просмотр:
Для Windows: DjVuReader; DjVu Viewer; STDU Viewer; Sumatra PDF; WinDjView.
Для Linux: Evince и Okular с использованием DjVuLibre.
Для Android: EBookDroid.
Для iOS: Stanza.
Для BlackBerry_OS: DjVuBB.
Редактирование: DjVuLibre.