![](/user_photo/2706_HbeT2.jpg)
(по цифровому вещанию) Dvorkovich_V_Cifrovye_videoinformacionnye_sistemy
.pdfВведение
Одним из объективных критериев оценки верности закодированного, а затем восстановленного изображения является величина среднеквадратичного отклонения разности пикселов исходного изображения и полученного в результате
цифровых преобразований: |
|
|
|
|
|
|
|
СКО = |
& |
|
|
|
|
, |
|
1 |
M−1 N −1 |
F¯(x, y) F (x, y) 2 |
|||||
|
' |
· |
|
|
|
|
|
|
( |
|
|
¯ |
|
− |
|
|
'M N x=0 y=0 |
|
|
где M · N — размеры изображения; F (x, y), F (x, y) — значения уровней восстановленного и исходного изображения в точке (x, y).
Часто используют величину пикового отношения сигнал/шум, выраженную
в децибелах (PSNR): PSNR = 20 lg F max , где F max — максимальное значение
CKO
яркости (цветности) пиксела.
Если для сигнала яркости используется 8-битовая шкала, то F max = 28 − 1 = 255. Хотя приведенные объективные критерии верности воспроизведения кодированных изображений являются простым и удобным принципом оценки потерь информации, все же качество изображения с использованием субъективной оцен-
ки является более предпочтительным.
Наиболее широко используемые стандарты сжатия полутоновых и цветных статических изображений разрабатывались группой JPEG (Joint Photographic Expert Group), функционирующей при Международной организации по стандартам (ISO) и сотрудничающей с сектором стандартизации телекоммуникаций Международного союза электросвязи (ITU-Т, прежнее название МККТТ, CCITT).
Исходными требованиями при разработке этих стандартов были [5.1, 5.2]:
–возможность адаптивного выбора параметров для оптимизации соотношения сжатие–качество восстановленного изображения в самом широком диапазоне;
–универсальность процедуры обработки изображений любых размеров с любой цветовой гаммой, не должно быть ограничений по сложности сюжета
истатистическим свойствам;
–приемлемая сложность вычислений при обработке изображений, реализуемых на компьютерах различной мощности с соответствующим программным обеспечением;
–наличие следующих операционных режимов программы сжатия:
–пространственно-поступательная обработка, при которой изображение, возможно разбитое на блоки, обрабатывается слева направо и сверху вниз;
–обработка с последовательным углублением четкости, при которой наблюдатель получает на экране сначала грубое приближение, а затем программа осуществляет циклическую обработку изображения, с каждым циклом повышая его четкость, добавляя высокочастотные компоненты;
–возможность сжатия без потерь, гарантирующего полное восстановление информации о каждом пикселе при обратной обработке, даже если степень сжатия оказывается небольшой;
–обеспечение многоуровневого кодирования, при котором четкость изображения связана не только с пространственно-частотными диапазонами (например, номерами компонент унитарного преобразования), но и с уровнем точности передачи (или количеством битов двоичного представления величин передаваемых компонент).
Всоответствии с этими требованиями стандарты не должны содержать указаний выполнения жесткой последовательности операций обработки, но могут предполагать их выбор по желанию пользователя.
Для сжатия статических монохромных и полноцветных статических изображений наиболее широко используются стандарты ISO (рабочая группа — JTS1/
![](/html/2706/635/html_qmBc022x1g.oZtp/htmlconvd-evEb3a374x1.jpg)
13.1. Стандарт JPEG и его модификация
Рис. 13.1. Структурная схема преобразований 24-битовых изображений в алгоритме JPEG
стандартом может быть многокомпонентным, где каждая i-я компонента представляет собой прямоугольный массив данных с размерностью Xi × Yi, причем Xi и Yi не могут превышать величину 216 [5.4–5.10].
В стандарте JPEG оговаривается, что сжатие изображений может осуществляться либо с помощью ДКП двумерных блоков 8 × 8 пикселов, либо с помощью ДИКМ.
Разрядность величин каждого элемента всех компонент перед подачей на кодер должна быть одинакова и равна N битам:
–8 или 12 для кодера с дискретным косинусным преобразованием (ДКП);
–от 2 до 16 для дифференциального кодера (ДИКМ).
Сами величины элементов должны быть целыми числами от 0 до 2N −1.
Ко всем компонентам изображения во время обработки должно применяться одно и то же преобразование. ДИКМ может осуществлять предсказание с помощью восьми различных масок (приведенных в табл. 13.2) по одному, двум или трем отсчетам.
Таблица 13.2. Варианты масок предсказания при ДИКМ
Номер маски |
ˆ |
Формула предсказания X(i, j) |
|
0 |
0 |
|
|
1 |
X(i − 1, j) |
2 |
X(i, j − 1) |
3 |
X(i − 1, j − 1) |
4 |
X(i − 1, j) + X(i, j − 1) − X(i − 1, j − 1) |
5 |
X(i − 1, j) + [X(i, j − 1) − X(i − 1, j − 1)]/2 |
6 |
X(i, j − 1) + [X(i − 1, j) − X(i − 1, j − 1)]/2 |
7 |
[X(i − 1, j) + X(i, j − 1)]/2 |
Алгоритм кодирования с применением ДКП разработан в основном для сжатия цветных 24-битовых изображений. На рис. 13.1 приведен конвейер преобразований цветных изображений формата RGB.
После дискретизации RGB-сигналов перевод в цветовое пространство YDCRCB осуществляется с применением следующих соотношений:
![](/html/2706/635/html_qmBc022x1g.oZtp/htmlconvd-evEb3a375x1.jpg)
Глава 13. Стандарты кодирования статических изображений
YD = round |
2 |
77 |
· R + |
150 |
|
· G + |
29 |
|
· B3 |
, |
|
||
|
|
|
|
|
|
||||||||
256 |
256 |
|
256 |
|
|
||||||||
CR = round |
2 |
131 |
· R − |
110 |
· G − |
21 |
|
· B3 |
+ 128, |
(13.1) |
|||
|
|
|
|
|
|||||||||
256 |
256 |
256 |
|||||||||||
CB = round |
2−256 · R − 256 · G + 256 · B3 + 128, |
|
|||||||||||
|
|
44 |
|
87 |
|
131 |
|
|
|||||
здесь 16 (R, G, B, YD) 235, 16 (CR, CB ) 240 [5.11, 5.12]. |
|
||||||||||||
Обратное преобразование имеет вид: |
|
|
|
|
|
|
|
||||||
R = round [YD + 1,371 · (CR − 128)] , |
|
|
|
|
|
||||||||
G = round [YD − 0,698 · (CR − 128) − 0,336 · (CB − 128)] , |
(13.2) |
B = round [YD + 1,732 · (CB − 128)] .
При таком преобразовании RGB-компоненты будут лежать в интервале 16–235
свозможным попаданием в области 0–15 и 236–255.
Встандарте JPEG используется цветовая модель 4 : 2 : 0, так что при формировании составляющих изображения CR и CB набираются отсчеты через строку и через столбец. Таким образом, теряется сразу 3/4 информации о цветовых составляющих изображения и автоматически получается сжатие изображения в два раза. Визуальных искажений изображения при обратном преобразовании это сжатие практически не вызывает.
Исходные значения преобразованных пикселов 24-битовых изображений могут иметь 28=256 уровней. Процесс кодирования обычно начинается со сдвига диапазона значений пикселов на 27=128, что приводит к выравниванию динамического диапазона и некоторому увеличению коэффициента сжатия [5.13].
Составляющая яркости изображения YD и сформированные составляющие цветности CR и CB разбиваются на матрицы 8×8, используемые для дискретного косинусного преобразования ДКП:
|
|
|
|
|
7 |
7 |
|
|
|
|
|
|
1 |
|
|
|
|
πu(2n + 1) |
|
πv(2m + 1) |
|
||
F (u, v) = |
4 |
· C(u) · C(v) · |
X(n, m) · cos |
16 |
|
· cos |
16 |
, (13.3) |
|||
где C(k) = |
|
1,2 |
|
n=0 m=0 |
|
|
|
|
|
||
|
k = 0. |
|
|
|
|
|
|
||||
|
|
|
1 |
, |
k = 0, |
|
|
|
|
|
|
|
|
|
√ |
|
|
|
|
|
|
Конкретный выбор того или иного быстрого алгоритма вычисления ДКП оставлен на усмотрение разработчиков прикладных программ.
Результат вычисления ДКП подвергается обработке в соответствии с извест-
ной формулой: |
|
Fq (u, v) = round{F (u, v)/Q(u/v)}, |
(13.4) |
где Q(u/v) — таблица коэффициентов квантования, разных для различных коэффициентов ДКП и различных компонент изображения.
Выбор и применение конкретных таблиц коэффициентов квантования оставлен на усмотрение пользователей, поскольку они могут быть оптимизированы для конкретных прикладных программ. Однако стандарт JPEG требует применения для всех блоков каждого массива компонент изображения одной и той же таблицы квантования.
![](/html/2706/635/html_qmBc022x1g.oZtp/htmlconvd-evEb3a376x1.jpg)
![](/html/2706/635/html_qmBc022x1g.oZtp/htmlconvd-evEb3a377x1.jpg)
Глава 13. Стандарты кодирования статических изображений
После вычисления величин Fq (u, v) для восстановления изображения используется обратное преобразование в соответствии с соотношением:
|
|
7 |
7 |
|
|
|
ˆ |
1 |
|
πu(2n + 1) |
|
||
X(n, m) = |
4 |
· u=0 v=0 C(u) · C(v) · Fq (u, v) · Q(u, v) · cos |
16 |
|
× |
× cos πv(2m + 1) . (13.5) 16
Одним из основных недостатков такого метода кодирования является использование единой таблицы квантования, что при относительно больших коэффициентах сжатия вызывает искажения восстанавливаемых изображений в виде нарушений воспроизведения мелких деталей, возникновения эхосигналов при резких переходах яркости и цвета, возникновения блочной структуры.
На рис. 13.3а показаны такие искажения изображения «Залив» при его обработке по стандарту JPEG с коэффициентом сжатия, равным 16.
Указанные дефекты могут быть существенно уменьшены, если применять различные таблицы квантования в зависимости от сложности рельефа в каждом блоке, подвергающемся ДКП [5.14].
Операция изменения таблицы квантования может осуществляться следующим образом.
После ДКП и квантования коэффициентов в соответствии с начально выбранной жесткой таблицей квантования на передающей стороне производится обратное преобразование пикселов блока и их сравнение с исходными. Если полученные при этом ошибки преобразования оказываются значительными, то таблица квантования изменяется на менее жесткую и процесс преобразования повторяется. При этом одновременно с данными о квантованных коэффициентах ДКП передается также номер используемой таблицы квантования.
На рис. 13.3б приведено изображение «Залив», обработанное с указанной модификацией стандарта JPEG при сжатии, также равном 16.
Как видно из сравнения рис. 13.3а и б, дефекты воспроизведения этого изображения при изменении коэффициентов квантования в зависимости от «сложности» обрабатываемых блоков существенно меньше.
Существенным недостатком стандарта JPEG является возникновение при больших степенях сжатия искажений типа блокинг-эффекта и мозаичного эффекта.
Блокинг-эффект — это характерное разбиение всего изображения на квадратные блоки 8 × 8 пикселов с заметными границами. Он возникает вследствие деления изображения на блоки с последующим их независимым кодированием. Характерной особенностью ДКП с учетом квантования коэффициентов является возникновение ненулевых ошибок на границах блоков, которые идентифицируются глазом как скачки яркости от одного блока к другому.
Мозаичный эффект выглядит подобно блокинг-эффекту, но обуславливается не резкими переходами между различными блоками, а заметным глазу различием яркости в соседних блоках. Можно также определить мозаичный эффект как остаточный блокинг-эффект после низкочастотной фильтрации изображения. Несмотря на то, что переходы между блоками становятся плавными, глаз воспринимает изображение как разбитое на блоки. Мозаичный эффект также возникает при слишком грубом квантовании коэффициентов ДКП, при котором изображения внутри соседних блоков сильно отличаются друг от друга.
![](/html/2706/635/html_qmBc022x1g.oZtp/htmlconvd-evEb3a378x1.jpg)
13.2. Стандарт JPEG-2000
Рис. 13.3. Искажения изображений при их обработке по стандарту JPEG (а) и при модификации этого стандарта (б)
Эти недостатки кодирования статических изображений практически исключены в стандарте JPEG-2000.
Иногда стандарт JPEG используется и при кодировании динамических изображений (так называемый алгоритм Motion-JPEG или M-JPEG). При этом каждый кадр сжимается независимо, степень сжатия таких изображений не велика.
Более мощный и гибкий стандарт JPEG-2000 принципиально расширяет возможности стандарта JPEG при сжатии как полутоновых, так и полноцветных изображений. Он обладает целым рядом преимуществ: доступны более высокие степени сжатия при соответствующем качестве восстановленного изображения,
![](/html/2706/635/html_qmBc022x1g.oZtp/htmlconvd-evEb3a379x1.jpg)
Глава 13. Стандарты кодирования статических изображений
Рис. 13.4. Структурная схема обработки изображений по стандарту JPEG-2000
возможно использование эффективного режима сжатия без потерь, реализуется прогрессивная визуализация изображения во время загрузки, применяются масштабирование, исправление ошибок и др. Если поддержка стандарта JPEG-2000 будет встроена в популярные программы, то в скором времени он сможет полностью заменить устаревший JPEG. Наиболее важными преимуществами стандарта JPEG-2000 по сравнению с JPEG являются [5.15–5.21]:
–возможность работы с фрагментами изображения, обеспечение при необходимости разбиения изображения на квадратные тайлы и их кодирование независимо друг от друга;
–б´ольшая степень сжатия за счет использования дискретного вейвлет-преоб- разования и более сложного энтропийного кодирования;
–масштабируемость фрагентов изображений: JPEG-2000 обеспечивает бесшовное сжатие разных компонентов изображения благодаря разбиению на блоки, можно хранить изображения разных разрешений в одном кодовом потоке;
–эффективная организация кодового потока позволяет просматривать файл с меньшей разрешающей способностью или с меньшим качеством;
–сжатие как с потерями, так и без потерь при использовании целочисленного вейвлет-преобразования;
–возможность кодирования монохромных изображений, что позволяет обеспечить компрессию изображений с текстом;
–возможность последовательного декодирования и вывода изображения сверху вниз без необходимости буферизации всего изображения и др.
Изначально новый стандарт разрабатывался как база для будущего стандарта сжатия без потерь JPEG-LS [5.22, 5.23], но позднее этот подход был отвергнут в связи с появлением более эффективных алгоритмов.
На рис. 13.4 приведена упрощенная структурная схема конвейера обработки изображений, используемой в соответствии со стандартом JPEG-2000 [5.2, 5.13, 5.24, 5.25].
В отличие от JPEG, кодер JPEG-2000 не требует разбиения изображения на малые квадратные блоки, так как используемое в ходе работы алгоритма дискретное вейвлет-преобразование (ДВП) работает на фрагментах любого размера. Но в случае, когда объем памяти, доступный кодеру для работы, меньше, чем объем памяти, необходимый для кодирования всего изображения, используется