Формат MPEG4 / 2007-11-22-04-20-Unknown-ЦОС
.pdfяркости, и, в особом случае, цветности) для достижения большей степени сжатия в однородных областях.
6.Квантование:
·Логарифмическое управление длиной шага для упрощения распределения битрейта кодером и упрощенного вычисления обратной квантования.
·Частотно-оптимизированные матрицы масштабирования квантования, выбираемые кодером для оптимизации квантования на основе человеческих особенностей восприятия (поддерживается не во всех профилях).
7.Внутренний фильтр деблокинга в цикле кодирования, устраняющий артефакты блочности, часто возникающие при использовании основанных DCTна техниках сжатия изображений.
8.Энтропийное кодирование квантованных коэффициентов трансформации:
·Context-adaptive binary arithmetic coding (CABAC) — Контекстнозависимое Адаптивное Бинарное Арифметическое кодирование— алгоритм беспотерьного
сжатия синтаксических элементов видеопотока на основе вероятности появления. Поддерживается только в Main Profile и выше. Обеспечивает более эффективное сжатие, чем CAVLC, но требует значительно больше времени на расшифровку.
·Context-adaptive variable-length coding (CAVLC) — Контекстнозависимое Адаптивное Кодирование с Переменной Длиной Кодового Слова — альтернатива CABAC меньшей сложности. Тем не менее, оно сложнее и эффективнее, чем алгоритмы, применяемые для тех же целей в более ранних технологиях сжатия видео (как правило, это алгоритм Хаффмана).
·Часто используемое, простое и высоко структурированное кодирование словами переменной длины многих элементов синтаксиса, не закодированных CABAC или CAVLC, известное как Exp-Golomb (экспоненциальное кодирование Голомба).
9.Функции устойчивости к ошибкам:
·Определение уровня сетевой абстракции (NAL), позволяющее использовать один и
тот же синтаксис видео в различных сетевых |
окружениях, включая |
наборы |
||
параметров |
последовательности (sequence |
parameter |
sets, SPSs) и |
наборы |
параметров |
изображения (picture parameter |
sets, PPSs), |
которые обеспечивают |
большую надежность и гибкость, чем предыдущие технологии.
·Гибкое упорядочивание макроблоков (FMO), также известное как группы частей (поддерживается не во всех профилях) и произвольное упорядочивание частей (ASO) — методы реструктурирования порядка представления фундаментальных областей (макроблоков) в изображениях. При эффективном использовании гибкое упорядочивание макроблоков может существенно повысить устойчивость к потере
данных.
Благодаря ASO, так как каждая часть изображения может быть декодирована независимо от других (при определенных ограничениях кодирования), новый стандарт позволяет посылать и получать их в произвольном порядке друг относительно друга. Это может снизить задержку в приложениях реального времени, особенно при использовании на сетях, имеющих режим работы «доставка вне очереди». Эти функции могут также использоваться для множества других целей помимо восстановления ошибок.
10.
· Разбиение |
данных — функция, обеспечивающая разделение данных |
разной |
|
важности (например, вектора движения и другая информация предсказания имеет |
|||
большую |
значимость для представления видеоконтента) по разным |
пакетам |
|
данных с разными уровнями защиты от ошибок(поддерживается не |
во |
всех |
|
профилях). |
|
|
|
·Избыточные части. Возможность посылки кодером избыточного представления областей изображений, позволяя воспроизвести области изображений(обычно с
11
некоторой потерей качества), данные о которых были потеряны в процессе передачи (поддерживается не во всех профилях).
·Нумерация кадров, позволяющая создание «подпоследовательностей» (включая временное масштабирование включением дополнительных кадров между другими)
а также обнаружение(и скрытие) потерь целых кадров при сбоях канала или пропаже пакетов.
1 - В предшествующих |
стандартах |
преобразование |
оговаривалось |
только в |
рамках |
|
допустимых |
ошибок |
из-за |
практической |
нереализуемости |
точного |
обра |
преобразования. В итоге, каждая реализация декодера могла давать слегка различное декодированное видео (что обуславливалось несовпадением представлени декодированного видео на кодере и декодере), что приводит к снижению эффективного качества видео.
исходный поток
Режимы предсказания |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
Контроль кодирования |
|
|
|
|
|
|
|||||||||||||||
9 (4x4) & 4 (16x16) = 13 режимов |
|
|
|
|
|
|
|
|
|
|||||||||||||||
|
|
|
|
intra |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
intra предсказание |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
inter |
|
|
|
|
преобразование |
|
|
квантование |
|
|
|
|||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||
+ - |
|
|
|
|
|
|
|
|
||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
Точное целочисленное |
|
|
|
||||||||||||||||
|
|
|
|
|
|
|
|
|||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||
|
|
|
|
|
|
|
|
4х4 преобразование |
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
обратное |
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
квантование |
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
выходной |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
обратное |
|
|
энтропийное |
поток |
|||||
|
|
предсказанный кадр |
|
|
|
|
|
|
|
|
|
преобразование |
|
|
кодирование |
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
компенсация |
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
движения |
|
|
+ |
|
|
|
|
|
|
Exp-Golomb |
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
и |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
CABAC либо |
|
|
|
|
кадровая память |
|
|
циклический фильтр |
|
|
|
|
|
|||||||||||||
|
|
|
|
|
|
|
|
CAVLC |
||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Адаптивный фильтр деблокинга
предсказание движения
вектора движения
Семь форм и размеров блоков Точность предсказания до ¼ пикселя Независимость опорных изображений
12
Сравнение кодеков стандартов MPEG-4 ASP и AVC.
Задачи сравнения.
Основной задачей ставилась сравнительная оценка качества кодеков стандартов MPEG-4 ASP и AVC с использованием объективных метрик. В качестве основной для объективной оценки качества была выбрана метрикаPSNR (Peak Signal-Noise Ratio) (см. Приложение 3). Также оценивалось время кодирования и степень сжатия видеопотоков.
Видеокодек MPEG-4 ASP DivX® Pro 6.6.1
Кодек ограниченно бесплатный(платная версия Pro обладает большим набором функций), с закрытыми исходными кодами, держатель патента - компания DivX, Inc. Версия кодека 6.6.1 выпущена 22 мая 2007 года.
13
Видеокодек MPEG-4 AVC x264
Бесплатный кодек с открытым исходным кодом. Версия 54 (ревизия 606) выпущена 7 июня 2007 года.
14
MSU Video Quality Measurement Tool
Программа, которой производилось непосредственное измерение качества образцов видео называется MSU Video Quality Measurement Tool.
Результаты сравнения
|
|
время сжатия (сек) |
|
размер файла(Кбайт) |
PSNR (db) |
|
|||
|
bitrate |
DivX |
|
x264 |
|
DivX |
x264 |
DivX |
x264 |
|
1000 |
|
80 |
|
216 |
7804 |
7346 |
41,34598 |
43,13297 |
|
1500 |
|
85 |
|
242 |
11692 |
11222 |
42,91954 |
44,33865 |
HDTV |
2000 |
|
88 |
|
263 |
15524 |
15100 |
43,92656 |
45,22377 |
|
2500 |
|
89 |
|
283 |
19462 |
18950 |
44,66527 |
45,97777 |
|
3000 |
|
90 |
|
304 |
23284 |
22802 |
45,30408 |
46,65029 |
|
200 |
|
9 |
|
30 |
1212 |
1242 |
34,27557 |
36,32894 |
|
400 |
|
10 |
|
36 |
2360 |
2448 |
37,90324 |
39,52260 |
movie |
600 |
|
10 |
|
41 |
3516 |
3678 |
40,03822 |
41,26164 |
|
800 |
|
10 |
|
46 |
4700 |
4894 |
41,56687 |
42,49597 |
|
1000 |
|
10 |
|
49 |
5878 |
6106 |
42,99122 |
43,50914 |
Таким образом, усредненная покадровая PSNR-характеристика кодека х264 во всех образцах выше, что означает более высокое субъективное качество видео картинки. Также по полученным результатам можно судить о большей компрессионной способности кодека x264 по сравнению с кодекомDivX. Однако выигрыш в качестве и количестве обернулся серьезным проигрышем по времени: скорость кодирования кодекомx264 в несколько раз уступает скорости кодирования при помощи кодекаDivX. Это говорит о
том, что для таких задач, как кодирование в реальном времени, кодеки стандарта H264/MPEG-4 AVC не подходят. Наиболее перспективной кажется такая область применения, как кодирование видеосигнала высокой четкости (HDTV).
15
RD-кривые |
|
|
|
|
|
|
Что |
такое RD-кривая? |
Это |
график, показывающий соотношение "битрейт- |
|||
качество". Чем выше лежит график, тем анализируемый кодек "лучше", т.е. дает большее |
||||||
качество при той же степени сжатия. |
|
|
|
|||
|
HDTV |
|
|
|
DivX |
x264 |
|
48 |
|
|
|
|
|
|
47 |
|
|
|
|
|
|
46 |
|
|
|
|
|
|
45 |
|
|
|
|
|
|
44 |
|
|
|
|
|
|
43 |
|
|
|
|
|
|
42 |
|
|
|
|
|
|
41 |
|
|
|
|
|
|
40 |
|
|
|
|
|
|
39 |
|
|
|
|
|
|
38 |
|
|
|
|
|
|
1000 |
1500 |
|
2000 |
2500 |
3000 |
|
movie |
|
|
|
DivX |
x264 |
|
46 |
|
|
|
|
|
|
44 |
|
|
|
|
|
|
42 |
|
|
|
|
|
|
40 |
|
|
|
|
|
|
38 |
|
|
|
|
|
|
36 |
|
|
|
|
|
|
34 |
|
|
|
|
|
|
32 |
|
|
|
|
|
|
30 |
|
|
|
|
|
|
200 |
400 |
|
600 |
800 |
1000 |
16
Приложение 1. Структура дискретизации 4:2:0
Исходный телевизионный сигнал чаще всего представлен в формате4:2:2, т.е. частота дискретизации Y-компонента (яркость) в 2 раза выше, чем U- и V- компонентов (цветность) сигнала. Обусловлено это тем, что человеческий глаз более чувствителен к изменению яркости, нежели к изменению цвета изображения.
Принимая во внимание форму представления телевизионного сигнала с разбиением на четные и нечетные поля, в виде матрицы формат4:2:2 можно как построчное чередование отсчетов Y/Cr/Cb, Y, Y/Cr/Cb, … и т.д (рис. 1.1)
Рис. 1.1. Структура дискретизации 4:2:2
Отсчеты цветоразностных компонентов в формате4:2:0, принятом в системе компрессии MPEG-2, не совмещены с отсчетами яркостной составляющей. Матрица отсчетов цветоразностных компонентов образована точками, которые не находятся на строках телевизионного изображения и не совпадают с яркостными отсчетами ни одного из двух полей(рис. 1.2), хотя половина из них рассчитывается с использованием интерполяции из отсчетов строк одного поля, а половина – другого. Необходимость такой интерполяции усложняет формирование потока видеоданных.
Рис. 1.2. Структура дискретизации 4:2:0 (MPEG-2)
Вариант формата 4:2:0, в котором уменьшается цветовая четкость по вертикали, но отсчеты цветоразностных компонентов совмещены с отсчетами яркостной составляющей изображения, может быть получен из прототипной структуры4:2:2 путем поочередного исключения одного цветоразностного компонента в каждой второй строке каждого поля (рис. 1.3). Это означает, что в двух строках телевизионного кадра следуют отсчетыY/Cr, Y, Y/Cr,…, в двух следующих – Y/Cb, Y, Y/Cb,…, затем – снова Y/Cr, Y, Y/Cr,…, и т.д.
Такой вариант формата 4:2:0 упрощает формирование цветоразностных сигналов.
17
Рис. 1.3. Структура дискретизации 4:2:0 с совмещенными отсчетами яркостного и цветоразностных сигналов
18
Приложение 2. Дискретное косинусное преобразование (Discrete cosine transform - DCT).
2-мерное дискретное косинусное преобразование массива N ´ N сигналов xn1 , n2 можно представить как
|
|
|
, |
|
где |
|
|
|
|
Дискретно-косинусное |
преобразование |
всех |
компонентов |
телевизионног |
изображения является блочным. Оно выполняется в рамках массива пикселей с размерами 8x8 элементов, называемого блоком DCT. В каждый блок DCT входят строки двух полей телевизионного кадра. Нечетные строки блока образованы отсчетами, располагающимися в строках первого поля, четные – в строках второго поля. При структуре дискретизации 4:1:1 один массив отсчетов каждого из цветоразностных сигналов с размерами8x8 элементов может быть сформирован из фрагмента телевизионного кадра с высотой8
строк и шириной32 яркостных пикселя (рис. 2.1). В пределах такой области можно образовать четыре блокаDCT яркостного компонента Y и по одному блокуDCT цветоразностных сигналов Cr и Cb. Эти шесть блоков входят в макроблок. В случае использования дискретизации 4:2:0 один макроблок формируется из квадратного массива отсчетов, образованного 16 последовательными строками кадра (рис. 2.2)
Рис. 2.1. Макроблок формата 4:1:1
Рис. 2.2. Макроблок формата 4:2:0
19
Приложение 3. Пиковое отношение сигнала к шуму
(PSNR).
Пиковое отношение сигнала к шуму обозначается аббревиатуройPSNR и является инженерным термином, означающим соотношение между максимумом возможного значения сигнала и мощностью шума, искажающего значения сигнала. Поскольку многие сигналы имеют широкий динамический диапазон, PSNR обычно измеряется в логарифмической шкале в децибелах.
PSNR наиболее часто используется для измерения уровня искажений при сжатии изображений. Проще всего его определить через среднеквадратичное отклонение(MSE), которое для двух монохромных изображенийI и K размера m×n, одно из которых считается зашумленным приближением другого, вычисляется так:
PSNR определяется так:
где MAXI - это максимальное значение, принимаемое пикселем изображения. Когда пиксели имеют разрядность8 бит, MAXI = 255. Вообще говоря, когда значения сигнала представлены линейно (PCM) с B битами на значение, максимально возможное значение MAXI будет 2B-1.
Для цветных изображений с тремя компонентамиRGB на пиксель применяется такое же определение PSNR, но MSE считается по всем трем компонентам(и делится на утроенный размер изображения).
Типичные значения PSNR для сжатия изображений лежат в пределах 30 – 40 dB.
20