Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Формат MPEG4 / 2007-11-22-04-20-Unknown-ЦОС

.pdf
Скачиваний:
21
Добавлен:
01.05.2014
Размер:
725.58 Кб
Скачать

яркости, и, в особом случае, цветности) для достижения большей степени сжатия в однородных областях.

6.Квантование:

·Логарифмическое управление длиной шага для упрощения распределения битрейта кодером и упрощенного вычисления обратной квантования.

·Частотно-оптимизированные матрицы масштабирования квантования, выбираемые кодером для оптимизации квантования на основе человеческих особенностей восприятия (поддерживается не во всех профилях).

7.Внутренний фильтр деблокинга в цикле кодирования, устраняющий артефакты блочности, часто возникающие при использовании основанных DCTна техниках сжатия изображений.

8.Энтропийное кодирование квантованных коэффициентов трансформации:

·Context-adaptive binary arithmetic coding (CABAC) — Контекстнозависимое Адаптивное Бинарное Арифметическое кодирование— алгоритм беспотерьного

сжатия синтаксических элементов видеопотока на основе вероятности появления. Поддерживается только в Main Profile и выше. Обеспечивает более эффективное сжатие, чем CAVLC, но требует значительно больше времени на расшифровку.

·Context-adaptive variable-length coding (CAVLC) — Контекстнозависимое Адаптивное Кодирование с Переменной Длиной Кодового Слова — альтернатива CABAC меньшей сложности. Тем не менее, оно сложнее и эффективнее, чем алгоритмы, применяемые для тех же целей в более ранних технологиях сжатия видео (как правило, это алгоритм Хаффмана).

·Часто используемое, простое и высоко структурированное кодирование словами переменной длины многих элементов синтаксиса, не закодированных CABAC или CAVLC, известное как Exp-Golomb (экспоненциальное кодирование Голомба).

9.Функции устойчивости к ошибкам:

·Определение уровня сетевой абстракции (NAL), позволяющее использовать один и

тот же синтаксис видео в различных сетевых

окружениях, включая

наборы

параметров

последовательности (sequence

parameter

sets, SPSs) и

наборы

параметров

изображения (picture parameter

sets, PPSs),

которые обеспечивают

большую надежность и гибкость, чем предыдущие технологии.

·Гибкое упорядочивание макроблоков (FMO), также известное как группы частей (поддерживается не во всех профилях) и произвольное упорядочивание частей (ASO) — методы реструктурирования порядка представления фундаментальных областей (макроблоков) в изображениях. При эффективном использовании гибкое упорядочивание макроблоков может существенно повысить устойчивость к потере

данных.

Благодаря ASO, так как каждая часть изображения может быть декодирована независимо от других (при определенных ограничениях кодирования), новый стандарт позволяет посылать и получать их в произвольном порядке друг относительно друга. Это может снизить задержку в приложениях реального времени, особенно при использовании на сетях, имеющих режим работы «доставка вне очереди». Эти функции могут также использоваться для множества других целей помимо восстановления ошибок.

10.

· Разбиение

данных — функция, обеспечивающая разделение данных

разной

важности (например, вектора движения и другая информация предсказания имеет

большую

значимость для представления видеоконтента) по разным

пакетам

данных с разными уровнями защиты от ошибок(поддерживается не

во

всех

профилях).

 

 

 

·Избыточные части. Возможность посылки кодером избыточного представления областей изображений, позволяя воспроизвести области изображений(обычно с

11

некоторой потерей качества), данные о которых были потеряны в процессе передачи (поддерживается не во всех профилях).

·Нумерация кадров, позволяющая создание «подпоследовательностей» (включая временное масштабирование включением дополнительных кадров между другими)

а также обнаружение(и скрытие) потерь целых кадров при сбоях канала или пропаже пакетов.

1 - В предшествующих

стандартах

преобразование

оговаривалось

только в

рамках

допустимых

ошибок

из-за

практической

нереализуемости

точного

обра

преобразования. В итоге, каждая реализация декодера могла давать слегка различное декодированное видео (что обуславливалось несовпадением представлени декодированного видео на кодере и декодере), что приводит к снижению эффективного качества видео.

исходный поток

Режимы предсказания

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Контроль кодирования

 

 

 

 

 

 

9 (4x4) & 4 (16x16) = 13 режимов

 

 

 

 

 

 

 

 

 

 

 

 

 

intra

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

intra предсказание

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

inter

 

 

 

 

преобразование

 

 

квантование

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

+ -

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Точное целочисленное

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4х4 преобразование

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

обратное

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

квантование

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

выходной

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

обратное

 

 

энтропийное

поток

 

 

предсказанный кадр

 

 

 

 

 

 

 

 

 

преобразование

 

 

кодирование

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

компенсация

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

движения

 

 

+

 

 

 

 

 

 

Exp-Golomb

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

и

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

CABAC либо

 

 

 

кадровая память

 

 

циклический фильтр

 

 

 

 

 

 

 

 

 

 

 

 

 

CAVLC

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Адаптивный фильтр деблокинга

предсказание движения

вектора движения

Семь форм и размеров блоков Точность предсказания до ¼ пикселя Независимость опорных изображений

12

Сравнение кодеков стандартов MPEG-4 ASP и AVC.

Задачи сравнения.

Основной задачей ставилась сравнительная оценка качества кодеков стандартов MPEG-4 ASP и AVC с использованием объективных метрик. В качестве основной для объективной оценки качества была выбрана метрикаPSNR (Peak Signal-Noise Ratio) (см. Приложение 3). Также оценивалось время кодирования и степень сжатия видеопотоков.

Видеокодек MPEG-4 ASP DivX® Pro 6.6.1

Кодек ограниченно бесплатный(платная версия Pro обладает большим набором функций), с закрытыми исходными кодами, держатель патента - компания DivX, Inc. Версия кодека 6.6.1 выпущена 22 мая 2007 года.

13

Видеокодек MPEG-4 AVC x264

Бесплатный кодек с открытым исходным кодом. Версия 54 (ревизия 606) выпущена 7 июня 2007 года.

14

MSU Video Quality Measurement Tool

Программа, которой производилось непосредственное измерение качества образцов видео называется MSU Video Quality Measurement Tool.

Результаты сравнения

 

 

время сжатия (сек)

 

размер файла(Кбайт)

PSNR (db)

 

 

bitrate

DivX

 

x264

 

DivX

x264

DivX

x264

 

1000

 

80

 

216

7804

7346

41,34598

43,13297

 

1500

 

85

 

242

11692

11222

42,91954

44,33865

HDTV

2000

 

88

 

263

15524

15100

43,92656

45,22377

 

2500

 

89

 

283

19462

18950

44,66527

45,97777

 

3000

 

90

 

304

23284

22802

45,30408

46,65029

 

200

 

9

 

30

1212

1242

34,27557

36,32894

 

400

 

10

 

36

2360

2448

37,90324

39,52260

movie

600

 

10

 

41

3516

3678

40,03822

41,26164

 

800

 

10

 

46

4700

4894

41,56687

42,49597

 

1000

 

10

 

49

5878

6106

42,99122

43,50914

Таким образом, усредненная покадровая PSNR-характеристика кодека х264 во всех образцах выше, что означает более высокое субъективное качество видео картинки. Также по полученным результатам можно судить о большей компрессионной способности кодека x264 по сравнению с кодекомDivX. Однако выигрыш в качестве и количестве обернулся серьезным проигрышем по времени: скорость кодирования кодекомx264 в несколько раз уступает скорости кодирования при помощи кодекаDivX. Это говорит о

том, что для таких задач, как кодирование в реальном времени, кодеки стандарта H264/MPEG-4 AVC не подходят. Наиболее перспективной кажется такая область применения, как кодирование видеосигнала высокой четкости (HDTV).

15

RD-кривые

 

 

 

 

 

Что

такое RD-кривая?

Это

график, показывающий соотношение "битрейт-

качество". Чем выше лежит график, тем анализируемый кодек "лучше", т.е. дает большее

качество при той же степени сжатия.

 

 

 

 

HDTV

 

 

 

DivX

x264

 

48

 

 

 

 

 

 

47

 

 

 

 

 

 

46

 

 

 

 

 

 

45

 

 

 

 

 

 

44

 

 

 

 

 

 

43

 

 

 

 

 

 

42

 

 

 

 

 

 

41

 

 

 

 

 

 

40

 

 

 

 

 

 

39

 

 

 

 

 

 

38

 

 

 

 

 

 

1000

1500

 

2000

2500

3000

 

movie

 

 

 

DivX

x264

 

46

 

 

 

 

 

 

44

 

 

 

 

 

 

42

 

 

 

 

 

 

40

 

 

 

 

 

 

38

 

 

 

 

 

 

36

 

 

 

 

 

 

34

 

 

 

 

 

 

32

 

 

 

 

 

 

30

 

 

 

 

 

 

200

400

 

600

800

1000

16

Приложение 1. Структура дискретизации 4:2:0

Исходный телевизионный сигнал чаще всего представлен в формате4:2:2, т.е. частота дискретизации Y-компонента (яркость) в 2 раза выше, чем U- и V- компонентов (цветность) сигнала. Обусловлено это тем, что человеческий глаз более чувствителен к изменению яркости, нежели к изменению цвета изображения.

Принимая во внимание форму представления телевизионного сигнала с разбиением на четные и нечетные поля, в виде матрицы формат4:2:2 можно как построчное чередование отсчетов Y/Cr/Cb, Y, Y/Cr/Cb, … и т.д (рис. 1.1)

Рис. 1.1. Структура дискретизации 4:2:2

Отсчеты цветоразностных компонентов в формате4:2:0, принятом в системе компрессии MPEG-2, не совмещены с отсчетами яркостной составляющей. Матрица отсчетов цветоразностных компонентов образована точками, которые не находятся на строках телевизионного изображения и не совпадают с яркостными отсчетами ни одного из двух полей(рис. 1.2), хотя половина из них рассчитывается с использованием интерполяции из отсчетов строк одного поля, а половина – другого. Необходимость такой интерполяции усложняет формирование потока видеоданных.

Рис. 1.2. Структура дискретизации 4:2:0 (MPEG-2)

Вариант формата 4:2:0, в котором уменьшается цветовая четкость по вертикали, но отсчеты цветоразностных компонентов совмещены с отсчетами яркостной составляющей изображения, может быть получен из прототипной структуры4:2:2 путем поочередного исключения одного цветоразностного компонента в каждой второй строке каждого поля (рис. 1.3). Это означает, что в двух строках телевизионного кадра следуют отсчетыY/Cr, Y, Y/Cr,…, в двух следующих – Y/Cb, Y, Y/Cb,…, затем – снова Y/Cr, Y, Y/Cr,…, и т.д.

Такой вариант формата 4:2:0 упрощает формирование цветоразностных сигналов.

17

Рис. 1.3. Структура дискретизации 4:2:0 с совмещенными отсчетами яркостного и цветоразностных сигналов

18

Приложение 2. Дискретное косинусное преобразование (Discrete cosine transform - DCT).

2-мерное дискретное косинусное преобразование массива N ´ N сигналов xn1 , n2 можно представить как

 

 

 

,

 

где

 

 

 

 

Дискретно-косинусное

преобразование

всех

компонентов

телевизионног

изображения является блочным. Оно выполняется в рамках массива пикселей с размерами 8x8 элементов, называемого блоком DCT. В каждый блок DCT входят строки двух полей телевизионного кадра. Нечетные строки блока образованы отсчетами, располагающимися в строках первого поля, четные – в строках второго поля. При структуре дискретизации 4:1:1 один массив отсчетов каждого из цветоразностных сигналов с размерами8x8 элементов может быть сформирован из фрагмента телевизионного кадра с высотой8

строк и шириной32 яркостных пикселя (рис. 2.1). В пределах такой области можно образовать четыре блокаDCT яркостного компонента Y и по одному блокуDCT цветоразностных сигналов Cr и Cb. Эти шесть блоков входят в макроблок. В случае использования дискретизации 4:2:0 один макроблок формируется из квадратного массива отсчетов, образованного 16 последовательными строками кадра (рис. 2.2)

Рис. 2.1. Макроблок формата 4:1:1

Рис. 2.2. Макроблок формата 4:2:0

19

Приложение 3. Пиковое отношение сигнала к шуму

(PSNR).

Пиковое отношение сигнала к шуму обозначается аббревиатуройPSNR и является инженерным термином, означающим соотношение между максимумом возможного значения сигнала и мощностью шума, искажающего значения сигнала. Поскольку многие сигналы имеют широкий динамический диапазон, PSNR обычно измеряется в логарифмической шкале в децибелах.

PSNR наиболее часто используется для измерения уровня искажений при сжатии изображений. Проще всего его определить через среднеквадратичное отклонение(MSE), которое для двух монохромных изображенийI и K размера m×n, одно из которых считается зашумленным приближением другого, вычисляется так:

PSNR определяется так:

где MAXI - это максимальное значение, принимаемое пикселем изображения. Когда пиксели имеют разрядность8 бит, MAXI = 255. Вообще говоря, когда значения сигнала представлены линейно (PCM) с B битами на значение, максимально возможное значение MAXI будет 2B-1.

Для цветных изображений с тремя компонентамиRGB на пиксель применяется такое же определение PSNR, но MSE считается по всем трем компонентам(и делится на утроенный размер изображения).

Типичные значения PSNR для сжатия изображений лежат в пределах 30 – 40 dB.

20