Добавил:

Studfiles2 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Санкт-Петербургский государственный электротехнический университет "ЛЭТИ"

Предмет:

Цифровая обработка сигналов

Файл:

Формат MPEG4 / 2007-11-22-04-20-Unknown-ЦОС

.pdf

Скачиваний:

Добавлен:

01.05.2014

Размер:

725.58 Кб

Скачать

☆

<<< < Предыдущая 12 / 32 3 > Следующая >>>

яркости, и, в особом случае, цветности) для достижения большей степени сжатия в однородных областях.

6.Квантование:

·Логарифмическое управление длиной шага для упрощения распределения битрейта кодером и упрощенного вычисления обратной квантования.

·Частотно-оптимизированные матрицы масштабирования квантования, выбираемые кодером для оптимизации квантования на основе человеческих особенностей восприятия (поддерживается не во всех профилях).

7.Внутренний фильтр деблокинга в цикле кодирования, устраняющий артефакты блочности, часто возникающие при использовании основанных DCTна техниках сжатия изображений.

8.Энтропийное кодирование квантованных коэффициентов трансформации:

·Context-adaptive binary arithmetic coding (CABAC) — Контекстнозависимое Адаптивное Бинарное Арифметическое кодирование— алгоритм беспотерьного

сжатия синтаксических элементов видеопотока на основе вероятности появления. Поддерживается только в Main Profile и выше. Обеспечивает более эффективное сжатие, чем CAVLC, но требует значительно больше времени на расшифровку.

·Context-adaptive variable-length coding (CAVLC) — Контекстнозависимое Адаптивное Кодирование с Переменной Длиной Кодового Слова — альтернатива CABAC меньшей сложности. Тем не менее, оно сложнее и эффективнее, чем алгоритмы, применяемые для тех же целей в более ранних технологиях сжатия видео (как правило, это алгоритм Хаффмана).

·Часто используемое, простое и высоко структурированное кодирование словами переменной длины многих элементов синтаксиса, не закодированных CABAC или CAVLC, известное как Exp-Golomb (экспоненциальное кодирование Голомба).

9.Функции устойчивости к ошибкам:

·Определение уровня сетевой абстракции (NAL), позволяющее использовать один и

тот же синтаксис видео в различных сетевых			окружениях, включая	наборы
параметров	последовательности (sequence	parameter	sets, SPSs) и	наборы
параметров	изображения (picture parameter	sets, PPSs),	которые обеспечивают

большую надежность и гибкость, чем предыдущие технологии.

·Гибкое упорядочивание макроблоков (FMO), также известное как группы частей (поддерживается не во всех профилях) и произвольное упорядочивание частей (ASO) — методы реструктурирования порядка представления фундаментальных областей (макроблоков) в изображениях. При эффективном использовании гибкое упорядочивание макроблоков может существенно повысить устойчивость к потере

данных.

Благодаря ASO, так как каждая часть изображения может быть декодирована независимо от других (при определенных ограничениях кодирования), новый стандарт позволяет посылать и получать их в произвольном порядке друг относительно друга. Это может снизить задержку в приложениях реального времени, особенно при использовании на сетях, имеющих режим работы «доставка вне очереди». Эти функции могут также использоваться для множества других целей помимо восстановления ошибок.

10.

· Разбиение	данных — функция, обеспечивающая разделение данных		разной
важности (например, вектора движения и другая информация предсказания имеет
большую	значимость для представления видеоконтента) по разным	пакетам
данных с разными уровнями защиты от ошибок(поддерживается не		во	всех
профилях).

·Избыточные части. Возможность посылки кодером избыточного представления областей изображений, позволяя воспроизвести области изображений(обычно с

некоторой потерей качества), данные о которых были потеряны в процессе передачи (поддерживается не во всех профилях).

·Нумерация кадров, позволяющая создание «подпоследовательностей» (включая временное масштабирование включением дополнительных кадров между другими)

а также обнаружение(и скрытие) потерь целых кадров при сбоях канала или пропаже пакетов.

1 - В предшествующих		стандартах	преобразование	оговаривалось	только в	рамках
допустимых	ошибок	из-за	практической	нереализуемости	точного	обра

преобразования. В итоге, каждая реализация декодера могла давать слегка различное декодированное видео (что обуславливалось несовпадением представлени декодированного видео на кодере и декодере), что приводит к снижению эффективного качества видео.

исходный поток

Режимы предсказания

Контроль кодирования

9 (4x4) & 4 (16x16) = 13 режимов

intra

intra предсказание

inter

преобразование

квантование

+ -

Точное целочисленное

4х4 преобразование

обратное

квантование

выходной

обратное

энтропийное

поток

предсказанный кадр

преобразование

кодирование

компенсация

движения

Exp-Golomb

CABAC либо

кадровая память

циклический фильтр

CAVLC

Адаптивный фильтр деблокинга

предсказание движения

вектора движения

Семь форм и размеров блоков Точность предсказания до ¼ пикселя Независимость опорных изображений

Сравнение кодеков стандартов MPEG-4 ASP и AVC.

Задачи сравнения.

Основной задачей ставилась сравнительная оценка качества кодеков стандартов MPEG-4 ASP и AVC с использованием объективных метрик. В качестве основной для объективной оценки качества была выбрана метрикаPSNR (Peak Signal-Noise Ratio) (см. Приложение 3). Также оценивалось время кодирования и степень сжатия видеопотоков.

Видеокодек MPEG-4 ASP DivX® Pro 6.6.1

Кодек ограниченно бесплатный(платная версия Pro обладает большим набором функций), с закрытыми исходными кодами, держатель патента - компания DivX, Inc. Версия кодека 6.6.1 выпущена 22 мая 2007 года.

Видеокодек MPEG-4 AVC x264

Бесплатный кодек с открытым исходным кодом. Версия 54 (ревизия 606) выпущена 7 июня 2007 года.

MSU Video Quality Measurement Tool

Программа, которой производилось непосредственное измерение качества образцов видео называется MSU Video Quality Measurement Tool.

Результаты сравнения

		время сжатия (сек)				размер файла(Кбайт)		PSNR (db)
	bitrate	DivX		x264		DivX	x264	DivX	x264
	1000		80		216	7804	7346	41,34598	43,13297
	1500		85		242	11692	11222	42,91954	44,33865
HDTV	2000		88		263	15524	15100	43,92656	45,22377
	2500		89		283	19462	18950	44,66527	45,97777
	3000		90		304	23284	22802	45,30408	46,65029
	200		9		30	1212	1242	34,27557	36,32894
	400		10		36	2360	2448	37,90324	39,52260
movie	600		10		41	3516	3678	40,03822	41,26164
	800		10		46	4700	4894	41,56687	42,49597
	1000		10		49	5878	6106	42,99122	43,50914

Таким образом, усредненная покадровая PSNR-характеристика кодека х264 во всех образцах выше, что означает более высокое субъективное качество видео картинки. Также по полученным результатам можно судить о большей компрессионной способности кодека x264 по сравнению с кодекомDivX. Однако выигрыш в качестве и количестве обернулся серьезным проигрышем по времени: скорость кодирования кодекомx264 в несколько раз уступает скорости кодирования при помощи кодекаDivX. Это говорит о

том, что для таких задач, как кодирование в реальном времени, кодеки стандарта H264/MPEG-4 AVC не подходят. Наиболее перспективной кажется такая область применения, как кодирование видеосигнала высокой четкости (HDTV).

RD-кривые
Что	такое RD-кривая?		Это	график, показывающий соотношение "битрейт-
качество". Чем выше лежит график, тем анализируемый кодек "лучше", т.е. дает большее
качество при той же степени сжатия.
	HDTV				DivX	x264
	48
	47
	46
	45
	44
	43
	42
	41
	40
	39
	38
	1000	1500		2000	2500	3000
	movie				DivX	x264
	46
	44
	42
	40
	38
	36
	34
	32
	30
	200	400		600	800	1000

Приложение 1. Структура дискретизации 4:2:0

Исходный телевизионный сигнал чаще всего представлен в формате4:2:2, т.е. частота дискретизации Y-компонента (яркость) в 2 раза выше, чем U- и V- компонентов (цветность) сигнала. Обусловлено это тем, что человеческий глаз более чувствителен к изменению яркости, нежели к изменению цвета изображения.

Принимая во внимание форму представления телевизионного сигнала с разбиением на четные и нечетные поля, в виде матрицы формат4:2:2 можно как построчное чередование отсчетов Y/Cr/Cb, Y, Y/Cr/Cb, … и т.д (рис. 1.1)

Рис. 1.1. Структура дискретизации 4:2:2

Отсчеты цветоразностных компонентов в формате4:2:0, принятом в системе компрессии MPEG-2, не совмещены с отсчетами яркостной составляющей. Матрица отсчетов цветоразностных компонентов образована точками, которые не находятся на строках телевизионного изображения и не совпадают с яркостными отсчетами ни одного из двух полей(рис. 1.2), хотя половина из них рассчитывается с использованием интерполяции из отсчетов строк одного поля, а половина – другого. Необходимость такой интерполяции усложняет формирование потока видеоданных.

Рис. 1.2. Структура дискретизации 4:2:0 (MPEG-2)

Вариант формата 4:2:0, в котором уменьшается цветовая четкость по вертикали, но отсчеты цветоразностных компонентов совмещены с отсчетами яркостной составляющей изображения, может быть получен из прототипной структуры4:2:2 путем поочередного исключения одного цветоразностного компонента в каждой второй строке каждого поля (рис. 1.3). Это означает, что в двух строках телевизионного кадра следуют отсчетыY/Cr, Y, Y/Cr,…, в двух следующих – Y/Cb, Y, Y/Cb,…, затем – снова Y/Cr, Y, Y/Cr,…, и т.д.

Такой вариант формата 4:2:0 упрощает формирование цветоразностных сигналов.

Рис. 1.3. Структура дискретизации 4:2:0 с совмещенными отсчетами яркостного и цветоразностных сигналов

Приложение 2. Дискретное косинусное преобразование (Discrete cosine transform - DCT).

2-мерное дискретное косинусное преобразование массива N ´ N сигналов xn1 , n2 можно представить как

			,
где
Дискретно-косинусное	преобразование	всех	компонентов	телевизионног

изображения является блочным. Оно выполняется в рамках массива пикселей с размерами 8x8 элементов, называемого блоком DCT. В каждый блок DCT входят строки двух полей телевизионного кадра. Нечетные строки блока образованы отсчетами, располагающимися в строках первого поля, четные – в строках второго поля. При структуре дискретизации 4:1:1 один массив отсчетов каждого из цветоразностных сигналов с размерами8x8 элементов может быть сформирован из фрагмента телевизионного кадра с высотой8

строк и шириной32 яркостных пикселя (рис. 2.1). В пределах такой области можно образовать четыре блокаDCT яркостного компонента Y и по одному блокуDCT цветоразностных сигналов Cr и Cb. Эти шесть блоков входят в макроблок. В случае использования дискретизации 4:2:0 один макроблок формируется из квадратного массива отсчетов, образованного 16 последовательными строками кадра (рис. 2.2)

Рис. 2.1. Макроблок формата 4:1:1

Рис. 2.2. Макроблок формата 4:2:0

Приложение 3. Пиковое отношение сигнала к шуму

(PSNR).

Пиковое отношение сигнала к шуму обозначается аббревиатуройPSNR и является инженерным термином, означающим соотношение между максимумом возможного значения сигнала и мощностью шума, искажающего значения сигнала. Поскольку многие сигналы имеют широкий динамический диапазон, PSNR обычно измеряется в логарифмической шкале в децибелах.

PSNR наиболее часто используется для измерения уровня искажений при сжатии изображений. Проще всего его определить через среднеквадратичное отклонение(MSE), которое для двух монохромных изображенийI и K размера m×n, одно из которых считается зашумленным приближением другого, вычисляется так:

PSNR определяется так:

где MAXI - это максимальное значение, принимаемое пикселем изображения. Когда пиксели имеют разрядность8 бит, MAXI = 255. Вообще говоря, когда значения сигнала представлены линейно (PCM) с B битами на значение, максимально возможное значение MAXI будет 2B-1.

Для цветных изображений с тремя компонентамиRGB на пиксель применяется такое же определение PSNR, но MSE считается по всем трем компонентам(и делится на утроенный размер изображения).

Типичные значения PSNR для сжатия изображений лежат в пределах 30 – 40 dB.

<<< < Предыдущая 12 / 32 3 > Следующая >>>