Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Учебники / Цифровое телевизионное вещание под редакцией Г. В. Мамчев, 2014

.pdf
Скачиваний:
3
Добавлен:
29.05.2026
Размер:
20.33 Mб
Скачать

180

3. ПРАКТИЧЕСКОЕ ИСПОЛЬЗОВАНИЕ ВИДЕОКОМПРЕССИИ В ТЕЛЕВИДЕНИИ

 

 

 

 

Таблица 3.18

 

Контекстные модели для первого бита

 

 

 

 

 

 

 

 

ek

 

Контекстная модель для первого бита

 

 

 

 

 

 

 

 

 

0~ek<3

 

 

Модель О

 

 

3~ek<33

 

 

Модель 1

 

 

33~ek

 

 

Модель 2

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 3.19

 

 

 

Контекстные модели

 

 

 

 

 

 

Бит

 

Контекстная модель

 

 

 

 

 

 

 

 

1

 

 

О, 1 или 2 в зависимости от ek

 

 

2

 

 

Модель 3

 

 

3

 

 

Модель 4

 

 

4

 

 

Модель 5

 

 

5 и выше

 

Модель 6

 

 

 

 

 

 

 

 

2. Выбрать контекстную модель для каждого бита. Для первого бита

выбирается одна из трех моделей (табл. 3.18) на основе нормы двух значе­ ний предыдущих закодированных векторов mvdx, ek:

ek =lmvdx,A 1+lmvdx,B 1,

где А и В - блоки, лежащие левее и выше текущего блока.

Если ek мало, то с большой вероятностью текущий MVD будет иметь маленький модуль, и наоборот, при большом ek модуль текущего MVD бу­

дет большим. Вероятностная таблица (контекстная модель) выбирается со­

ответственно. Все остальные биты используют одну из оставшихся четы­

рех моделей (табл. 3.19).

3.Кодировать каждый бит. Выбранная контекстная модель снабжена двумя оценками вероятностей: вероятность того, что бит равен 1 и вероят­ ность того, что бит равен О. Эти два числа определяют разбиение на по­

дынтегралы, используемые при арифметическом кодировании.

4.Обновить контекстную модель. Например, если для первого бита выбрана контекстная модель 2 и значение первого бита равно О, то счетчик частоты О увеличивается на 1, и поэтому в следующий раз при выборе этой модели вероятность О будет немного больше. Когда общее число появле­

ния данной модели превосходит некоторый порог, происходит пропорцио­

нальное уменьшение счетчиков О и 1, что означает повышение приоритета неравных наблюдений.

Контекстные модели

Контекстные модели и схемы двоичных представлений всех синтак­

сических элементов определены стандартом. Имеется около 400 разных

3.4. Стандарт кодированного иредставления визуальной информации Н.264/АУС или MPEG-4

181

контекстных моделей для различных синтаксических элементов. В начале

кодирования каждого слоя происходит инициализация контекстных моде­

лей в зависимости от начальных значений параметра квантования QP (по­

скольку он оказывает значительное влияние на вероятности появления

различных синтаксических символов). Дополнительно при кодировании р­ , SP- и В-слоев, кодер может выбрать одно из трех множеств параметров

инициализации контекстных моделей, которые позволяют лучше адапти­

роваться к различным типам видеоконтента.

Модуль арифметического кодирования

Арифметический кодер подробно описан в стандарте, и он имеет три специфических свойства.

1.Оценка вероятностей осуществляется переходным процессом между 64

отдельными состояниями вероятностей для «символа с наименьшей ве­

роятностью» LPS (он является наименее вероятным из двух возможных решений О или 1).

2.Область R представления текущего состояния арифметического кодера

квантуется на маленькие области заранее заданных значений перед вы­ чиcлeHиeM новых областей на каждом шаге, при этом имеется возмож­

ность табличного определения новых областей (то есть без использова­ ния сложной операции умножения).

3.Используются упрощенные процессы кодирования и декодирования (в которых опущена часть контекстного моделирования) для символов с

распределением вероятностей, близким к равномерному.

Процесс декодирования спроектирован так, чтобы облегчить про­

граммную реализацию схемы арифметического кодирования и декодиро­

вания. В среднем алгоритм САВАС обеспечивает лучшее сжатие по срав­ нению со схемой кодирования VLC.

3.4.4. Расширенный профиль

Расширенный nрофuль может оказаться особенно полезным в приложе­

ниях типа потоковое видео. Он включает все инструменты кодирования базо­

вого профиля (то есть он является действительным расширением базового профиля в отличие от основного), а также В-слои и взвешенное прогнозирова­

ние. Помимо этого, здесь имеются дополнительные инструменты, обеспечи­

вающие эффективную передачу потоковых данных по сетям типа Интернет.

Слои SP и S1 облегчают переключение между разными кодовыми потоками, а

функционирование по типу VCR и слои разделения данных позволяют повы­

сить устойчивость передачи по каналам, подверженным ошибкам [33].

Слои SРи SI

sP- и S1-слои представляют собой слои, закодированные специальным способом, которые обеспечивают, помимо всего прочего, эффективное пе-

182

3. ПРАКТИЧЕСКОЕ ИСПОЛЬЗОВАНИЕ ВИДЕОКОМПРЕССИИ В ТЕЛЕВИДЕнии

 

 

 

 

Р-слои

SР-слои

Р-слои

 

 

Ао

 

-

 

ПОТОК А

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ПОТОК В

Рис. 3.47. Схема переключения потоков с помощью SР-слоев

реключение между видеопотоками и организуют быстрый случайный дос­ туп для видеокодеров. Общее требование к потоковым приложениям за­ ключается в обеспечении возможности декодеру переключаться между од­ ним или несколькими кодированными потоками. Например, один и тот же видеоматериал кодируется на нескольких битовых скоростях для передачи по Интернету, и декодер сначала пытается декодировать самый высоко­

скоростной видеопоток, который он может получить, а потом ему может

понадобиться переключиться на более низкую скорость видеопотока, на­ пример, из-за падения пропускной способности сети.

SР-слои были разработаны для обеспечения переключений между по­

добными кодированными видеопоследовательностями (например, для ко­

дирования одного и того же видеоконтента с разными битовыми скоростя­

ми), но без недостатка увеличения битовой скорости при использовании 1- слоев (рис. 3.47).

В точке переключения (кадр 2 в каждой последовательности) ставятся

три SР-слоя, каждый из которых кодируется с использованием прогноза

компенсации движения (что делает их более эффективными по сравнению с I-слоями). SР-слой А2 можно декодировать с помощью ссылочного сним­

ка А1, а слой В2 - С помощью снимка В1. Ключевым элементом процесса

переключения служит SР-слой АВ2 (он называется nереключающим Sp- слоем), который построен таким образом, что его можно декодировать с использованием ссылочного снимка А 1 дЛЯ получения декодированного кадра В2 (то есть выход декодера В2 будет идентичен, как если бы ему предшествовал кадр В1)' В каждой точке переключения требуется помес­ тить SР-слой (на самом деле еще один SР-слой ВА2, который будет необхо-

3.4. Стандарт кодированного иредставления визуальной информации И.264/АУС или MPEG-4

183

 

 

Таблица 3.20

Схема переключения с потока А на поток В с помощью SР-слоев

 

 

 

 

 

Вход декодера

Ссылочный МС

Выход декодера

 

P-слойАо

[Более ранний кадр]

Декодир. кадр Ао

 

P-слойА1

Декодир. кадр Ао

Декодир. кадр A 1

 

SP-слойАВ2

Декодир. кадр A 1

Декодир. кадр В2

 

P-слойВз

Декодир. кадр В2

Декодир. кадр Вз

 

.. .

.. .

...

 

дим при переключении в обратном направлении), однако это займет мень­ ший информационный объем, чем кодирование А2 и В2 как I-слоев. В табл. 3.20 перечислены шаги, которые необходимо совершить декодеру при пе­ реключении с потока А на поток В.

На рис. 3.48 показана упрощенная блок-схема процесса кодирования SP-слоя А2, при котором совершается вычитание версии с компенсацией

движения А! (декодированного кадра A1) из кадра А2, за которым следует

кодирование получившегося остатка. В отличие от «обычного» Р-слоя вы­

читание производится в области преобразования (после совершения пре­ образования блока). SР-слой В2 кодируется аналогично (см. рис. 3.49).

Декодер, имея предыдущий кадр А2, может декодировать SР-слой А2, как показано на рис. 3.50.

Заметим, что приведенные структурные схемы являются упрощенны­ ми. На практике требуются еще шаги квантования и деквантования во из­ бежание разночтений кодера и декодера.

KaдpA2--------~

Кадр A~

Рис. 3.48. Упрощенная схема кодирования SP-слояА2

KaдpB2--------~

Кадр B~

Рис. 3.49. Упрощенная схема кодирования SР-слоя В2

SPA2--------------------

~

Кадр A~

Рис. 3.50. Упрощенная схема декодирования SP-слояА2

184 3. ПРАКТИЧЕСКОЕ ИСПОЛЬЗОВАНИЕ ВИДЕОКОМПРЕССИИ В ТЕЛЕВИДЕНИИ

Кадр 82 ----- 1

Кадр A~

Рис. 3.51. Упрощенная схема кодирования SP-слояАВ2

Кадр 8f

Кадр A~

Рис. 3.52. Упрощенная схема декодирования SP-слояАВ2

Упрощенное кодирование SP-слояАВ2 показано на рис. 3.51.

Кадр В2 (это кадр потока, куда происходит переключение) преобразу­

ется и прогноз компенсации движения строится по А! (это кадр потока,

откуда идет переключение). Блок МС на этой блок-схеме пытается обна­

ружить наилучшее совпадение для каждого макроблока кадра В2, исполь­ зуя В качестве ссылки кадр А1. Прогноз компенсации движения преобразу­

ется, затем вычитается из преобразованного В2 (то есть в случае слоя SP вычитание производится в области преобразования). Остаток (после вычи­ тания) квантуется, кодируется и посылается.

Декодер, который ранее декодировал Ai, может декодировать SР-слой АВ2 дЛЯ построения В2 (рис. 3.52). Кадр А! прогнозируется с компенсаци­

ей движения (с помощью вектора движения, закодированного как часть АВ2), преобразуется и прибавляется к декодированному и деквантованному

остатку, после чего к результату применяется обратное преобразование для

получения В2 .

Если потоки А и В представляют собой версии одной и той же видео­ последовательности, закодированной с разными битовыми скоростями, то

прогноз компенсации движения кадра В2 по кадру А! (SР-слой АВ2) дол­

жен быть достаточно эффективным. Дополнительные исследования пока­

зывают, что использование SP-слоев при переключении между различны­ ми версиями одной и той же последовательности является значительно бо­

лее эффективным, чем вставка I-слоев в точках переключения. Другое

применение SР-слоев заключается в обеспечении случайного доступа и

функционирования по типу VCR. Например, SР-слой и переключающий SР-слой помещаются вместо кадра 10 (см. рис. 3.53). Декодер может быст­

ро перейти вперед от кадра Ао к кадру А10, продекодировав Ао, а затем про­

декодировав переключающий SР-слой АО-10 дЛЯ получения А10, прогнози­ руя его по Ао.

Расширенный профиль поддерживает еще один тип переключающих слоев, а именно SI-слои. Эти слои используются так же, как и SР-слои, за

3.4. Стандарт кодированного иредставления визуальной информации И.264/АУС или MPEG-4

185

Р-слои

SР-слои

 

Ао

... -

 

Ав

-

 

Ag

-

 

А10

-

 

А11

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рис. 3.53. Схема быстрого перехода вперед с использованием SР-слоев

исключением того, что прогнозы формируются В модах прогнозов intra-

блоков 4х4 по ранее декодированным пикселям реконструируемого кадра. Этот слой можно использовать, например, при переключении от одной по­

следовательности к другой (в этом случае нет смысла строить прогноз

компенсации движения, так как нет корреляции между двумя этими после­

довательностями).

Слои деления данных

Кодированные данные, которые составляют слой, разделяются на три

отдельные части (А, В и С), в каждой из которых хранится подмножество

кодированного слоя. В части А хранится заголовок слоя и данные заголов­ ков каждого макроблока слоя. Часть В состоит из кодированных остаточных

данных для макроблоков intra и SI-слоев. В части С находятся остаточные данных iпtеr-кодированных макроблоков (в прямой и двунаправленной мо­ де). Каждая часть деления слоя может помещаться в отдельную единицу

NAL и, следовательно, может транспортироваться самостоятельно.

Если часть данных А будет потеряна, то, вероятно, будет трудно или

невозможно реконструировать слой, значит, эта часть весьма чувствитель­

на к ошибкам транспортировки. Части В и С можно (при аккуратном вы­ боре параметров кодирования) построить независимо декодируемыми, и

декодер может декодировать только А и В или только А и С, что означает определенную гибкость кодированных видеоданных при передаче по за­

шумленным каналам.

3.4.5. Масштабируемое видеокодирование Н.264/АVC SVC

Во многих практических приложениях при передаче цифрового теле­ видения требуется наличие нескольких версий исходного видеопотока, различающегося по качеству (например, пространственное разрешение,

186

3. ПРАКТИЧЕСКОЕ ИСПОЛЬЗОВАНИЕ ВИДЕОКОМПРЕССИИ В ТЕЛЕВИДЕнии

частота кадров и т.д.). Задача может быть решена при независимом коди­ ровании каждого потока с помощью кодека Н.264/АУС. Данный подход

используется, например, при организации телевизионного вещания по ка­

налам передачи данных с различной полосой пропускания.

Основной недостаток такого вешания заключается в том, что одна и та же видеопоследовательность кодируется в три битовых потока, содержа­ щих значительную избыточность. Причем для повышения качества пере­ даваемой информации необходимо расширение пропускной способности

канала. При ограниченных ресурсах канала повышение качества можно

добиться благодаря уменьшению избыточности в передаваемых потоках путем масштабирования информационных параметров.

Целью масштабируемого кодирования видео (Scalable Video Coding. SVC) является адаптация скорости передаваемой информации к пропуск­ ной способности каналов передачи данных благодаря сокращению избы­

точности в различных версиях одной и той же видеопоследовательности.

На практике одиночный SVС-кодер генерирует фактически несколько битовых потоков, называемых уровнями (layers). Нижний или базовый уро­ вень base layers (уровень О) - это поток, который декодируется стандартным

одноуровневым декодером, например, Н.264-декодером, содержит видео­

последовательность с самым низким из доступных параметров качества

(разрешением). Один или несколько более улучшенных уровней (enhancement layers), уровни 1 и 2 в этом примере, кодируются как SVС-ПОТОКИ. ДЛЯ

получения последовательности лучшего качества, SVС-декодер декодирует базовый уровень и один или несколько улучшенных уровней.

Масштабируемое кодирование SVC использует имеющуюся избыточ­

ность последовательностей различного разрешения для улучшения качест­

ва принимаемой информации от низкого качества, соответствующего базо­ вому уровню, до наилучшего качества при декодировании информации с

использованием всех улучшающих уровней. Таким образом, в отличие от вещания с независимым кодированием при масштабируемом кодировании предъявляются меНЫllие требования к пропускной способности каналов для обеспечения необходимого качества вещания.

Область "рименения масштабируемого видеокодирования

Рассмотрим основные приложения, в которых эффективно примене­

ние масштабируемого кодирования видео.

1. Множество устройств, обладающих различными возможностями

приема информации.

Все чаще один и тот же видеоматериал кодируется и передается на множество устройств, обладающими различными техническими характе­

ристиками.

Ряд факторов может ограничивать возможности конкретного устрой­

ства: скорость соединения, разрешение экрана и процессорная мощность.

Масштабирование видеопотока позволяет поддерживать широкий диапа-

3.4. Стандарт кодированного иредставления визуальной информации Н.264/АУС или MPEG-4

187

зон декодирующих устройств с максимально возможным качеством прие­

ма информации для каждого из них. 2.IР-nрило~ения.

Телевизионное вещание, как правило, имеет четко определенный га­

рантированный канал передачи. Однако в IР-приложениях, таких как ви­ деоконференции или IPTV, качество приема информации зависит от раз­ личных факторов. В частности, от объема передаваемого трафика, от за­ держек (заторов) в сети, связанных с изменением параметров каналов пе­ редачи данных в течение сеанса видеоконференцсвязи или во время про­

смотра зрителями телевизионных вещательных программ.

Масштабируемое кодирование предлагает механизмы максимизации

качества в конкретный момент времени для заданного декодера. Напри­

мер, сервер потокового вещания передает базовый и улучшенные уровни

видеоматериала. Декодер пытается получить все доступные передаваемые уровни. Если все уровни успешно получены, декодер выдает максимально

доступную по качеству информацию. Если в процессе передачи изменяет­

ся пропускная способность канала, или возникают задержки благодаря

увеличению объема передаваемого трафика, декодер работает только с ос­ новным (базовым) уровнем вещания.

Пока основной уровень успешно декодируется, происходит стабиль­ ное отображение видеопоследовательности с базовым качеством. Это оз­ начает, что базовый уровень является крайне важным и должен переда­ ваться с более высоким приоритетом, нежели улучшенные уровни.

3. Архивация.

Хранение видеоряда в виде масштабируемого потока, позволяет орга­ низовать быстрый предварительный просмотр видеопотока с низким каче­ ством. Например, НD-последовательность кодируется как ряд масштаби­ руемых уровней. Предварительное извлечение только базового уровня по­ зволяет быстро получить с низким качеством версию всей НD-последо­

вательности.

Классы масштабируемости

Масштабируемое кодирование видео (SVC) включено в стандарт Н.264/АУС в качестве приложения (Annex G) и расширяет возможности оригинального стандарта. Стандарт Н.264/АУС SVC поддерживает три ос­

новных класса масштабируемости.

1. Просmрансmвенная масштабируемость.

Пространственное разрешение дает горизонтальные и вертикальные

размеры видео в пикселях, создавая несколько известных «видео форма­ тов», такие как QCIF (l76 x144 пикселей), CIF (352 х288), SD (720 х 576) и HD (от 1280х720 до 1920 х 1080).

Способность стандарта SVC включать в себя, например, форматы 4:3 16:9 очень важное свойство пространственного масштабирования, обычно используемое в вешании SD/HD.

188

3. ПРАКТИЧЕСКОЕ ИСПОЛЬЗОВАНИЕ ВИДЕОКОМПРЕССИИ В ТЕЛЕВИДЕнии

Пространственное масштабирование обычно может использоваться для передачи одного видео потока битов в Ре и портативные устройства или на телевизоры SD и HD.

Базовый уровень кодируется с низким пространственным разрешени­

ем. Добавление уровней улучшения увеличивает пространственное разре­

шение декодируемой последовательности.

2. Временное масштабирование.

Базовый уровень кодируется с низким BpeMeHHIJIM разрешением или

низкой кадровой скоростью. Добавление уровней улучшения увеличивает

кадровую скорость декодируемой последовательности.

3. Масштабируемость качества.

Масштабирование качества предназначено для обеспечения разных

уровней детальности и точности исходного видео, имеющих одинаковые

пространственные и BpeMeHHIJIe определения.

Базовый уровень кодируется с низким визуальным качеством, ис­

пользуя соответствующие параметры квантования. Добавление уровней

улучшения увеличивают визуальное качество декодируемой последова­

тельности.

3.4.6. Многоракурсное видеокодирование Н.264/АVC MVC

Рождение многоракурсного видеокодирования обусловлено, в первую

очередь, появлением воспроизводящих телевизионных устройств автосте­

реоскопического типа, не требующих очков для наблюдения стереоскопи­

ческих (многоракурсных) изображений. Например, жидкокристаллический экран стандарта Super Hi-Vision с ультравысоким разрешением в 7680х4220 пикселей, к фронтальной плоскости которого прикреплены цветной светофильтр, состоящий из совокупности чередующихся горизон­ тальных полосок фильтров основных цветов R, G и В, в сочетании с опти­

ческим растром, обеспечивает воспроизведение 24-ракурсных изображе­ ний с горизонтальным разрешением в 960 пикселей.

Многоракурсное видео, записанное синхронизированными фотоили видеокамерами с различных точек наблюдения (ракурсов), даст обширную 3D-информацию о сцене и расширяет зрительские впечатления по сравне­

нию с традиционным видео. Благодаря усовершенствованию технологий захвата и отображения, многоракурсное видео станет востребованным в

потребительской сфере, включая 3DTV и телевидение с произвольной точ­ кой наблюдения (РУТУ - Free Viewpoint ТУ). 3DTV обеспечивает трех­

мерное ощущение глубины наблюдаемого вида, а РУТУ даст возможность

интерактивного выбора точки наблюдения и направления в пределах опре­ деленного рабочею диапазона углов обзора, за счет чего воспроизводится эффект оглядывания рассматриваемых объектов, создающий наибольшую выразительность отображения. Реализация 3D-приложений зависит от пол-

3.4. Стандарт кодированного иредставления визуальной информации Н.264/АУС или MPEG-4

189

ного цикла обработки, включая захват, сжатие, передачу, отображение и интерактивное представление. Среди них МУС является одной из наиболее многообещающих технологий, поскольку огромный объем данных, про­ порциональный числу камер, должен быть сжат до такой степени, чтобы его можно было передавать в пределах возможностей сетей связи.

Начиная с 2001 года специальная группа МPEG 3DAV (3D-аудио- и визуальные системы) проводила исследование тематики мус. В июле 2005 года она выпустила официальное информационное письмо для вы­ движения основанных на экспериментальных данных требований, предъ­ являемых к технологии мус. Все представленные в ответ на информаци­ онное письмо предложения были обратно совместимы со стандартом Н.264/АУс. После проведенных в течение года сравнительных испытаний и оценки была реализована первая модель МУС. Поправка МУС к стан­ дарту Н.264/АУС, наряду с BpeMeHHIJIM предсказанием, предполагает ис­ пользование межракурсного (inter-) предсказания для устранения межра­ курсной статистической избыточности.

Поправка МУС допускает широкий диапазон совместно применяемых структур временн6го и межракурсного предсказания, что делает возмож­

ным достижение компромисса между эффективностью кодирования и сложностью декодирования, включая управление задержкой и буфером

декодированною изображения.

Ключевым аспектом дополнения МУС является то, что поток данных,

полученный в результате сжатия многоракурсной видеопоследовательно­

сти, содержит данные так называемого базового или основного ракурса

(base view), который кодируется независимо от всех остальных ракурсов,

что обеспечивает совместимость с декодерами, которые могут работать только с обычным двумерным изображением. При этом данные о соседних

ракурсах являются дополнительной информацией.

Исходя из требования совместимости, закодированные данные МУС,

как и в случае обычного функционирования кодера Н.264, организуются в

блоки (или единицы) NAL (Network Abstraction Layer). Причем видеоин­

формация, относящаяся к базовому ракурсу, инкапсулируется в обычные блоки NAL, описываемые стандартом Н.264, а информация о дополнитель­ ных (non-base view) ракурсах инкапсулируется в расширенный тип блоков

NAL. ДЛЯ распознавания различных типов данных используются указатели

типа блока NAL (NUT-NAL unit type). Таким образом, поток МУС является обратно совместимым с Н.264/АУС, что позволяет декодировать видеосиг­ нал, игнорируя дополнительную информацию о различных ракурсах [34].

Основной задачей МУС является минимизация неотъемлемой избы­

точности многоракурсного изображения. Избыточность многоракурсных сцен может быть устранена путем введения предсказания между ракурса­ ми, то есть межракурсного предсказания (inter-view prediction), что и по­ требовало расширения стандарта Н.264.