Учебники / Цифровое телевизионное вещание под редакцией Г. В. Мамчев, 2014
.pdf180 |
3. ПРАКТИЧЕСКОЕ ИСПОЛЬЗОВАНИЕ ВИДЕОКОМПРЕССИИ В ТЕЛЕВИДЕНИИ |
|||||
|
|
|
|
Таблица 3.18 |
||
|
Контекстные модели для первого бита |
|||||
|
|
|
|
|
|
|
|
ek |
|
Контекстная модель для первого бита |
|
||
|
|
|
|
|
|
|
|
0~ek<3 |
|
|
Модель О |
|
|
|
3~ek<33 |
|
|
Модель 1 |
|
|
|
33~ek |
|
|
Модель 2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
Таблица 3.19 |
||
|
|
|
Контекстные модели |
|||
|
|
|
|
|
||
|
Бит |
|
Контекстная модель |
|
||
|
|
|
|
|
|
|
|
1 |
|
|
О, 1 или 2 в зависимости от ek |
|
|
|
2 |
|
|
Модель 3 |
|
|
|
3 |
|
|
Модель 4 |
|
|
|
4 |
|
|
Модель 5 |
|
|
|
5 и выше |
|
Модель 6 |
|
||
|
|
|
|
|
|
|
2. Выбрать контекстную модель для каждого бита. Для первого бита
выбирается одна из трех моделей (табл. 3.18) на основе нормы двух значе ний предыдущих закодированных векторов mvdx, ek:
ek =lmvdx,A 1+lmvdx,B 1,
где А и В - блоки, лежащие левее и выше текущего блока.
Если ek мало, то с большой вероятностью текущий MVD будет иметь маленький модуль, и наоборот, при большом ek модуль текущего MVD бу
дет большим. Вероятностная таблица (контекстная модель) выбирается со
ответственно. Все остальные биты используют одну из оставшихся четы
рех моделей (табл. 3.19).
3.Кодировать каждый бит. Выбранная контекстная модель снабжена двумя оценками вероятностей: вероятность того, что бит равен 1 и вероят ность того, что бит равен О. Эти два числа определяют разбиение на по
дынтегралы, используемые при арифметическом кодировании.
4.Обновить контекстную модель. Например, если для первого бита выбрана контекстная модель 2 и значение первого бита равно О, то счетчик частоты О увеличивается на 1, и поэтому в следующий раз при выборе этой модели вероятность О будет немного больше. Когда общее число появле
ния данной модели превосходит некоторый порог, происходит пропорцио
нальное уменьшение счетчиков О и 1, что означает повышение приоритета неравных наблюдений.
Контекстные модели
Контекстные модели и схемы двоичных представлений всех синтак
сических элементов определены стандартом. Имеется около 400 разных
3.4. Стандарт кодированного иредставления визуальной информации Н.264/АУС или MPEG-4 |
181 |
контекстных моделей для различных синтаксических элементов. В начале
кодирования каждого слоя происходит инициализация контекстных моде
лей в зависимости от начальных значений параметра квантования QP (по
скольку он оказывает значительное влияние на вероятности появления
различных синтаксических символов). Дополнительно при кодировании р , SP- и В-слоев, кодер может выбрать одно из трех множеств параметров
инициализации контекстных моделей, которые позволяют лучше адапти
роваться к различным типам видеоконтента.
Модуль арифметического кодирования
Арифметический кодер подробно описан в стандарте, и он имеет три специфических свойства.
1.Оценка вероятностей осуществляется переходным процессом между 64
отдельными состояниями вероятностей для «символа с наименьшей ве
роятностью» LPS (он является наименее вероятным из двух возможных решений О или 1).
2.Область R представления текущего состояния арифметического кодера
квантуется на маленькие области заранее заданных значений перед вы чиcлeHиeM новых областей на каждом шаге, при этом имеется возмож
ность табличного определения новых областей (то есть без использова ния сложной операции умножения).
3.Используются упрощенные процессы кодирования и декодирования (в которых опущена часть контекстного моделирования) для символов с
распределением вероятностей, близким к равномерному.
Процесс декодирования спроектирован так, чтобы облегчить про
граммную реализацию схемы арифметического кодирования и декодиро
вания. В среднем алгоритм САВАС обеспечивает лучшее сжатие по срав нению со схемой кодирования VLC.
3.4.4. Расширенный профиль
Расширенный nрофuль может оказаться особенно полезным в приложе
ниях типа потоковое видео. Он включает все инструменты кодирования базо
вого профиля (то есть он является действительным расширением базового профиля в отличие от основного), а также В-слои и взвешенное прогнозирова
ние. Помимо этого, здесь имеются дополнительные инструменты, обеспечи
вающие эффективную передачу потоковых данных по сетям типа Интернет.
Слои SP и S1 облегчают переключение между разными кодовыми потоками, а
функционирование по типу VCR и слои разделения данных позволяют повы
сить устойчивость передачи по каналам, подверженным ошибкам [33].
Слои SРи SI
sP- и S1-слои представляют собой слои, закодированные специальным способом, которые обеспечивают, помимо всего прочего, эффективное пе-
182 |
3. ПРАКТИЧЕСКОЕ ИСПОЛЬЗОВАНИЕ ВИДЕОКОМПРЕССИИ В ТЕЛЕВИДЕнии |
|||||
|
|
|
|
Р-слои |
SР-слои |
Р-слои |
|
|
Ао |
|
- |
|
ПОТОК А |
|
|
|
|
|||
|
|
|
|
|||
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ПОТОК В
Рис. 3.47. Схема переключения потоков с помощью SР-слоев
реключение между видеопотоками и организуют быстрый случайный дос туп для видеокодеров. Общее требование к потоковым приложениям за ключается в обеспечении возможности декодеру переключаться между од ним или несколькими кодированными потоками. Например, один и тот же видеоматериал кодируется на нескольких битовых скоростях для передачи по Интернету, и декодер сначала пытается декодировать самый высоко
скоростной видеопоток, который он может получить, а потом ему может
понадобиться переключиться на более низкую скорость видеопотока, на пример, из-за падения пропускной способности сети.
SР-слои были разработаны для обеспечения переключений между по
добными кодированными видеопоследовательностями (например, для ко
дирования одного и того же видеоконтента с разными битовыми скоростя
ми), но без недостатка увеличения битовой скорости при использовании 1- слоев (рис. 3.47).
В точке переключения (кадр 2 в каждой последовательности) ставятся
три SР-слоя, каждый из которых кодируется с использованием прогноза
компенсации движения (что делает их более эффективными по сравнению с I-слоями). SР-слой А2 можно декодировать с помощью ссылочного сним
ка А1, а слой В2 - С помощью снимка В1. Ключевым элементом процесса
переключения служит SР-слой АВ2 (он называется nереключающим Sp- слоем), который построен таким образом, что его можно декодировать с использованием ссылочного снимка А 1 дЛЯ получения декодированного кадра В2 (то есть выход декодера В2 будет идентичен, как если бы ему предшествовал кадр В1)' В каждой точке переключения требуется помес тить SР-слой (на самом деле еще один SР-слой ВА2, который будет необхо-
3.4. Стандарт кодированного иредставления визуальной информации И.264/АУС или MPEG-4 |
183 |
||
|
|
Таблица 3.20 |
|
Схема переключения с потока А на поток В с помощью SР-слоев |
|
||
|
|
|
|
Вход декодера |
Ссылочный МС |
Выход декодера |
|
P-слойАо |
[Более ранний кадр] |
Декодир. кадр Ао |
|
P-слойА1 |
Декодир. кадр Ао |
Декодир. кадр A 1 |
|
SP-слойАВ2 |
Декодир. кадр A 1 |
Декодир. кадр В2 |
|
P-слойВз |
Декодир. кадр В2 |
Декодир. кадр Вз |
|
.. . |
.. . |
... |
|
дим при переключении в обратном направлении), однако это займет мень ший информационный объем, чем кодирование А2 и В2 как I-слоев. В табл. 3.20 перечислены шаги, которые необходимо совершить декодеру при пе реключении с потока А на поток В.
На рис. 3.48 показана упрощенная блок-схема процесса кодирования SP-слоя А2, при котором совершается вычитание версии с компенсацией
движения А! (декодированного кадра A1) из кадра А2, за которым следует
кодирование получившегося остатка. В отличие от «обычного» Р-слоя вы
читание производится в области преобразования (после совершения пре образования блока). SР-слой В2 кодируется аналогично (см. рис. 3.49).
Декодер, имея предыдущий кадр А2, может декодировать SР-слой А2, как показано на рис. 3.50.
Заметим, что приведенные структурные схемы являются упрощенны ми. На практике требуются еще шаги квантования и деквантования во из бежание разночтений кодера и декодера.
KaдpA2--------~
Кадр A~
Рис. 3.48. Упрощенная схема кодирования SP-слояА2
KaдpB2--------~
Кадр B~
Рис. 3.49. Упрощенная схема кодирования SР-слоя В2
SPA2-------------------- |
~ |
Кадр A~
Рис. 3.50. Упрощенная схема декодирования SP-слояА2
184 3. ПРАКТИЧЕСКОЕ ИСПОЛЬЗОВАНИЕ ВИДЕОКОМПРЕССИИ В ТЕЛЕВИДЕНИИ
Кадр 82 ----- 1
Кадр A~
Рис. 3.51. Упрощенная схема кодирования SP-слояАВ2
Кадр 8f
Кадр A~
Рис. 3.52. Упрощенная схема декодирования SP-слояАВ2
Упрощенное кодирование SP-слояАВ2 показано на рис. 3.51.
Кадр В2 (это кадр потока, куда происходит переключение) преобразу
ется и прогноз компенсации движения строится по А! (это кадр потока,
откуда идет переключение). Блок МС на этой блок-схеме пытается обна
ружить наилучшее совпадение для каждого макроблока кадра В2, исполь зуя В качестве ссылки кадр А1. Прогноз компенсации движения преобразу
ется, затем вычитается из преобразованного В2 (то есть в случае слоя SP вычитание производится в области преобразования). Остаток (после вычи тания) квантуется, кодируется и посылается.
Декодер, который ранее декодировал Ai, может декодировать SР-слой АВ2 дЛЯ построения В2 (рис. 3.52). Кадр А! прогнозируется с компенсаци
ей движения (с помощью вектора движения, закодированного как часть АВ2), преобразуется и прибавляется к декодированному и деквантованному
остатку, после чего к результату применяется обратное преобразование для
получения В2 .
Если потоки А и В представляют собой версии одной и той же видео последовательности, закодированной с разными битовыми скоростями, то
прогноз компенсации движения кадра В2 по кадру А! (SР-слой АВ2) дол
жен быть достаточно эффективным. Дополнительные исследования пока
зывают, что использование SP-слоев при переключении между различны ми версиями одной и той же последовательности является значительно бо
лее эффективным, чем вставка I-слоев в точках переключения. Другое
применение SР-слоев заключается в обеспечении случайного доступа и
функционирования по типу VCR. Например, SР-слой и переключающий SР-слой помещаются вместо кадра 10 (см. рис. 3.53). Декодер может быст
ро перейти вперед от кадра Ао к кадру А10, продекодировав Ао, а затем про
декодировав переключающий SР-слой АО-10 дЛЯ получения А10, прогнози руя его по Ао.
Расширенный профиль поддерживает еще один тип переключающих слоев, а именно SI-слои. Эти слои используются так же, как и SР-слои, за
3.4. Стандарт кодированного иредставления визуальной информации И.264/АУС или MPEG-4 |
185 |
|
Р-слои |
SР-слои |
|
Ао |
... - |
|
Ав |
- |
|
Ag |
- |
|
А10 |
- |
|
А11 |
- |
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Рис. 3.53. Схема быстрого перехода вперед с использованием SР-слоев
исключением того, что прогнозы формируются В модах прогнозов intra-
блоков 4х4 по ранее декодированным пикселям реконструируемого кадра. Этот слой можно использовать, например, при переключении от одной по
следовательности к другой (в этом случае нет смысла строить прогноз
компенсации движения, так как нет корреляции между двумя этими после
довательностями).
Слои деления данных
Кодированные данные, которые составляют слой, разделяются на три
отдельные части (А, В и С), в каждой из которых хранится подмножество
кодированного слоя. В части А хранится заголовок слоя и данные заголов ков каждого макроблока слоя. Часть В состоит из кодированных остаточных
данных для макроблоков intra и SI-слоев. В части С находятся остаточные данных iпtеr-кодированных макроблоков (в прямой и двунаправленной мо де). Каждая часть деления слоя может помещаться в отдельную единицу
NAL и, следовательно, может транспортироваться самостоятельно.
Если часть данных А будет потеряна, то, вероятно, будет трудно или
невозможно реконструировать слой, значит, эта часть весьма чувствитель
на к ошибкам транспортировки. Части В и С можно (при аккуратном вы боре параметров кодирования) построить независимо декодируемыми, и
декодер может декодировать только А и В или только А и С, что означает определенную гибкость кодированных видеоданных при передаче по за
шумленным каналам.
3.4.5. Масштабируемое видеокодирование Н.264/АVC SVC
Во многих практических приложениях при передаче цифрового теле видения требуется наличие нескольких версий исходного видеопотока, различающегося по качеству (например, пространственное разрешение,
186 |
3. ПРАКТИЧЕСКОЕ ИСПОЛЬЗОВАНИЕ ВИДЕОКОМПРЕССИИ В ТЕЛЕВИДЕнии |
частота кадров и т.д.). Задача может быть решена при независимом коди ровании каждого потока с помощью кодека Н.264/АУС. Данный подход
используется, например, при организации телевизионного вещания по ка
налам передачи данных с различной полосой пропускания.
Основной недостаток такого вешания заключается в том, что одна и та же видеопоследовательность кодируется в три битовых потока, содержа щих значительную избыточность. Причем для повышения качества пере даваемой информации необходимо расширение пропускной способности
канала. При ограниченных ресурсах канала повышение качества можно
добиться благодаря уменьшению избыточности в передаваемых потоках путем масштабирования информационных параметров.
Целью масштабируемого кодирования видео (Scalable Video Coding. SVC) является адаптация скорости передаваемой информации к пропуск ной способности каналов передачи данных благодаря сокращению избы
точности в различных версиях одной и той же видеопоследовательности.
На практике одиночный SVС-кодер генерирует фактически несколько битовых потоков, называемых уровнями (layers). Нижний или базовый уро вень base layers (уровень О) - это поток, который декодируется стандартным
одноуровневым декодером, например, Н.264-декодером, содержит видео
последовательность с самым низким из доступных параметров качества
(разрешением). Один или несколько более улучшенных уровней (enhancement layers), уровни 1 и 2 в этом примере, кодируются как SVС-ПОТОКИ. ДЛЯ
получения последовательности лучшего качества, SVС-декодер декодирует базовый уровень и один или несколько улучшенных уровней.
Масштабируемое кодирование SVC использует имеющуюся избыточ
ность последовательностей различного разрешения для улучшения качест
ва принимаемой информации от низкого качества, соответствующего базо вому уровню, до наилучшего качества при декодировании информации с
использованием всех улучшающих уровней. Таким образом, в отличие от вещания с независимым кодированием при масштабируемом кодировании предъявляются меНЫllие требования к пропускной способности каналов для обеспечения необходимого качества вещания.
Область "рименения масштабируемого видеокодирования
Рассмотрим основные приложения, в которых эффективно примене
ние масштабируемого кодирования видео.
1. Множество устройств, обладающих различными возможностями
приема информации.
Все чаще один и тот же видеоматериал кодируется и передается на множество устройств, обладающими различными техническими характе
ристиками.
Ряд факторов может ограничивать возможности конкретного устрой
ства: скорость соединения, разрешение экрана и процессорная мощность.
Масштабирование видеопотока позволяет поддерживать широкий диапа-
3.4. Стандарт кодированного иредставления визуальной информации Н.264/АУС или MPEG-4 |
187 |
зон декодирующих устройств с максимально возможным качеством прие
ма информации для каждого из них. 2.IР-nрило~ения.
Телевизионное вещание, как правило, имеет четко определенный га
рантированный канал передачи. Однако в IР-приложениях, таких как ви деоконференции или IPTV, качество приема информации зависит от раз личных факторов. В частности, от объема передаваемого трафика, от за держек (заторов) в сети, связанных с изменением параметров каналов пе редачи данных в течение сеанса видеоконференцсвязи или во время про
смотра зрителями телевизионных вещательных программ.
Масштабируемое кодирование предлагает механизмы максимизации
качества в конкретный момент времени для заданного декодера. Напри
мер, сервер потокового вещания передает базовый и улучшенные уровни
видеоматериала. Декодер пытается получить все доступные передаваемые уровни. Если все уровни успешно получены, декодер выдает максимально
доступную по качеству информацию. Если в процессе передачи изменяет
ся пропускная способность канала, или возникают задержки благодаря
увеличению объема передаваемого трафика, декодер работает только с ос новным (базовым) уровнем вещания.
Пока основной уровень успешно декодируется, происходит стабиль ное отображение видеопоследовательности с базовым качеством. Это оз начает, что базовый уровень является крайне важным и должен переда ваться с более высоким приоритетом, нежели улучшенные уровни.
3. Архивация.
Хранение видеоряда в виде масштабируемого потока, позволяет орга низовать быстрый предварительный просмотр видеопотока с низким каче ством. Например, НD-последовательность кодируется как ряд масштаби руемых уровней. Предварительное извлечение только базового уровня по зволяет быстро получить с низким качеством версию всей НD-последо
вательности.
Классы масштабируемости
Масштабируемое кодирование видео (SVC) включено в стандарт Н.264/АУС в качестве приложения (Annex G) и расширяет возможности оригинального стандарта. Стандарт Н.264/АУС SVC поддерживает три ос
новных класса масштабируемости.
1. Просmрансmвенная масштабируемость.
Пространственное разрешение дает горизонтальные и вертикальные
размеры видео в пикселях, создавая несколько известных «видео форма тов», такие как QCIF (l76 x144 пикселей), CIF (352 х288), SD (720 х 576) и HD (от 1280х720 до 1920 х 1080).
Способность стандарта SVC включать в себя, например, форматы 4:3 16:9 очень важное свойство пространственного масштабирования, обычно используемое в вешании SD/HD.
188 |
3. ПРАКТИЧЕСКОЕ ИСПОЛЬЗОВАНИЕ ВИДЕОКОМПРЕССИИ В ТЕЛЕВИДЕнии |
Пространственное масштабирование обычно может использоваться для передачи одного видео потока битов в Ре и портативные устройства или на телевизоры SD и HD.
Базовый уровень кодируется с низким пространственным разрешени
ем. Добавление уровней улучшения увеличивает пространственное разре
шение декодируемой последовательности.
2. Временное масштабирование.
Базовый уровень кодируется с низким BpeMeHHIJIM разрешением или
низкой кадровой скоростью. Добавление уровней улучшения увеличивает
кадровую скорость декодируемой последовательности.
3. Масштабируемость качества.
Масштабирование качества предназначено для обеспечения разных
уровней детальности и точности исходного видео, имеющих одинаковые
пространственные и BpeMeHHIJIe определения.
Базовый уровень кодируется с низким визуальным качеством, ис
пользуя соответствующие параметры квантования. Добавление уровней
улучшения увеличивают визуальное качество декодируемой последова
тельности.
3.4.6. Многоракурсное видеокодирование Н.264/АVC MVC
Рождение многоракурсного видеокодирования обусловлено, в первую
очередь, появлением воспроизводящих телевизионных устройств автосте
реоскопического типа, не требующих очков для наблюдения стереоскопи
ческих (многоракурсных) изображений. Например, жидкокристаллический экран стандарта Super Hi-Vision с ультравысоким разрешением в 7680х4220 пикселей, к фронтальной плоскости которого прикреплены цветной светофильтр, состоящий из совокупности чередующихся горизон тальных полосок фильтров основных цветов R, G и В, в сочетании с опти
ческим растром, обеспечивает воспроизведение 24-ракурсных изображе ний с горизонтальным разрешением в 960 пикселей.
Многоракурсное видео, записанное синхронизированными фотоили видеокамерами с различных точек наблюдения (ракурсов), даст обширную 3D-информацию о сцене и расширяет зрительские впечатления по сравне
нию с традиционным видео. Благодаря усовершенствованию технологий захвата и отображения, многоракурсное видео станет востребованным в
потребительской сфере, включая 3DTV и телевидение с произвольной точ кой наблюдения (РУТУ - Free Viewpoint ТУ). 3DTV обеспечивает трех
мерное ощущение глубины наблюдаемого вида, а РУТУ даст возможность
интерактивного выбора точки наблюдения и направления в пределах опре деленного рабочею диапазона углов обзора, за счет чего воспроизводится эффект оглядывания рассматриваемых объектов, создающий наибольшую выразительность отображения. Реализация 3D-приложений зависит от пол-
3.4. Стандарт кодированного иредставления визуальной информации Н.264/АУС или MPEG-4 |
189 |
ного цикла обработки, включая захват, сжатие, передачу, отображение и интерактивное представление. Среди них МУС является одной из наиболее многообещающих технологий, поскольку огромный объем данных, про порциональный числу камер, должен быть сжат до такой степени, чтобы его можно было передавать в пределах возможностей сетей связи.
Начиная с 2001 года специальная группа МPEG 3DAV (3D-аудио- и визуальные системы) проводила исследование тематики мус. В июле 2005 года она выпустила официальное информационное письмо для вы движения основанных на экспериментальных данных требований, предъ являемых к технологии мус. Все представленные в ответ на информаци онное письмо предложения были обратно совместимы со стандартом Н.264/АУс. После проведенных в течение года сравнительных испытаний и оценки была реализована первая модель МУС. Поправка МУС к стан дарту Н.264/АУС, наряду с BpeMeHHIJIM предсказанием, предполагает ис пользование межракурсного (inter-) предсказания для устранения межра курсной статистической избыточности.
Поправка МУС допускает широкий диапазон совместно применяемых структур временн6го и межракурсного предсказания, что делает возмож
ным достижение компромисса между эффективностью кодирования и сложностью декодирования, включая управление задержкой и буфером
декодированною изображения.
Ключевым аспектом дополнения МУС является то, что поток данных,
полученный в результате сжатия многоракурсной видеопоследовательно
сти, содержит данные так называемого базового или основного ракурса
(base view), который кодируется независимо от всех остальных ракурсов,
что обеспечивает совместимость с декодерами, которые могут работать только с обычным двумерным изображением. При этом данные о соседних
ракурсах являются дополнительной информацией.
Исходя из требования совместимости, закодированные данные МУС,
как и в случае обычного функционирования кодера Н.264, организуются в
блоки (или единицы) NAL (Network Abstraction Layer). Причем видеоин
формация, относящаяся к базовому ракурсу, инкапсулируется в обычные блоки NAL, описываемые стандартом Н.264, а информация о дополнитель ных (non-base view) ракурсах инкапсулируется в расширенный тип блоков
NAL. ДЛЯ распознавания различных типов данных используются указатели
типа блока NAL (NUT-NAL unit type). Таким образом, поток МУС является обратно совместимым с Н.264/АУС, что позволяет декодировать видеосиг нал, игнорируя дополнительную информацию о различных ракурсах [34].
Основной задачей МУС является минимизация неотъемлемой избы
точности многоракурсного изображения. Избыточность многоракурсных сцен может быть устранена путем введения предсказания между ракурса ми, то есть межракурсного предсказания (inter-view prediction), что и по требовало расширения стандарта Н.264.
