(по цифровому вещанию) Dvorkovich_V_Cifrovye_videoinformacionnye_sistemy
.pdfГлава14. Стандарты кодирования динамических изображений
ировать произвольные формы видеообъектов. Расширенная манипуляция содержанием видеопоследовательностей позволяет использовать такие возможности, как деформация синтетических и естественных объектов, текстур, изображений в восстановленном контенте видео.
Стандарт поддерживает различные виды масштабируемости текстур, изображений и видео:
–масштабируемость сложности на кодере позволяет кодерам разной производительности создавать правильные битовые потоки для заданных текстур, изображений и видео;
–масштабируемость сложности на декодере позволяет декодировать потоки, содержащие текстуры, изображения и видео, декодерами разной степени сложности (качество восстановленных объектов, вообще говоря, связано со сложностью используемого декодера — менее мощные декодеры декодируют только часть битового потока);
–пространственная масштабируемость позволяет декодировать часть полного битового потока, генерируемого кодером, для восстановления и показа текстур, изображений и видеообъектов при уменьшенном пространственном разрешении (поддерживается до 11 уровней пространственной масштабируемости);
–временная масштабируемость позволяет декодеру декодировать часть полного битового потока, генерируемого кодером, для восстановления и показа видео при уменьшенном временном разрешении (поддерживается до 3 уровней временной масштабируемости);
–масштабируемость качества позволяет разбирать поток на несколько уровней с разной битовой скоростью так, что комбинация подмножества уровней может быть декодирована в осмысленный сигнал; разбор битового потока может происходить как при передаче, так и на декодере, а восстановленное качество, вообще говоря, связано с количеством слоев, использованных для декодирования и восстановления.
Стандарт предоставляет возможность кодирования формы объектов и их прозрачности (альфа-канал).
Кодирование формы позволяет описывать объекты произвольной формы. Приложения, которые используют двоичные побитовые карты изображения, служат для презентаций баз данных изображений, интерактивных игр, наблюдения, и анимации. Предлагаются эффективные методы кодирования двоичных форм.
Двоичная альфа-маска определяет, принадлежит или нет пиксел объекту. Она может быть включена или выключена. Альфа-канал определяет прозрачность объекта, которая не обязательно является однородной. Многоуровневые альфа-карты часто используются для затенения различных слоев последовательности изображений. Другими приложениями, которые используют при работе с изображениями ассоциированные двоичные альфа-маски, являются презентации баз данных изображений, интерактивные игры, наблюдения и анимация. Предлагаются методики, которые позволяют эффективно кодировать двоичные и альфа-плоскости с серой шкалой изображения. Маска с серой шкалой предоставляет возможность точно определить прозрачность каждого пиксела.
14.5. MPEG-4. Обобщенное кодирование аудиовизуальных объектов
Стандарт обеспечивает высокую надежность при работе с каналами передачи или средствами хранения, которые могут вносить ошибки. Это включает в себя операции алгоритмов сжатия данных в среде, подверженной сбоям при низких скоростях передачи (меньше 64 кбита/с).
Часть стандарта, связанная с анимацией лица, позволяет посылать параметры, которые помогают специфицировать и анимировать синтезированные лица. Эти модели не являются сами частью стандарта MPEG-4, стандартизирован только ряд параметров: определение и кодирование анимационных параметров лица (модельно независимое); позиции характерных деталей и их ориентация для определения сеток при анимации лица; визуальные конфигурации губ, соответствующие фонемам речи; определение и кодирование параметров описания лица (для калибровки модели); трехмерные позиции характерных признаков (деталей); трехмерные калибровочные сетки для анимации головы; текстурная карта лица; персональные характеристики; кодирование лицевой текстуры.
Стандарт обеспечивает эффективное кодирование двумерных и трехмерных сеток. Видеообъект в сцене — это объект, к которому пользователю разрешен доступ (поиск, просмотр) и обработка (удаление и вставка). Экземпляры видеообъектов в заданное время называются плоскостями видеообъекта (VOP). В процессе кодирования генерируется закодированное представление VOP, а также информация о композиции, которую требуется отобразить. Кроме того, пользователь может взаимодействовать с процессом композиции в декодере и изменять его по мере необходимости.
Полный синтаксис позволяет кодировать как прямоугольные видеообъекты в сцене, так и имеющие произвольную форму. Кроме того, синтаксис поддерживает как немасштабируемое, так и масштабируемое кодирование. Таким образом, становится возможным работать как с обычной, так и с объектно-ориентированной масштабируемостью. Масштабируемый синтаксис позволяет восстановить полезные видеоданные из фрагментов общего битового потока. Это достигается путем структурирования общего битового потока на два или более уровня, начиная с автономного нижнего слоя и добавляя ряд уровней расширения. Для кодирования нижнего слоя может быть использован немасштабируемый синтаксис, или, в случае кодирования изображений, даже синтаксис различных стандартов кодирования видео.
Для обеспечения возможности распознавания индивидуальных объектов необходимо получить представление их формы в закодированном виде. Естественный видеообъект состоит из последовательности двумерных представлений (в различные моменты времени), именуемых плоскостями видеообъекта (VOP). Для эффективного кодирования VOP используется устранение как временной, так и пространственной избыточности. Таким образом, представление VOP в закодированном виде включает представление их формы, движения и структуры.
Для достижения сильного сжатия используется несколько методов. Сначала алгоритм запускает компенсацию движения на основе блоков для уменьшения временной избыточности. Компенсация движения используется как для каузального предсказания текущей VOP по предыдущей VOP, так и для некаузального, интерполяционного предсказания по прошедшим и последующим VOP. Векторы движения определяются для каждой области VOP (макроблока) размером 16 × 16 отсчетов или 8 × 8 отсчетов (в компоненте яркости) в зависимости от
Глава14. Стандарты кодирования динамических изображений
требований. Затем ошибка предсказания сжимается при помощи дискретного косинусного преобразования (ДКП) для устранения пространственной корреляции до квантования, в необратимом процессе которого менее важная информация отбрасывается. В заключение сведения о форме, векторы движения и квантованные данные ДКП кодируются с использованием кодов переменной длины.
Вследствие противоречащих друг другу требований произвольного доступа и высокоэффективного сжатия определено три основных типа плоскостей видеообъекта (VOP). VOP с внутрикадровым кодированием (I-VOP) кодируются независимо от других изображений. Они обеспечивают точки доступа к закодированной последовательности, в которых может начаться декодирование, но кодируются с умеренным сжатием. VOP с применением кодирования с предсказанием (P-VOP) кодируются более эффективно при использовании предсказания с компенсацией движения по предшествующим VOP, закодированным при помощи внутрикадрового кодирования или кодирования с предсказанием, и обычно используются в качестве опорных для дальнейшего предсказания. VOP, закодированные с двусторонним предсказанием (B-VOP), обеспечивают наивысшую степень сжатия, но требуют для компенсации движения как предшествующих, так и последующих опорных VOP. VOP, закодированные с двусторонним предсказанием, никогда не используются в качестве опорных для предсказания (за исключением тех случаев, когда возникающая в результате VOP используется в качестве опорной для уровня с масштабируемым расширением). Сформированная из трех типов VOP последовательность является очень гибкой структурой. Выбор оставлен за кодером, он будет зависеть от требований приложения.
Всценах естественного видео VOP генерируются путем сегментации сцены
всоответствии с определенным семантическим значением. Таким образом, для этих сцен сведения о форме являются двоичными (двоичная форма). Сведения о форме также называются альфа-каналом. Двоичный альфа-канал кодируется на основе макроблоков при помощи кодера, использующего данные контекста, компенсацию движения и арифметическое кодирование.
Для кодирования формы VOP сначала создается ограничительный прямоугольник, он расширяется до множества из блоков размером 16 × 16 с расширенными обнуленными альфа-отсчетами. Затем инициируется кодирование формы на основе блоков 16×16; эти блоки также называются двоичными альфа-блоками.
Блоки 16 × 16 (макроблоки) выбраны в качестве единицы компенсации движения в результате компромисса между необходимостью увеличения эффективности кодирования за счет учета движения объектов и необходимостью передачи дополнительного объема данных об этом движении. В зависимости от того, насколько позволяет дополнительный объем данных, каждый макроблок может быть в дальнейшем разбит на блоки 8 × 8 для оценки и компенсации движения.
ВMPEG-4 определено множество видеопрофилей, список и характерные черты которых приведены в табл. 14.25.
Профили MPEG-4/Видео определяют инструменты кодирования, а параметры формируемых битовых потоков задаются так называемыми уровнями. Каждый уровень устанавливает ограничения на максимальную производительность, требуемую для декодирования битового потока в стандарте MPEG-4. Например, мультимедийный терминал с маломощным процессором и ограниченной памятью сможет обеспечить работу кодека простого профиля с уровнем L0. Уровень
14.5. MPEG-4. Обобщенное кодирование аудиовизуальных объектов
определяет ограничения на объем буфера памяти, размер видеокадра и частоту следования кадров, скорость обработки потока, число видеообъектов. Высокие уровни соответствующего профиля должны справляться с обработкой информации более низкого уровня.
Таблица 14.25. Профили MPEG-4/Видео
№ |
Видео профили |
Специфические особенности |
|
|
Простой |
Обеспечивает эффективное, устойчивое к ошибкам кодирование |
|
1. |
прямоугольных видеообъектов, подходящих для приложений, |
||
(Simple) |
|||
|
используемых в мобильных сетях. |
||
|
|
||
|
Простой |
Содержит только прямоугольные объекты, но имеет несколько |
|
|
дополнительных средств, которые делают его более |
||
|
продвинутый |
||
2. |
эффективным: B-кадры, компенсация движения деталей до |
||
(Advanced |
|||
|
1/4 пиксела и компенсация общего перемещения изображения |
||
|
Simple) |
||
|
(глобальная компенсация движения, GMC). |
||
|
|
||
|
|
Обеспечивает поддержку кодирования временных |
|
|
Простой мас- |
и пространственных масштабируемых объектов в простом |
|
|
профиле, полезен для приложений, обеспечивающих услуги на |
||
3. |
штабируемый |
||
более чем одном уровне качества, связанных с ограничениями |
|||
|
(Simple Scalable) |
||
|
скорости передачи данных или ресурсами декодера, такими как |
||
|
|
||
|
|
использование Интернете и программное декодирование. |
|
|
Простой |
Реализует продвинутый метод кодирования прямоугольных |
|
|
продвинутый |
||
|
видеообъектов, устойчивый к ошибкам, использующий обратный |
||
|
реального |
||
|
канал и улучшенную стабильность временного разрешения при |
||
4. |
времени |
||
минимальной задержке буферизации. Он удобен для |
|||
|
(Advanced |
||
|
кодирования в случае приложений реального времени, таких как |
||
|
Real-Time |
||
|
видеотелефон, телеконференции и удаленное наблюдение. |
||
|
Simple) |
||
|
|
||
|
|
|
|
|
|
Применяется в приложениях студийного редактирования, |
|
|
Простой |
обеспечивая очень высокое качество кодирования. Он работает |
|
5. |
студийный |
только с I-кадрами, но действительно поддерживает |
|
|
(Simple Studio) |
произвольные формы и большое число alpha-каналов. |
|
|
|
Возможная скорость передачи достигает 2 Гбита/c. |
|
|
|
|
|
|
|
Обеспечивает поддержку кодировки масштабируемых по времени |
|
6. |
Основной (Core) |
объектов произвольной формы в простой визуальный профиль, |
|
полезен для приложений, осуществляющих относительно |
|||
|
|
||
|
|
простую интерактивность (Интернет, мультимедиа). |
|
|
|
|
|
|
|
Комбинирует возможность декодирования видеообъектов |
|
|
|
произвольной формы (как в основном визуальном профиле) |
|
|
Основной |
с возможностью декодирования масштабируемых статических |
|
7. |
продвинутый |
объектов произвольной формы (как в продвинутом |
|
|
(Advanced Core) |
масштабируемом профиле текстур). Он удобен для различных |
|
|
|
мультимедийных приложений, таких как интерактивная |
|
|
|
передача потоков мультиимедиа через Интернет. |
|
|
|
Реализует поддержку кодирования объектов произвольной |
|
|
|
формы с пространственным и временным масштабированием в |
|
|
Основной мас- |
дополнение к основному профилю. Главной особенностью этого |
|
8. |
штабируемый |
профиля является масштабируемость (пространственная, |
|
|
(Core Scalable) |
временная и сигнал/шум) для областей и объектов, |
|
|
|
представляющих интерес. Он полезен для таких приложений, |
|
|
|
как Интернет, мобильные сети и видеовещание. |
|
|
|
|
|
|
Основной |
Дополняет простой студийный вариант P-кадрами, делая его |
|
9. |
студийный |
||
более эффективным, но требующим более сложной реализации. |
|||
|
(Core Studio) |
||
|
|
||
|
|
|
Глава14. Стандарты кодирования динамических изображений
Таблица 14.25 (продолжение)
|
|
Дополняет кодирование чересстрочных, полупрозрачных |
|
10. |
Главный (Main) |
и виртуальных объектов в основном профиле. Он полезен для |
|
интерактивного широковещательного обмена (с высоким |
|||
|
|
||
|
|
качеством) и для DVD-приложений. |
|
|
|
|
|
|
Улучшенной |
Реализует устойчивый к ошибкам продвинутый метод |
|
|
кодирования прямоугольных видеообъектов, использующий |
||
|
эффективности |
||
|
обратный канал и улучшенную стабильность временного |
||
11. |
кодирования |
||
разрешения при минимальной задержке буферизации. Он удобен |
|||
|
(Advanced Coding |
||
|
для кодирования в случае приложений реального времени, таких |
||
|
E ciency) |
как видеотелефон, телеконференции и удаленное наблюдение. |
|
|
|
||
|
|
|
|
|
|
Добавляет поддержку кодирования видеообъектов, имеющих |
|
12. |
N-битовый |
пиксельную глубину в диапазоне от 4 до 12 битов, в главный |
|
(N-bit) |
профиль. Он удобен для использования в приложениях |
||
|
|||
|
|
видеонаблюдения. |
|
|
|
|
|
|
Масштабируе- |
Допускает большое число масштабных уровней (до 8), так что |
|
|
мый профиль |
||
|
качество доставки можно легко адаптировать к условиям |
||
|
мелкой |
||
13. |
передачи и декодирования. Он может использоваться с простым |
||
гранулярности |
|||
|
или продвинутым простым профилем в качестве базового |
||
|
(Fine Granular |
||
|
уровня. |
||
|
Scalability) |
||
|
|
||
|
|
|
|
|
|
Предоставляет пространственное масштабируемое кодирование |
|
|
Масштабируе- |
статических объектов изображений (текстур), полезное для |
|
|
приложений, где нужны уровни масштабируемости, такие как |
||
14. |
мых текстур |
||
установление соответствия между текстурой и объектами игр, |
|||
|
(Scalable Texture) |
||
|
а также для работы с цифровыми фотокамерами высокого |
||
|
|
||
|
|
разрешения. |
|
|
|
|
|
|
|
Поддерживает декодирование текстур произвольной формы |
|
|
|
и статических изображений, включая масштабируемое |
|
|
Продвинутый |
кодирование формы, мозаичное заполнение и повышенную |
|
|
устойчивость к ошибкам. Полезен для приложений, требующих |
||
|
масштабируе- |
||
|
быстрого произвольного доступа, а также нескольких уровней |
||
15. |
мых текстур |
||
масштабируемости и кодирования статических объектов |
|||
|
(Advanced |
||
|
произвольной формы. Примерами таких приложений могут |
||
|
Scalable Texture) |
||
|
служить просмотр статических изображений в Интернете, |
||
|
|
||
|
|
а также считывание через Интернет изображений, полученных |
|
|
|
из цифровых фотоаппаратов с высоким разрешением. |
|
|
|
|
|
|
Основной |
|
|
|
анимации |
Предоставляет пространственную масштабируемоcть, |
|
16. |
двумерных |
масштабируемоcть сигнал/шум и анимацию, базирующуюся на |
|
текстур (Basic |
сетках для статических объектов изображений (текстур), |
||
|
|||
|
Animated |
а также простую анимацию объектов лица. |
|
|
2D-Texture) |
|
|
|
|
|
|
|
Простой |
Предоставляет простые средства анимации модели лица, |
|
|
анимации лиц |
||
17. |
удобные для таких приложений, как аудио/видеопрезентации |
||
(Simple Face |
|||
|
для лиц с ухудшенным слухом. |
||
|
Animation) |
||
|
|
||
|
|
|
|
|
|
|
14.5. MPEG-4. Обобщенное кодирование аудиовизуальных объектов |
|||||||||
|
Таблица 14.25 (окончание) |
|
|
|
|
|
|
||||||
|
|
|
|
Простой |
|
|
|
|
|
|
|
|
|
|
|
|
|
анимации лиц |
Является надстройкой профиля простой анимации лица с |
|
|||||||
|
18. |
|
и тела (Simple |
|
|||||||||
|
|
|
|
добавлением анимации тела. |
|
|
|
||||||
|
|
|
|
Facial and Body |
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
Animation) |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Комбинирует возможность декодировать масштабируемые |
|
||||||
|
|
|
|
|
|
объекты натурального видеопроизвольной формы (как в главном |
|
||||||
|
19. |
|
Гибридный |
визуальном профиле) с возможностью декодировать несколько |
|
||||||||
|
|
(Hybrid) |
синтетических и гибридных объектов, включая анимационные |
|
|||||||||
|
|
|
|
|
|||||||||
|
|
|
|
|
|
статические объекты изображения. Он удобен для различных |
|
||||||
|
|
|
|
|
|
|
|
сложных мультимедиа приложений. |
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
||
|
В табл. 14.26 приводятся некоторые параметры уровней рядя профилей обра- |
||||||||||||
ботки динамических изображений. |
|
|
|
|
|
|
|||||||
|
Таблица 14.26. Уровни профилей кодирования/декодирования |
|
|
|
|||||||||
|
|
|
|
динамических изображений |
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
Максималь- |
Максимальное |
|
||
|
|
№ |
Профиль |
|
Уровень |
|
Разрешение |
|
ная |
количество |
|
||
|
|
|
|
|
|
|
|
|
скорость |
объектов |
|
||
|
|
1. |
Простой |
|
L0 |
|
QCIF (176×144) |
64 |
кбита/с |
1 |
|
|
|
|
|
|
|
|
|
L1 |
|
QCIF |
64 |
кбита/с |
4 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
L2 |
|
CIF (352×288) |
128 |
кбитов/с |
4 |
|
|
|
|
|
|
|
|
L3 |
|
CIF |
384 кбита/с |
4 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2. |
Простой |
|
L0 |
|
QCIF |
128 |
кбитов/с |
1 |
|
|
|
|
продвинутый |
|
|
|
|
||||||||
|
|
|
|
|
|
L1 |
|
QCIF |
128 |
кбитов/с |
4 |
|
|
|
|
|
|
|
|
L2 |
|
CIF |
384 кбита/с |
4 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
L3 |
|
CIF |
768 |
кбитов/с |
4 |
|
|
|
|
|
|
|
|
L4 |
|
352×576 |
3 Mбита/с |
4 |
|
|
|
|
|
|
|
|
|
L5 |
|
720×576 |
8 Mбитов/с |
4 |
|
|
|
|
|
|
|
Простой |
|
|
|
|
|
|
|
|
|
|
3. |
масштабиру- |
|
L1 |
|
CIF |
128 |
кбитов/с |
4 |
|
|
||
|
|
|
|
емый |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
L2 |
|
CIF |
256 |
кбитов/с |
4 |
|
|
|
|
|
|
Простой |
|
|
|
|
|
|
|
|
|
|
4. |
продвинутый |
|
L1 |
|
QCIF |
64 |
кбита/с |
4 |
|
|
||
|
|
|
|
реального |
|
|
|
|
|
|
|
|
|
|
|
|
|
времени |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
L2 |
|
CIF |
128 |
кбитов/с |
4 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
L3 |
|
CIF |
384 кбита/с |
4 |
|
|
|
|
|
|
|
|
|
L4 |
|
CIF |
2 Mбита/с |
16 |
|
|
Глава14. Стандарты кодирования динамических изображений
Таблица 14.26 (окончание)
5. |
Простой |
L1 |
ITU-R 601:422 |
180 Mбитов/с |
1 |
|
студийный |
ITU-R 601:444 |
|||||
|
|
|
|
|||
|
|
L2 |
ITU-R 601:422 |
600 Mбитов/с |
1 |
|
|
|
ITU-R 601:444 |
||||
|
|
|
|
|
||
|
|
L3 |
ITU-R 709.601:444 |
900 Mбитов/с |
1 |
|
|
|
ITU-R 709.601:422 |
||||
|
|
L4 |
ITU-R 709.601:444 |
1800 |
1 |
|
|
|
Mбитов/с |
||||
|
|
|
|
|
||
6. |
Основной |
L1 |
QCIF |
384 кбита/с |
4 |
|
|
|
L2 |
CIF |
2 Mбита/с |
16 |
|
7. |
Основной |
L1 |
QCIF |
384 кбита/с |
4 |
|
продвинутый |
||||||
|
|
L2 |
CIF |
2 Mбита/с |
16 |
|
|
Основной |
|
|
|
|
|
8. |
масштабиру- |
L1 |
CIF |
768 кбитов/с |
4 |
|
|
емый |
|
|
|
|
|
|
|
L2 |
CIF |
1,5 Mбитов/с |
8 |
|
|
|
L3 |
ITU-R 601 |
4 Mбита/с |
16 |
|
9. |
Основной |
L1 |
ITU-R 601:422 |
90 Mбитов/с |
4 |
|
студийный |
ITU-R 601:444 |
|||||
|
|
|
|
|||
|
|
L2 |
ITU-R 709.601:422 |
300 Mбитов/с |
4 |
|
|
|
|
ITU-R 601:444 |
|
|
|
|
|
L3 |
ITU-R 709.601:444 |
450 Mбитов/с |
8 |
|
|
|
ITU-R 709.601:422 |
||||
|
|
|
ITU-R 709.601:444 |
|
|
|
|
|
L4 |
ITU-R 709.601:444 |
900 Mбитов/с |
16 |
|
|
|
|
2K×2K×30P:444 |
|
|
|
10. |
Главный |
L2 |
CIF |
2 Mбита/с |
16 |
|
|
|
L3 |
ITU-R 601 |
15 Mбитов/с |
32 |
|
|
|
L4 |
1920×1088 |
38,4 Mбитов/с |
32 |
|
|
Улучшенной |
|
|
|
|
|
11. |
эффективно- |
L1 |
CIF |
384 кбита/с |
4 |
|
|
сти |
|
|
|
|
|
|
кодирования |
|
|
|
|
|
|
|
L2 |
CIF |
2 Mбита/с |
16 |
|
|
|
L3 |
ITU-R 601 |
15 Mбитов/с |
32 |
|
|
|
L4 |
1920×1088 |
38,4 Mбитов/с |
32 |
|
12. |
N-битовый |
L2 |
CIF |
2 Mбита/с |
16 |
|
|
Масштабиру- |
|
|
|
|
|
13. |
емый профиль |
L0 |
QCIF |
128 кбитов/с |
4 |
|
|
мелкой грану- |
|
|
|
|
|
|
лярности |
|
|
|
|
|
|
|
L1 |
QCIF |
128 кбитов/с |
4 |
|
|
|
L2 |
CIF |
384 кбита/с |
4 |
|
|
|
L3 |
CIF |
768 кбитов/с |
4 |
|
|
|
L4 |
352×576 |
3 Mбита/с |
4 |
|
|
|
L5 |
720×576 |
8 Mбитов/с |
4 |
Таким образом, стандарт MPEG-4 определяет принципы работы с контентом, цифровым представлением медиаданных, для трех областей: собственно интерактивного мультимедиа (включая продукты, распространяемые на оптических дисках и через компьютерные сети), графических приложений (синтетического контента) и цифрового телевидения. Фактически данный формат задает пра-
14.6. H.264/MPEG-4 часть 10 AVC — улучшенное видеокодирование
вила организации объектно-ориентированной среды. Он имеет дело не просто
спотоками и массивами медиаданных, а с медиаобъектами (ключевое понятие стандарта).
Стандарт MPEG-4 предоставляет пользователям гибкие средства работы с мультимедийным контентом. Помимо работы с аудио и видео формат позволяет работать с естественными и синтезированными компьютером двумерными и трехмерными объектами, производить привязку их взаимного расположения и синхронизацию друг относительно друга, а также указывать их интерактивное взаимодействие с пользователем. Кроме того, формат обеспечивает доступ к мультимедийной информации через каналы различной пропускной способности.
Кардинальное нововведение при компрессии видео в MPEG-4 заключается в следующем. В отличие от предыдущих форматов, которые делили изображение на прямоугольники, при обработке изображений кодек оперирует объектами
спроизвольной формой. К примеру, человек, двигающийся по комнате, будет воспринят как отдельный объект, перемещающийся относительно неподвижного объекта — заднего плана. Естественно, алгоритмы поиска и обработки подобных объектов требуют гораздо больше вычислительных ресурсов, чем при применении стандартов MPEG-1 или MPEG-2. Но с учетом быстродействия современных компьютеров последнее обстоятельство нельзя рассматривать сегодня как крупное препятствие на пути широкого распространения формата MPEG4.
!
В2001 г. VCEG (Группа экспертов по видеокодированию МСЭ-Т, SG16 Q.6) и MPEG (Экспертная группа по движущимся изображениям ISO/IEC, JTC 1/SC 29/WG 11) сформировали совместную видеогруппу (JVT) с полномочиями завершения пректа нового стандарта видеокодирования, который был утвержден как H.264/AVC в 2003 г. [5.48, 5.49].
Область действия стандарта проиллюстрирована на рис. 14.24, который показывает типичный цикл кодирования/декодирования (исключая передачу или хранение видеосигнала).
ВH.264/AVC, как и во всех предшествующих стандартах видеокодирования, стандартизуется только декодер путем накладывания ограничений на битовый поток и синтаксис и определения процесса декодирования синтаксических элементов таким образом, чтобы любой декодер, отвечающий стандарту, создавал одинаковый выходной поток, если ему на вход подавать кодированный поток, отвечающий ограничениям стандарта. Это ограничение области действия стандарта позволяет давать максимальную свободу для оптимизации конкретных реализаций для конкретных приложений (соблюдая баланс между качеством компрессии, стоимостью, временем разработки и т. д.). Однако этот подход не дает никаких гарантий качества кодирования/декодирования, так как позволяет применять даже грубую методику кодирования, если только она соответствует ограничениям стандарта.
Целью реализации проекта H.264/AVC было создание стандарта, способного обеспечить хорошее качество изображения при существенно более низких скоро-
14.6. H.264/MPEG-4 часть 10 AVC — улучшенное видеокодирование
Рис. 14.25. Структура видеокодера H.264/AVC
Таблица 14.27. Профили H.264/AVC
№ |
Видео профили |
Специфические особенности |
|
|
|
|
|
|
Ограниченный |
Широко используется в первую очередь для недорогих |
|
|
базовый профиль |
||
1. |
приложений: в видеоконференциях и системах |
||
(Constrained Baseline |
|||
|
Profile — CBP) |
мобильного приема. |
|
|
|
||
|
|
|
|
|
Базовый профиль |
Применяется для дешевых приложений, когда требуется |
|
|
дополнительная защита от ошибок. Этот профиль редко |
||
2. |
(Baseline Profile — |
||
используется в видеоконференцсвязи и мобильных |
|||
|
BP) |
||
|
приложениях. |
||
|
|
||
|
|
|
|
|
|
Первоначально рассматривался как основной профиль |
|
3. |
Главный профиль |
для передачи и хранения данных, использование этого |
|
(Main Profile — MP) |
профиля было практически сведено к нулю после |
||
|
|
разработки High-профилей для тех же применений. |
|
|
|
Предназначен для организации потокового видео, этот |
|
|
Расширенный |
профиль использует относительно большие возможности |
|
4. |
профиль (Extended |
сжатия и некоторые дополнительные приемы для |
|
|
Profile — XP) |
обеспечения устойчивости к потере данных и коммутации |
|
|
|
потоков. |
|
|
|
|
|
|
Высокий профиль |
Основной профиль для передачи и хранения приложений |
|
5. |
на дисках, особенно для приложений высокой четкости |
||
(High Profile — HiP) |
|||
|
(например, HD DVD и Blu-ray). |
||
|
|
||
|
|
|
|
|
Высокий профиль 10 |
Добавляется поддержка до 10 битов на каждую |
|
6. |
(High 10 Profile — |
||
компоненту пиксела изображения. |
|||
|
Hi10P) |
||
|
|
||
|
|
|
|
|
Высокий профиль |
Ориентирован на профессиональные приложения, при |
|
7. |
4 : 2 : 2 |
использовании видео с чересстрочной разверткой. Этот |
|
(High 4 : 2 : 2 |
профиль основан на применении HiP, добавляя |
||
|
|||
|
Profile — Hi422P) |
поддержку режима 4 : 2 : 2. |
|
|
Высокий |
Этот профиль основывается на профиле 4 : 2 : 2 |
|
|
интеллектуальный |
с поддержкой режима 4 : 4 : 4 и использованием до |
|
8. |
профиль 4 : 4 : 4 |
14 битов на каждую компоненту пиксела, а также |
|
(High 4 : 4 : 4 |
реализацией эффективного кодирования без потерь |
||
|
|||
|
Predictive Profile — |
и кодирования фотографии в виде трех плоскостей |
|
|
Hi444PP) |
отдельных цветов. |
|
|
|
|