Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

(по цифровому вещанию) Dvorkovich_V_Cifrovye_videoinformacionnye_sistemy

.pdf
Скачиваний:
258
Добавлен:
15.03.2016
Размер:
23.26 Mб
Скачать

Глава14. Стандарты кодирования динамических изображений

ировать произвольные формы видеообъектов. Расширенная манипуляция содержанием видеопоследовательностей позволяет использовать такие возможности, как деформация синтетических и естественных объектов, текстур, изображений в восстановленном контенте видео.

Стандарт поддерживает различные виды масштабируемости текстур, изображений и видео:

масштабируемость сложности на кодере позволяет кодерам разной производительности создавать правильные битовые потоки для заданных текстур, изображений и видео;

масштабируемость сложности на декодере позволяет декодировать потоки, содержащие текстуры, изображения и видео, декодерами разной степени сложности (качество восстановленных объектов, вообще говоря, связано со сложностью используемого декодера — менее мощные декодеры декодируют только часть битового потока);

пространственная масштабируемость позволяет декодировать часть полного битового потока, генерируемого кодером, для восстановления и показа текстур, изображений и видеообъектов при уменьшенном пространственном разрешении (поддерживается до 11 уровней пространственной масштабируемости);

временная масштабируемость позволяет декодеру декодировать часть полного битового потока, генерируемого кодером, для восстановления и показа видео при уменьшенном временном разрешении (поддерживается до 3 уровней временной масштабируемости);

масштабируемость качества позволяет разбирать поток на несколько уровней с разной битовой скоростью так, что комбинация подмножества уровней может быть декодирована в осмысленный сигнал; разбор битового потока может происходить как при передаче, так и на декодере, а восстановленное качество, вообще говоря, связано с количеством слоев, использованных для декодирования и восстановления.

Стандарт предоставляет возможность кодирования формы объектов и их прозрачности (альфа-канал).

Кодирование формы позволяет описывать объекты произвольной формы. Приложения, которые используют двоичные побитовые карты изображения, служат для презентаций баз данных изображений, интерактивных игр, наблюдения, и анимации. Предлагаются эффективные методы кодирования двоичных форм.

Двоичная альфа-маска определяет, принадлежит или нет пиксел объекту. Она может быть включена или выключена. Альфа-канал определяет прозрачность объекта, которая не обязательно является однородной. Многоуровневые альфа-карты часто используются для затенения различных слоев последовательности изображений. Другими приложениями, которые используют при работе с изображениями ассоциированные двоичные альфа-маски, являются презентации баз данных изображений, интерактивные игры, наблюдения и анимация. Предлагаются методики, которые позволяют эффективно кодировать двоичные и альфа-плоскости с серой шкалой изображения. Маска с серой шкалой предоставляет возможность точно определить прозрачность каждого пиксела.

14.5. MPEG-4. Обобщенное кодирование аудиовизуальных объектов

Стандарт обеспечивает высокую надежность при работе с каналами передачи или средствами хранения, которые могут вносить ошибки. Это включает в себя операции алгоритмов сжатия данных в среде, подверженной сбоям при низких скоростях передачи (меньше 64 кбита/с).

Часть стандарта, связанная с анимацией лица, позволяет посылать параметры, которые помогают специфицировать и анимировать синтезированные лица. Эти модели не являются сами частью стандарта MPEG-4, стандартизирован только ряд параметров: определение и кодирование анимационных параметров лица (модельно независимое); позиции характерных деталей и их ориентация для определения сеток при анимации лица; визуальные конфигурации губ, соответствующие фонемам речи; определение и кодирование параметров описания лица (для калибровки модели); трехмерные позиции характерных признаков (деталей); трехмерные калибровочные сетки для анимации головы; текстурная карта лица; персональные характеристики; кодирование лицевой текстуры.

Стандарт обеспечивает эффективное кодирование двумерных и трехмерных сеток. Видеообъект в сцене — это объект, к которому пользователю разрешен доступ (поиск, просмотр) и обработка (удаление и вставка). Экземпляры видеообъектов в заданное время называются плоскостями видеообъекта (VOP). В процессе кодирования генерируется закодированное представление VOP, а также информация о композиции, которую требуется отобразить. Кроме того, пользователь может взаимодействовать с процессом композиции в декодере и изменять его по мере необходимости.

Полный синтаксис позволяет кодировать как прямоугольные видеообъекты в сцене, так и имеющие произвольную форму. Кроме того, синтаксис поддерживает как немасштабируемое, так и масштабируемое кодирование. Таким образом, становится возможным работать как с обычной, так и с объектно-ориентированной масштабируемостью. Масштабируемый синтаксис позволяет восстановить полезные видеоданные из фрагментов общего битового потока. Это достигается путем структурирования общего битового потока на два или более уровня, начиная с автономного нижнего слоя и добавляя ряд уровней расширения. Для кодирования нижнего слоя может быть использован немасштабируемый синтаксис, или, в случае кодирования изображений, даже синтаксис различных стандартов кодирования видео.

Для обеспечения возможности распознавания индивидуальных объектов необходимо получить представление их формы в закодированном виде. Естественный видеообъект состоит из последовательности двумерных представлений (в различные моменты времени), именуемых плоскостями видеообъекта (VOP). Для эффективного кодирования VOP используется устранение как временной, так и пространственной избыточности. Таким образом, представление VOP в закодированном виде включает представление их формы, движения и структуры.

Для достижения сильного сжатия используется несколько методов. Сначала алгоритм запускает компенсацию движения на основе блоков для уменьшения временной избыточности. Компенсация движения используется как для каузального предсказания текущей VOP по предыдущей VOP, так и для некаузального, интерполяционного предсказания по прошедшим и последующим VOP. Векторы движения определяются для каждой области VOP (макроблока) размером 16 × 16 отсчетов или 8 × 8 отсчетов (в компоненте яркости) в зависимости от

Глава14. Стандарты кодирования динамических изображений

требований. Затем ошибка предсказания сжимается при помощи дискретного косинусного преобразования (ДКП) для устранения пространственной корреляции до квантования, в необратимом процессе которого менее важная информация отбрасывается. В заключение сведения о форме, векторы движения и квантованные данные ДКП кодируются с использованием кодов переменной длины.

Вследствие противоречащих друг другу требований произвольного доступа и высокоэффективного сжатия определено три основных типа плоскостей видеообъекта (VOP). VOP с внутрикадровым кодированием (I-VOP) кодируются независимо от других изображений. Они обеспечивают точки доступа к закодированной последовательности, в которых может начаться декодирование, но кодируются с умеренным сжатием. VOP с применением кодирования с предсказанием (P-VOP) кодируются более эффективно при использовании предсказания с компенсацией движения по предшествующим VOP, закодированным при помощи внутрикадрового кодирования или кодирования с предсказанием, и обычно используются в качестве опорных для дальнейшего предсказания. VOP, закодированные с двусторонним предсказанием (B-VOP), обеспечивают наивысшую степень сжатия, но требуют для компенсации движения как предшествующих, так и последующих опорных VOP. VOP, закодированные с двусторонним предсказанием, никогда не используются в качестве опорных для предсказания (за исключением тех случаев, когда возникающая в результате VOP используется в качестве опорной для уровня с масштабируемым расширением). Сформированная из трех типов VOP последовательность является очень гибкой структурой. Выбор оставлен за кодером, он будет зависеть от требований приложения.

Всценах естественного видео VOP генерируются путем сегментации сцены

всоответствии с определенным семантическим значением. Таким образом, для этих сцен сведения о форме являются двоичными (двоичная форма). Сведения о форме также называются альфа-каналом. Двоичный альфа-канал кодируется на основе макроблоков при помощи кодера, использующего данные контекста, компенсацию движения и арифметическое кодирование.

Для кодирования формы VOP сначала создается ограничительный прямоугольник, он расширяется до множества из блоков размером 16 × 16 с расширенными обнуленными альфа-отсчетами. Затем инициируется кодирование формы на основе блоков 16×16; эти блоки также называются двоичными альфа-блоками.

Блоки 16 × 16 (макроблоки) выбраны в качестве единицы компенсации движения в результате компромисса между необходимостью увеличения эффективности кодирования за счет учета движения объектов и необходимостью передачи дополнительного объема данных об этом движении. В зависимости от того, насколько позволяет дополнительный объем данных, каждый макроблок может быть в дальнейшем разбит на блоки 8 × 8 для оценки и компенсации движения.

ВMPEG-4 определено множество видеопрофилей, список и характерные черты которых приведены в табл. 14.25.

Профили MPEG-4/Видео определяют инструменты кодирования, а параметры формируемых битовых потоков задаются так называемыми уровнями. Каждый уровень устанавливает ограничения на максимальную производительность, требуемую для декодирования битового потока в стандарте MPEG-4. Например, мультимедийный терминал с маломощным процессором и ограниченной памятью сможет обеспечить работу кодека простого профиля с уровнем L0. Уровень

14.5. MPEG-4. Обобщенное кодирование аудиовизуальных объектов

определяет ограничения на объем буфера памяти, размер видеокадра и частоту следования кадров, скорость обработки потока, число видеообъектов. Высокие уровни соответствующего профиля должны справляться с обработкой информации более низкого уровня.

Таблица 14.25. Профили MPEG-4/Видео

Видео профили

Специфические особенности

 

Простой

Обеспечивает эффективное, устойчивое к ошибкам кодирование

1.

прямоугольных видеообъектов, подходящих для приложений,

(Simple)

 

используемых в мобильных сетях.

 

 

 

Простой

Содержит только прямоугольные объекты, но имеет несколько

 

дополнительных средств, которые делают его более

 

продвинутый

2.

эффективным: B-кадры, компенсация движения деталей до

(Advanced

 

1/4 пиксела и компенсация общего перемещения изображения

 

Simple)

 

(глобальная компенсация движения, GMC).

 

 

 

 

Обеспечивает поддержку кодирования временных

 

Простой мас-

и пространственных масштабируемых объектов в простом

 

профиле, полезен для приложений, обеспечивающих услуги на

3.

штабируемый

более чем одном уровне качества, связанных с ограничениями

 

(Simple Scalable)

 

скорости передачи данных или ресурсами декодера, такими как

 

 

 

 

использование Интернете и программное декодирование.

 

Простой

Реализует продвинутый метод кодирования прямоугольных

 

продвинутый

 

видеообъектов, устойчивый к ошибкам, использующий обратный

 

реального

 

канал и улучшенную стабильность временного разрешения при

4.

времени

минимальной задержке буферизации. Он удобен для

 

(Advanced

 

кодирования в случае приложений реального времени, таких как

 

Real-Time

 

видеотелефон, телеконференции и удаленное наблюдение.

 

Simple)

 

 

 

 

 

 

 

Применяется в приложениях студийного редактирования,

 

Простой

обеспечивая очень высокое качество кодирования. Он работает

5.

студийный

только с I-кадрами, но действительно поддерживает

 

(Simple Studio)

произвольные формы и большое число alpha-каналов.

 

 

Возможная скорость передачи достигает 2 Гбита/c.

 

 

 

 

 

Обеспечивает поддержку кодировки масштабируемых по времени

6.

Основной (Core)

объектов произвольной формы в простой визуальный профиль,

полезен для приложений, осуществляющих относительно

 

 

 

 

простую интерактивность (Интернет, мультимедиа).

 

 

 

 

 

Комбинирует возможность декодирования видеообъектов

 

 

произвольной формы (как в основном визуальном профиле)

 

Основной

с возможностью декодирования масштабируемых статических

7.

продвинутый

объектов произвольной формы (как в продвинутом

 

(Advanced Core)

масштабируемом профиле текстур). Он удобен для различных

 

 

мультимедийных приложений, таких как интерактивная

 

 

передача потоков мультиимедиа через Интернет.

 

 

Реализует поддержку кодирования объектов произвольной

 

 

формы с пространственным и временным масштабированием в

 

Основной мас-

дополнение к основному профилю. Главной особенностью этого

8.

штабируемый

профиля является масштабируемость (пространственная,

 

(Core Scalable)

временная и сигнал/шум) для областей и объектов,

 

 

представляющих интерес. Он полезен для таких приложений,

 

 

как Интернет, мобильные сети и видеовещание.

 

 

 

 

Основной

Дополняет простой студийный вариант P-кадрами, делая его

9.

студийный

более эффективным, но требующим более сложной реализации.

 

(Core Studio)

 

 

 

 

 

Глава14. Стандарты кодирования динамических изображений

Таблица 14.25 (продолжение)

 

 

Дополняет кодирование чересстрочных, полупрозрачных

10.

Главный (Main)

и виртуальных объектов в основном профиле. Он полезен для

интерактивного широковещательного обмена (с высоким

 

 

 

 

качеством) и для DVD-приложений.

 

 

 

 

Улучшенной

Реализует устойчивый к ошибкам продвинутый метод

 

кодирования прямоугольных видеообъектов, использующий

 

эффективности

 

обратный канал и улучшенную стабильность временного

11.

кодирования

разрешения при минимальной задержке буферизации. Он удобен

 

(Advanced Coding

 

для кодирования в случае приложений реального времени, таких

 

E ciency)

как видеотелефон, телеконференции и удаленное наблюдение.

 

 

 

 

 

 

 

Добавляет поддержку кодирования видеообъектов, имеющих

12.

N-битовый

пиксельную глубину в диапазоне от 4 до 12 битов, в главный

(N-bit)

профиль. Он удобен для использования в приложениях

 

 

 

видеонаблюдения.

 

 

 

 

Масштабируе-

Допускает большое число масштабных уровней (до 8), так что

 

мый профиль

 

качество доставки можно легко адаптировать к условиям

 

мелкой

13.

передачи и декодирования. Он может использоваться с простым

гранулярности

 

или продвинутым простым профилем в качестве базового

 

(Fine Granular

 

уровня.

 

Scalability)

 

 

 

 

 

 

 

Предоставляет пространственное масштабируемое кодирование

 

Масштабируе-

статических объектов изображений (текстур), полезное для

 

приложений, где нужны уровни масштабируемости, такие как

14.

мых текстур

установление соответствия между текстурой и объектами игр,

 

(Scalable Texture)

 

а также для работы с цифровыми фотокамерами высокого

 

 

 

 

разрешения.

 

 

 

 

 

Поддерживает декодирование текстур произвольной формы

 

 

и статических изображений, включая масштабируемое

 

Продвинутый

кодирование формы, мозаичное заполнение и повышенную

 

устойчивость к ошибкам. Полезен для приложений, требующих

 

масштабируе-

 

быстрого произвольного доступа, а также нескольких уровней

15.

мых текстур

масштабируемости и кодирования статических объектов

 

(Advanced

 

произвольной формы. Примерами таких приложений могут

 

Scalable Texture)

 

служить просмотр статических изображений в Интернете,

 

 

 

 

а также считывание через Интернет изображений, полученных

 

 

из цифровых фотоаппаратов с высоким разрешением.

 

 

 

 

Основной

 

 

анимации

Предоставляет пространственную масштабируемоcть,

16.

двумерных

масштабируемоcть сигнал/шум и анимацию, базирующуюся на

текстур (Basic

сетках для статических объектов изображений (текстур),

 

 

Animated

а также простую анимацию объектов лица.

 

2D-Texture)

 

 

 

 

 

Простой

Предоставляет простые средства анимации модели лица,

 

анимации лиц

17.

удобные для таких приложений, как аудио/видеопрезентации

(Simple Face

 

для лиц с ухудшенным слухом.

 

Animation)

 

 

 

 

 

 

 

 

 

14.5. MPEG-4. Обобщенное кодирование аудиовизуальных объектов

 

Таблица 14.25 (окончание)

 

 

 

 

 

 

 

 

 

 

Простой

 

 

 

 

 

 

 

 

 

 

 

 

анимации лиц

Является надстройкой профиля простой анимации лица с

 

 

18.

 

и тела (Simple

 

 

 

 

 

добавлением анимации тела.

 

 

 

 

 

 

 

Facial and Body

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Animation)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Комбинирует возможность декодировать масштабируемые

 

 

 

 

 

 

 

объекты натурального видеопроизвольной формы (как в главном

 

 

19.

 

Гибридный

визуальном профиле) с возможностью декодировать несколько

 

 

 

(Hybrid)

синтетических и гибридных объектов, включая анимационные

 

 

 

 

 

 

 

 

 

 

 

 

статические объекты изображения. Он удобен для различных

 

 

 

 

 

 

 

 

 

сложных мультимедиа приложений.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

В табл. 14.26 приводятся некоторые параметры уровней рядя профилей обра-

ботки динамических изображений.

 

 

 

 

 

 

 

Таблица 14.26. Уровни профилей кодирования/декодирования

 

 

 

 

 

 

 

динамических изображений

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Максималь-

Максимальное

 

 

 

Профиль

 

Уровень

 

Разрешение

 

ная

количество

 

 

 

 

 

 

 

 

 

 

скорость

объектов

 

 

 

1.

Простой

 

L0

 

QCIF (176×144)

64

кбита/с

1

 

 

 

 

 

 

 

 

L1

 

QCIF

64

кбита/с

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

L2

 

CIF (352×288)

128

кбитов/с

4

 

 

 

 

 

 

 

 

L3

 

CIF

384 кбита/с

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2.

Простой

 

L0

 

QCIF

128

кбитов/с

1

 

 

 

продвинутый

 

 

 

 

 

 

 

 

 

 

L1

 

QCIF

128

кбитов/с

4

 

 

 

 

 

 

 

 

L2

 

CIF

384 кбита/с

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

L3

 

CIF

768

кбитов/с

4

 

 

 

 

 

 

 

 

L4

 

352×576

3 Mбита/с

4

 

 

 

 

 

 

 

 

L5

 

720×576

8 Mбитов/с

4

 

 

 

 

 

 

Простой

 

 

 

 

 

 

 

 

 

 

3.

масштабиру-

 

L1

 

CIF

128

кбитов/с

4

 

 

 

 

 

 

емый

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

L2

 

CIF

256

кбитов/с

4

 

 

 

 

 

 

Простой

 

 

 

 

 

 

 

 

 

 

4.

продвинутый

 

L1

 

QCIF

64

кбита/с

4

 

 

 

 

 

 

реального

 

 

 

 

 

 

 

 

 

 

 

 

 

времени

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

L2

 

CIF

128

кбитов/с

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

L3

 

CIF

384 кбита/с

4

 

 

 

 

 

 

 

 

L4

 

CIF

2 Mбита/с

16

 

 

Глава14. Стандарты кодирования динамических изображений

Таблица 14.26 (окончание)

5.

Простой

L1

ITU-R 601:422

180 Mбитов/с

1

студийный

ITU-R 601:444

 

 

 

 

 

 

L2

ITU-R 601:422

600 Mбитов/с

1

 

 

ITU-R 601:444

 

 

 

 

 

 

 

L3

ITU-R 709.601:444

900 Mбитов/с

1

 

 

ITU-R 709.601:422

 

 

L4

ITU-R 709.601:444

1800

1

 

 

Mбитов/с

 

 

 

 

 

6.

Основной

L1

QCIF

384 кбита/с

4

 

 

L2

CIF

2 Mбита/с

16

7.

Основной

L1

QCIF

384 кбита/с

4

продвинутый

 

 

L2

CIF

2 Mбита/с

16

 

Основной

 

 

 

 

8.

масштабиру-

L1

CIF

768 кбитов/с

4

 

емый

 

 

 

 

 

 

L2

CIF

1,5 Mбитов/с

8

 

 

L3

ITU-R 601

4 Mбита/с

16

9.

Основной

L1

ITU-R 601:422

90 Mбитов/с

4

студийный

ITU-R 601:444

 

 

 

 

 

 

L2

ITU-R 709.601:422

300 Mбитов/с

4

 

 

 

ITU-R 601:444

 

 

 

 

L3

ITU-R 709.601:444

450 Mбитов/с

8

 

 

ITU-R 709.601:422

 

 

 

ITU-R 709.601:444

 

 

 

 

L4

ITU-R 709.601:444

900 Mбитов/с

16

 

 

 

2K×2K×30P:444

 

 

10.

Главный

L2

CIF

2 Mбита/с

16

 

 

L3

ITU-R 601

15 Mбитов/с

32

 

 

L4

1920×1088

38,4 Mбитов/с

32

 

Улучшенной

 

 

 

 

11.

эффективно-

L1

CIF

384 кбита/с

4

 

сти

 

 

 

 

 

кодирования

 

 

 

 

 

 

L2

CIF

2 Mбита/с

16

 

 

L3

ITU-R 601

15 Mбитов/с

32

 

 

L4

1920×1088

38,4 Mбитов/с

32

12.

N-битовый

L2

CIF

2 Mбита/с

16

 

Масштабиру-

 

 

 

 

13.

емый профиль

L0

QCIF

128 кбитов/с

4

 

мелкой грану-

 

 

 

 

 

лярности

 

 

 

 

 

 

L1

QCIF

128 кбитов/с

4

 

 

L2

CIF

384 кбита/с

4

 

 

L3

CIF

768 кбитов/с

4

 

 

L4

352×576

3 Mбита/с

4

 

 

L5

720×576

8 Mбитов/с

4

Таким образом, стандарт MPEG-4 определяет принципы работы с контентом, цифровым представлением медиаданных, для трех областей: собственно интерактивного мультимедиа (включая продукты, распространяемые на оптических дисках и через компьютерные сети), графических приложений (синтетического контента) и цифрового телевидения. Фактически данный формат задает пра-

14.6. H.264/MPEG-4 часть 10 AVC — улучшенное видеокодирование

вила организации объектно-ориентированной среды. Он имеет дело не просто

спотоками и массивами медиаданных, а с медиаобъектами (ключевое понятие стандарта).

Стандарт MPEG-4 предоставляет пользователям гибкие средства работы с мультимедийным контентом. Помимо работы с аудио и видео формат позволяет работать с естественными и синтезированными компьютером двумерными и трехмерными объектами, производить привязку их взаимного расположения и синхронизацию друг относительно друга, а также указывать их интерактивное взаимодействие с пользователем. Кроме того, формат обеспечивает доступ к мультимедийной информации через каналы различной пропускной способности.

Кардинальное нововведение при компрессии видео в MPEG-4 заключается в следующем. В отличие от предыдущих форматов, которые делили изображение на прямоугольники, при обработке изображений кодек оперирует объектами

спроизвольной формой. К примеру, человек, двигающийся по комнате, будет воспринят как отдельный объект, перемещающийся относительно неподвижного объекта — заднего плана. Естественно, алгоритмы поиска и обработки подобных объектов требуют гораздо больше вычислительных ресурсов, чем при применении стандартов MPEG-1 или MPEG-2. Но с учетом быстродействия современных компьютеров последнее обстоятельство нельзя рассматривать сегодня как крупное препятствие на пути широкого распространения формата MPEG4.

!

В2001 г. VCEG (Группа экспертов по видеокодированию МСЭ-Т, SG16 Q.6) и MPEG (Экспертная группа по движущимся изображениям ISO/IEC, JTC 1/SC 29/WG 11) сформировали совместную видеогруппу (JVT) с полномочиями завершения пректа нового стандарта видеокодирования, который был утвержден как H.264/AVC в 2003 г. [5.48, 5.49].

Область действия стандарта проиллюстрирована на рис. 14.24, который показывает типичный цикл кодирования/декодирования (исключая передачу или хранение видеосигнала).

ВH.264/AVC, как и во всех предшествующих стандартах видеокодирования, стандартизуется только декодер путем накладывания ограничений на битовый поток и синтаксис и определения процесса декодирования синтаксических элементов таким образом, чтобы любой декодер, отвечающий стандарту, создавал одинаковый выходной поток, если ему на вход подавать кодированный поток, отвечающий ограничениям стандарта. Это ограничение области действия стандарта позволяет давать максимальную свободу для оптимизации конкретных реализаций для конкретных приложений (соблюдая баланс между качеством компрессии, стоимостью, временем разработки и т. д.). Однако этот подход не дает никаких гарантий качества кодирования/декодирования, так как позволяет применять даже грубую методику кодирования, если только она соответствует ограничениям стандарта.

Целью реализации проекта H.264/AVC было создание стандарта, способного обеспечить хорошее качество изображения при существенно более низких скоро-

Глава14. Стандарты кодирования динамических изображений

Рис. 14.24. Цикл кодирования/декодирования изображений

стях, чем предыдущие стандарты (например, в два и более раз меньшую скорость передачи чем при кодировании MPEG-2, H.263 или MPEG-4 часть 2) [5.67–5.72]. Дополнительной целью было обеспечение достаточной гибкости для того, чтобы стандарт мог применяться для широкого множества приложений в различных сетях и системах, включая низкие и высокие скорости передачи, низкие и высокие разрешения видео, вещание, хранение на DVD, передача по пакетным сетям по протоколу

Стандарт видеокодирования H.264/AVC предназначен для технических решений, включающих по крайней мере следующие области применения:

кабельное, спутниковое, наземное вещание, вещание с помощью кабельных и DSL-модемов;

– хранение на оптических и магнитных носителях, DVD и т. д.;

диалоговые службы, работающие в различных сетях (например, ISDN, Ethernet, LAN, DSL, беспроводные и мобильные сети, а также любые сочетания этих сетей);

видео по запросу или службы потокового мультимедиа в различных сетях;

MMS (службы мультимедийных сообщений) в различных сетях и т. д.

Более того, новые приложения могут развертываться в существующих и перспективных сетях.

Для того чтобы удовлетворить потребности в гибкости и настраиваемости для множества приложений и разнообразия сетей, H.264/AVC включает два уровня: уровень видеокодирования (Video Coding Layer, VCL), предназначенный для эффективного представления видеоконтента, и уровень сетевой абстракции (Network Abstraction Layer, NAL), который форматирует представление видео VCL и обеспечивает заголовочную информацию в виде, подходящем для передачи на различных транспортных уровнях или средствах хранения. На рис. 14.25 приведена структура видеокодера H.264/AVC.

14.6.1. Профили и уровни стандарта H.264/AVC

Стандарт включает множество профилей, ориентированных на конкретные классы приложений [5.67, 5.69]. Список профилей и их характерные черты приведены в табл. 14.27.

14.6. H.264/MPEG-4 часть 10 AVC — улучшенное видеокодирование

Рис. 14.25. Структура видеокодера H.264/AVC

Таблица 14.27. Профили H.264/AVC

Видео профили

Специфические особенности

 

 

 

 

Ограниченный

Широко используется в первую очередь для недорогих

 

базовый профиль

1.

приложений: в видеоконференциях и системах

(Constrained Baseline

 

Profile — CBP)

мобильного приема.

 

 

 

 

 

 

Базовый профиль

Применяется для дешевых приложений, когда требуется

 

дополнительная защита от ошибок. Этот профиль редко

2.

(Baseline Profile —

используется в видеоконференцсвязи и мобильных

 

BP)

 

приложениях.

 

 

 

 

 

 

 

Первоначально рассматривался как основной профиль

3.

Главный профиль

для передачи и хранения данных, использование этого

(Main Profile — MP)

профиля было практически сведено к нулю после

 

 

разработки High-профилей для тех же применений.

 

 

Предназначен для организации потокового видео, этот

 

Расширенный

профиль использует относительно большие возможности

4.

профиль (Extended

сжатия и некоторые дополнительные приемы для

 

Profile — XP)

обеспечения устойчивости к потере данных и коммутации

 

 

потоков.

 

 

 

 

Высокий профиль

Основной профиль для передачи и хранения приложений

5.

на дисках, особенно для приложений высокой четкости

(High Profile — HiP)

 

(например, HD DVD и Blu-ray).

 

 

 

 

 

 

Высокий профиль 10

Добавляется поддержка до 10 битов на каждую

6.

(High 10 Profile —

компоненту пиксела изображения.

 

Hi10P)

 

 

 

 

 

 

Высокий профиль

Ориентирован на профессиональные приложения, при

7.

4 : 2 : 2

использовании видео с чересстрочной разверткой. Этот

(High 4 : 2 : 2

профиль основан на применении HiP, добавляя

 

 

Profile — Hi422P)

поддержку режима 4 : 2 : 2.

 

Высокий

Этот профиль основывается на профиле 4 : 2 : 2

 

интеллектуальный

с поддержкой режима 4 : 4 : 4 и использованием до

8.

профиль 4 : 4 : 4

14 битов на каждую компоненту пиксела, а также

(High 4 : 4 : 4

реализацией эффективного кодирования без потерь

 

 

Predictive Profile —

и кодирования фотографии в виде трех плоскостей

 

Hi444PP)

отдельных цветов.