- •Информационная избыточность
- •Методы кодирования
- •Сжатие в кодере mpeg 2
- •Принцип формирования информационного пакета
- •Стандарт кодирования видео- и звуковой информации mpeg-4
- •Объекты и сцены
- •Состав медийных объектов
- •Описание и синхронизация потоков данных для медийных объектов
- •Доставка потоков данных
- •Методы кодирования синтетических видеобъектов
- •Стандарты сжатия видео
- •Международный стандарт кодирования видео h.264/avc
- •Тенденции развития систем сжатия видеоинформации
- •Кодирование нескольких видов динамических изображений - Multiview Video Coding (mvc)
- •H.265/hevc - проект нового стандарта
- •Высокоэффективное кодирование видео hvc
- •Кодирование 3d-видео
- •Реконфигурируемое кодирование видео
Объекты и сцены
Важнейшей особенностью MPEG-4 является объектно-ориентированный подход, сущность которого заключается в том, что передаваемое изображение со звуковым сопровождением представляется как совокупность видео- и/или аудио- объектов (медиа-объектов).
Видеообъектами (VO - visual object) могут быть изображения людей и предметов, перемещающихся перед неподвижным фоном, и сам неподвижный фон. Обычное телевизионное изображение может быть единым видеообъектом.
Аудиообъектами (АО - audio object) могут быть голоса людей, музыка, другие звуки.
Связанные видео- и аудиообъекты, например, изображение человека и его голос, образуют аудио-визуальный объект (AVOs - audio-visual object).
Любая сцена разделяется на объекты, которые соотносятся в пространстве и времени и описываются отдельными элементарными потоками (ЭП). Объекты могут быть натуральными – записанными с видеокамеры или микрофона, и синтетическими – синтезированными в компьютере.
BIFS
Для описания сцены и ее динамического изменения в MPEG-4 используется специально разработанный двоичный язык BIFS (Binary Format for Scenes двоичный формат описания сцен).
Описание сцены указывает декодеру, где и когда воспроизводить объекты, входящие в сцену, и как реагировать на воздействие пользователя.
Чтобы увязать ЭП с медиа-объектами в сцене, используются дескрипторы объекта. Они переносят информацию о числе и свойствах ЭП, связанных с конкретными медиа-объектами. Сами дескрипторы также переносятся в одном или нескольких ЭП, поэтому нетрудно добавить или удалить объект во время сеанса.
Основные принципы BIFS заимствованы из языка VRML (Virtual Reality Modelling Language — язык моделирования виртуальной реальности), разработанного для создания 3D графики. Это широко распространенный и в значительной степени бесплатный язык программирования, точнее, эффективный 3D формат обмена, как бы объемный аналог HTML.
Язык BIFS позаимствовал у VRML структуру описания сцены в виде графа, модели поведения, графические примитивы для построения 3D-изображений: конусы, сферы, сетки, текстовые примитивы, текстурирование и подсветку (всего их 36).
Состав медийных объектов
На рис. 12 объясняется способ описание аудио-визуальных сцен в MPEG-4, состоящих из отдельных объектов. Рисунок содержит составные медиа-объекты, которые объединяют примитивные медиа-объекты. Примитивные медиа-объекты соответствуют периферии описательного дерева, в то время как составные медиа-объекты представляют собой суб-деревья. В качестве примера: визуальные объекты, соответствующие говорящему человеку, и его голос объединены друг с другом, образуя новый составной медиа-объект. Такое группирование позволяет разработчикам создавать комплексные сцены, а пользователям манипулировать отдельными или группами таких объектов.
Рисунок 12 - Пример сцены MPEG-4
MPEG-4 предлагает стандартизованный путь описания сцен, позволяющий:
- помещать медиа-объекты, где угодно в заданной координатной системе;
- применять преобразования для изменения геометрического или акустического вида медиа-объекта;
- группировать примитивные медиа-объекты для того чтобы образовать составные медиа-объекты;
- использовать потоки данных, чтобы видоизменять атрибуты медиа-объектов (например, звук, движущуюся текстуру, принадлежащую объекту; параметры анимации, управляющие синтетическим лицом);
- изменять, интерактивно, точку присутствия пользователя на сцене (его точку наблюдения и прослушивания).