Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Учебники / Цифровое телевизионное вещание под редакцией Г. В. Мамчев, 2014

.pdf
Скачиваний:
3
Добавлен:
29.05.2026
Размер:
20.33 Mб
Скачать

150 3. ПРАКТИЧЕСКОЕ ИСПОЛЬЗОВАНИЕ ВИДЕОКОМПРЕССИИ В ТЕЛЕВИДЕНИИ

 

-

 

 

 

 

 

 

 

 

 

 

 

 

 

Синтезиру­

 

 

 

 

ПАМ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ющий БФ

 

 

 

-

 

!

-

 

 

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

-

Анализи-

r+-

Квантование

Мульти-

Демульти­

Восстановле­

 

 

 

 

 

 

рующий БФ

и кодирование

 

плексор

 

плексор

ние отсчетов

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

f

 

 

 

 

 

 

 

 

Обнаруже-

 

 

 

 

 

 

Генератор

 

 

 

 

ние шума

 

 

 

 

 

 

 

 

шума

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

а)

 

 

 

 

 

 

 

б)

 

 

 

 

 

Рис. 3.31. Схема реализации режима PNS:

 

 

 

а) кодер; б) декодер

тра и он подменяет соответствующие спектральные коэффициенты псев­ дослучайными сигналами с требуемой мощностью. Режим PNS иллюстри­ руется структурной схемой рис. 3.31.

Еще одно усовершенствование связано с введением алгоритма ВSAC (Bit-Sliced Arithmetic Coding - арифметическое кодирование с побитовым расщеплением). Чтобы получить масштабируемый поток, BSAC использу­

ет альтернативный по отношению к ААС модуль кодирования квантован­

ных коэффициентов с точным управлением скоростью потока в пределах от 16 до 64 кбит/с с шагом 1 кбит/с.

Существенный выигрыш в скорости потока для стационарных гармо­ нических и квазигармонических сигналов позволяет получить метод дол­

говременного предсказания LТР (Long Term Prediction). В технике кодиро­

вания речи этот метод широко используется во временн6й области. В стандарте МPEG-4 он интегрирован в схему универсального кодера

(рис. 3.32), где операции квантования и кодирования осуществляются над

спектральными представлениями входного сигнала. Для работы схемы LТР кодированный сигнал предыдущего кадра переводится обратно во временную область с помощью инверсного преобразования TNS и синте­ зирующего БФ, в блоке LTP он сравнивается с приходящим сигналом, а полученная разность опять переводится в спектральную область. Специ­ aльHый переключатель FSS (Frequency Selective Switch - nереключатель с частотной избирательностью) выбирает исходный или разностный сиг­

нал в зависимости от того, какая альтернатива в данный момент предпоч­

тительнее. По сравнению с предсказанием из МPEG-2 ААС данный метод предсказания требует вдвое меньших ресурсов памяти и производительно­

сти процессора.

Для увеличения эффективности кодирования музыкальных сигналов на низких скоростях разработан новый алгоритм TwinVQ (Transformdomain Weighted Interleave VQ - взвешивающее векторное квантование с nеремежением и nреобразованием областей). Основная идея - заменить

3.3. Стандарт представления медиа-объектов МPEG-4

151

Синтезирую-

щий БФ

t

 

 

 

 

 

 

 

 

Синтезирую-

 

 

 

 

 

 

 

 

щий TNS

 

LT

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t

 

 

 

 

Обратный

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

FSS

 

 

 

 

 

 

 

 

 

 

Анализиру-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t

 

 

 

 

Ф

 

 

 

 

 

 

 

 

 

 

 

ющий БФ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Анализиру-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ющий TNS

 

 

 

 

Восстановле-

 

---

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

I

 

 

 

 

ние отсчетов

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Анализиру-

 

 

Анализиру-

 

 

 

 

Квантование

 

 

 

 

-

 

- ющий БФ

r..

ющий TNS

~

FSS-

и кодирование

-

 

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ПАМ

 

 

 

 

 

 

 

 

 

Мулыи-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

плексирование

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рис. 3.32. Схема универсального кодера с Lтр

 

 

 

 

обычное кодирование спектральных компонентов в ААС перемежающим

векторным квантованием, приложенным к нормализованному спектру.

Квантование спектральных коэффициентов осуществляется в два шага: на

первом они нормализуются к некоторому пределу, на втором - квантуются

с использованием векторного квантования. Процесс нормализации вклю­ чает оценку спектра по шкале Барка, извлечение периодических компонен­ тов и оценку мощности спектральных составляющих. В результате норма­

лизации спектральные коэффициенты выравниваются и нормализуются вдоль частотной оси. Затем нормализованные коэффициенты описываются

как многомерный вектор, чередуются в субвекторы, как показано на рис. 3.33, и квантуются с использованием векторного квантования. Ос­ тальная часть алгоритма ААС остается неизменной.

TwinVQ дает хорошие результаты в области скоростей от 6 до 24 кбит/с и используется в основном в универсальных кодеках МPEG-4 с масштабированием для формирования базового слоя.

Для кодирования речи применяются два основных алгоритма: пара­

метрический НУХС (Harmonic Vector eXcitation Coding - кодирование с помощью гармонических векторов) и CELP (Code Excited Linear Prediction

coding - кодирование с линейным предсказанием). Первый алгоритм обес­ печивает более высокое сжатие, он применяется в интервале скоростей по­ тока 2 .. .4 кбит/с (при переменной скорости - даже до 1,2 кбит/с), работает

152

 

3. ПРАКТИЧЕСКОЕ ИСПОЛЬЗОВАНИЕ ВИДЕОКОМПРЕССИИ В ТЕЛЕВИДЕНИИ

 

 

 

Вектор исходного сигнала

 

 

 

 

 

 

 

 

Перемежение

 

 

 

 

 

 

 

'---г-------' Субвекторы

 

 

г-----

 

 

 

 

 

 

 

I

 

 

г-----

 

 

 

 

I

 

 

I

 

 

г--

 

 

 

 

 

 

 

 

 

 

 

Векторное

 

Векторное

 

Векторное

 

 

квантование

 

квантование

 

квантование

 

 

со взвеши­

 

со взвеши­

 

со взвеши­

 

 

 

ванием

 

 

ванием

 

 

ванием

 

 

 

 

 

 

 

 

 

 

 

Индексы

Рис. З.ЗЗ. Алгоритм TwinVQ векторного квантования

спектральных компонентов

с частотой дискретизации 8 кГц в полосе стандартного телефонного канала

300 ... 3400 Гц. Второй алгоритм имеет несколько разновидностей, работает в двух режимах - полосы частот 300 ... 3400 Гц с дискретизацией 8 кГц и 50 ... 7000 Гц с дискретизацией 16 кГц, и обеспечивает скорость потока от 4

до 24 кбит/с. Оба алгоритма базируются на моделировании речи с линей­

ным предсказанием. Поступающий речевой сигнал сравнивается с сигна­

лом, предсказанным моделью речевого тракта, параметры модели изменя­

ются таким образом, чтобы минимизировать разность двух сигналов, и пе­ редаются декодеру. В декодере имеется такая же модель, которая по полу­ ченным значениям параметров синтезирует речевой сигнал. В НУХС более высокая степень сжатия объясняется более грубым анализом по огибаю­ щей спектра и изменениям высоты тона. CELP использует более точный спектральный анализ с долговременным предсказанием, обеспечивая более

высокое качество передачи речи.

Основное преимущество обоих алгоритмов перед речевыми кодеками,

стандартизованными МСЭ, - масштабируемость по скорости су CELP с шагом 200 бит/с), по полосе частот, что обеспечивает возможность работы

с декодерами разной сложности. Эта возможность проиллюстрирована на рис. 3.34, где показано, что кодер выдает базовый поток и улучшающие

слои, а декодеры принимают эти потоки в соответствии со своими воз­

можностями.

На рис. 3.35 наглядно показаны области применения различных алго­ ритмов кодирования звука, применяемых в МPEG-4.

Если при кодировании натуральных звуков используется nерцеnту­

альное сжатие исходного звукового сигнала, то кодирование синтезиро­ ванного звука производится путем создания его описания. Это описание

передается декодеру и по нему синтезируется звук, аналогичный исходно-

3.3. Стандарт представления медиа-объектов МPEG-4

153

му. В стандарте МPEG-4 этот процесс реализуется в рамках формата «Структурированное аудио», допускающего передачу по каналу синтези­ рованных звуков и музыки со скоростями 0,01 ... 10 кбит/с. Для описания музыкальных звуков различных инструментов разработан специальный структурированный оркестровый язык (SAOL - Structured Audio Orchestra Language), он оперирует загружаемыми в поток «инструментами». Инст­ румент представляет собой небольшой программный или аппаратный мо­ дуль генерации и обработки простейших сигналов, который может вос­

производить определенные звуки, в том числе и схожие со звуками музы­

кальных инструментов. MPEG-4 не стандартизует метод синтеза, скорее он дает способ описания методов синтеза, пригодный для всех существующих

и перспективных алгоритмов.

 

 

 

 

 

 

 

Базовый поток б кбитjс

 

 

 

 

 

Р

ечь ""

 

 

 

 

/

 

,...

 

 

б кбитjс

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Кодер

 

 

 

 

 

 

 

 

Декодер А

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

базовый сигнал

 

 

 

 

 

 

 

 

~,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Улучшенные слои

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

""

 

 

 

 

 

 

 

 

 

 

по 2 кбит/с /

 

 

 

 

-

 

Декодер в

8 кбитjс

 

 

 

 

 

 

 

 

 

 

 

 

 

улучшенный сигнал

 

 

Широкополосный

 

 

 

 

 

 

 

 

12 кбитjс

 

 

 

 

 

 

 

 

 

 

....

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

-

 

 

 

 

 

 

 

улучшенный слой

 

 

 

 

 

Декодер С

высококачествен н ы й

 

 

 

 

 

 

 

 

10 кбитjс

 

 

 

 

--,

 

 

сигнал

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

22 кбитjс

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Декодер D

широкополосный

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

высококачествен н ы й

 

 

 

 

 

 

 

 

 

 

 

 

 

~

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

сигнал

 

 

 

 

 

 

 

 

 

Рис. 3.34. Масштабируемость речевого кодека CELP

 

 

Секретная

 

 

Сотовая

 

 

Интернет

 

 

ISDN

связь

 

 

связь

 

 

 

 

 

 

 

 

 

2

4

6

8 10 12

14 16

24

32

 

48

64 кбит/с

 

I~ ~-- --

~

----~~М~а-с~~-т-а~б~и~р-у-е-м-ы~й-к-о-д~le-p----

~------

~--

~I

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Параметрический

кодер

CELP кодер

Универсальный кодер

4 кГц

8 кГц

20 кГц

(Полоса звука)

Рис. 3.35. Области применения различных алгоритмов

кодирования звука

154

3. ПРАКТИЧЕСКОЕ ИСПОЛЬЗОВАНИЕ ВИДЕОКОМПРЕССИИ В ТЕЛЕВИДЕНИИ

Второй

язык - структурированный партитурный язык (Structured

Audio Score Language) предназначен для описания партитуры всех инстру­ ментов, составляющих звуковой объект. Для воссоздания звуковой сцены в

декодер загружаются параметры всех инструментов, а затем в потоке пе­

редается партитура.

Стандартом поддерживается механизм привязки звука к расположе­ нию объекта в пространстве сцены и его изменения при перемещении объ­

екта, введены механизмы изменения звука в зависимости от акустических

свойств пространства сцены [14].

Одно из новшеств стандарта МPEG-4 - алгоритм преобразования тек­ ста в речь TTSI (Text-to-Speech Interface). По каналу передается текст со скоростью от 200 бит/с до 1,2 кбит/с, а декодер преобразует его в речь. В отличие от обычных синтезаторов речи, извлекающих из базы данных фо­ немы (единицы речи) и соединяющих эти фонемы в связную, но совер­ шенно лишенную эмоций речь, TTSI дополняет речь характеристиками живого голоса - тембром, интонацией, акцентом, просодией (так называет­ ся система произношения ударных и неударных, долгих и кратких звуков). Поддерживаются и другие функции: синхронизация речи с синтезирован­

ным лицом говорящего, включая выражение лица и движения губ; воз­

можность для пользователя изменить ритм, тон, громкость, пол, возраст говорящего; сменить язык; изменение характеристик речи при перемеще­ нии говорящего в пространстве сцены; возможность остановки, ускорен­

ного воспроизведения вперед и назад без нарушения просодии и т.д. Воз­

можные области применения TTSI - искусственный рассказчик (по запро­ су); синтез речи, синхронной с анимацией; синтез речи для виртуальной

реальности; говорящая газета; средство дублирования для анимационных картинок; голосовой Интернет и многие другие.

Во второй версии стандарта приняты дополнения и усовершенствова­ ния к существующим алгоритмам, введены новые алгоритмы. В частности, повышена устойчивость к ошибкам в ААС, введена опция звукового коде­

ра ААС с малой алгоритмической задержкой (Low-Delay Audio Coder - за­ держка 20 мс вместо нескольких сотен миллисекунд). Снижение задержки

достигается уменьшением длины кадра до 512 отсчетов вместо 1024,

уменьшением вдвое размера окна оконной функции, минимальным ис­

пользованием резервуара бит. Ценой снижения задержки стало увеличение

скорости потока для «прозрачного» канала примерно на 8 кбит/с, но такой кодер все еще лучше кодера МР-3 на скорости 64 кбит/с.

Во второй версии масштабируемость кодера Универсального звука

сделана более детальной (шаги 2 кбит/с вместо 16 кбит/с). Масштабируе­ мость достигается благодаря кодированию потока звукоданных несколь­ кими кодерами, первый из которых обрабатывает прореженный исходный

поток, а каждый из последующих компрессирует разность между входным

и декодированным сигналами предыдущей ступени (рис. 3.36). Для работы

 

3.3. Стандарт представления медиа-объектов МPEG-4

 

155

 

 

 

 

 

 

 

 

 

 

 

 

 

 

r --

 

 

-r--

 

Понижающая

 

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Кодер 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

передискретизация

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Декодер 1

 

 

 

 

о-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

о

 

 

 

 

 

 

 

 

 

Ь,-.Кодер2

u

r--+

 

 

 

 

 

 

 

 

::s:с:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

:::с

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Q)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

<::;

 

 

 

 

 

 

 

 

 

 

 

 

Декодер 2

 

 

1-

 

 

 

 

 

 

 

 

 

 

 

 

~КодерЗс-

..а

 

 

 

 

 

 

 

 

 

 

 

 

::Е

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

§,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

' --

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рис. 3.36. Масштабирующий универсальный кодер MPEG-4

 

 

 

 

 

 

 

на очень низких скоростях введен алгоритм параметрического кодирова­

ния HILN (Harmonic and Individual Lines plus Noise - гармоники и одиноч­

ные линии плюс шум), базирующийся на представлении звукового сигнала как набора синусоид, гармоник и шумов и передаче по каналу параметров

этих первичных сигналов. Частоты и амплитуды первичных сигналов

квантуются с разрешением, соответствующим градации «различие едва

заметно». Спектральная огибающая шума и гармонические компоненты

описываются на основе техники линейного предсказания, при этом ис­

пользуется корреляция между параметрами в кадре и между последова­

тельными кадрами. Этим методом можно кодировать звуковые сигналы,

начиная со скорости 4 кбит/с. Упомянем также специальный формат

транспортного потока для звуковых nрименений с малой избыточностью

LOAS (Low Overhead Audio Stream), возможность организации обратного

канала от пользователя к источнику контента для поддержки интерактив­

ных приложений, более устойчивую к ошибкам версию НУХС.

3.3.5. Профили и уровни стандарта MPEG-4

МPEG-4 представляет собой обширный набор средств и алгоритмов кодирования аудиовизуальных объектов. Чтобы сделать реализацию деко­ дера экономически оправданной и облегчить проверку на соответствие стандарту, в некоторых разделах определены ограниченные наборы инст­

рументов, называемые профилями. Для каждого из профилей установлены

один или несколько уровней, ограничивающих требования к вычислитель­

ным способностям декодера. Понятие профиля введено для визуальных объектов, аудио, системы и описаний сцены. Однако специфика МPEG-4

потребовала некоторых дополнений по сравнению с предшествующими стандартами. В МPEG-2 видеокадр можно представить себе как один пря­ моугольный объект, занимающий всю сцену, и для него достаточно опре­

делить один профиль. В МPEG-4 объектов может быть несколько, для ка­ ждого оптимальным будет свой профиль, поэтому введена дополнительная градация, как промежуточная между уровнем и профилем - тип объекта. Этот параметр определяет синтаксис (структуру) цифрового потока для

156

3. ПРАКТИЧЕСКОЕ ИСПОЛЬЗОВАНИЕ ВИДЕОКОМПРЕССИИ В ТЕЛЕВИДЕнии

одиночного объекта. Профиль же определяет набор типов объектов, кото­

рые могут присутствовать в сцене.

Для натуральных объектов определены пять типов объектов [14]:

1) Простой - прямоугольный объект с произвольным форматом, ис­

пользует простые средства кодирования, основанные на 1- и р-уор.

2) Простой масштабируемый - прямоугольный объект с пространст­ венным и временнь'IМ масштабированием.

3) Базовый - производный от Простого, С добавлением В-уор. Черес­

строчная развертка не поддерживается.

4) Основной - обеспечивает высшее качество, по сравнению с Базо­ вым дополнительно поддерживает градационное кодирование формы,

спрайты, чересстрочное разложение.

5) N-битовый - аналогичен Базовому, но допускает квантование плос­ костей яркости и цветности с разрядностью от 4 до 12 бит.

Для кодирования неподвижных натуральных визуальных объектов существует специальный тип объекта:

б) Неnодвижная масштабируемая текстура - неподвижное изобра­

жение произвольной формы, использует волновое кодирование и пошаго­

вую загрузку и восстановление.

Для синтетических объектов определены следующие три типа объектов:

7) Анимированная двумерная сетка - объединяет синтетическую сет­ ку (прямоугольную или топологии Делоне) с натуральным видео, коди­ руемым по Базовому типу. Видео может отображаться на сетку и дефор­

мироваться путем перемещения ее узлов - это дает интересные анимаци­

онные возможности. Визуальный объект может быть любой формы.

8) Базовая анимированная текстура - анимация неподвижных изо­

бражений (таких, как в типе б).

9) Примитивное ЛИЦО - средство анимации человеческого лица. Этот

тип объекта не определяет конкретное лицо, анимация может быть приме­ нена к любой выбранной модели.

Профили, как уже сказано, определяют, какие типы визуальных объ­ ектов могут присутствовать в сцене. В первой версии стандарта 9 профи­ лей, допустимые сочетания профилей и типов объектов приведены в табл. 3.б. Простой профиль допускает присутствие только объектов Про­

стого типа и предназначен в первую очередь для мобильных служб и Ин­ тернета. Он поддерживает до 4-х объектов в сцене с максимальным разре­ шением QCIF, три уровня ограничивают скорость потока в пределах от б4

до 384 кбит/с, максимальную площадь, занимаемую объектом, и число

макроблоков в секунду, которое декодер должен обработать. Простой

масштабируемый профиль может осуществлять кодирование с масштаби­

рованием при тех же предпосылках, имеет два уровня.

Базовый профиль воспринимает типы объектов простой и базовый, полезен для интерактивных приложений. Основной профиль создавался с учетом вещательных служб. Самый высший уровень основного профиля поддерживает до 32 объектов простого, базового или основного типа и

3.3. Стандарт представления медиа-объектов МPEG-4

157

максимальную суммарную скорость потока до 38 Мбит/с. N-биmовый nро­ филь работает с объектами простого, базового и N-битового типа и полезен в специальных системах наблюдения и медицинского контроля, где требу­

ется широкий динамический диапазон яркости и насыщенности.

Из остальных профилей наибольший интерес представляет гибрид­ Hый' объединяющий натуральные (базовый) и синтетические (все три) ти­ пы объектов. Он полезен при помещении «реального» объекта в синтети­ ческий мир и, наоборот, синтетического объекта в реальное окружение.

В нижней строке табл. 3.6 указано число уровней, определенных в стандарте для каждого профиля. В табл. 3.7 показаны параметры потока

для некоторых уровней.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 3.6

 

 

 

 

Профили и типы объектов MPEG-4 видео

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

I

)!:S

 

 

 

):=

I

CIj

I

 

 

I

 

 

):=

 

 

 

 

 

 

о

u

~

):=

о

~~

CIj

~

 

~

CIj

 

 

 

 

 

 

~

Q)

~

 

 

 

 

 

 

 

 

):=

CIj

~

):=

 

 

 

 

~

CIj

~

 

 

 

 

 

Профиль

 

f-'

):=

>-.

~

=

~

ф u

)::>i'

~

=

~

~

 

 

 

 

 

 

CIj

;.:::

 

 

 

 

 

 

u

 

 

~

о

 

 

 

 

 

~~

~

~

 

 

 

 

 

 

о

~ ~

о

о

~

f-'

~

О

CIj

~ ~

 

 

 

 

 

 

 

 

о

CIj

~

u=

I

В

~

о

&~

6"

 

 

 

 

 

 

~

~

Ф

 

 

§

§

 

 

 

Тип объекта

 

~s

 

о

Z

CIj

~

~~

~

~

u

:=

 

 

 

 

 

 

 

~

Q)

~

~

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Простой

 

 

 

 

 

 

 

 

 

 

 

 

 

Простой масштабируемый

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Базовый

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Основной

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

N-битовый

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Масштабируемая текстура

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Анимированная D-сетка

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Базовая анимированная

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

структура

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Примитивное лицо

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Число уровней

 

 

3

2

 

2

3

 

1

3

 

2

 

 

 

2

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 3.7

 

Параметры потока для некоторых профилей MPEG-4 видео

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Профили

Типовой раз-

Скорость по-

 

Максимальное

 

Общая емкость

 

 

 

памяти, макро-

 

и уровни

мер сцены

 

 

тока, бит/с

 

 

число объектов

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

блоков

 

 

Простой

 

Ll

QCIF

 

 

 

 

64 к

 

 

 

4

 

 

 

 

 

198

 

 

 

L2

CIF

 

 

 

128 к

 

 

 

4

 

 

 

 

 

792

 

 

профиль

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

L3

CIF

 

 

 

384 к

 

 

 

4

 

 

 

 

 

792

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Базовый

 

Ll

QCIF

 

 

 

384 к

 

 

 

4

 

 

 

 

 

594

 

 

профиль

 

L2

CIF

 

 

 

 

 

 

 

16

 

 

 

 

 

2376

 

 

Основной

 

L2

CIF

 

 

 

 

 

 

 

16

 

 

 

 

 

2376

 

 

 

L3

Рек. 601

 

 

 

15 М

 

 

 

32

 

 

 

 

 

9720

 

 

профиль

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

L4

1920хl080

 

 

 

38,4М

 

 

 

32

 

 

 

 

 

48960

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

158

3. ПРАКТИЧЕСКОЕ ИСПОЛЬЗОВАНИЕ ВИДЕОКОМПРЕССИИ В ТЕЛЕВИДЕнии

В стандарте установлены следующие точки соответствия: Простой

профиль и Базовый профиль с размерами сцены QCIF и CIF, скоростями потока 64, 128, 384 кбит/с и 2 Мбит/с. Для Основного профиля нормиру­ ются форматы CIF, Рек. ВТ.601, ТВЧ со скоростями 2, 15 и 38,4 Мбит/с.

Вторая версия стандарта добавила три профиля к натуральному видео: 1) Простой усовершенствованный профиль реального времени - обес­ печивает эффективное кодирование с использованием обратного канала

(видеотелефония, телеконференции, дистанционное наблюдение).

2) Базовый масштабируемый профиль - поддерживает пространст­ венное и временн6е масштабирование в Базовом профиле.

3) Профиль с улучшенной эффективностью кодирования - подходит для мобильного приема вещательных передач и других применений, где требуется высокая эффективность кодирования.

Три новых профиля введены в синтетическое видео, в том числе Про­ стой профиль анимации лица и фигуры. Общее число визуальных профи­ лей достигло 15.

Уже после принятия второй версии продолжается работа над допол­ HeHияMи к стандарту. В частности, предполагается ввести студийный nро­

филь, в котором УОР с кодированием формы могли бы передаваться со

скоростью несколько сот Мегабит в секунду. В табл. 3.8 показаны основ­

ные параметры предлагаемого профиля. Низкий уровень этого профиля мог бы соответствовать высокому уровню профиля «4:2:2» из стандарта МPEG-2 (см. табл. 3.8 и табл. 3.1), в двух других уровнях предлагается

ввести два подуровня - с дискретизацией «4:2:2» и «4:4:4». Группа МPEG

изучает кодирование 2D и 3D анимаций, цифровой кинематограф и другие

вопросы.

 

 

 

 

 

 

 

Таблица 3.8

Параметры предлагаемого студийного профиля стандарта MPEG-4

 

 

 

 

 

 

 

 

 

 

 

Максимальный

Максималь-

Скорость

Квантование,

Уровень

размер изображе-

цифрового

ния и частота

ная скорость

потока,

дискретиза-

 

 

 

отсчетов

 

 

 

 

кадров

Мбит/с

ция

 

 

 

 

 

 

 

 

 

 

 

 

 

Низкий (совместим

1920хl080 30Гц

125337600

300

10 бит 4:2:2

с 4:2:2 P@HL)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4:2:2

 

 

250675200

600

10 бит 4:2:2

Основной

 

2048х2048

 

 

10 бит 4:2:2

4:4:4

60Гц

376012800

800

 

4:4:4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4:2:2

 

 

805306368

1200

10/12 бит

 

4096х4096

4:2:2

Высокий

 

 

 

4:4:4

120 Гц

1207959552

2500

10/12 бит

 

 

 

 

 

4:2:24:4:4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3.3. Стандарт представления медиа-объектов МPEG-4

159

Как и для видеообъектов, в стандарте введена классификация типов объектов для звука. В общей сложности первая версия определила 15 ти­ пов объектов, часть из них базируется на алгоритме ААС, один на алго­ ритме Twin VQ, три типа объектов связаны с алгоритмами кодирования речи, еще четыре определяют типы объектов для синтезированных звуков. Определены 4 профиля кодирования звука:

1) Речевой профиль - совместим с тремя «речевыми» типами объек­

тов, имеет два уровня, допускает до 20 2) Масштабируемый профиль -

объектов в сцене одновременно. обеспечивает высококачественное

кодирование при низкой скорости цифрового потока и гибкое приспособ­ ление к изменениям скорости в канале, наилучшим образом приспособ­ лен для передачи звука в Интернете. Число объектов в сцене, число пото­

ков и частоты дискретизации определяются четырьмя уровнями, опреде­

ленными в условных «единицах сложности» - производительности про­

цессора в миллионах операций в секунду (PCU) и объеме памяти в тыся­ чах слов (RCU).

Уровень 1: один монообъект любого типа, частота дискретизации до 24 кГц.

Уровень 2: один стереоили два монообъекта, частота до 24 кГц. Уровень 3: один стереоили два монообъекта, частота до 48 кГц. Уровень 4: один объект 5.1 или группа объектов, частота до 48 кГц,

сложность до 30 PCU и 19 RCU.

В качестве примера в табл. 3.9 приведены требования к декодеру, ра­

ботающему в одном из уровней данного профиля.

 

 

 

Таблица 3.9

Требования к декодеру звука масштабируемого профиля

 

 

 

 

 

Тактовая частота,

Быстродействие

Емкость памяти,

Тип объекта

процессора, млн.

кГц

тыс. слов

 

операций/с

 

 

 

 

 

 

 

ААС Основной

48

5

5

 

 

 

 

ААС Простой

48

3

3

 

 

 

 

ААС с масштабируемой

48

4

3

тактовой частотой

 

 

 

 

 

 

 

ААС с долговременным

48

4

4

предсказанием

 

 

 

 

 

 

 

ААС Масштабируемый

48

5

4

 

 

 

 

TwinVQ

24

2

3

CELP

8

1

1

 

 

 

 

CELP

16

2

1

 

 

 

 

CELP

8/16

3

1

 

 

 

 

НУХС

8

2

1