Учебники / Цифровое телевизионное вещание под редакцией Г. В. Мамчев, 2014
.pdf
150 3. ПРАКТИЧЕСКОЕ ИСПОЛЬЗОВАНИЕ ВИДЕОКОМПРЕССИИ В ТЕЛЕВИДЕНИИ
|
- |
|
|
|
|
|
|
|
|
|
|
|
|
|
Синтезиру |
|
|
|
|
ПАМ |
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
ющий БФ |
|
|
||
|
- |
|
! |
- |
|
|
- |
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
||||||
- |
Анализи- |
r+- |
Квантование |
Мульти- |
Демульти |
Восстановле |
|
||||||||||
|
|
|
|
||||||||||||||
|
рующий БФ |
и кодирование |
|
плексор |
|
плексор |
ние отсчетов |
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
f |
|
|
|
|
|
|||
|
|
|
Обнаруже- |
|
|
|
|
|
|
Генератор |
|
||||||
|
|
|
ние шума |
|
|
|
|
|
|
|
|
шума |
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
а) |
|
|
|
|
|
|
|
б) |
||
|
|
|
|
|
Рис. 3.31. Схема реализации режима PNS: |
|
|
|
|||||||||
а) кодер; б) декодер
тра и он подменяет соответствующие спектральные коэффициенты псев дослучайными сигналами с требуемой мощностью. Режим PNS иллюстри руется структурной схемой рис. 3.31.
Еще одно усовершенствование связано с введением алгоритма ВSAC (Bit-Sliced Arithmetic Coding - арифметическое кодирование с побитовым расщеплением). Чтобы получить масштабируемый поток, BSAC использу
ет альтернативный по отношению к ААС модуль кодирования квантован
ных коэффициентов с точным управлением скоростью потока в пределах от 16 до 64 кбит/с с шагом 1 кбит/с.
Существенный выигрыш в скорости потока для стационарных гармо нических и квазигармонических сигналов позволяет получить метод дол
говременного предсказания LТР (Long Term Prediction). В технике кодиро
вания речи этот метод широко используется во временн6й области. В стандарте МPEG-4 он интегрирован в схему универсального кодера
(рис. 3.32), где операции квантования и кодирования осуществляются над
спектральными представлениями входного сигнала. Для работы схемы LТР кодированный сигнал предыдущего кадра переводится обратно во временную область с помощью инверсного преобразования TNS и синте зирующего БФ, в блоке LTP он сравнивается с приходящим сигналом, а полученная разность опять переводится в спектральную область. Специ aльHый переключатель FSS (Frequency Selective Switch - nереключатель с частотной избирательностью) выбирает исходный или разностный сиг
нал в зависимости от того, какая альтернатива в данный момент предпоч
тительнее. По сравнению с предсказанием из МPEG-2 ААС данный метод предсказания требует вдвое меньших ресурсов памяти и производительно
сти процессора.
Для увеличения эффективности кодирования музыкальных сигналов на низких скоростях разработан новый алгоритм TwinVQ (Transformdomain Weighted Interleave VQ - взвешивающее векторное квантование с nеремежением и nреобразованием областей). Основная идея - заменить
3.3. Стандарт представления медиа-объектов МPEG-4 |
151 |
Синтезирую-
щий БФ
t |
|
|
|
|
|
|
|
|
Синтезирую- |
||
|
|
|
|
||
|
|
|
|
щий TNS |
|
|
LT |
||||
|
|
||||
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
t |
|
|
|
|
Обратный |
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
FSS |
|
|
|
|
||||
|
|
|
|
|
|
Анализиру- |
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
t |
|
|
|
|
Ф |
|
|
|
|
|
||||
|
|
|
|
|
|
ющий БФ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Анализиру- |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ющий TNS |
|
|
|
|
Восстановле- |
|
--- |
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
I |
|
|
|
|
ние отсчетов |
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
Анализиру- |
|
|
Анализиру- |
|
|
|
|
Квантование |
|
|
|
|
|||||
- |
|
- ющий БФ |
r.. |
ющий TNS |
~ |
FSS- |
и кодирование |
- |
|
- |
||||||||||
|
|
|
||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ПАМ |
|
|
|
|
|
|
|
|
|
Мулыи- |
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
плексирование |
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
Рис. 3.32. Схема универсального кодера с Lтр |
|
|
|
|
||||||||||||
обычное кодирование спектральных компонентов в ААС перемежающим
векторным квантованием, приложенным к нормализованному спектру.
Квантование спектральных коэффициентов осуществляется в два шага: на
первом они нормализуются к некоторому пределу, на втором - квантуются
с использованием векторного квантования. Процесс нормализации вклю чает оценку спектра по шкале Барка, извлечение периодических компонен тов и оценку мощности спектральных составляющих. В результате норма
лизации спектральные коэффициенты выравниваются и нормализуются вдоль частотной оси. Затем нормализованные коэффициенты описываются
как многомерный вектор, чередуются в субвекторы, как показано на рис. 3.33, и квантуются с использованием векторного квантования. Ос тальная часть алгоритма ААС остается неизменной.
TwinVQ дает хорошие результаты в области скоростей от 6 до 24 кбит/с и используется в основном в универсальных кодеках МPEG-4 с масштабированием для формирования базового слоя.
Для кодирования речи применяются два основных алгоритма: пара
метрический НУХС (Harmonic Vector eXcitation Coding - кодирование с помощью гармонических векторов) и CELP (Code Excited Linear Prediction
coding - кодирование с линейным предсказанием). Первый алгоритм обес печивает более высокое сжатие, он применяется в интервале скоростей по тока 2 .. .4 кбит/с (при переменной скорости - даже до 1,2 кбит/с), работает
152 |
|
3. ПРАКТИЧЕСКОЕ ИСПОЛЬЗОВАНИЕ ВИДЕОКОМПРЕССИИ В ТЕЛЕВИДЕНИИ |
|||||||
|
|
|
Вектор исходного сигнала |
||||||
|
|
|
|
|
|
|
|
Перемежение |
|
|
|
|
|
|
|
|
'---г-------' Субвекторы |
||
|
|
г----- |
|
|
|
|
|
||
|
|
I |
|
|
г----- |
|
|
||
|
|
I |
|
|
I |
|
|
г-- |
|
|
|
|
|
|
|
|
|
|
|
|
Векторное |
|
Векторное |
|
Векторное |
|
|||
|
квантование |
|
квантование |
|
квантование |
|
|||
|
со взвеши |
|
со взвеши |
|
со взвеши |
|
|||
|
|
ванием |
|
|
ванием |
|
|
ванием |
|
|
|
|
|
|
|
|
|
|
|
Индексы
Рис. З.ЗЗ. Алгоритм TwinVQ векторного квантования
спектральных компонентов
с частотой дискретизации 8 кГц в полосе стандартного телефонного канала
300 ... 3400 Гц. Второй алгоритм имеет несколько разновидностей, работает в двух режимах - полосы частот 300 ... 3400 Гц с дискретизацией 8 кГц и 50 ... 7000 Гц с дискретизацией 16 кГц, и обеспечивает скорость потока от 4
до 24 кбит/с. Оба алгоритма базируются на моделировании речи с линей
ным предсказанием. Поступающий речевой сигнал сравнивается с сигна
лом, предсказанным моделью речевого тракта, параметры модели изменя
ются таким образом, чтобы минимизировать разность двух сигналов, и пе редаются декодеру. В декодере имеется такая же модель, которая по полу ченным значениям параметров синтезирует речевой сигнал. В НУХС более высокая степень сжатия объясняется более грубым анализом по огибаю щей спектра и изменениям высоты тона. CELP использует более точный спектральный анализ с долговременным предсказанием, обеспечивая более
высокое качество передачи речи.
Основное преимущество обоих алгоритмов перед речевыми кодеками,
стандартизованными МСЭ, - масштабируемость по скорости су CELP с шагом 200 бит/с), по полосе частот, что обеспечивает возможность работы
с декодерами разной сложности. Эта возможность проиллюстрирована на рис. 3.34, где показано, что кодер выдает базовый поток и улучшающие
слои, а декодеры принимают эти потоки в соответствии со своими воз
можностями.
На рис. 3.35 наглядно показаны области применения различных алго ритмов кодирования звука, применяемых в МPEG-4.
Если при кодировании натуральных звуков используется nерцеnту
альное сжатие исходного звукового сигнала, то кодирование синтезиро ванного звука производится путем создания его описания. Это описание
передается декодеру и по нему синтезируется звук, аналогичный исходно-
3.3. Стандарт представления медиа-объектов МPEG-4 |
153 |
му. В стандарте МPEG-4 этот процесс реализуется в рамках формата «Структурированное аудио», допускающего передачу по каналу синтези рованных звуков и музыки со скоростями 0,01 ... 10 кбит/с. Для описания музыкальных звуков различных инструментов разработан специальный структурированный оркестровый язык (SAOL - Structured Audio Orchestra Language), он оперирует загружаемыми в поток «инструментами». Инст румент представляет собой небольшой программный или аппаратный мо дуль генерации и обработки простейших сигналов, который может вос
производить определенные звуки, в том числе и схожие со звуками музы
кальных инструментов. MPEG-4 не стандартизует метод синтеза, скорее он дает способ описания методов синтеза, пригодный для всех существующих
и перспективных алгоритмов.
|
|
|
|
|
|
|
Базовый поток б кбитjс |
|
|
|
|
|
|||||||||
Р |
ечь "" |
|
|
|
|
/ |
|
,... |
|
|
б кбитjс |
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|||||||||||||
|
|
Кодер |
|
|
|
|
|
|
|
|
Декодер А |
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
базовый сигнал |
|
|
||||
|
|
|
|
|
|
~, |
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
Улучшенные слои |
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
"" |
|
|
|
|
|
|
|
||||||||
|
|
|
по 2 кбит/с / |
|
|
|
|
- |
|
Декодер в |
8 кбитjс |
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
улучшенный сигнал |
|||||||||||
|
|
Широкополосный |
|
|
|
|
|
|
|
|
12 кбитjс |
|
|
|
|||||||
|
|
|
|
|
|
|
.... |
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
|
|
|
|
|
- |
|
|
|
|
|
|||||||||||
|
|
улучшенный слой |
|
|
|
|
|
Декодер С |
высококачествен н ы й |
||||||||||||
|
|
|
|||||||||||||||||||
|
|
|
|
|
10 кбитjс |
|
|
|
|
--, |
|
|
сигнал |
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
22 кбитjс |
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Декодер D |
широкополосный |
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
высококачествен н ы й |
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
~ |
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
сигнал |
|
|
|
|
|
|
|
|
|
Рис. 3.34. Масштабируемость речевого кодека CELP |
|
|
||||||||||||||
Секретная |
|
|
Сотовая |
|
|
Интернет |
|
|
ISDN |
||||||||||||
связь |
|
|
связь |
|
|
|
|
|
|
|
|
|
|||||||||
2 |
4 |
6 |
8 10 12 |
14 16 |
24 |
32 |
|
48 |
64 кбит/с |
||||||||||||
|
I~ ~-- -- |
~ |
----~~М~а-с~~-т-а~б~и~р-у-е-м-ы~й-к-о-д~le-p---- |
~------ |
~-- |
~I |
|||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Параметрический
кодер
CELP кодер
Универсальный кодер
4 кГц |
8 кГц |
20 кГц |
(Полоса звука)
Рис. 3.35. Области применения различных алгоритмов
кодирования звука
154 |
3. ПРАКТИЧЕСКОЕ ИСПОЛЬЗОВАНИЕ ВИДЕОКОМПРЕССИИ В ТЕЛЕВИДЕНИИ |
Второй |
язык - структурированный партитурный язык (Structured |
Audio Score Language) предназначен для описания партитуры всех инстру ментов, составляющих звуковой объект. Для воссоздания звуковой сцены в
декодер загружаются параметры всех инструментов, а затем в потоке пе
редается партитура.
Стандартом поддерживается механизм привязки звука к расположе нию объекта в пространстве сцены и его изменения при перемещении объ
екта, введены механизмы изменения звука в зависимости от акустических
свойств пространства сцены [14].
Одно из новшеств стандарта МPEG-4 - алгоритм преобразования тек ста в речь TTSI (Text-to-Speech Interface). По каналу передается текст со скоростью от 200 бит/с до 1,2 кбит/с, а декодер преобразует его в речь. В отличие от обычных синтезаторов речи, извлекающих из базы данных фо немы (единицы речи) и соединяющих эти фонемы в связную, но совер шенно лишенную эмоций речь, TTSI дополняет речь характеристиками живого голоса - тембром, интонацией, акцентом, просодией (так называет ся система произношения ударных и неударных, долгих и кратких звуков). Поддерживаются и другие функции: синхронизация речи с синтезирован
ным лицом говорящего, включая выражение лица и движения губ; воз
можность для пользователя изменить ритм, тон, громкость, пол, возраст говорящего; сменить язык; изменение характеристик речи при перемеще нии говорящего в пространстве сцены; возможность остановки, ускорен
ного воспроизведения вперед и назад без нарушения просодии и т.д. Воз
можные области применения TTSI - искусственный рассказчик (по запро су); синтез речи, синхронной с анимацией; синтез речи для виртуальной
реальности; говорящая газета; средство дублирования для анимационных картинок; голосовой Интернет и многие другие.
Во второй версии стандарта приняты дополнения и усовершенствова ния к существующим алгоритмам, введены новые алгоритмы. В частности, повышена устойчивость к ошибкам в ААС, введена опция звукового коде
ра ААС с малой алгоритмической задержкой (Low-Delay Audio Coder - за держка 20 мс вместо нескольких сотен миллисекунд). Снижение задержки
достигается уменьшением длины кадра до 512 отсчетов вместо 1024,
уменьшением вдвое размера окна оконной функции, минимальным ис
пользованием резервуара бит. Ценой снижения задержки стало увеличение
скорости потока для «прозрачного» канала примерно на 8 кбит/с, но такой кодер все еще лучше кодера МР-3 на скорости 64 кбит/с.
Во второй версии масштабируемость кодера Универсального звука
сделана более детальной (шаги 2 кбит/с вместо 16 кбит/с). Масштабируе мость достигается благодаря кодированию потока звукоданных несколь кими кодерами, первый из которых обрабатывает прореженный исходный
поток, а каждый из последующих компрессирует разность между входным
и декодированным сигналами предыдущей ступени (рис. 3.36). Для работы
|
3.3. Стандарт представления медиа-объектов МPEG-4 |
|
155 |
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
r -- |
|
|
-r-- |
|
Понижающая |
|
- |
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
Кодер 1 |
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
передискретизация |
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
Декодер 1 |
|
|
|
|
о- |
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
о |
|
|
|
|
|
|
|
|
|
Ь,-.Кодер2 |
u |
r--+ |
|||||
|
|
|
|
|
|
|
|
::s:с: |
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
:::с |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Q) |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
<::; |
|
|
|
|
|
|
|
|
|
|
|
|
Декодер 2 |
|
|
1- |
|
|
|
|
|
|
|
|
|
|
|
|
~КодерЗс- |
..а |
|
||
|
|
|
|
|
|
|
|
|
|
|
::Е |
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
§, |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
' -- |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Рис. 3.36. Масштабирующий универсальный кодер MPEG-4 |
|
||||||||||
|
|
|
|
|
|
||||||||||
на очень низких скоростях введен алгоритм параметрического кодирова
ния HILN (Harmonic and Individual Lines plus Noise - гармоники и одиноч
ные линии плюс шум), базирующийся на представлении звукового сигнала как набора синусоид, гармоник и шумов и передаче по каналу параметров
этих первичных сигналов. Частоты и амплитуды первичных сигналов
квантуются с разрешением, соответствующим градации «различие едва
заметно». Спектральная огибающая шума и гармонические компоненты
описываются на основе техники линейного предсказания, при этом ис
пользуется корреляция между параметрами в кадре и между последова
тельными кадрами. Этим методом можно кодировать звуковые сигналы,
начиная со скорости 4 кбит/с. Упомянем также специальный формат
транспортного потока для звуковых nрименений с малой избыточностью
LOAS (Low Overhead Audio Stream), возможность организации обратного
канала от пользователя к источнику контента для поддержки интерактив
ных приложений, более устойчивую к ошибкам версию НУХС.
3.3.5. Профили и уровни стандарта MPEG-4
МPEG-4 представляет собой обширный набор средств и алгоритмов кодирования аудиовизуальных объектов. Чтобы сделать реализацию деко дера экономически оправданной и облегчить проверку на соответствие стандарту, в некоторых разделах определены ограниченные наборы инст
рументов, называемые профилями. Для каждого из профилей установлены
один или несколько уровней, ограничивающих требования к вычислитель
ным способностям декодера. Понятие профиля введено для визуальных объектов, аудио, системы и описаний сцены. Однако специфика МPEG-4
потребовала некоторых дополнений по сравнению с предшествующими стандартами. В МPEG-2 видеокадр можно представить себе как один пря моугольный объект, занимающий всю сцену, и для него достаточно опре
делить один профиль. В МPEG-4 объектов может быть несколько, для ка ждого оптимальным будет свой профиль, поэтому введена дополнительная градация, как промежуточная между уровнем и профилем - тип объекта. Этот параметр определяет синтаксис (структуру) цифрового потока для
156 |
3. ПРАКТИЧЕСКОЕ ИСПОЛЬЗОВАНИЕ ВИДЕОКОМПРЕССИИ В ТЕЛЕВИДЕнии |
одиночного объекта. Профиль же определяет набор типов объектов, кото
рые могут присутствовать в сцене.
Для натуральных объектов определены пять типов объектов [14]:
1) Простой - прямоугольный объект с произвольным форматом, ис
пользует простые средства кодирования, основанные на 1- и р-уор.
2) Простой масштабируемый - прямоугольный объект с пространст венным и временнь'IМ масштабированием.
3) Базовый - производный от Простого, С добавлением В-уор. Черес
строчная развертка не поддерживается.
4) Основной - обеспечивает высшее качество, по сравнению с Базо вым дополнительно поддерживает градационное кодирование формы,
спрайты, чересстрочное разложение.
5) N-битовый - аналогичен Базовому, но допускает квантование плос костей яркости и цветности с разрядностью от 4 до 12 бит.
Для кодирования неподвижных натуральных визуальных объектов существует специальный тип объекта:
б) Неnодвижная масштабируемая текстура - неподвижное изобра
жение произвольной формы, использует волновое кодирование и пошаго
вую загрузку и восстановление.
Для синтетических объектов определены следующие три типа объектов:
7) Анимированная двумерная сетка - объединяет синтетическую сет ку (прямоугольную или топологии Делоне) с натуральным видео, коди руемым по Базовому типу. Видео может отображаться на сетку и дефор
мироваться путем перемещения ее узлов - это дает интересные анимаци
онные возможности. Визуальный объект может быть любой формы.
8) Базовая анимированная текстура - анимация неподвижных изо
бражений (таких, как в типе б).
9) Примитивное ЛИЦО - средство анимации человеческого лица. Этот
тип объекта не определяет конкретное лицо, анимация может быть приме нена к любой выбранной модели.
Профили, как уже сказано, определяют, какие типы визуальных объ ектов могут присутствовать в сцене. В первой версии стандарта 9 профи лей, допустимые сочетания профилей и типов объектов приведены в табл. 3.б. Простой профиль допускает присутствие только объектов Про
стого типа и предназначен в первую очередь для мобильных служб и Ин тернета. Он поддерживает до 4-х объектов в сцене с максимальным разре шением QCIF, три уровня ограничивают скорость потока в пределах от б4
до 384 кбит/с, максимальную площадь, занимаемую объектом, и число
макроблоков в секунду, которое декодер должен обработать. Простой
масштабируемый профиль может осуществлять кодирование с масштаби
рованием при тех же предпосылках, имеет два уровня.
Базовый профиль воспринимает типы объектов простой и базовый, полезен для интерактивных приложений. Основной профиль создавался с учетом вещательных служб. Самый высший уровень основного профиля поддерживает до 32 объектов простого, базового или основного типа и
3.3. Стандарт представления медиа-объектов МPEG-4 |
157 |
максимальную суммарную скорость потока до 38 Мбит/с. N-биmовый nро филь работает с объектами простого, базового и N-битового типа и полезен в специальных системах наблюдения и медицинского контроля, где требу
ется широкий динамический диапазон яркости и насыщенности.
Из остальных профилей наибольший интерес представляет гибрид Hый' объединяющий натуральные (базовый) и синтетические (все три) ти пы объектов. Он полезен при помещении «реального» объекта в синтети ческий мир и, наоборот, синтетического объекта в реальное окружение.
В нижней строке табл. 3.6 указано число уровней, определенных в стандарте для каждого профиля. В табл. 3.7 показаны параметры потока
для некоторых уровней.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Таблица 3.6 |
|||
|
|
|
|
Профили и типы объектов MPEG-4 видео |
|
|
|
|
|
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
I |
)!:S |
|
|
|
):= |
I |
CIj |
I |
|
|
I |
|
|
):= |
|
|
|
|
|
|
о |
u |
~ |
):= |
о |
~~ |
CIj |
~ |
|
~ |
CIj |
||||||
|
|
|
|
|
|
~ |
Q) |
~ |
|
|
||||||||||||
|
|
|
|
|
|
):= |
CIj |
~ |
):= |
|
|
|
|
~ |
CIj |
~ |
|
|||||
|
|
|
|
Профиль |
|
f-' |
):= |
>-. |
~ |
= |
~ |
ф u |
)::>i' |
~ |
= |
~ |
~ |
|||||
|
|
|
|
|
|
CIj |
;.::: |
|
||||||||||||||
|
|
|
|
|
u |
|
|
~ |
о |
|
|
|
|
|
~~ |
~ |
~ |
|||||
|
|
|
|
|
|
о |
~ ~ |
о |
о |
~ |
f-' |
~ |
О |
CIj |
~ ~ |
|||||||
|
|
|
|
|
|
|
|
о |
CIj |
~ |
u= |
I |
В |
~ |
о |
&~ |
6" |
|||||
|
|
|
|
|
|
~ |
UФ |
~ |
Ф |
|
|
§ |
§ |
|
|
|||||||
|
Тип объекта |
|
~s |
|
о |
Z |
CIj |
~ |
~~ |
~ |
~ |
u |
:= |
|||||||||
|
|
|
|
|
|
|
~ |
Q) |
~ |
~ |
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Простой |
|
|
|
• |
• |
|
• |
• |
• |
|
|
|
|
|
|
|
|
• |
|||
|
Простой масштабируемый |
|
|
|
• |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
Базовый |
|
|
|
|
|
|
|
• |
• |
• |
|
|
|
|
|
|
|
|
• |
||
|
Основной |
|
|
|
|
|
|
|
|
• |
|
|
|
|
|
|
|
|
|
|
||
|
N-битовый |
|
|
|
|
|
|
|
|
|
|
• |
|
|
|
|
|
|
|
|
|
|
|
Масштабируемая текстура |
|
|
|
|
|
|
• |
|
• |
|
|
|
|
|
• |
|
• |
||||
|
Анимированная D-сетка |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
• |
|||
|
Базовая анимированная |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
• |
|
• |
|||
|
структура |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Примитивное лицо |
|
|
|
|
|
|
|
|
|
|
|
• |
|
|
|
• |
|
• |
|||
|
Число уровней |
|
|
3 |
2 |
|
2 |
3 |
|
1 |
3 |
|
2 |
|
|
|
2 |
|
2 |
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Таблица 3.7 |
|||
|
Параметры потока для некоторых профилей MPEG-4 видео |
|
|
|||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
Профили |
Типовой раз- |
Скорость по- |
|
Максимальное |
|
Общая емкость |
|||||||||||||||
|
|
|
памяти, макро- |
|||||||||||||||||||
|
и уровни |
мер сцены |
|
|
тока, бит/с |
|
|
число объектов |
|
|||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
блоков |
|
|
|
Простой |
|
Ll |
QCIF |
|
|
|
|
64 к |
|
|
|
4 |
|
|
|
|
|
198 |
|
||
|
|
L2 |
CIF |
|
|
|
128 к |
|
|
|
4 |
|
|
|
|
|
792 |
|
||||
|
профиль |
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
|
L3 |
CIF |
|
|
|
384 к |
|
|
|
4 |
|
|
|
|
|
792 |
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
Базовый |
|
Ll |
QCIF |
|
|
|
384 к |
|
|
|
4 |
|
|
|
|
|
594 |
|
|||
|
профиль |
|
L2 |
CIF |
|
|
|
|
2М |
|
|
|
16 |
|
|
|
|
|
2376 |
|
||
|
Основной |
|
L2 |
CIF |
|
|
|
|
2М |
|
|
|
16 |
|
|
|
|
|
2376 |
|
||
|
|
L3 |
Рек. 601 |
|
|
|
15 М |
|
|
|
32 |
|
|
|
|
|
9720 |
|
||||
|
профиль |
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
|
L4 |
1920хl080 |
|
|
|
38,4М |
|
|
|
32 |
|
|
|
|
|
48960 |
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
158 |
3. ПРАКТИЧЕСКОЕ ИСПОЛЬЗОВАНИЕ ВИДЕОКОМПРЕССИИ В ТЕЛЕВИДЕнии |
В стандарте установлены следующие точки соответствия: Простой
профиль и Базовый профиль с размерами сцены QCIF и CIF, скоростями потока 64, 128, 384 кбит/с и 2 Мбит/с. Для Основного профиля нормиру ются форматы CIF, Рек. ВТ.601, ТВЧ со скоростями 2, 15 и 38,4 Мбит/с.
Вторая версия стандарта добавила три профиля к натуральному видео: 1) Простой усовершенствованный профиль реального времени - обес печивает эффективное кодирование с использованием обратного канала
(видеотелефония, телеконференции, дистанционное наблюдение).
2) Базовый масштабируемый профиль - поддерживает пространст венное и временн6е масштабирование в Базовом профиле.
3) Профиль с улучшенной эффективностью кодирования - подходит для мобильного приема вещательных передач и других применений, где требуется высокая эффективность кодирования.
Три новых профиля введены в синтетическое видео, в том числе Про стой профиль анимации лица и фигуры. Общее число визуальных профи лей достигло 15.
Уже после принятия второй версии продолжается работа над допол HeHияMи к стандарту. В частности, предполагается ввести студийный nро
филь, в котором УОР с кодированием формы могли бы передаваться со
скоростью несколько сот Мегабит в секунду. В табл. 3.8 показаны основ
ные параметры предлагаемого профиля. Низкий уровень этого профиля мог бы соответствовать высокому уровню профиля «4:2:2» из стандарта МPEG-2 (см. табл. 3.8 и табл. 3.1), в двух других уровнях предлагается
ввести два подуровня - с дискретизацией «4:2:2» и «4:4:4». Группа МPEG
изучает кодирование 2D и 3D анимаций, цифровой кинематограф и другие
вопросы.
|
|
|
|
|
|
|
Таблица 3.8 |
|
Параметры предлагаемого студийного профиля стандарта MPEG-4 |
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
Максимальный |
Максималь- |
Скорость |
Квантование, |
||
Уровень |
размер изображе- |
цифрового |
||||||
ния и частота |
ная скорость |
потока, |
дискретиза- |
|||||
|
|
|
отсчетов |
|
||||
|
|
|
кадров |
Мбит/с |
ция |
|||
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
Низкий (совместим |
1920хl080 30Гц |
125337600 |
300 |
10 бит 4:2:2 |
||||
с 4:2:2 P@HL) |
||||||||
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
4:2:2 |
|
|
250675200 |
600 |
10 бит 4:2:2 |
|
Основной |
|
2048х2048 |
|
|
10 бит 4:2:2 |
|||
4:4:4 |
60Гц |
376012800 |
800 |
|||||
|
4:4:4 |
|||||||
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
4:2:2 |
|
|
805306368 |
1200 |
10/12 бит |
|
|
4096х4096 |
4:2:2 |
||||||
Высокий |
|
|
|
|||||
4:4:4 |
120 Гц |
1207959552 |
2500 |
10/12 бит |
||||
|
|
|||||||
|
|
|
4:2:24:4:4 |
|||||
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
3.3. Стандарт представления медиа-объектов МPEG-4 |
159 |
Как и для видеообъектов, в стандарте введена классификация типов объектов для звука. В общей сложности первая версия определила 15 ти пов объектов, часть из них базируется на алгоритме ААС, один на алго ритме Twin VQ, три типа объектов связаны с алгоритмами кодирования речи, еще четыре определяют типы объектов для синтезированных звуков. Определены 4 профиля кодирования звука:
1) Речевой профиль - совместим с тремя «речевыми» типами объек
тов, имеет два уровня, допускает до 20 2) Масштабируемый профиль -
объектов в сцене одновременно. обеспечивает высококачественное
кодирование при низкой скорости цифрового потока и гибкое приспособ ление к изменениям скорости в канале, наилучшим образом приспособ лен для передачи звука в Интернете. Число объектов в сцене, число пото
ков и частоты дискретизации определяются четырьмя уровнями, опреде
ленными в условных «единицах сложности» - производительности про
цессора в миллионах операций в секунду (PCU) и объеме памяти в тыся чах слов (RCU).
Уровень 1: один монообъект любого типа, частота дискретизации до 24 кГц.
Уровень 2: один стереоили два монообъекта, частота до 24 кГц. Уровень 3: один стереоили два монообъекта, частота до 48 кГц. Уровень 4: один объект 5.1 или группа объектов, частота до 48 кГц,
сложность до 30 PCU и 19 RCU.
В качестве примера в табл. 3.9 приведены требования к декодеру, ра
ботающему в одном из уровней данного профиля.
|
|
|
Таблица 3.9 |
|
Требования к декодеру звука масштабируемого профиля |
||||
|
|
|
|
|
|
Тактовая частота, |
Быстродействие |
Емкость памяти, |
|
Тип объекта |
процессора, млн. |
|||
кГц |
тыс. слов |
|||
|
операций/с |
|||
|
|
|
||
|
|
|
|
|
ААС Основной |
48 |
5 |
5 |
|
|
|
|
|
|
ААС Простой |
48 |
3 |
3 |
|
|
|
|
|
|
ААС с масштабируемой |
48 |
4 |
3 |
|
тактовой частотой |
||||
|
|
|
||
|
|
|
|
|
ААС с долговременным |
48 |
4 |
4 |
|
предсказанием |
||||
|
|
|
||
|
|
|
|
|
ААС Масштабируемый |
48 |
5 |
4 |
|
|
|
|
|
|
TwinVQ |
24 |
2 |
3 |
|
CELP |
8 |
1 |
1 |
|
|
|
|
|
|
CELP |
16 |
2 |
1 |
|
|
|
|
|
|
CELP |
8/16 |
3 |
1 |
|
|
|
|
|
|
НУХС |
8 |
2 |
1 |
|
|
|
|
|
|
