Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Компьютерное аудио - форматы аудио-файлов и методы компрессии.doc
Скачиваний:
60
Добавлен:
01.05.2014
Размер:
352.77 Кб
Скачать

3.6 Mpeg-4 (iso/iec 14496-3)

  • кодирование и совмещение естественных и синтезированных аудио-объектов в очень широком диапазоне скоростей потока данных.

3.6.1 Что нового содержит mpeg-4 Audio по сравнению с mpeg-2 Audio?

MPEG-4 будет объединять синтетическое и естественное (natural) кодирование аудио-сигналов. Блок синтетического кодирования включает инструменты для реализации символьного представления музыки и речи. Кроме того, включены инструменты для локализации звука в пространстве, что позволяет создавать искусственное звуковое окружение, используя как искусственные, так и естественные источники. ВMPEG-4стандартизовано естественное кодирование при скорости потока данных от 2 до 64kbps. Чтобы достичь наивысшего качества во всём этом диапазоне были определены три типа кодеков: параметрический, - для низких скоростей, с использованием метода линейного предсказания с возбуждением сигналом (Code Excited Linear Predictive (CELP) codec), - для средних и использованием преобразований из временной в частотную область (Time to Frequency (TF) codecs), - для высоких скоростей потока данных, включая MPEG-2 AAC и основанные на векторно-квантующих (Vector-Quantiser) алгоритмах, - для наивысших скоростей. Кроме того, включён ряд функциональных возможностей для поддержки всего диапазона приложений, - от использующих речь и до работающих с высококачественным многоканальным аудио.

3.6.2. Дополнительные функциональные возможности mpeg-4

Примеры функциональных возможностей:управление скоростью (speed control), изменение основного тона (pitch) сигнала, устойчивость(error resilience) и масштабируемость (scaleability).

MPEG-4 предоставляет несколько типов масштабируемости:

  1. Масштабируемость скорости потока данных позволяет преобразовывать исходный сигнал в поток с меньшей скоростью, который, тем не менее, может быть декодирован в значащий сигнал. Преобразование может осуществляться или при передаче, или в декодере.

  2. Масштабируемость частотного диапазона является частным случаем масштабируемости скорости потока данных. Таким образом, часть потока данных, представляющая часть частотного спектра может быть отброшена при передаче или декодировании.

  3. Масштабируемость (изменяемость) сложности кодеров позволяет кодерам различной сложности вырабатывать верный значащий поток данных.

  4. Масштабируемость (изменяемость) сложности декодеров позволяет декодировать сигнал с помощью декодеров различной сложности. Качество аудио сигнала зависит, в основном, от сложности используемых кодеров и декодеров.

  5. Устойчивость к ошибкам позволяет декодеру избежать или скрыть искажения, которые вызваны ошибками передачи.

3.6.3. Аудио объекты в mpeg-4

MPEG-4 определяет аудио объекты как‘реальные’объекты. Аудио объект‘реального мира’слышимая, семантическая(наделённая смыслом)сущность (голос одного или более дикторов, один или более музыкальных инструментов и т.д.). Он может быть записан с помощью одного микрофона в случае моно записи и большего числа микрофонов в случае многоканальной записи. Аудио объекты могут быть сгруппированы или совмещены, но разделить объект на подобъекты - тяжело.

Одиночный аудио объект может включать более одного аудио канала, если мы считаем, что все аудио каналы относятся к одному источнику звука. Например, один поток данных в MPEG-1 будет являться кодированным представлением одного объекта вMPEG-4. Этот объект содержит или один канал (режим моно), или 2 канала (режим двойное моно(dual), стерео или объединённое стерео (joint stereo)).

Вот примеры использования MPEG-4:

•"Воспроизведение N-1 Аудио объекта"

Передаются 5 мультиканальных сигналов, представляющих пять инструментов оркестра (квинтет). Слушатель может задать режим воспроизведения только четырёх из них, если ему хочется играть на своём собственном инструменте вместо пятого из оркестра.

•"Многоязычность"

Достаточно часто слушателей/зрителей спортивных программ отвлекает голос комментатора.MPEG-4будет предоставлять режим‘mix-minus’, где в выходном сигнале сохранён весь звук, исключая голос комментатора. Другой вариант использования – выделение одного языка из набора в многоязычной информационной системе. Следует отметить, что мультиязыковые/мультипрограммные возможности представлены также вMPEG-2 AAC, а мультиязыковые – и в MPEG-2 BC.

•"Клипы"

Клип содержит несколько типов аудио объектов.

Например, рис. 1 :‘На станции’ (4 типа аудио объектов)

Welcome to MPEG-4: ‘Добро пожаловать вMPEG-4’ (Объект-разговор)

Train to MPEG-4 07:30: ‘Поезд на MPEG-4 – 07:30’

Attention please: ‘Внимание’ (Объект-объявление)

• ‘Объект-разговор’:

Слова ‘Добро пожаловать’, несомненно, наиболее важная информация. Речь всегда локализуется перед слушателем. Этот диалог мог быть реализован и в многоязыковом режиме.

• ‘Объект заднего плана’:

Поезд приближается из удалённой точки к центру сцены, минует слушателя и исчезает позади него. Кроме того, низкочастотный канал может воспроизводить грохот проходящего поезда. Хотя включение этого объекта желательно, он может быть удалён в случае очень низкой скорости потока данных.

• ‘Объект-объявление’:

Для объявления достаточно передавать только один объект-речь невысокого качества. Некоторые псевдо-трёхмерные эффекты и эффект эхо может быть создан с помощьюMPEG-4 Проигрывателя(MPEG-4 Player).

• ‘Фоновая музыка’:

Такой оркестр мог быть создан ещё в MPEG-2 с использованием многоканальности, при этом поток данных не перекодируется.

Многоязыковые объекты

Для производства международной продукции необходимо иметь более одного объекта-диалога. Та же сцена может быть представлена на разных языках. Каждый язык является отдельным аудио объектом, кодируется с помощью независимого кодера и выбирается декодером.