Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
345
Добавлен:
15.03.2016
Размер:
2.59 Mб
Скачать

3.3.4. Кодирование звуковых объектов

Широкие возможности представляет стандарт MPEG-4 для кодирования звука. Впер­вые используются раздельные алгоритмы для кодирования звуков музыкального проис­хождения и речи, введены мощные средства создания и обработки синтезированного звука [14].

Н

Рис. 3.31.Схема реализации режимаPNS:

а) кодер;б) декодер

аиболее широкий круг звуковых объектов, от низкоскоростных моно до многока­нального звука вещательного качества, относится к категорииУниверсального звука (GA–GeneralAudio). В качестве основного алгоритма кодирования звуков различно­го происхождения принят известный нам изMPEG-2 алгоритм ААС с незначительными усовершенствованиями. Одно из них касается введения режимаPNS(PerceptualNoiseSubstitution–перцептуальное замещение шумом). Суть данного метода заключа­ется в обнаружении в приходящем сигнале шумоподобных составляющих и исключе­нии их из общего процесса кодирования. Декодеру передается информация о мощности шумовых компонентов в отдельных участках спектра и он подменяет соответствующие спектральные коэффициенты псевдослучайными сигналами с требуемой мощностью. РежимPNSиллюстрируется структурной схемой рис. 3.31.

Еще одно усовершенствование связано с введением алгоритма BSAC(Bit-SlicedArithmeticCoding–арифметическое кодирование с побитовым расщеплением). Что­бы получить масштабируемый поток,BSACиспользует альтернативный по отношению к ААС модуль кодирования квантованных коэффициентов с точным управлением ско­ростью потока в пределах от 16 до 64 кбит/с с шагом 1 кбит/с.

Существенный выигрыш в скорости потока для стационарных гармонических и ква­зигармонических сигналов позволяет получить метод долговременного предсказания LTP(LongTermPrediction). В технике кодирования речи этот метод широко используется во временнóй области. В стандартеMPEG-4 он интегрирован в схему универсального кодера (рис. 3.32), где операции квантования и кодирования осуществляются над спект­ральными представлениями входного сигнала. Для работы схемыLTPкодированный сигнал предыдущего кадра переводится обратно во временнýю область с помощью ин­версного преобразованияTNSи синтезирующего БФ, в блокеLTPон сравнивается с приходящим сигналом, а полученная разность опять переводится в спектральную об­ласть. Специальный переключательFSS(FrequencySelectiveSwitch–переключатель с частотной избирательностью) выбирает исходный или разностный сигнал в зависимо­сти от того, какая альтернатива в данный момент предпочтительнее. По сравнению с предсказанием изMPEG-2 ААС данный метод предсказания требует вдвое меньших ресурсов памяти и производительности процессора.

Рис. 3.32.Схема универсального кодера сLTP

Рис. 3.33.АлгоритмTwinVQвекторного квантования спектральных компонентов

Для увеличения эффективности кодирования музыкальных сигналов на низких скоро­стях разработан новый алгоритм TwinVQ(Transform-domainWeightedInterleaveVQ–взвешивающее векторное квантование с перемежением и преобразованием областей). Ос­новная идея – заменить обычное кодирование спектральных ком­понентов в ААС перемежающим векторным квантованием, прило­женным к нормализованному спектру. Квантование спектраль­ных коэффициентов осуществля­ется в два шага: на первом они нормализуются к некоторому пределу, на втором – квантуют­ся с использованием векторного квантования. Процесс нормали­зации включает оценку спектра по шкале Барка, извлечение пе­риодических компонентов и оценку мощности спектральных составляющих. В результате нормализации спектральные коэффициенты выравниваются и нормализуются вдоль частот­ной оси. Затем нормализо­ванные коэффициенты опи­сываются как многомерный вектор, чередуются в субвек­торы, как показано на рис. 3.33, и квантуются с исполь­зованием векторного кванто­вания. Остальная часть ал­горитма ААС остается неизменной.

TwinVQдает хорошие ре­зультаты в области скорос­тей от 6 до 24 кбит/с и ис­пользуется в основном в универсальных кодекахMPEG-4 с масштабированием для формирования базового слоя.

Для кодирования речи применяются два основных алгоритма: параметрический HVXC(HarmonicVectoreXcitationCoding—кодирование с помощью гармонических векто­ров) иCELP(CodeExcitedLinearPredictioncoding–кодирование с линейным пред­сказанием). Первый алгоритм обеспечивает более высокое сжатие, он применяется в интервале скоростей потока 2…4 кбит/с (при переменной скорости – даже до 1,2 кбит/с), работает с частотой дискретизации 8 кГц в полосе стандартного телефонного канала 300…3400 Гц. Второй алгоритм имеет несколько разновидностей, работает в двух режимах – полосы частот 300…3400 Гц с дискретизацией 8 кГц и 50…7000 Гц с дискре­тизацией 16 кГц, и обеспечивает скорость потока от 4 до 24 кбит/с. Оба алгоритма базируются на моделировании речи с линейным предсказанием. Поступающий речевой сигнал сравнивается с сигналом, предсказанным моделью речевого тракта, параметры модели изменяются таким образом, чтобы минимизировать разность двух сигналов, и передаются декодеру. В декодере имеется такая же модель, которая по полученным значениям параметров синтезирует речевой сигнал. ВHVXCболее высокая степень сжатия объясняется более грубым анализом по огибающей спектра и изменениям высо­ты тона.CELPиспользует более точный спектральный анализ с долговременным пред­сказанием, обеспечивая более высокое качество передачи речи.

О

Рис. 3.34.Масштабируемость речевого кодекаCELP

сновное преимущество обоих алгоритмов перед речевыми кодеками, стандартизо­ванными МСЭ, – масштабируемость по скорости (уCELPс шагом 200 бит/с), по полосе частот, что обеспечивает возможность работы с декодерами разной сложности. Эта возможность проиллюстрирована на рис. 3.34, где показано, что кодер выдает базо­вый поток и улучшающие слои, а декодеры принимают эти потоки в соответствии со своими возможностями.

На рис. 3.35 наглядно показаны области применения различных алгоритмов кодиро­вания звука, применяемых вMPEG-4.

Если при кодировании натуральных звуков используется перцептуальное сжатие исходного звукового сигнала, то кодирование синтезированного звука производится путем создания егоописания. Это описание передается декодеру и по нему синтезирует­ся звук, аналогичный исходному. В стандартеMPEG-4 этот процесс реализуется в рамках формата «Структурированное аудио», допускающего передачу по каналу синтезированных звуков и музыки со скоростями 0,01…10 кбит/с. Для описания музыкаль­ных звуков различных инструментов разработанспециальный структурированный ор­кестровый язык(SAOL–StructuredAudioOrchestraLanguage), он оперирует загру­жаемыми в поток «инструментами». Инструмент представляет собой небольшой программный или аппаратный модуль генерации и обработки простейших сигналов, который может воспроизводить определенные звуки, в том числе и схожие со звуками музыкальных инструментов.MPEG-4 не стандартизует метод синтеза, скорее он дает способ описания методов синтеза, пригодный для всех существующих и перспективных алгоритмов.

В

Рис. 3.35.Области применения различных алгоритмов кодирования звука

торой язык –структурированный партитурный язык(StructuredAudioScoreLanguage) предназначен для описания партитуры всех инструментов, составляющих звуковой объект. Для воссоздания звуковой сцены в декодер загружаются параметры всех инструментов, а затем в потоке передается партитура.

Стандартом поддерживается механизм привязки звука к расположению объекта в пространстве сцены и его изменения при перемещении объекта, введены механизмы изменения звука в зависимости от акустических свойств пространства сцены [14].

Одно из новшеств стандарта MPEG-4 – алгоритм преобразования текста в речьTTSI(Text-to-SpeechInterface). По каналу передается текст со скоростью от 200 бит/с до 1,2 кбит/с, а декодер преобразует его в речь. В отличие от обычных синтезаторов речи, извлекающих из базы данныхфонемы (единицы речи) и соединяющих эти фонемы в связную, но совершенно лишенную эмоций речь,TTSIдополняет речь характеристика­ми живого голоса – тембром, интонацией, акцентом, просодией (так называется система произношения ударных и неударных, долгих и кратких звуков). Поддерживаются и дру­гие функции: синхронизация речи с синтезированным лицом говорящего, включая выра­жение лица и движения губ; возможность для пользователя изменить ритм, тон, гром­кость, пол, возраст говорящего; сменить язык; изменение характеристик речи при перемещении говорящего в пространстве сцены; возможность остановки, ускоренного воспроизведения вперед и назад без нарушения просодии и т.д. Возможные области примененияTTSI– искусственный рассказчик (по запросу); синтез речи, синхронной с анимацией; синтез речи для виртуальной реальности; говорящая газета; средство дубли­рования для анимационных картинок; голосовой Интернет и многие другие.

В

Рис. 3.36.Масштабирующий универсальный кодерMPEG-4

о второй версии стандарта приняты дополнения и усовершенствования к существу­ющим алгоритмам, введены новые алгоритмы. В частности, повышена устойчивость к ошибкам в ААС, введена опция звукового кодера ААС с малой алгоритмической задер­жкой (Low-DelayAudioCoder– задержка 20 мс вместо нескольких сотен миллисе­кунд). Снижение задержки достигается уменьшением длины кадра до 512 отсчетов вме­сто 1024, уменьшением вдвое размера окна оконной функции, минимальным использованием резервуара бит. Ценой снижения задержки стало увеличение скоро­сти потока для «прозрачного» канала примерно на 8 кбит/с, но такой кодер все еще лучше кодера МР-3 на скорости 64 кбит/с.

Во второй версии масштабируемость кодера Универсального звука сделана более детальной (шаги 2 кбит/с вместо 16 кбит/с). Масштабируемость достигается благодаря кодированию потока звукоданных несколькими кодерами, первый из которых обраба­тывает прореженный исходный поток, а каждый из последующих компрессирует раз­ность между входным и декодированным сигналами предыдущей ступени (рис. 3.36). Для работы на очень низких скоростях введеналгоритм параметрического кодированияHILN(HarmonicandIndividualLinesplusNoise– гармоники и одиночные линии плюс шум), базирующийся на представлении звукового сигнала как набора синусоид, гармо­ник и шумов и передаче по каналу параметров этих первичных сигналов. Частоты и амплитуды первичных сигналов квантуются с разрешением, соответствующим градации «различие едва заметно». Спектральная огибающая шума и гармонические компоненты описываются на основе техники линейного предсказания, при этом используется корре­ляция между параметрами в кадре и между последовательными кадрами. Этим методом можно кодировать звуковые сигналы, начиная со скорости 4 кбит/с. Упомянем также специальныйформат транспортного потока для звуковых применений с малой избы­точностьюLOAS(LowOverheadAudioStream), возможность организации обратного канала от пользователя к источнику контента для поддержки интерактивных приложе­ний, более устойчивую к ошибкам версиюHVXC.

Соседние файлы в папке 399_Mamchev-Cifrovoe_televizionnoe_veschanie_2012