3.3.4. Кодирование звуковых объектов

Широкие возможности представляет стандарт MPEG-4 для кодирования звука. Впервые используются раздельные алгоритмы для кодирования звуков музыкального происхождения и речи, введены мощные средства создания и обработки синтезированного звука [14].

Рис. 3.31.Схема реализации режимаPNS:

а) кодер;б) декодер

аиболее широкий круг звуковых объектов, от низкоскоростных моно до многоканального звука вещательного качества, относится к категорииУниверсального звука (GA–GeneralAudio). В качестве основного алгоритма кодирования звуков различного происхождения принят известный нам изMPEG-2 алгоритм ААС с незначительными усовершенствованиями. Одно из них касается введения режимаPNS(PerceptualNoiseSubstitution–перцептуальное замещение шумом). Суть данного метода заключается в обнаружении в приходящем сигнале шумоподобных составляющих и исключении их из общего процесса кодирования. Декодеру передается информация о мощности шумовых компонентов в отдельных участках спектра и он подменяет соответствующие спектральные коэффициенты псевдослучайными сигналами с требуемой мощностью. РежимPNSиллюстрируется структурной схемой рис. 3.31.

Еще одно усовершенствование связано с введением алгоритма BSAC(Bit-SlicedArithmeticCoding–арифметическое кодирование с побитовым расщеплением). Чтобы получить масштабируемый поток,BSACиспользует альтернативный по отношению к ААС модуль кодирования квантованных коэффициентов с точным управлением скоростью потока в пределах от 16 до 64 кбит/с с шагом 1 кбит/с.

Существенный выигрыш в скорости потока для стационарных гармонических и квазигармонических сигналов позволяет получить метод долговременного предсказания LTP(LongTermPrediction). В технике кодирования речи этот метод широко используется во временнóй области. В стандартеMPEG-4 он интегрирован в схему универсального кодера (рис. 3.32), где операции квантования и кодирования осуществляются над спектральными представлениями входного сигнала. Для работы схемыLTPкодированный сигнал предыдущего кадра переводится обратно во временнýю область с помощью инверсного преобразованияTNSи синтезирующего БФ, в блокеLTPон сравнивается с приходящим сигналом, а полученная разность опять переводится в спектральную область. Специальный переключательFSS(FrequencySelectiveSwitch–переключатель с частотной избирательностью) выбирает исходный или разностный сигнал в зависимости от того, какая альтернатива в данный момент предпочтительнее. По сравнению с предсказанием изMPEG-2 ААС данный метод предсказания требует вдвое меньших ресурсов памяти и производительности процессора.

Рис. 3.32.Схема универсального кодера сLTP

Рис. 3.33.АлгоритмTwinVQвекторного квантования спектральных компонентов

Для увеличения эффективности кодирования музыкальных сигналов на низких скоростях разработан новый алгоритм TwinVQ(Transform-domainWeightedInterleaveVQ–взвешивающее векторное квантование с перемежением и преобразованием областей). Основная идея – заменить обычное кодирование спектральных компонентов в ААС перемежающим векторным квантованием, приложенным к нормализованному спектру. Квантование спектральных коэффициентов осуществляется в два шага: на первом они нормализуются к некоторому пределу, на втором – квантуются с использованием векторного квантования. Процесс нормализации включает оценку спектра по шкале Барка, извлечение периодических компонентов и оценку мощности спектральных составляющих. В результате нормализации спектральные коэффициенты выравниваются и нормализуются вдоль частотной оси. Затем нормализованные коэффициенты описываются как многомерный вектор, чередуются в субвекторы, как показано на рис. 3.33, и квантуются с использованием векторного квантования. Остальная часть алгоритма ААС остается неизменной.

TwinVQдает хорошие результаты в области скоростей от 6 до 24 кбит/с и используется в основном в универсальных кодекахMPEG-4 с масштабированием для формирования базового слоя.

Для кодирования речи применяются два основных алгоритма: параметрический HVXC(HarmonicVectoreXcitationCoding—кодирование с помощью гармонических векторов) иCELP(CodeExcitedLinearPredictioncoding–кодирование с линейным предсказанием). Первый алгоритм обеспечивает более высокое сжатие, он применяется в интервале скоростей потока 2…4 кбит/с (при переменной скорости – даже до 1,2 кбит/с), работает с частотой дискретизации 8 кГц в полосе стандартного телефонного канала 300…3400 Гц. Второй алгоритм имеет несколько разновидностей, работает в двух режимах – полосы частот 300…3400 Гц с дискретизацией 8 кГц и 50…7000 Гц с дискретизацией 16 кГц, и обеспечивает скорость потока от 4 до 24 кбит/с. Оба алгоритма базируются на моделировании речи с линейным предсказанием. Поступающий речевой сигнал сравнивается с сигналом, предсказанным моделью речевого тракта, параметры модели изменяются таким образом, чтобы минимизировать разность двух сигналов, и передаются декодеру. В декодере имеется такая же модель, которая по полученным значениям параметров синтезирует речевой сигнал. ВHVXCболее высокая степень сжатия объясняется более грубым анализом по огибающей спектра и изменениям высоты тона.CELPиспользует более точный спектральный анализ с долговременным предсказанием, обеспечивая более высокое качество передачи речи.

Рис. 3.34.Масштабируемость речевого кодекаCELP

сновное преимущество обоих алгоритмов перед речевыми кодеками, стандартизованными МСЭ, – масштабируемость по скорости (уCELPс шагом 200 бит/с), по полосе частот, что обеспечивает возможность работы с декодерами разной сложности. Эта возможность проиллюстрирована на рис. 3.34, где показано, что кодер выдает базовый поток и улучшающие слои, а декодеры принимают эти потоки в соответствии со своими возможностями.

На рис. 3.35 наглядно показаны области применения различных алгоритмов кодирования звука, применяемых вMPEG-4.

Если при кодировании натуральных звуков используется перцептуальное сжатие исходного звукового сигнала, то кодирование синтезированного звука производится путем создания егоописания. Это описание передается декодеру и по нему синтезируется звук, аналогичный исходному. В стандартеMPEG-4 этот процесс реализуется в рамках формата «Структурированное аудио», допускающего передачу по каналу синтезированных звуков и музыки со скоростями 0,01…10 кбит/с. Для описания музыкальных звуков различных инструментов разработанспециальный структурированный оркестровый язык(SAOL–StructuredAudioOrchestraLanguage), он оперирует загружаемыми в поток «инструментами». Инструмент представляет собой небольшой программный или аппаратный модуль генерации и обработки простейших сигналов, который может воспроизводить определенные звуки, в том числе и схожие со звуками музыкальных инструментов.MPEG-4 не стандартизует метод синтеза, скорее он дает способ описания методов синтеза, пригодный для всех существующих и перспективных алгоритмов.

Рис. 3.35.Области применения различных алгоритмов кодирования звука

торой язык –структурированный партитурный язык(StructuredAudioScoreLanguage) предназначен для описания партитуры всех инструментов, составляющих звуковой объект. Для воссоздания звуковой сцены в декодер загружаются параметры всех инструментов, а затем в потоке передается партитура.

Стандартом поддерживается механизм привязки звука к расположению объекта в пространстве сцены и его изменения при перемещении объекта, введены механизмы изменения звука в зависимости от акустических свойств пространства сцены [14].

Одно из новшеств стандарта MPEG-4 – алгоритм преобразования текста в речьTTSI(Text-to-SpeechInterface). По каналу передается текст со скоростью от 200 бит/с до 1,2 кбит/с, а декодер преобразует его в речь. В отличие от обычных синтезаторов речи, извлекающих из базы данныхфонемы (единицы речи) и соединяющих эти фонемы в связную, но совершенно лишенную эмоций речь,TTSIдополняет речь характеристиками живого голоса – тембром, интонацией, акцентом, просодией (так называется система произношения ударных и неударных, долгих и кратких звуков). Поддерживаются и другие функции: синхронизация речи с синтезированным лицом говорящего, включая выражение лица и движения губ; возможность для пользователя изменить ритм, тон, громкость, пол, возраст говорящего; сменить язык; изменение характеристик речи при перемещении говорящего в пространстве сцены; возможность остановки, ускоренного воспроизведения вперед и назад без нарушения просодии и т.д. Возможные области примененияTTSI– искусственный рассказчик (по запросу); синтез речи, синхронной с анимацией; синтез речи для виртуальной реальности; говорящая газета; средство дублирования для анимационных картинок; голосовой Интернет и многие другие.

Рис. 3.36.Масштабирующий универсальный кодерMPEG-4

о второй версии стандарта приняты дополнения и усовершенствования к существующим алгоритмам, введены новые алгоритмы. В частности, повышена устойчивость к ошибкам в ААС, введена опция звукового кодера ААС с малой алгоритмической задержкой (Low-DelayAudioCoder– задержка 20 мс вместо нескольких сотен миллисекунд). Снижение задержки достигается уменьшением длины кадра до 512 отсчетов вместо 1024, уменьшением вдвое размера окна оконной функции, минимальным использованием резервуара бит. Ценой снижения задержки стало увеличение скорости потока для «прозрачного» канала примерно на 8 кбит/с, но такой кодер все еще лучше кодера МР-3 на скорости 64 кбит/с.

Во второй версии масштабируемость кодера Универсального звука сделана более детальной (шаги 2 кбит/с вместо 16 кбит/с). Масштабируемость достигается благодаря кодированию потока звукоданных несколькими кодерами, первый из которых обрабатывает прореженный исходный поток, а каждый из последующих компрессирует разность между входным и декодированным сигналами предыдущей ступени (рис. 3.36). Для работы на очень низких скоростях введеналгоритм параметрического кодированияHILN(HarmonicandIndividualLinesplusNoise– гармоники и одиночные линии плюс шум), базирующийся на представлении звукового сигнала как набора синусоид, гармоник и шумов и передаче по каналу параметров этих первичных сигналов. Частоты и амплитуды первичных сигналов квантуются с разрешением, соответствующим градации «различие едва заметно». Спектральная огибающая шума и гармонические компоненты описываются на основе техники линейного предсказания, при этом используется корреляция между параметрами в кадре и между последовательными кадрами. Этим методом можно кодировать звуковые сигналы, начиная со скорости 4 кбит/с. Упомянем также специальныйформат транспортного потока для звуковых применений с малой избыточностьюLOAS(LowOverheadAudioStream), возможность организации обратного канала от пользователя к источнику контента для поддержки интерактивных приложений, более устойчивую к ошибкам версиюHVXC.

<<< < Предыдущая 8 9 10 11 12 13 14 15 16 17 18 1920 / 4220 21 22 23 24 25 26 27 28 29 30 31 32 > Следующая >>>

Соседние файлы в папке 399_Mamchev-Cifrovoe_televizionnoe_veschanie_2012

#
15.03.2016106.5 Кб230Библиографический список.doc
#
15.03.2016960 Кб393Глава 1.doc
#
15.03.2016474.62 Кб286Глава 2.doc
#
15.03.20162.59 Mб345Глава 3.doc
#
15.03.20161.86 Mб767Глава 4.doc
#
15.03.20161.02 Mб390Глава 5.doc
#
15.03.2016856.06 Кб346Глава 6.doc
#
15.03.2016521.73 Кб265Глава 7.doc
#
15.03.2016715.26 Кб300Глава 8.doc