Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

(по цифровому вещанию) Dvorkovich_V_Cifrovye_videoinformacionnye_sistemy

.pdf
Скачиваний:
258
Добавлен:
15.03.2016
Размер:
23.26 Mб
Скачать

Глава 17. Стандарты кодирования звуковой информации

Рис. 17.23. Обобщенная структурная схема кодера HE-AAC v.1

передается информация о мощности спектральных компонент отдельных подполос верхней половины спектра. Кроме этого, на стороне передачи анализируется мощность шумовых составляющих этих подполос, и их уровень также передается декодеру для возможности восстановления исходного отношения сигнал/шум.

Мощность высокочастотных спектральных компонент оценивается линейным предсказателем 2-го порядка с помощью матрицы ковариаций огибающих спектра. SBR-кодер работает с непрореженным по времени сигналом, в то время как на AAC-кодер подается уже прореженный (обычно в два раза) сигнал. Важно отметить, что блок прореживания содержит НЧ-фильтр, предотвращающий зеркальное наложение верхней половины спектра на нижнюю при осуществлении собственно самого прореживания. Помимо перечисленных алгоритмов SBR-кодер отслеживает и оценивает возможность возникновения в высокочастотной части спектра мощных индивидуальных узкополосных сигналов, образующихся, например, вследствие возникновения в звуковом сигнале участков нестационарности спектра (так называемые transients). Информация о таких компонентах спектра также передается декодеру. Таким образом, SBR-декодер получает следующую информацию для восстановления звукового сигнала:

мощностные коэффициенты подполос верхней половины спектра декодируемого сигнала (коэффициенты огибающей);

мощностные коэффициенты шума для восстановления соотношения сигнал/шум;

положение и мощность индивидуальных узкополосных сигналов, не поддающихся линейному предсказанию.

Заметим, что данная информация об огибающих спектра передается не напрямую, а в виде разностей оригинальных и предсказанных значений. Поэтому на стороне декодера вновь осуществляется линейное предсказание по низкочастотной части спектра, получаемой от AAC-декодера, после чего производится восстановление (по мощности) огибающих верхней половины спектра сигнала.

Таким образом, полностью передается только нижняя часть спектра сигнала, а высокочастотные составляющие восстанавливаются по сопроводительной информации, составляющей лишь небольшую долю общего потока.

На рис. 17.24 представлена структурная схема кодера SBR. Большинство модулей SBR-кодера оперируют моносигналом, однако некоторым из них требуется доступ к стереосигналу: в режиме работы объединения стерео вычисление энер-

17.6. Совершенствование алгоритмов сжатия звука на основе стандарта AAC

Рис. 17.24. Структурная схема кодера SBR

гетических коэффициентов осуществляется одновременно по отсчетам левого и правого каналов (модуль вычисления коэффициентов огибающей).

Входной ИКМ-сигнал поступает на вход банка квадратурных зеркальных фильтров QMF. В этом модуле формируются 32 подполосы, каждая из которых состоит из 64 частотных каналов; результат сохраняется в матрице X(k, l), 0 k < 64, 0 l < 32. Выходной поток банка QMF-фильтров составляют подполосные комплексные отсчеты. Комплексность коэффициентов обусловливает вдвое большую скорость потока по сравнению с обычной реализацией QMFбанков. Используемая многополосная фильтрация включает в себя следующие шаги (отсчеты x(n) включают 640 временных отсчетов звукового сигнала, при этом большие индексы у более «старых» отсчетов):

сдвиг массива х на 64 позиции: старые 64 отсчета стираются, на их место записываются 64 новых отсчета;

в окне из 640 отсчетов происходит умножение на весовое окно c(n):

Z(n) = x(n) · c(n), 0 n < 639;

в соответствии с формулой:

4

u(n) = Z(n + j · 128), n = 0, . . . , 127,

j=0

Глава 17. Стандарты кодирования звуковой информации

образуется массив из 128 значений;

далее происходит формирование действительной и мнимой компонент в соответствии с формулами:

r(n) = u(n) − u(127 − n),

i(n) = u(n) + u(127 − n), n = 0, . . . , 63;

вычисляются 64 новых комплексных подполосных отсчета X = R + j · I c помощью соответственно косинусного и синусного преобразований:

R(k) = i=0 r(n) · cos

2

64

k +

2

n3,

63

 

 

 

 

 

 

 

 

 

 

π

 

1

 

I(k) = i=0 i(n) · sin

2

64

k + 2

n3, 0 k < 64.

63

 

 

 

 

 

 

 

 

 

π

 

1

 

 

Каждый цикл данного алгоритма производит 64 комплексных подполосных отсчета, которые являются выходным отсчетом одной из 64 подполос банка QMFфильтров. Для каждого SBR-кадра банк фильтров продуцирует 32 подполосных отсчета в каждой из 64 своих подполос.

Детектор транзиентов. Под транзиентами в цифровой обработке звуковых сигналов понимают короткие участки резкого изменения характера звука. В частности, под транзиентом можно понимать резкое изменение локального спектра сигнала. Такое изменение спектра наблюдается, например, при смене одного музыкального инструмента другим: флейта–клавесин–флейта. Детектор транзиентов предназначен для нахождения временной границы этой смены. Он предоставляет возможность разбить звуковой сигнал на условно локальные по спектру участки. На основе результатов работы этого модуля осуществляется построение частотно-временной сетки в модуле разделения кадра.

Модуль разделения кадра активируется только в случае отсутствия транзиента в текущем кадре. Работа данного модуля осуществляется над подполосными отсчетами длительностью полтора кадра. Выходом разделителя кадров является решение о необходимости разбиении текущего кадра (свободного от транзиентов) на две огибающие одинаковой длительности.

Генератор кадров занимается построением частотно-временной сетки SBRкадра. На вход поступают результаты работы детектора транзиентов и разделителя кадров. Выходами генератора являются: структура описания частотновременного разделения текущего кадра и информация о внутреннем представлении частотно-временной сетки, используемая для оценки огибающей и шумового порога.

При отсутствии в текущем кадре транзиентов используется модель с постоянными границами (FIXFIX). Для данной модели генератор принимает решение об использовании либо одной, либо двух огибающих. При обнаружении разнесенных транзиентов (разделенных одним или несколькими кадрами), используются модели FIXVAR и VARFIX. При обнаружении двух последовательных кадров, содержащих транзиенты, используется модель VARVAR.

Модуль оценки огибающей использует частотно-временную сетку, построенную соответствующим генератором. Коэффициенты выходной матрицы QMF-

17.6. Совершенствование алгоритмов сжатия звука на основе стандарта AAC

Рис. 17.25. Структурная схема параметрического стереокодирования

банка группируются в частотной и временной областях для вычисления коэффициентов огибающей.

В случае отсутствия гармоник в какой-либо подполосе, вместо усредненного значения энергии, используется ее максимальное значение.

17.6.3. Параметрическое стереокодирование PS

Параметрическое стереокодирование (PS — Parametric Stereo) осуществляет преобразование стереосигнала в моносигнал (downmix), сопровождая его дополнительным набором параметров, позволяющих на стороне декодера восстановить стереообраз. Данное преобразование относится к классу кодирования с информационными потерями. На рис. 17.25 изображена схема PS-кодера.

В блоке «Оценка параметров и моноконвертер» осуществляется оценка следующих четырех типов параметров:

межканальных разностей уровней (IID — Inter-channel Intensity Differences);

межканальных разностей фаз (IPD — Inter-channel Phase Differences);

общего фазового сдвига (OPD — Overall Phase Difference);

межканальнаой когерентности (IC — Inter-channel Coherence).

Перечисленных параметров достаточно для того, чтобы восстановить стереообраз на стороне приема. Для восстановления этого стереообраза без заметных на слух искажений под поток этой дополнительной информации достаточно отвести 9–10 кбитов/с. При этом в канале будет передаваться только моносигнал (после процедуры преобразования моно–стерео). Перечисленные 4 параметра квантуются (блок «Квантование параметров») и кодируются как дополнительные части монопотока (в блоке «Формирователь общего битового потока») таким образом, чтобы обеспечить обратную совместимость при воспроизведении данного потока монокодеками, игнорирующими эту дополнительную информацию.

Общая схема HE-AAC-кодека второй версии, включающего в себя кодеры Spectral Band Replication (SBR) и Parametric Stereo (PS), приведена на рис. 17.26.

Заметим здесь еще раз, что системы параметрического кодирования (PS) и спектрального дублирования (SBR) работают с двойной частотой дискретизации сигнала относительно кодера ААС.

Глава 17. Стандарты кодирования звуковой информации

Рис. 17.26. Структурная схема кодера HE-AAC v.2

17.6.4.Конфигурации режимов работы кодеков AAC

иHE-AAC

Варианты реализации кодеков стандарта AAC и HE-AAC v.2 приведены соответственно в табл. 17.4 и табл. 17.5 [6.59]. Из этих таблиц видно, насколько кодеки стандарта HE-AAC более эффективны, чем кодеки стандарта AAC.

Таблица 17.4. Режимы работы кодека AAC

Режим каналов

Скорость

Частота

Граничная частота

потока, кбитов/с

дискретизации, кГц

спектра сигнала, кГц

 

 

 

 

 

1 канал — моно

16

24

5,2

1 канал — моно

20

24

7,2

 

 

 

 

1 канал — моно

24

24; 32

7,2; 7,2

 

 

 

 

1 канал — моно

28

24; 32

10,0; 10,0

1 канал — моно

32

24; 32; 44,1; 48

10,0; 10,0; 10,0; 10,0

 

 

 

 

1 канал — моно

40

24; 32; 44,1; 48

12,0; 12,4; 12,4; 12,4

 

 

 

 

1 канал — моно

48

24; 32; 44,1; 48

12,0; 13,5; 13,5; 13,5

1 канал — моно

56

24; 32; 44,1; 48

12,0; 15,5; 15,5; 15,5

 

 

 

 

1 канал — моно

64

32; 44,1; 48

15,5; 15,5; 15,5

 

 

 

 

1 канал — моно

80

32; 44,1; 48

16,0; 17,6; 17,6

1 канал — моно

96

32; 44,1; 48

16,0; 22,1;24,0

 

 

 

 

1 канал — моно

112

32; 44,1; 48

16,0; 22,1;24,0

 

 

 

 

1 канал — моно

128

32; 44,1; 48

16,0; 22,1;24,0

1 канал — моно

160

32; 44,1; 48

16,0; 22,1;24,0

 

 

 

 

2 канала — стерео

24

24

6,6

 

 

 

 

2 канала — стерео

28

24

6,6

2 канала — стерео

32

24

6,6

 

 

 

 

2 канала — стерео

40

24; 32

8,5; 8,5

 

 

 

 

2 канала — стерео

48

24; 32

8,5; 8,5; 8,5

2 канала — стерео

56

24; 32; 44,1; 48

12,0; 12,5; 12,5; 12,5

 

 

 

 

2 канала — стерео

64

32; 44,1; 48

12,5; 12,5; 12,5

 

 

 

 

2 канала — стерео

80

32; 44,1; 48

13,5; 13,5; 13,5

2 канала — стерео

96

32; 44,1; 48

15,5; 15,5; 15,5

 

 

 

 

17.6. Совершенствование алгоритмов сжатия звука на основе стандарта AAC

Таблица 17.4 (окончание)

 

Режим каналов

Скорость

Частота

Граничная частота

 

потока, кбитов/с

дискретизации, кГц

спектра сигнала, кГц

 

 

 

 

 

 

 

 

2 канала — стерео

112

32; 44,1; 48

16,0; 16,0; 16,0

 

 

 

 

 

 

2 канала — стерео

128

32; 44,1; 48

16,0; 16,0; 16,0

 

 

 

 

 

 

2 канала — стерео

160

32; 44,1; 48

16,0; 17,6; 17,6

 

2 канала — стерео

192

32; 44,1; 48

16,0; 22,1; 24,0

 

 

 

 

 

 

2 канала — стерео

224

32; 44,1; 48

16,0; 22,1; 24,0

 

 

 

 

 

 

2 канала — стерео

256

32; 44,1; 48

16,0; 22,1; 24,0

 

2 канала — стерео

320

32; 44,1; 48

16,0; 22,1; 24,0

 

 

 

 

 

Таблица 17.5. Режимы работы кодека HE-AAC v.2

 

 

 

 

 

 

 

Режим каналов

Скорость

Частота

Граничная частота

 

потока, кбитов/с

дискретизации, кГц

спектра сигнала, кГц

 

 

 

 

 

 

 

 

1 канал — моно

8

24

8,3

 

 

 

 

 

 

1 канал — моно

10

24; 32

10,9; 11,0

 

1 канал — моно

12

24; 32

11,4; 11,04 10,7

 

 

 

 

 

 

1 канал — моно

16

24; 32; 44,1

12,3; 11,7; 12,0

 

 

 

 

 

 

1 канал — моно

20

32; 44,1; 48

14,5; 14,8; 15,4

 

1 канал — моно

24

32; 44,1; 48

15,3; 14,8; 15,4

 

 

 

 

 

 

1 канал — моно

28

32; 44,1; 48

16,0; 16,2; 16,9

 

 

 

 

 

 

1 канал — моно

32

32; 44,1; 48

16,0; 16,2; 16,9

 

1 канал — моно

40

32; 44,1; 48

16,0; 17,6; 18,4

 

 

 

 

 

 

1 канал — моно

48

32; 44,1; 48

16,0; 20,3; 20,3

 

 

 

 

 

 

1 канал — моно

56

32; 44,1; 48

16,0; 20,3; 20,3

 

1 канал — моно

64

32; 44,1; 48

16,0; 20,3; 20,3

 

 

 

 

 

 

2 канала — стерео

24

32; 44,1; 48

13,8; 12,7; 13,1

 

 

 

 

 

 

2 канала — стерео

28

32; 44,1; 48

15,3; 14,8; 15,4

 

2 канала — стерео

32

32; 44,1; 48

15,3; 14,8; 15,4

 

 

 

 

 

 

2 канала — стерео

40

32; 44,1; 48

16,0; 16,2; 16,9

 

 

 

 

 

 

2 канала — стерео

48

32; 44,1; 48

16,0; 16,2; 16,9

 

2 канала — стерео

56

32; 44,1; 48

16,0; 17,6; 18,4

 

 

 

 

 

 

2 канала — стерео

64

32; 44,1; 48

16,0; 20,3; 22,1

 

 

 

 

 

 

2 канала — стерео

80

32; 44,1; 48

16,0; 20,3; 22,1

 

2 канала — стерео

96

32; 44,1; 48

16,0; 20,3; 22,1

 

 

 

 

 

 

2 канала — стерео

112

32; 44,1; 48

16,0; 20,3; 22,1

 

 

 

 

 

 

2 канала — стерео

128

32; 44,1; 48

16,0; 20,3; 22,1

На рис. 17.27 приведены результаты тестирования качества восстановленного аудиосигнала при его кодировании с использованием наиболее распространенных кодеков: MP3 (MPEG-1 Layer-3), AAC, MP3Pro (усовершенствованный кодек MP3, использующий технологию SBR) и HE-AAC. Тестированию подвергались кодеки стереосигналов при одинаковом цифровом потоке, равном 48 кбитов/с. Организации MPEG и EBU (Европейский союз радиовещателей), осуществлявшие сравнение результатов кодирования, признали явным победителем стандарт HE-AAC [6.60].

Глава 17. Стандарты кодирования звуковой информации

Рис. 17.27. Результаты тестирования стандартов кодирования стереосигналов при цифровом потоке 48 кбитов/с

Эхо — это задержанная и искаженная копия оригинального акустического или электрического сигнала, отраженная обратно к своему источнику.

Втелекоммуникационных сетях существует два типа эха, различные по природе происхождения: акустическое и электрическое. Электрическое эхо присутствует в телефонной сети (PSTN) и выходит за рамки анализа в этой главе. Стоит отметить, однако, что в большинстве случаев подавление электрического эха по ряду причин является значительно более простой задачей, чем подавление эха акустического. В сложных же случаях, например при большой длине эхопути или нелинейностях в канале, задачи подавления акустического и электрического эха идентичны.

Впоследнее время большое распространение получают так называемые hansfree коммуникации с использованием громкоговорящей акустической системы (динамика) и микрофона вместо привычной телефонной трубки. Это приводит

кпоявлению сильной акустической связи между динамиком и микрофоном.

Акустическое эхо образуется как благодаря прямому распространению акустической волны от динамика к микрофону, так и благодаря отражениям звука от стен помещения и различных предметов (см. рис. 18.1). Если отраженный сигнал возвращается к источнику звука через очень короткое время (единицы миллисекунд), то это воспринимается как реверберация. Реверберация может несколько уменьшить разборчивость речи, но обычно существенно на комфортность общения не влияет. Однако если задержка начинает превышать десятки миллисекунд, то возвращенный сигнал воспринимается говорящим как эхо, и в ряде случаев делает невозможным общение.

Сигнал от «удаленного конференц-зала», поступающий в «ближний конференцзал», образует акустическую связь между громкоговорителями и микрофонами: воспроизведенный акустическими системами и многократно отраженный от стен, он улавливается микрофонами «ближнего конференц-зала» и возвращается обратно в «удаленный конференц-зал» с определенной задержкой. Таким образом, участники мероприятия в удаленном конференц-зале будут слышать помимо полезной речи и собственную задержанную и искаженную речь.

Единственный модуль в ближнем конференц-зале, где можно устранить акустическое эхо, обозначен на рис. 18.1 цифрой «1». Этот модуль отсекает акусти-

Глава 18. Подавление акустического эха в системах телеконференцсвязи

Рис. 18.1. Образование акустического эха в системах телеконференции

ческое эхо от полезного сигнала из ближнего конференц-зала, используя сигнал, приходящий от удаленной конференции. При этом в выигрыше оказываются только участники удаленной конференции, для участников ближней конференции никаких изменений не произойдет. Для того чтобы избавить участников ближней конференции от выслушивания собственного эха, необходимо установить аналогичную систему эхоподавления на удаленной стороне.

Определение и характеристики эхопути

Акустическая часть пути от динамика до микрофона как таковая для создания системы эхоподавления малоинтересна, поскольку требуется смоделировать общий путь прохождения сигнала между точками, доступными для оценки [6.61–6.64].

Под термином эхопуть здесь и далее будет пониматься общий путь сигнала между точками A и B (см. рис. 18.1), включая:

внутренние буферы цифровые ресемплеры и прочие цифровые алгоритмы обработки звука в программной части системы воспроизведения;

цифро-аналоговый преобразователь;

усилитель;

акустическую систему (динамик);

пути распространения акустической волны в помещении (включая отражения);

микрофон;

микрофонный усилитель;

аналого-цифровой преобразователь;

внутренние буферы, цифровые ресемплеры и прочие цифровые системы обработки звука в программной части системы звукозахвата.

Таким образом, эхопуть не является чисто акустическим. Сигнал при прохождении по эхопути подвергается преобразованию сначала из цифровой формы

18.1. Основные положения

Рис. 18.2. Типичный вид импульсной характеристики эхопути

ваналоговую электрическую, затем в акустическую, затем снова в аналоговую, затем опять в цифровую. В общем виде эхопуть не является линейным, однако

впервом приближении может быть описан линейным фильтром с импульсной характеристикой h(t). Это достаточно грубое упрощение, которое не всегда приводит к приемлемому уровню эхоподавления. Обобщение на случай существенно нелинейных систем будет рассмотрено далее.

Эффективная длина импульсного отклика h(t) зависит в основном от акустических свойств помещения. В типичных офисных помещениях длина h(t) обычно не превышает 200–300 мс, однако в больших залах, ангарах и т. д. длина эхопути может достигать нескольких секунд. Типичный внешний вид импульсного отклика приведен на рис. 18.2.

Как можно видеть из графика, реальная импульсная характеристика не содержит в явном виде компонентов, соответствующих прямому прохождению акустического сигнала и основным отражениям, а имеет довольно сложную форму.

Принципиальная схема подавления акустического эха

Рассматривается только одна сторона в телекомунникационной системе (см. рис. 18.3). Дальний сигнал, приходящий с удаленной стороны (far-end) на рис. 18.3 обозначен x(n) и доступен для прямой оценки.

Сигнал x(n), прошедший весь эхопуть преобразуется в эхосигнал y(n) = h · x. Сигнал, появляющийся на выходе микрофона z(n) определяется суммой ближней речи диктора s(n), эха y(n) и фонового шума v(n). Не делая предположений о статистических характеристиках s(n) и v(n), отделить их друг от друга не представляется возможным и не является задачей акустического эхоподавления. Задача акустического эхоподавления — исключить из сигнала z(n) эхо y(n), основываясь на известных z(n) и x(n).