Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

(по цифровому вещанию) Dvorkovich_V_Cifrovye_videoinformacionnye_sistemy

.pdf
Скачиваний:
301
Добавлен:
15.03.2016
Размер:
23.26 Mб
Скачать

Глава 15. Основные характеристики звуковой информации

5-й блок формирует список нетональных (шумоподобных) областей — {Fnm(k)}nk. С этой целью из исходного спектра выборки сигнала исключаются тональные и соседние с ними учтенные в блоке 4 компоненты. Затем спектр оставшихся компонент разделяется на полосы частот, заданные таблично и равные критическим полосам слуха.

В каждой из этих полос вычисляется суммарная энергия шумоподобных ком-

понент {Fnm(k)}nk

, где

 

 

 

 

Fnm(k) = 10 lg 100.1F (i), i / {k − 1, k, k + 1}

(15.39)

i

Далее все шумоподобные компоненты внутри i-й критической полосы слуха замещаются одной компонентой равной энергии Fnm(ki), расположенной в центре соответствующей критической полосы слуха.

Разделение спектра исходного сигнала на тональные и шумоподобные составляющие имеет важное значение, поскольку значения коэффициентов маскировки для них имеют различные величины.

В общем случае для оценки коэффициентов маскировки KM (i) внутри критической полосы слуха используется понятие индекса тональности α и соотношение:

KM (i) = − [α · (14, 5 + i) + 5, 5 · (1, 0 − α)] дБ,

(15.40)

где значение i = 1, . . . , 24 Барк.

Для чистого тона индекс α = 1 и значение коэффициента маскировки меняется от KMt(1) = −14,5 дБ для первой критической полосы до KMt(24) = −38,5 дБ при i = 24 (Tone masking Noise). Для шумоподобного сигнала индекс α ≈ 0 и значение коэффициента маскировки (Noise masking Tone) приблизительно равно KMn(i) = −5,5 дБ и почти не зависит от его положения по шкале Барков.

Маскировка вне критической полосы слуха (Extra-bend-masking) одинакова и для тональных, и для шумовых компонент; она оценивается с помощью индивидуальных кривых маскировки, учитывающих избирательные свойства слухового анализатора и взаимное маскирующее действие соседних спектральных компонент. Для построения этих кривых спектры тональных и нетональных компонент предварительно прореживаются.

Такое прореживание осуществляется в блоке 6.

Исходно исключаются все тональные Ftm(k) и шумоподобные Fnm(k) компоненты, лежащие ниже абсолютного порога слышимости. Кроме того, тональные компоненты дополнительно прореживаются с помощью окна шириной, например, равной 0,5 Барка. В других психоакустических моделях ширина окна выбирается иной. Если в окно попало две тональные компоненты, то меньшая по уровню из них исключается.

После прореживания формируется новая сетка спектральных компонент:

в первых трех субполосах (0. . . 2250 Гц) учитываются все спектральные компоненты;

в 3. . . 6 субполосах (2250. . . 4500 Гц) — каждая вторая компонента;

в 7. . . 9 субполосах (4500. . . 6750 Гц) — каждая четвертая компонента;

в оставшихся 20 субполосах (6750. . . 22500 Гц) — лишь каждая восьмая спектральная составляющая.

15.7. Принципы кодирования речевой и звуковой информации

Ftm/p(i) = Ftm/p(k), Ftm/p(k) = 0 при

 

 

 

 

 

 

 

k,

 

 

 

 

1 k 48;

 

 

 

 

 

 

 

 

 

i =

k + (k mod 2),

49

k 96;

(15.41)

 

k + 3

 

[(k

 

1) mod 4],

97

k 232;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

− [(k

− 1) mod 8],

233 k 512.

 

 

k + 3

 

Таким образом, если исходный спектр содержал 512 спектральных компонент, то после такого прореживания в общей сложности остается 126 компонент.

В 7-м блоке производится расчет коэффициентов маскировки и индивидуальных кривых маскировки для тональных и шумоподобных компонент спектра выборки аудиосигнала.

Коэффициенты маскировки тональных KM1[z(i)] и шумоподобных KM2[z(i)] компонент рассчитываются по формулам:

KM1[z(i)] = −0,275z(i) − 6,025 дБ,

(15.42)

KM2[z(i)] = −0,175z(i) − 2,025 дБ.

(15.43)

Индивидуальные кривые маскировки для каждой из компонент определяются

в дБ соотношением:

 

 

 

 

 

 

 

 

 

 

 

 

17 [Δz(i, j) + 1] {0, 4F [z(i)] + 6} ,

−3 z(i, j) < −1;

M [z(i), z(j)] =

{0,·4F [z(i)] + 6} ·z(i, j),

 

−1 z(i, j) < 0;

 

 

 

17

 

z(i, j),

 

 

 

 

0 z(i, j) < 1;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

·

 

 

 

 

 

 

 

 

 

 

[Δ(i, j)

1]

17

0, 15F [z(i)]

17,

1 z(i, j) < 8;

 

 

 

 

 

· {

} −

 

(15.44)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где z(i) — высота тона маскирующей (тональной или шумоподобной) компоненты в Барках; z(j) — высота тона маскируемой компоненты; z(i) = z(i) — z(j) — разность высот тона маскирующей и маскируемой компонент.

На рис. 15.23 приведено семейство кривых маскировки, вычисленное по формуле (15.44).

В блоке 8 производится расчет порогов маскировки для тональных и шумоподобных компонент спектра выборки аудиосигнала. При этом применяются следующие соотношения (для тональных и шумоподобных порогов соответственно):

Ntm[z(i)] = Ftm[z(i)] + KM1[z(i)] + M [z(i), z(j)] дБ;

(15.45)

Nnm[z(i)] = Fnm[z(i)] + KM2[z(i)] + M [z(i), z(j)] дБ.

(15.46)

В последнем блоке 9 рассчитываются: кривая глобального порога маскировки выборки сигнала NПМ(i) (путем суммирования порогов маскировки тональных и шумоподобных компонент); минимальное значение порога маскировки в каждой n-й субполосе кодирования NПМ(n); отношение сигнал/маска SM R(n)

для каждой из субполос кодирования:

 

 

 

 

 

 

 

10Nnm[z(i),z(j)]/10 дБ,

NПМ(i) = 10 lg 10NАПС[z(i)]/10 + i,j

10Ntm[z(i),z(j)]/10+

i,j

(15.47) где NАПС[z(i)] — значение абсолютного порога слышимости спектральной ком-

Глава 15. Основные характеристики звуковой информации

Рис. 15.23. Семейство индивидуальных кривых маскировки, соответствующих психоакустической модели 1

поненты с высотой тона z(i);

 

NПМ(n) = [NПМ(i)]min дБ;

(15.48)

SM R(n) = Esb(n) − NПМ(n) дБ.

(15.49)

Еще раз следует указать, что величина SM R(n) представляет собой выраженное в дБ отношение энергии полезного сигнала к максимально допустимому значению энергии искажений квантования в каждой n-й субполосе кодирования, при котором они еще маскируются полезным сигналом.

Психоакустическая модель 2

Эта модель содержит одинадцать блоков обработки первичного ИКМ сигнала. Характерной особенностью этой психоакустической модели является разделение спектра выборки аудиосигнала на полосы психоакустического анализа, в которых осуществляются соответствующие вычисления; количество полос анализа зависит от используемой частоты дискретизации: при fд = 48 кГц используется 62 полосы, при fд = 44,1 кГц — 63 полосы и при fд = 32 кГц — 59 полос.

В блоке 1 осуществляется расчет спектра выборки аудиосигнала:

R(k) = F (!

 

 

 

 

 

 

 

1

N −1

 

 

 

n

 

 

 

F (k) =

N

n=0 h(n) · X(n) · exp

−2πjk

N

,

 

 

 

 

 

 

 

,

(15.50)

|

k) =

Re2[F (k)] +

Im2[F (k)]

 

Im| [F (k)]

 

 

 

 

 

ϕ(k) = arctg

 

 

,

 

 

 

 

 

 

k)]

 

 

 

 

 

 

 

 

Re[F (

 

 

 

 

 

где X(n) — отсчеты сигнала; N — длина выборки БПФ (обычно 1024 или 256); k = 0, 1, . . . , N − 1; h(n) — окно Ханна.

Блок 2 реализует вычисление предсказанных значений амплитуды и фазы

ˆ , для каждой спектральной компоненты сигнала текущей выборки по

R(k) ϕˆ(k)

15.7. Принципы кодирования речевой и звуковой информации

массивам значений модулей и фаз спектральных составляющих двух блоков t - 1 и t - 2, предшествующих текущему блоку t:

ˆ

· Rt−1(k) − Rt−2(k), ϕˆ(k) = 2 · ϕt−1(k) − ϕt−2(k).

(15.51)

R(k) = 2

В блоке 3 производится расчет меры непредсказуемости C(k) спектральных

компонент текущей выборки аудиосигнала.

 

 

 

 

 

При этом сначала определяются величины:

 

 

 

 

 

c(k) =

 

 

 

 

 

 

 

 

 

(15.52)

R

(k)

 

R

(k) − 2R(k)ˆ

 

,

 

 

 

2

 

 

+

ˆ2

ˆ

 

 

ϕˆ(k)]

 

 

 

 

 

 

 

 

R(k) cos[ϕ(k)

 

 

 

 

 

 

 

 

 

 

R(k) + R(k)

 

 

 

 

а затем рассчитывается мера непредсказуемости —

 

 

 

 

 

 

 

 

 

 

c(k),

0 k < 6;

 

 

 

 

C(k) =

c[(k + 2)DIV 4],

6 k < 206;

 

 

(15.53)

 

 

 

 

 

 

0.4,

 

k 206;

 

 

 

 

где знак DIV означает

целочисленное деление с округлением к меньшей вели-

 

 

 

 

 

 

 

 

 

 

 

чине.

Блок 4 предназначен для вычисления энергии сигнала E(m) и взвешенного значения непредсказуемости в полосах психоакустического анализа c(m):

khigh(m)

 

khigh(m)

 

 

 

 

 

E(m) =

R2(k), c(m) =

R2(k) · C(k),

(15.54)

k=klow(m)

 

k=klow(m)

 

где klow(m) и khigh(m) — соответственно нижняя и верхняя границы полос психоакустического анализа.

В блоке 5 производится свертка энергии сигнала и взвешенного значения меры непредсказуемости с развертывающей функцией M (i, j), представляющая собой индивидуальную кривую маскировки, учитывающую избирательные свой-

ства уха человека:

 

 

 

 

 

 

 

 

 

 

EC(m) =

 

E(i) · M (i, j), CT (m) =

i,j m

C(i) · M (i, j),

(15.55)

 

i,j m

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где M (i, j) =

0,

 

 

 

ty < −100;

 

 

 

 

 

 

 

10(tz+ty)/10,

 

y −100;

 

 

 

 

 

 

tz = 8 · min

(tx − 0,5)2 − 2(tx − 0,5), 0

;

[1,0 + (tx + 0,474)2 1/2

 

 

811389 + 7,5

 

(tx + 0,484) 17,5

 

;

ty = 15,

5

·

 

6

·

 

]

 

 

 

 

 

 

 

 

 

tx =

3,0 (j − i), j i;

 

 

 

 

 

 

 

1,5 ··

(j − i), j < i;

 

 

 

 

 

 

i и j — соответственно значение высоты тона для развертываемого сигнала и значение высоты тона сигнала, который развертывается в полосу анализа i в Барках. Семейство рассчитанных развертывающих функций представлено на рис. 15.24.

Блок 6 реализует вычисление коэффициента хаоса и индекса тональности

в полосах психоакустического анализа соответственно по формулам:

 

CN (m) =

CT (m)

; α(m) = −0,299

− 0,43 ln[CN (m)].

(15.56)

EC(m)

Глава 15. Основные характеристики звуковой информации

Рис. 15.24. Семейство индивидуальных кривых маскировки при психоакустической модели 2

Величина индекса тональности α(m) ограничивается пределами 0 α(m) 1. Если расчет дает значение больше единицы, индекс принимается равным 1; при отрицательной расчетной величине он устанавливается равным 0.

В блоке 7 производится расчет отношения сигнал/шум в каждой полосе пси-

хоакустического анализа:

 

(m)] дБ, BC(m) = 10−SN R(m)/10

 

SN R(m) = max[min val(m), SN R

 

, (15.57)

 

 

 

где SN R (m) = α(m) ·T M N (m) + [1 −α(m)] ·N M T (m) дБ; TMN(m) — коэффициент маскировки шума тоном, определяемый разностью уровней тона и шума; для разных стандартов эта величина для всех полос анализа принята равной 29 и 18 дБ; NTM(m) — коэффициент маскировки тона шумом, определяемый разностью уровней шума и тона; для всех полос анализа эта разность принята равной 6 дБ.

Очевидно, чем меньше величина SNR (m), тем большим может быть допустимый уровень шума в полосе анализа. Нижней границей SNR(m) служит табличная величина minval(m) — поправочный коэффициент, отличающийся от нуля лишь на самых нижних частотах.

В блоке 8 осуществляется расчет максимально допустимой энергии шума ThR(m) — глобального порога маскировки, приходящейся на один коэффициент модифицированного дискретного косинусного преобразования (МДКП) в каждой полосе психоакустического анализа, при которой он еще маскируется полезным сигналом.

Используется два варианта такого расчета. В первой модели используется соотношение:

T hR(m) = max [N b(k), aT hR(k)] ,

(15.58)

15.7. Принципы кодирования речевой и звуковой информации

где N b(k) =

N b(m)

; N b(m) = EN (m)·BC(m); Nb(m) — максимальное

khigh(m)−klow(m)+1

значение энергии шума в полосе анализа, при котором он маскируется полезным сигналом, Nb(k) — то же самое, приходящееся на один элемент МДКП, aThR(k) — значение абсолютного порога слышимости для спектральной компоненты с индексом k; khigh(m) и klow(m) — соответственно верхняя и нижняя границы блока психоакустического анализа; EN(m) — энергия шума в полосе блока психоакустического анализа.

Во второй модели расчета определяется глобальный порог маскировки соот-

ветственно для длинных блоков (N = 1024):

 

T hR(m) = max{aT hR(m), min[N b(m), N bt−1(m), N bt−2(m)];

 

N bt−1(m) = 2 · N b(m);

(15.59)

N bt−2(m) = 16 · N b(m);

 

и для коротких блоков (N = 256):

 

T hR(m) = max[aN hR(m), N b(m)].

(15.60)

Следующий 9-й блок расчета обеспечивает вычисление допустимой энергии шума (порога маскировки) в полосах кодирования:

 

 

 

khigh(n)

 

 

 

 

 

 

 

 

!

 

 

 

T hR(n) =

k=klow(n) T hR(k),

 

 

 

α(n) = 1;

(15.61)

 

 

 

× [khigh(n) − klow(n) + 1],

×

 

 

 

 

α(n) = 0;

 

 

 

min[T hR(k), klow(n)

k

 

khigh(n)]

 

 

 

 

 

 

 

 

 

 

 

где khigh(n) и

klow(n) — соответственно верхняя и нижняя границы полосы ко-

 

 

 

 

 

 

 

 

дирования.

В блоке 10 производится расчет энергии аудиосигнала в полосах кодирования:

 

khigh(n)

 

E(n) =

R2(k).

(15.62)

 

klow

 

 

k= (n)

 

И, наконец, в 11-ом блоке производится расчет отношения сигнал/маска

SNR(n) в полосах кодирования:

 

 

 

SM R(n) = 10 · lg

E(n)

(15.63)

 

.

T hR(n)

Иногда вычисления энергии сигнала и порога маскировки вычисляются по иным формулам, чем указанные в блоках 9 и 10:

khigh(n)−1

E(n) = w1Eu +

(n)+1

E(k) + w2Eo;

k=

(15.64)

 

klow

 

 

khigh(n)−1

 

k=

T hR(n) = w1T hRu +

T hR(k) + w2T hRo;

klow(n)+1

где w1, w2, Eu, Eo, Ru, Ro — табличные данные, определенные для разных частот дискретизации сигнала.

Глава 15. Основные характеристики звуковой информации

Психоакустическая модель 3

В данной модели предварительно выборка исходного ИКМ аудиосигнала преобразуется с использованием модифицированного дискретного косинусного преобразования (МДКП):

FD(k) = −N

n=0

X(n) cos

4 (2k + 1)

 

2N + 1 + α ,

0 k < 2 , (15.65)

2

N −1

π

 

2n + 1

 

N

 

 

 

 

 

 

 

 

 

 

 

 

где N = 512 или 256; α = 0 при N = 512; α = −1 и α = +1 соответственно для первой и второй последовательных выборок при N = 256 для каждой из них.

Каждый коэффициент МДКП представляется в формате FD (k) = A(k)·2B(k), где A(k) — мантисса, B(k) — экспонента (или порядок) k-го коэффициента преобразования.

Массивом входных данных для блока психоакустической модели являются значения порядков B(k). Используется 50 полос психоакустического анализа и 20 полос кодирования.

Дискретность изменения величины порядка коэффициентов МДКП составляет величину 6 дБ, а наибольшее его значение равно 24, что определяет полный динамический диапазон сигнала в 24 · 6 = 144 дБ.

Шкала величин B(k) предварительно преобразуется с использованием соотношения:

P SD(k) = 3072 − 128 · B(k).

(15.66)

При этом новая шкала содержит 3072 градации; множитель в этой формуле уменьшает дискретность грубой шкалы B(k) до величины шага, равного 6/128 = = 0,046875 дБ, что лежит существенно ниже порога различимости слуха по уровню сигнала. На рис. 15.25 приведена иллюстрация преобразования масштаба порядков интенсивностей коэффициентов МДКП.

Вычисления в психоакустической модели выполняются в так называемых полосах анализа, неодинаковых по ширине. До частоты 2531 Гц ширины полос психоакустического анализа выбраны так, что в каждую из них попадает только один коэффициент МДКП. При частоте дискретизации fд = 48 кГц и длине выборки N = 512 отсчетов сигнала ширина каждой из этих полос составляет 93,75 Гц, а число полос на данном интервале равно 28. Далее ширина полос возрастает так, что они включают соответственно 3, 6 (по 6 полос) 12 и 24 (по 5 полос) коэффициента МДКП.

Суммарное значение энергии аудиосигнала в каждой полосе психоакустического анализа вычисляется по формуле:

log(a + b) = max[log(a), log(b)] + log[1 + exp(d)],

(15.67)

где log(a), log(b) — значения порядков соседних (в пределах каждой полосы психоакустического анализа) коэффициентов МДКП; d = | log(a) − log(b)| — адрес в таблице, в которой вычислены значения величин log[1 + exp(d)].

Если число коэффициентов в полосе анализа больше одного, предусматривается следующий механизм вычислений:

сначала берутся значения порядков первых двух коэффициентов МДКП, и определяется максимальное значение; к нему добавляется величина, равная разности этих двух величин;

15.7. Принципы кодирования речевой и звуковой информации

Рис. 15.25. Пример преобразования масштаба коэффициентов МДКП

затем полученное число сравнивается со значением порядка следующего по номеру индекса коэффициента МДКП, и производится вновь указанная выше операция;

процесс вычислений повторяется до тех пор, пока небудут использованы все коэффициенты МДКП в данной полосе анализа.

Формирование прототипа индивидуальной кривой маскировки осуществляется в частотной области. В основе выбора прототипа кривой маскировки лежат экспериментальные данные, изложенные, например, в [6.22, 6.23].

Параметром каждой кривой является абсолютный акустический уровень маскирующего тона, вычисленный относительно звукового давления p0 = 2 ·10−5 Па и равный соответственно 40, 60, 80 и 100 дБ. Для каждого уровня маскирующего тона из экспериментальных данных определялся относительный порог слышимости шума, имеющего полосу частот, равную полосе частот психоакустического анализа, т. е. рассматривалась маскировка вне критической полосы слуха, при которой тон маскирует шум с полосой частот, примерно равной 0,5 Барка. Затем каждая полученная таким путем зависимость нормировалась к уровню маскирующего тона в соответствии с соотношением:

NRN T (f ) = NN T (f ) + NMT (f ) дБ,

(15.68)

где NRN T

Глава 15. Основные характеристики звуковой информации

Рис. 15.26. К построению обобщенных кривых маскировки

(f ) — нормированное по отношению к уровню маскирующего тона значение порога слышимости шума, NN T (f ) — порог слышимости шума, маскируемого тоном, NMT (f ) – уровень маскируемого тона.

Эти вычисления выполнялись для каждого значения частоты и уровня маскирующего тона. Совокупность полученных кривых преобразована в так называемые обобщенные кривые маскировки, представленные в качестве примера на рис. 15.26. По оси абсцисс на этом графике отложены значения высот тона в делениях, следующих через 0,5 Барка, что соответствует расстоянию между центрами соседних полос психоакустического анализа, а нуль этой шкалы соответствует высоте маскирующего тона в Барках. Параметром каждой такой обобщенной кривой является частота маскирующего тона.

Представленные различными цветами кривые и являются развертывающими функциями или индивидуальными кривыми маскировки. Аппроксимация обобщенных кривых маскировки весьма сложна и по этой причине используются упрощения. При этом маскировка в сторону низких частот не учитывается.

Маскировка в сторону верхних частот с точностью, достаточной для практического использования, аппроксимируется двумя отрезками прямых линий (жирные линии на рис. 15.26):

быстро затухающая прямая (Fast Upwards Masking) и

медленно затухающая прямая (Slow Upwards Masking).

Формирование обобщенной кривой маскировки осуществляется с использованием четырех параметров, которые формируются кодером и передаются декодеру в поле данных психоакустической модели.

15.7. Принципы кодирования речевой и звуковой информации

В состав этих параметров входят:

крутизна наклона медленно затухающего сегмента (Slow Decay), определяемая величиной от −0,7 до −0,98 дБ на полосу анализа;

вертикальное смещение t медленно затухающего сегмента (Slow Gain) от уровня маскирующей компоненты сигнала в пределах от −49 до −63 дБ;

крутизна наклона быстро затухающего сегмента (Fast Decay), определяемая величиной от −2,95 до −5,77 дБ на полосу анализа;

вертикальное смещение быстро затухающего сегмента (Fast Gain) от максимального уровня маскирующей компоненты сигнала в пределах от −6 до −48 дБ.

При этом синтез обобщенной кривой маскировки осуществляется с использованием включенных параллельно двух рекурсивных фильтров. Результирующее значение глобального порога маскировки EM (k) в k-й полосе психоакустического анализа определяется как наибольшее значение из выходных отсчетов этих двух фильтров:

x0 = [x0(k) − do(k)] [EC (k) − g0(k)],

 

x1 = [x0(k) − d1(k)] [EC (k) − g1(k)],

(15.69)

EM (k) = max(x0, x1),

 

где EC (k) — энергия аудиосигнала в k-й полосе психоакустического анализа; d0(k) и d1(k) — крутизна наклона соответственно быстро и медленно затухающих сегментов обобщенной кривой маскировки; g0(k) и g1(k) — вертикальное смещение сегментов от максимального уровня k-й спектральной компоненты сигнала соответственно для быстро и медленно затухающего сегментов.

Далее полученные значения EM (k) корректируются с целью учета влияния маскирующего сигнала на величину порога маскировки. После коррекции значения глобального порога маскировки в каждой полосе психоакустического анализа сравниваются с величиной абсолютного порога слышимости и выбирается наибольшее из этих двух значений.

В результате выполнения этих операций формируется результирующая кривая маскировки, определяющая допустимые значения энергии шумов квантования в каждой полосе анализа.

Минимально допустимое отношение сигнал/шум для каждой полосы психоакустического анализа SNRk вычисляется в дБ как разность величин энергий полезного сигнала и шумов квантования, находящихся на пороге слышимости. При расчете энергии полезного сигнала используются только значения порядков МДКП.

Величина SNR(k), приведенная к одному члену МДКП в k-ой полосе психоакустического анализа вычисляется как

SN R(k) = SN Rk/n,

(15.70)

где n — число коэффициентов МДКП в данной полосе.

Массив данных SNR(k) образует кривую глобального порога маскировки, которая определяет число битов, выделяемых на кодирование мантисс коэффициентов МДКП.