Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

(по цифровому вещанию) Dvorkovich_V_Cifrovye_videoinformacionnye_sistemy

.pdf
Скачиваний:
301
Добавлен:
15.03.2016
Размер:
23.26 Mб
Скачать

Глава 15. Основные характеристики звуковой информации

Рис. 15.13. Схема расчета огибающей и мгновенной частоты звукового сигнала с исполь-

зованием БПФ и ОБПФ

идальных составляющих:

N

 

 

 

 

t

 

 

u(t) = n=1 aN cos 2πn

T

+ ϕn ,

(15.19)

где граничная частота равна fгр = N/T , а сопряженная по Гильберту составляющая равна

N

 

 

 

 

t

 

 

uΓ(t) = n=1 an sin 2πn

T

+ ϕn .

(15.20)

На рис. 15.14а в качестве примера приведена диаграмма обозначенного синим цветом сигнала, состоящего из пяти косинусоидальных колебаний различных частот с различными начальными фазами и имитирущего небольшой отрезок речи. На этом же рисунке красным цветом изображена сопряженная по Гильберту составляющая этого сигнала. На рис. 15.14б приведены диаграммы огибающей этого сигнала и изменения мгновенной частоты, рассчитанные по формулам (15.15) и (15.16). Следует заметить, что в случае если уровень огибающей сигнала близок к нулю, то изменение мгновенной частоты приобретает скачок значительной величины, что практически не может ощущаться на слух. По этой причине при расчете мгновенной частоты квадрат огибающей ограничивается некоторой величиной в соответствии с соотношением:

2

 

u2(t) + u2

(t),

если U

2

(t) > v,

 

 

Γ

 

 

пог

 

 

Uпог

(t) =

v,

 

если Uпог2

(t) v,

(15.21)

где v — уровень ограничения. В данном случае v = 0,02.

Из рис. 15.14б видно, что большие выбросы мгновенной частоты и ее отрицательные значения возникают в минимумах огибающей звукового сигнала.

15.4. Пространственное восприятие звуковых сигналов

Рис. 15.14. Диаграммы звукового сигнала и его гильбертовой составляющей (а), огибаю-

щая и мгновенная частота звукового сигнала (б)

Локационные способности восприятия звука, так называемый бинауральный эффект [6.2, 6.13], объясняются фазовым смещением звуковых волн, неодинаковым уровнем звуковых давлений в ушах, особенностями тембров знакомых источников звуков и их изменений. При неподвижном источнике звука слух способен определить направление движения звуковых волн по горизонтали не точнее 12 градусов, а по вертикали — 17. . . 20 градусов. Бинауральный эффект практически отсутствует на частотах ниже 300 Гц, на частотах от 300 до 1000 Гц становится заметным сдвиг фаз звуковых волн, попадающих в правое и левое ухо. При частотах более 1000 Гц сдвиг фаз становится очень небольшим и поиск направления осуществляется за счет сравнения силы звука, приходящего с разных сторон.

На рис. 15.15а поясняется принцип интегральной локализации восприятия информации от двух источников звука. Два одинаковых источника (1 и 2) расположены на расстоянии 2Ly один от другого, а на расстоянии Lx расположен слушатель, уши которого находятся на расстояниях r1 и r2 от соответствующих источников.

Если на оба источника излучают звуковую энергию одинаковой мощности, то звук от каждого источника достигнет ушей одновременно, и идентичность звуков не позволит слуху разделить их в пространстве, например, на левый и правый. При этом возникает иллюзия: виртуальный (кажущийся) источник звука как бы находится в середине между источниками звука.

Если уменьшить мощность излучения одного из источников, то это воспринимается как перемещение кажущегося источника в сторону второго источника.

Глава 15. Основные характеристики звуковой информации

Рис. 15.15. Пространственное восприятие звукового сигнала от двух источников: а) схема создания эффекта интегральной локализации; б) зависимость локализации от разных уровней звуковых сигналов; в) зависимость локализации от временного сдвига звуковых сигналов; г) влияние запаздывающего повторения сигнала на локализацию виртуального источника звука

Таким образом, варьируя громкость звучания левого и правого источника, можно вызывать и поддерживать иллюзию перемещения виртуального источника звука. Зависимость относительного перемещения виртуального источника от различия излучаемых мощностей двух источников приведена на рис. 15.15б.

Аналогичная иллюзия перемещения виртуального источника возникает, если создать запаздывание звука от одного из источников. На рис. 15.15в приведена зависимость перемещения виртуального источника от временного сдвига звуковых сигналов. Оба эти эффекта широко используются при цифровой обработке и записи музыки.

При задержках одного из сигналов на время более 50 мс наличие запаздывающего сигнала ощущается как помеха в виде эха. Опережающий сигнал при одинаковом уровне с задержанным в этом случае подавляет (маскирует) последний. Повышая уровень запаздывающего сигнала можно добиться того, что оба источника звука будут восприниматься раздельно даже при запаздывании менее 50 мс.

На рис. 15.15г показано необходимое превышение уровня ( N , дБ) запаздывающего сигнала в зависимости от временной задержки. При τ = 15 . . . 20 мс уровень задержанного сигнала должен быть повышен на 11 дБ, чтобы оба ис-

15.4. Пространственное восприятие звуковых сигналов

точника звука воспринимались раздельно. При τ < 50 мс для этого эффекта достаточно превышение уровня всего на 6 дБ. При τ < 5 мс наблюдается неустойчивый режим: виртуальный источник звука как бы перепрыгивает из одного источника в другой, совпадая то с источником опережающего, то с источником задержанного сигнала.

Для качественного восприятия реального пространственного звучания музыкальных программ использование двухканальной (стереофонической) системы воспроизведения звуковых сигналов не всегда является достаточным. Основная причина этого кроется в том, что стереосигнал, приходящий к слушателю от двух физических источников звука, определяет расположение мнимых источников лишь в той плоскости, в которой расположены реальные физические источники звука. Поэтому в последние десятилетия стали развиваться системы многоканального воспроизведения звука, реализующие так называемый трансуральный эффект.

Для воссоздания более или менее реалистичного, действительно объемного звучания прибегают к применению сложных приемов, моделирующих особенности слуховой системы человека, а также физические особенности и эффекты передачи звуковых сигналов в пространстве. Главная проблема заключается в том, чтобы создать такой сигнал, который бы при помощи двух или более источников звука воспринимался слушателем трехмерным [6.14, 6.15].

Для описания 3D-звука применяются функции HRTF (Head Related Transfer Function) [6.16]. Принцип использования HRTF основан на анализе искажений объемного звука при восприятии человеком. В зависимости от расположения источника звук искажается по-разному. По получаемым параметрам звука и степени его искажения, человеческий мозг определяет положение источника. Таким образом, если заранее известна эта функция, а также направление и расстояние до источника, с помощью сложных вычислений можно смоделировать звук, распространяющийся из определенной точки пространства.

Из-за того, что расчет функций HRTF — сложная задача, во многих системах пространственного звука разработчики полагаются на использование данных, полученных экспериментальным путем. Тем не менее основной причиной использования HRTF является желание воспроизвести звук в вертикальной плоскости, наряду с азимутальными звуковыми эффектами. При этом восприятие звуковых сигналов, источники которых расположены в вертикальной плоскости, чрезвычайно чувствительно к особенностям каждого конкретного слушателя.

HRTF представляет собой набор трансформаций, которые претерпевает звуковой сигнал на пути от источника звука к слуховой системе человека. Рассчитанные однажды опытным путем функции HRTF могут быть применены для обработки звуковых сигналов с целью имитации реальных изменений звука на его пути от источника к слушателю. Несмотря на удачность идеи, HRTF имеет, конечно, и свои отрицательные стороны, однако в целом идея использования HRTF является вполне удачной. Использование HRTF в том или ином виде лежит в основе множества современных технологий пространственного звучания.

Глава 15. Основные характеристики звуковой информации

Преобразование аналогового звукового сигнала путем временной дискретизации и квантования выбранных дискретных значений неизбежно приводит к невозможности его абсолютно точного восстановления.

Если предположить, что аналоговый сигнал строго ограничен по спектру, то в соответствии с теоремой Котельникова он полностью определяется дискретной последовательностью своих мгновенных значений, взятых с частотой выборки fпд, как минимум вдвое превышающей граничную частоту спектра:

fпд 2fпгр.

Квантование дискретных отсчетов сигнала вызывает шумовые искажения, величина которых зависит от разрядности аналого-цифрового преобразователя (АЦП), типа преобразуемого сигнала и формы шкалы квантователя.

Следует заметить, что при дискретизации сигнала с частотой fпд > 2fпгр спектр шума квантования распространяется вплоть до частоты fпд/2 и при восстановлении сигнала с помощью ФНЧ с граничной частотой, примерно равной fпгр, уровень шума может быть уменьшен. При равномерной дискретизации сигнала с числом уровней квантования 2N отношение сигнал/шум (динамический

диапазон АЦП) оценивают в дБ по формуле:

fпд + C,

 

S = 20N lg 2 + 10 lg

fпд + C = 6N + 10 lg

(15.22)

 

 

 

 

 

 

 

2fпгр

2fпгр

 

где C — константа, зависящая от формы преобразуемого сигнала.

При преобразовании синусоидального сигнала C = 1,7 дБ, для звуковых сигналов константа C изменяется от −15 дБ до 2 дБ.

Принято, что в звуковой аппаратуре максимально допустимый уровень сигнала соответствует 0 дБ. В связи с этим величина −S характеризует уровень шумов квантования и одновременно минимально возможный уровень полезного сигнала. Как следует из соотношения (15.19), при fпд = 4fпгр интенсивность шума уменьшится на 3 дБ.

На рис. 15.16а приведена диаграмма уровней сигнала при аналого-цифровом преобразовании. Очевидно, что отсчеты сигнала не должны превышать некоторого заданного максимально допустимого уровня. В противном случае квантователь «обрезает» сигнал, как показано на рис. 15.16б. Это явление называют клиппингом (от англ. сlipping). На рис. 15.16б и в иллюстрируется также формирование шума квантования. При цифровом преобразовании аналогового сигнала u(t) приведенные на рис. 15.16в различия между его истинными значениями в точках дискретизации и цифровыми отсчетами и определяют шум квантования. Специфическим видом шума квантования является гранулярный шум (granular noise), проявляющийся вследствие нестабильности операции округления, когда уровень аудиосигнала незначительно изменяется и располагается приблизительно посредине между двумя ближайшими уровнями квантования j и j + 1.

В качестве примера предположим, что на протяжении нескольких дискретных отсчетов сигнал имеет вид u(t) = j + 12 + 0,1 · sin ω t. Тогда в зависимости от знака синусоидальной составляющей этого сигнала значения дискретных значений

15.5. Основные принципы цифровых преобразований звуковых сигналов

 

Рис. 15.16. Диаграмма уровней сигнала на входе АЦП (а) и пример возникновения клип-

пинга (б) и шумов квантования (в)

 

цифрового сигнала d(tn), как показано справа на рис. 15.16б, будут равны

d(tn) =

j,

при sin ω tn 0,

j + 1,

при sin ω tn > 0.

 

Для оцифровки речевой информации, ограниченной по спектру до 2–5 кГц, обычно используют 7- или 8-разрядные АЦП при частотах дискретизации от 8 до 10 кГц.

Вбольшинстве современных цифровых систем обработки и кодирования звуковой информации обычно применяют 16-разрядное квантование и стандартные частоты дискретизации 44,1 или 48 кГц, ограничивая частотный диапазон сигнала примерно равным 20 кГц.

Встудийной аппаратуре зачастую используют 18-, 20-, 24- и 32-разрядное квантование при частотах дискретизации 56, 96 и 192 кГц, что обеспечивает сохранность высших гармоник звукового сигнала, непосредственно не воспринимаемых слухом, но влияющих на формирование общей звуковой картины. При ограничении спектра сигнала, учитывая что fпд > fпгр, дополнительно возможно уменьшить уровень шумов квантования.

Втабл. 15.4 приведены характеристики цифрового звукового сигнала для различных видов аналого-цифрового преобразования (при расчете отношения сигнала к шуму квантования не учтено влияние константы C, величина которой зависит от формы преобразуемого сигнала).

Вэтой таблице приведены параметры цифрового потока импульсно-кодовой модуляции (ИКМ) монофонического сигнала. При преобразовании стереофонического или квадрофонического звукового сигнала величина цифрового потока должна быть увеличена в два или четыре раза соответственно.

Глава 15. Основные характеристики звуковой информации

Таблица 15.4. Параметры цифрового звукового сигнала при использовании различных видов АЦП

 

 

 

 

Отношение

Разрядность

Частота

Цифровой

Отношение

сигнал/шум при

дискретиза-

поток,

сигнал/шум

ограничении спектра

АЦП N

ции, кГц

кбитов/с

6N, дБ

сигнала до частоты

 

 

 

 

 

fпгр

 

 

 

 

 

7–8

8–12

56–96

42–48

 

 

 

 

 

16

44,1

705,6

96

96

 

 

 

 

 

16

48

768

96

96,4

 

 

 

 

 

18

56

1008

108

109

20

96

1920

120

123,4

24

96

2304

144

147,4

24

192

4608

144

148,4

 

 

 

 

 

32

192

6144

192

196,4

Чтобы влияние шумов квантования было не очень большим, необходимо максимально использовать весь динамический диапазон АЦП, поддерживая уровень преобразуемого аналогового сигнала в определенных границах. Этот процесс реализуется путем использования компандеров, обеспечивающих обработку динамично изменяющегося уровня звукового сигнала. Однако этот метод не всегда приводит к положительным результатам, особенно в тех случаях, когда в течение некоторого времени звуковая информация попеременно изменяется от тихой к громкой. В этих случаях прибегают к иным методам уменьшения влияния шума квантования.

Один из них, называемый дизерингом (от англ. dithering — дрожание), используется в тех случаях, когда шум существенно зависит от преобразуемого сигнала и проявляется на слух в виде специфической мешающей помехи (что практически всегда имеет место). Принцип дизеринга заключается в добавлении к преобразованному сигналу псевдослучайной последовательности малого по уровню (не более двух дискретных значений) шума, реализуя тем самым практически полную независимость шума от исходного сигнала, что для слуха является более приемлемым.

Другой принцип снижения влияния связанных с формой сигнала шумов квантования, называемый методом формовки шума (noise shaping), заключается в преобразовании спектра шума таким образом, чтобы большая часть его энергии располагалась в менее заметных для слуха областях спектра в соответствии с формой кривых равной громкости.

На рис. 15.17 приведена структурная схема реализации дизеринга и формовки шума. Выбор схемы преобразования сигнала зависит от положения ключей D и F (0 — соответствует разомкнутому, а 1 — замкнутому ключу):

при D = 0 и F = 0 обеспечивается только квантование сигнала;

при D = 1 и F = 0 реализуется квантование с дизерингом;

при D = 0 и F = 1 осуществляется квантование с формовкой шума;

при D = 1 и F = 1 обработка сигнала осуществляется с дизерингом и формовкой шума.

15.5. Основные принципы цифровых преобразований звуковых сигналов

Рис. 15.17. Структурная схема реализации дизеринга и формовки шума

В последнем случае дискретные отсчеты сигнала u(n) подаются через подключенный ко входу вычитатель и далее — на сумматор, на второй вход которого поступают дискретные отсчеты псевдослучайного дизеринг-шума. На выходе этого сумматора дискретные отсчеты сигнала объединены с отсчетами дизеринг-шума, а на выходе квантователя они дополняются отсчетами шумов квантования ξ(n). Второй вычитатель реализует выделение этих шумов квантования и дизеринга ξ(n) путем формирования разности уровней отсчетов выходного сигнала и отсчетов сигнала, выделяемого на выходе первого вычитателя. Изменение формы спектра шумов осуществляется с помощью моделирующего фильтра, шум ξ (n) с выхода которого через ключ F соединен со вторым входом первого вычитателя.

Вслучае если F = 0 или D = 0 соответствующие преобразования не производятся. Применение рассмотренных методов преобразования шумов квантования не

всегда рационально, особенно в случаях необходимости дальнейшей обработки аудиосигналов.

Поэтому чаще всего для уменьшения влияния шумов квантования обработку аудиосигналов производят с применением АЦП с большей разрядностью при более высокой частоте дискретизации.

При этом чем выше частота дискретизации, тем большие требования предъявляются к ее стабильности, поскольку несовершенства преобразующей аппаратуры, приводящие к случайным временным отклонениям дискретизирующих импульсов, вызывают эффект джиттера (от англ. jitter — дрожание). Для борьбы с джиттером применяются высокостабильные кварцевые генераторы.

Глава 15. Основные характеристики звуковой информации

- -

Кодирующее и декодирующее устройства на входе и выходе оперируют с аналоговыми сигналами, преобразование которых в цифровой код и восстановление являются важнейшими этапами обработки информации. Сигналы на выходе декодера даже при отсутствии линейной и нелинейной обработки информации практически никогда не совпадают по форме с сигналами, поступающими на вход кодера. Ниже приводятся наиболее широко используемые варианты преобразования звуковых сигналов.

15.6.1. Импульсно-кодовая модуляция (ИКМ)

ИКМ — наиболее простой способ преобразования сигналов, обычно содержащий многоразрядный АЦП (чаще с линейной шкалой квантования) в кодере и ЦАП в декодере, имеющий такую же разрядность.

Если число N — разрядность АЦП, а частота дискретизации сигнала равна fпд, то формируемый цифровой поток определяется их произведением: N · fпд.

На выходе ЦАП при этом последовательно с частотой дискретизации fпд выделяются импульсные дискретные значения звукового сигнала. Каждый из этих почти прямоугольных импульсов длительностью τ = 1/fпд обладает sinc-

спектром F (f ) ≡ sinc π ·f /fпд =

sin π·f /fпд

, плавно изменяющимся от 1 на частоте

π·f /fпд

f = 0 до 2/π на частоте fпд/2.

 

 

Если частота дискретизации мало отличается от удвоенной величины граничной частоты преобразуемого сигнала fпд ≈ 2·fпгр, то спектральные составляющие сигнала в области граничной частоты оказываются значительно ослабленными. Устранение этого эффекта возможно либо путем использования ФНЧ с соответствующим подъемом частотной характеристики в области граничной частоты сигнала, либо с применением sinc-предкоррекции дискретных отсчетов АЦП.

Форма частотной характеристики предкорректирующей цепи определяется формулой:

 

 

 

 

 

 

·

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(π ·

 

 

 

 

i

 

 

 

 

 

 

 

 

F

(f ) =

 

 

f /fпд)

= a

 

+ 2

 

a

cos(2iπ

·

f /f

 

),

(15.23)

 

 

пр

 

 

(sin π

 

 

0

 

 

i

 

 

 

пд

 

 

 

 

 

 

 

!

 

 

 

 

!

=1

 

 

 

 

 

 

 

 

4

 

4

 

(−1)k

 

 

 

 

(−1)k

 

 

 

 

 

 

 

 

 

i−1

 

 

 

 

 

 

 

 

 

 

где a0 =

π G, ai =

 

2G − k=0

 

3, G = k=0

 

= 0,915965594 . . . — посто-

π

(2k+1)2

(2k+1)2

янная Каталана.

Ряд (15.23) достаточно быстро сходится, и по этой причине можно ограничиться конечным числом его членов. С точностью выше 0,1% процесс предварительной коррекции реализуется в соответствии с соотношением:

4

u¯(n) = a0 · u(n) +

ak · [u(n − k) + u[n + k)],

(15.24)

 

k=1

 

где a0 = 1,1662, a1 = −0,1070, a2 =

0,0345, a3 = −0,0165, a4 = 0,0095.

 

15.6. Аналого-цифровое и цифро-аналоговое преобразование звуковых сигналов

15.6.2.Дифференциальная импульсно-кодовая модуляция (ДИКМ)

Как и при использовании ДИКМ видеосигнала, на вход квантователя последовательно подаются отсчеты не исходного сигнала, а разность между его текущим значением и предсказанной величиной:

e(n) = u(n) − u˜(n).

(15.25)

При использовании метода линейного предсказателя величина u˜(n) определя-

ется соотношением:

K

n =

akuˆ(n − k),

(15.26)

k=1

где K и ak — порядок и коэффициенты предсказания, uˆ(n−k) — отсчеты сигнала, полученные на предыдущих шагах преобразования исходных величин u(n − k).

Формирование величин uˆ(n) определяется принципом кодирования информации о разностной величине e(n) и с учетом поправки Q[e(n)]:

uˆ(n) = u˜(n) + Q[e(n)].

(15.27)

Величины коэффициентов предсказания зависят от корреляционных свойств преобразуемой аудиоинформации и подбираются опытным путем. Например, при оцифровке речевой информации может быть использован предсказатель пятого порядка с коэффициентами [6.2]:

a1 = 0,86; a2 = 0,64; a3 = 0,40; a4 = 0,26; a5 = 0,20.

Наиболее простым способом кодирования с предсказанием является дель- та-модуляция (ДМ), реализуемая с помощью однобитного квантователя. Ошиб-

ка предсказания e(n) и поправка Q[e(n)] определяются соотношениями:

e(n) = u(n) − uˆ(n − 1); Q[e(n)] =

1,

при e(n) 0;

(15.28)

0,

при e(n) < 0.

Принцип формирования сигнала на выходе декодирующего устройства заключается в следующем:

– если величина Q[e(n)] = 1, то значение отчета выходного сигнала вычис-

ляется по формуле uˆ(n) = uˆ(n − 1) + , где

— некоторое дискретное

приращение сигнала;

 

– при Q[e(n)] = 0 результат преобразования

отсчета имеет вид uˆ(n) =

= uˆ(n − 1) − .

 

На рис. 15.18 приведен пример обработки сигнала при дельта-модуляции. Применение такого вида преобразования приводит к двум видам искаже-

ний — перегрузке крутизны (или наклонной перегрузке), связанной с неспособностью кодирующего устройства реагировать на быстрые изменения величин отсчетов аудиосигнала, и появлению гранулярного шума. В связи с этим использование дельта-модуляции эффективно при высокой корреляции соседних отсчетов сигнала и применяется при повышенных частотах дискретизации звуковых сигналов.

Более эффективно использование адаптивной дельта-модуляции (АДМ), при которой в зависимости от характера поступающих на вход кодирующего