Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

(по цифровому вещанию) Dvorkovich_V_Cifrovye_videoinformacionnye_sistemy

.pdf
Скачиваний:
301
Добавлен:
15.03.2016
Размер:
23.26 Mб
Скачать

Глава 15. Основные характеристики звуковой информации

Рис. 15.4. Пример уровнеграммы звукового сигнала: Nmax −−Nmin — диапазон квазимаксимального изменения уровня звукового сигнала; Nш и Nпик — уровень шума и случайный выброс квазипикового уровня в звуковом сигнале соответственно

Приблизительные уровни звукового давления, характерные для различных источников, приведены в табл. 15.1 [6.10–6.12].

Таблица 15.1. Уровни звукового давления различных источников

 

Звуковое давление,

Уровень

Источник звука

звукового

Па

 

давления, дБ

 

 

 

 

 

Слуховой порог

2 · 10−5

0

Шелест листвы, слабого ветра, спокойное

6·10−5–6·10−4

10–30

дыхание, тиканье наручных часов

Шум в помещении, тихий разговор, скрипка

6·10−4–6·10−3

30–50

пианисимо, тихая музыка

Разговор средней громкости, звук телевизора,

6·10−3–2·10−2

40–60

шум в магазине, шум в ресторане

Громкий разговор, легковой автомобиль, шумная

2·10−2–2·10−1

60–80

улица, шум в машинописном бюро

Грузовой автомобиль, движение на занятом шоссе,

2·10−1–6·10−1

 

шум в метро во время движения, авторемонтная

80–90

мастерская

 

 

 

 

 

Женское и мужское пение

6·10−3–6·10−1

40–90

Эстрадный и симфонический оркестры

2·10−2–6

40–110

Громкая дискотека, пневматический молот,

2–20

100–120

самолет на взлете, кузнечный цех

 

 

Реактивный самолет с расстояния 100 м

6–200

110–140

Порог болевого ощущения

60

130

Принцип преобразования акустической энергии в электрическую, обработки электрического эквивалента и его последующего преобразования вновь в акустическую энергию поясняется на модели простейшей звуковой системы, приведенной на рис. 15.5 [6.11]. Источник звукового сигнала формирует акустическую энергию, которая преобразуется в колебания электрического аудиосигнала. После электрической обработки сигнала, включающей, например, усиление, формирование спецэффектов, изменение динамического диапазона и др., аудиосигнал

15.1. Статистика мгновенных значений и уровней звуковых сигналов

Рис. 15.5. Модель простейшей звуковой системы

подвергается обратному преобразованию в акустическую энергию и ее воспроизведению.

Уровни электрического эквивалента звуковой системы (N , дБ) пропорциональны уровням звукового давления (SPL, дБ). Так, при уровне SPL = 120 дБ звукового давления на входе преобразователя звука в электрический эквивалент максимальный уровень электрического сигнала может достигать величины N = +25 дБ. Учитывая линейную зависимость между величинами SPL и N (если в системе не применяется компрессия, эквализация, ограничение или отсечка сигналов), соответствие этих величин может быть представлено в виде, изображенном на рис. 15.6. Такое соотношение характерно для вещательных систем любого типа, звукоусиления, звукозаписи.

Требования к динамическому диапазону звуковой системы зависят от ее назначения и области использования. Так, динамический диапазон системы в звуконепроницаемой студии звукозаписи может быть большим, поскольку в таком случае шумы в ней не превышают 10–15 дБ. Звуковая система, предназначенная для усиления симфонической музыки, должна иметь запас динамического диапазона более 20 дБ, так как пиковые значения, соответствующие звукам некоторых инструментов (литавр, скрипок и др.), могут достигать SPL = −120 дБ.

В системах, предназначенных только для воспроизведения речи или предупреждающих сигналов, уровень звука можно контролировать и удерживать в очень узком диапазоне.

Речевой сигнал можно рассматривать как последовательность импульсов, разделенных паузами, при которых уровень сигнала ниже некоторого минимального уровня Nmin (рис. 15.7) [6.5].

Установлено, что среднесекундное число звуковых импульсов или пауз в речи дикторов телевизионного вещания — практически стабильная величина, приблизительно равная 2с−1, а потоки переходов от импульсов к паузам или от пауз к импульсам обладают плотностью вероятности и функцией ее распределения,

соответствующими соотношениям:

 

W (tk) = 2 exp(−2tk), F (tk) = 1 − exp(−2tk),

(15.6)

где tk — общее обозначение величин tи и tпп. Математическое ожидание, средне-

Глава 15. Основные характеристики звуковой информации

Рис. 15.6. Динамический диапазон звукового давления и его электрического эквивалента

Рис. 15.7. Участок речевого сигнала: τи1, τи2, . . . — интервалы последовательности импульсов; τпп1, τпп2, . . . — интервалы последовательности пауз; tи1, tи2, . . . — времена переходов от пауз к импульсам; tпп1, tпп2, . . . — времена переходов от импульсов к паузам.

квадратическое отклонение и медиана этого распределения соответственно равны

mk = σk = 0,5 c; tk(0, 5) = 0,35 c.

15.2. Спектральные характеристики звуковых сигналов

Считается, что при (Nmed −Nmin) σN , где Nmed — средний уровень сигнала, а σN — среднеквадратичное отклонение уровней, потоки переходов от импульсов к паузам или от пауз к импульсам почти пуассоновские и вероятность того, что

за интервал T наступит хотя бы одно событие (например, пауза), равна p(T ) = = 1 − exp(−λT ), где λ = 2 с−1.

Отсюда находим, что с вероятностью p = 0,5 пауза встречается в отрывках дикторской речи продолжительностью T = 0,35 с и вероятностью p = 0,95 — в отрывках с длительностью T = 1,5 с.

Длительность звуковых импульсов речи τи (в секундах) подчиняется экспо-

ненциальному закону распределения

 

W (τи) = 3, 5 exp(−3, 5τи), F (τи) = 1 − exp(−3, 5τи)

(15.7)

с параметрами mи = σи = 0,286 c; τи(0, 5) = 0,2 c.

Длительность пауз τпп (в миллисекундах) приближенно подчиняется степен-

ному закону распределения

 

W (τпп) = 168,5 · τпп−2,23, F (τпп) = 1,137 · τпп−1,23, τпп 54 мc.

(15.8)

Первый момент и медиана этого распределения соответственно равны mпп = 293 мc; τпп(0,5) = 90 мc,

а остальные моменты не существуют.

Реальные звуковые сигналы практически невозможно описать какой-либо математической функцией или эмпирической зависимостью. По этой причине, как правило, анализируются лишь ограниченные во времени фрагменты звукового сигнала, выделенные некоторой оконной функцией. При этом используется по-

нятие «мгновенный спектр»:

W (t) · U (t) · exp(−j2πf t) dt,

(15.9)

F (f, τ ) =

−τ /2

 

τ /2

 

 

где u(t) — электрический эквивалент звукового сигнала, w(t) — оконная функция, равная нулю вне пределов заданного интервала, −τ /2 t τ /2, f — текущая частота.

Часто оценивают спектральную плотность мощности аудиосигнала с приме-

нением относительно узкополосного фильтра с полосой пропускания

f :

 

2

f0 +Δf /2

 

G(f0, τ ) =

f0− f /2 |F (f, τ )| df.

(15.10)

 

f · τ

Результат спектрального анализа выражают в децибелах

 

N (f0, τ ) = 10 lg G(f0, τ )G0 дБ,

(15.11)

где G0 — значение, соответствующее нулю шкалы уровней.

Для расчета частотного спектра ограниченного по длительности сигнала, представленного его дискретными значениями, используют дискретное преобразование Фурье (ДПФ) или его разновидность — быстрое преобразование Фурье (БПФ).

Глава 15. Основные характеристики звуковой информации

Воснове ДПФ лежит идея представления анализируемого фрагмента сигнала

ввиде одного периода некоторого бесконечного периодического сигнала, спектр которого и подвергается анализу.

На рис. 15.8 приведены сигналограмма записи отрывка синтезированного музыкального фрагмента и график его спектра, рассчитанный с использованием ДПФ.

С точки зрения обработки электрического эквивалента звука и его передачи весьма полезной является информация о спектрах разговорных и певческих голосов, музыкальных инструментов, природных и индустриальных шумов и т. д. Сведения о частотных диапазонах некоторых источников звука даны в табл. 15.2 [6.3, 6.5].

Таблица 15.2. Частотные диапазоны некоторых источников звука

Источник звука

Граничная частота, Гц

 

нижняя

верхняя

 

 

 

Мужской голос

100

7000

Женский голос

200

9000

 

 

 

Рояль

100

5000

 

 

 

Скрипка

200

14000

Флейта

250

14000

 

 

 

Тарелки

400

12000

 

 

 

Литавры

65

3000

Шум шагов

100

10000

 

 

 

Аплодисменты

150

15000

 

 

 

Специфической особенностью восприятия звука является разделение его спектра на полосы равной разборчивости (критические полосы), когда сигнал в пределах одной и той же полосы создает весьма близкие слуховые ощущения. В частотном промежутке от 0 до 16 кГц опытным путем определены 24 полосы, оцениваемые в Барках (по фамилии немецкого ученого Баркгаузена Г.Г., 1881–1956). В табл. 15.3 приведены критические полосы и соответствующие им частотные разбиения.

Восприятие громкости чистых тонов различных звуковых частот также существенно различается. На экспериментальной основе построена известная шкала зависимостей громкости звука — так называемые кривые равной громкости (рис. 15.9).

Каждая кривая на этом графике характеризует уровень равной громкости с начальной точкой отсчета на частоте 1000 Гц. Одна из единиц определения уровня громкости «фон» (phon) характеризует относительную субъективную оценку интенсивности звука. Так, линия «10 фон» на этом графике определяет уровни сигнала в дБ на разных частотах, воспринимаемых слуховой системой человека как равные громкости с сигналом частоты 1000 Гц и уровнем 10 дБ.

Области громкости и спектральных областей речи и музыки различны, как показано на диаграмме рис. 15.10. Следует заметить, что приведенные графики определены для случая полной тишины. В случае иных условий, например в шумной комнате, диаграммы окажутся другими.

Важными факторами изменения восприятия звуковой информации являются эффекты частотной и временномй маскировки.

15.2. Спектральные характеристики звуковых сигналов

Рис. 15.8. Участок записи звукового сигнала (а) и его спектр (б)

На рис. 15.11 схематично показано, как тон одной частоты f0 изменяет кривую порога слышимости в тишине и создает маскирующий эффект, при котором тон частоты fm оказывается замаскированным и не воспринимаемым. Как видно из этого графика, составляющая частоты fm имеет уровень, превышающий порог слышимости в тишине (штриховая линия) и была бы воспринята при отсутствии тона частоты f0. Если в качестве фонового маскирующего звука выступает шумовой сигнал с определенным спектром, то кривая порога слышимости оказывается накрытой маскирующим порогом, величина которого зависит от уровней составляющих спектра шума.

В профессиональной литературе рассматриваются несколько различных по спектру разновидностей шумов [6.2, 6.12].

Белый шум обладает постоянной спектральной плотностью на всей протяженности спектра.

Розовый шум, спектральная плотность которого уменьшается на 3 дБ с каждой последующей октавой.

Оранжевый шум, спектральная плотность которого квазипостоянна и имеет полоски нулевой энергии, рассеянные на всей протяженности спектра. Такие полоски располагаются около частот, соответствующих музыкальным нотам.

Зеленый шум подобен розовому шуму с усиленной областью в районе 500 Гц.

Глава 15. Основные характеристики звуковой информации

Таблица 15.3. Критические частотные полосы звуковых сигналов

 

Диапазон

Ширина

Центральная

Номер

частота

критической

критической

полосы, Барк

критической

полосы, Гц

полосы, Гц

 

полосы, Гц

 

 

 

 

 

 

 

0

0–100

100

50

 

 

 

 

1

100–200

100

150

 

 

 

 

2

200–300

100

250

 

 

 

 

3

300–400

100

350

 

 

 

 

4

400–510

110

450

 

 

 

 

5

510–630

120

570

 

 

 

 

6

630–770

140

700

 

 

 

 

7

770–920

150

840

8

920–1080

160

1000

9

1080–1270

190

1170

10

1270–1480

210

1370

11

1480–1720

240

1600

12

1720–2000

280

1850

13

2000–2310

320

2150

14

2310–2700

380

2500

15

2700–3150

450

2900

 

 

 

 

16

3150–3700

550

3400

 

 

 

 

17

3700–4400

700

4000

 

 

 

 

18

4400–5300

900

4800

 

 

 

 

19

5300–6400

1100

5800

 

 

 

 

20

6400–7700

1300

7000

 

 

 

 

21

7700–9500

1800

8500

 

 

 

 

22

9500–12000

2500

10500

 

 

 

 

23

12000–15500

3500

13500

 

 

 

 

Синий шум, спектральная плотность которого увеличивается на 3 дБ с каждой последующей октавой.

Фиолетовый шум или дифференцированный белый шум, спектральная плотность которого увеличивается на 6 дБ с каждой последующей октавой.

Серый шум, спектр имеет форму, аналогичную графику психоакустической кривой порога слышимости.

Коричневый шум, спектральная плотность которого уменьшается на 6 дБ с каждой последующей октавой.

Тональный шум, в спектре которого имеются слышимые дискретные тоны.

Черный шум имеет постоянную конечную спектральную плотность за пределами частотного порога слышимости, равного 20 кГц.

Эффект частотной маскировки справедлив для частотных составляющих, присутствующих в спектре сигнала в одно и то же время. Однако за счет инерционности слуха эффект маскировки распространяется и во временномй области, как показано на рис. 15.12. В случае, когда маскирующий тон прекращается раньше маскируемого тона, создается постмаскирующий эффект. Возможна и пред-

15.2. Спектральные характеристики звуковых сигналов

Рис. 15.9. Зависимости равной громкости

Рис. 15.10. Диаграммы порогов и области слышимости для случая полной тишины

маскировка, когда маскирующий тон появляется несколько позже маскируемого тона. Из диаграммы видно, что интервал предмаскировки существенно меньше интервала постмаскировки.

Глава 15. Основные характеристики звуковой информации

Рис. 15.11.

Эффект частотной маскировки

Рис. 15.12.

Диаграмма частотно-временной маскировки

Следует заметить, что рассмотренные эффекты маскировки и изменения порогов слышимости широко используются в самых различных технологиях цифрового сжатия аудиоинформации.

По форме огибающей и изменению мгновенной частоты звуковых сигналов производится анализ переходных процессов в преобразователях акустической энергии в ее электрический эквивалент при обработке и восстановлении аудиосигналов.

Оценка этих характеристик звуковых сигналов осуществляется с использованием двух сигналов: исходного u(t) и сопряженного с ним по Гильберту uГ(t):

uΓ(t) = π

 

t − τ dτ ;

u(t) = −π

 

tΓ− τ dτ .

(15.12)

1

u(τ )

1

u (τ )

 

−∞

−∞

15.3. Огибающая и мгновенная частота звуковых сигналов

Пусть функция u(t) ограничена по спектру частотой fпгр и определена дискретными отсчетами u(nT), 0 n N − 1. Положим также, что интервал между отсчетами в соответствии с теоремой Котельникова определяется соотношением T tn+1 − tn 1/2 · fпгр. Тогда форму сигнала и его спектр можно представить в виде:

N −1

 

 

sin v(t, n)

 

 

 

N −1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

u(t) =

 

u(nT ) ·

 

v(t, n)

,

Fu(f ) = Ψ(f ) ·

u(nT ) · exp[−2πj · T f n],

n=0

 

 

 

 

 

 

 

 

 

n=0

 

 

 

где v(t, n) = Tπ (t n

T ); t

<

 

; Ψ(f ) =

1/2,

f = fгр;

(15.13)

 

 

 

 

 

 

 

 

 

 

 

 

1,

0 f fгр;

 

 

 

 

− ·

 

| | ∞

0,

f > fгр.

 

Форма преобразованного по Гильберту сигнала и его спектра в данном случае

определяются следующими соотношениями:

 

 

 

 

 

 

 

 

N −1

 

 

 

 

 

 

 

 

 

 

 

 

u

 

 

 

 

 

·

1 − cos v(t, n)

,

F

 

 

(15.14)

 

Γ

 

n=0

 

 

 

 

v(t, n)

uΓ

 

u

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Огибающая и изменение фазы звукового сигнала рассчитываются по формулам:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

uΓ(t)

 

 

 

 

 

 

 

Uог(t) = u2(t) + uΓ2

(t),

ϕ(t) = Arctg

,

 

(15.15)

 

 

 

 

u(t)

 

а мгновенная частота определяется производной фазы

 

 

 

 

f

 

(t) =

 

1 dϕ(t)

=

1

 

u(t) · uΓ(t) − u (t) · uΓ(t)

,

(15.16)

 

мгн

 

 

 

 

 

 

 

·

 

 

 

 

 

 

2π dt

 

 

 

u2(t) + uΓ2 (t)

 

 

 

где u (t) =

du(t)

, u

(t) =

 

duΓ(t)

.

 

 

 

 

 

 

 

 

 

 

dt

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Γ

 

 

dt

 

 

 

 

 

 

 

 

 

 

Производные исходного и сопряженного по Гильберту сигналов и их спектры

определяются следующими формулами:

3,

Fu(f ) = 2πj · f T · Fu(f ); (15.17)

u (t) = n=0 u(nT ) ·

2

v(t, n)

v2

(t, n)

N −1

 

cos v(t, n)

 

sin v(t, n)

 

 

 

 

 

 

 

 

 

 

3, FuΓ (f ) = −2π · f T · Fu(f ).

uΓ(t) = n=0 u(nT ) · 2

v(t, n)

1

v2(t, n)

N −1

 

sin v(t, n)

 

 

cos v(t, n)

 

 

 

 

 

 

 

 

 

(15.18)

 

 

 

 

 

 

 

 

Приведенные в соотношениях (15.13)–(15.18) преобразования сигналов и их спектров можно использовать для расчетов огибающей и мгновенной частоты звукового сигнала с применением быстрых прямого и обратного преобразований Фурье (БПФ и ОБПФ) как показано на рис. 15.13. В данном случае исходно с помощью БПФ формируются спектральные отсчеты Fu(m) дискретного сигнала u(n). Затем спектральные отсчеты производной исходного сигнала, Гильбертовой составляющей и ее производной формируются путем перемножения Fu(m) на соответствующие коэффициенты. Формирование всех необходимых сигналов осуществляется с использованием ОБПФ. Огибающая и мгновенная частота звукового сигнала вычисляются по формулам (15.15) и (15.16).

На некотором интервале T ограниченный по спектру, не имеющий постоянной составляющей сигнал может быть представлен, например, набором косинусо-