(по цифровому вещанию) Dvorkovich_V_Cifrovye_videoinformacionnye_sistemy
.pdf
Глава 15. Основные характеристики звуковой информации
Рис. 15.4. Пример уровнеграммы звукового сигнала: Nmax −−Nmin — диапазон квазимаксимального изменения уровня звукового сигнала; Nш и Nпик — уровень шума и случайный выброс квазипикового уровня в звуковом сигнале соответственно
Приблизительные уровни звукового давления, характерные для различных источников, приведены в табл. 15.1 [6.10–6.12].
Таблица 15.1. Уровни звукового давления различных источников
|
Звуковое давление, |
Уровень |
|
Источник звука |
звукового |
||
Па |
|||
|
давления, дБ |
||
|
|
||
|
|
|
|
Слуховой порог |
2 · 10−5 |
0 |
|
Шелест листвы, слабого ветра, спокойное |
6·10−5–6·10−4 |
10–30 |
|
дыхание, тиканье наручных часов |
|||
Шум в помещении, тихий разговор, скрипка |
6·10−4–6·10−3 |
30–50 |
|
пианисимо, тихая музыка |
|||
Разговор средней громкости, звук телевизора, |
6·10−3–2·10−2 |
40–60 |
|
шум в магазине, шум в ресторане |
|||
Громкий разговор, легковой автомобиль, шумная |
2·10−2–2·10−1 |
60–80 |
|
улица, шум в машинописном бюро |
|||
Грузовой автомобиль, движение на занятом шоссе, |
2·10−1–6·10−1 |
|
|
шум в метро во время движения, авторемонтная |
80–90 |
||
мастерская |
|
|
|
|
|
|
|
Женское и мужское пение |
6·10−3–6·10−1 |
40–90 |
|
Эстрадный и симфонический оркестры |
2·10−2–6 |
40–110 |
|
Громкая дискотека, пневматический молот, |
2–20 |
100–120 |
|
самолет на взлете, кузнечный цех |
|||
|
|
||
Реактивный самолет с расстояния 100 м |
6–200 |
110–140 |
|
Порог болевого ощущения |
60 |
130 |
Принцип преобразования акустической энергии в электрическую, обработки электрического эквивалента и его последующего преобразования вновь в акустическую энергию поясняется на модели простейшей звуковой системы, приведенной на рис. 15.5 [6.11]. Источник звукового сигнала формирует акустическую энергию, которая преобразуется в колебания электрического аудиосигнала. После электрической обработки сигнала, включающей, например, усиление, формирование спецэффектов, изменение динамического диапазона и др., аудиосигнал
15.1. Статистика мгновенных значений и уровней звуковых сигналов
Рис. 15.5. Модель простейшей звуковой системы
подвергается обратному преобразованию в акустическую энергию и ее воспроизведению.
Уровни электрического эквивалента звуковой системы (N , дБ) пропорциональны уровням звукового давления (SPL, дБ). Так, при уровне SPL = 120 дБ звукового давления на входе преобразователя звука в электрический эквивалент максимальный уровень электрического сигнала может достигать величины N = +25 дБ. Учитывая линейную зависимость между величинами SPL и N (если в системе не применяется компрессия, эквализация, ограничение или отсечка сигналов), соответствие этих величин может быть представлено в виде, изображенном на рис. 15.6. Такое соотношение характерно для вещательных систем любого типа, звукоусиления, звукозаписи.
Требования к динамическому диапазону звуковой системы зависят от ее назначения и области использования. Так, динамический диапазон системы в звуконепроницаемой студии звукозаписи может быть большим, поскольку в таком случае шумы в ней не превышают 10–15 дБ. Звуковая система, предназначенная для усиления симфонической музыки, должна иметь запас динамического диапазона более 20 дБ, так как пиковые значения, соответствующие звукам некоторых инструментов (литавр, скрипок и др.), могут достигать SPL = −120 дБ.
В системах, предназначенных только для воспроизведения речи или предупреждающих сигналов, уровень звука можно контролировать и удерживать в очень узком диапазоне.
Речевой сигнал можно рассматривать как последовательность импульсов, разделенных паузами, при которых уровень сигнала ниже некоторого минимального уровня Nmin (рис. 15.7) [6.5].
Установлено, что среднесекундное число звуковых импульсов или пауз в речи дикторов телевизионного вещания — практически стабильная величина, приблизительно равная 2с−1, а потоки переходов от импульсов к паузам или от пауз к импульсам обладают плотностью вероятности и функцией ее распределения,
соответствующими соотношениям: |
|
W (tk) = 2 exp(−2tk), F (tk) = 1 − exp(−2tk), |
(15.6) |
где tk — общее обозначение величин tи и tпп. Математическое ожидание, средне-
Глава 15. Основные характеристики звуковой информации
Рис. 15.6. Динамический диапазон звукового давления и его электрического эквивалента
Рис. 15.7. Участок речевого сигнала: τи1, τи2, . . . — интервалы последовательности импульсов; τпп1, τпп2, . . . — интервалы последовательности пауз; tи1, tи2, . . . — времена переходов от пауз к импульсам; tпп1, tпп2, . . . — времена переходов от импульсов к паузам.
квадратическое отклонение и медиана этого распределения соответственно равны
mk = σk = 0,5 c; tk(0, 5) = 0,35 c.
15.2. Спектральные характеристики звуковых сигналов
Считается, что при (Nmed −Nmin) σN , где Nmed — средний уровень сигнала, а σN — среднеквадратичное отклонение уровней, потоки переходов от импульсов к паузам или от пауз к импульсам почти пуассоновские и вероятность того, что
за интервал T наступит хотя бы одно событие (например, пауза), равна p(T ) = = 1 − exp(−λT ), где λ = 2 с−1.
Отсюда находим, что с вероятностью p = 0,5 пауза встречается в отрывках дикторской речи продолжительностью T = 0,35 с и вероятностью p = 0,95 — в отрывках с длительностью T = 1,5 с.
Длительность звуковых импульсов речи τи (в секундах) подчиняется экспо-
ненциальному закону распределения |
|
W (τи) = 3, 5 exp(−3, 5τи), F (τи) = 1 − exp(−3, 5τи) |
(15.7) |
с параметрами mи = σи = 0,286 c; τи(0, 5) = 0,2 c.
Длительность пауз τпп (в миллисекундах) приближенно подчиняется степен-
ному закону распределения |
|
W (τпп) = 168,5 · τпп−2,23, F (τпп) = 1,137 · τпп−1,23, τпп 54 мc. |
(15.8) |
Первый момент и медиана этого распределения соответственно равны mпп = 293 мc; τпп(0,5) = 90 мc,
а остальные моменты не существуют.
Реальные звуковые сигналы практически невозможно описать какой-либо математической функцией или эмпирической зависимостью. По этой причине, как правило, анализируются лишь ограниченные во времени фрагменты звукового сигнала, выделенные некоторой оконной функцией. При этом используется по-
нятие «мгновенный спектр»: |
W (t) · U (t) · exp(−j2πf t) dt, |
(15.9) |
|
F (f, τ ) = |
−τ /2 |
||
|
τ /2 |
|
|
где u(t) — электрический эквивалент звукового сигнала, w(t) — оконная функция, равная нулю вне пределов заданного интервала, −τ /2 t τ /2, f — текущая частота.
Часто оценивают спектральную плотность мощности аудиосигнала с приме-
нением относительно узкополосного фильтра с полосой пропускания |
f : |
|||
|
2 |
f0 +Δf /2 |
|
|
G(f0, τ ) = |
f0− f /2 |F (f, τ )| df. |
(15.10) |
||
|
||||
f · τ |
||||
Результат спектрального анализа выражают в децибелах |
|
|||
N (f0, τ ) = 10 lg G(f0, τ )G0 дБ, |
(15.11) |
|||
где G0 — значение, соответствующее нулю шкалы уровней.
Для расчета частотного спектра ограниченного по длительности сигнала, представленного его дискретными значениями, используют дискретное преобразование Фурье (ДПФ) или его разновидность — быстрое преобразование Фурье (БПФ).
Глава 15. Основные характеристики звуковой информации
Воснове ДПФ лежит идея представления анализируемого фрагмента сигнала
ввиде одного периода некоторого бесконечного периодического сигнала, спектр которого и подвергается анализу.
На рис. 15.8 приведены сигналограмма записи отрывка синтезированного музыкального фрагмента и график его спектра, рассчитанный с использованием ДПФ.
С точки зрения обработки электрического эквивалента звука и его передачи весьма полезной является информация о спектрах разговорных и певческих голосов, музыкальных инструментов, природных и индустриальных шумов и т. д. Сведения о частотных диапазонах некоторых источников звука даны в табл. 15.2 [6.3, 6.5].
Таблица 15.2. Частотные диапазоны некоторых источников звука
Источник звука |
Граничная частота, Гц |
|
|
нижняя |
верхняя |
|
|
|
Мужской голос |
100 |
7000 |
Женский голос |
200 |
9000 |
|
|
|
Рояль |
100 |
5000 |
|
|
|
Скрипка |
200 |
14000 |
Флейта |
250 |
14000 |
|
|
|
Тарелки |
400 |
12000 |
|
|
|
Литавры |
65 |
3000 |
Шум шагов |
100 |
10000 |
|
|
|
Аплодисменты |
150 |
15000 |
|
|
|
Специфической особенностью восприятия звука является разделение его спектра на полосы равной разборчивости (критические полосы), когда сигнал в пределах одной и той же полосы создает весьма близкие слуховые ощущения. В частотном промежутке от 0 до 16 кГц опытным путем определены 24 полосы, оцениваемые в Барках (по фамилии немецкого ученого Баркгаузена Г.Г., 1881–1956). В табл. 15.3 приведены критические полосы и соответствующие им частотные разбиения.
Восприятие громкости чистых тонов различных звуковых частот также существенно различается. На экспериментальной основе построена известная шкала зависимостей громкости звука — так называемые кривые равной громкости (рис. 15.9).
Каждая кривая на этом графике характеризует уровень равной громкости с начальной точкой отсчета на частоте 1000 Гц. Одна из единиц определения уровня громкости «фон» (phon) характеризует относительную субъективную оценку интенсивности звука. Так, линия «10 фон» на этом графике определяет уровни сигнала в дБ на разных частотах, воспринимаемых слуховой системой человека как равные громкости с сигналом частоты 1000 Гц и уровнем 10 дБ.
Области громкости и спектральных областей речи и музыки различны, как показано на диаграмме рис. 15.10. Следует заметить, что приведенные графики определены для случая полной тишины. В случае иных условий, например в шумной комнате, диаграммы окажутся другими.
Важными факторами изменения восприятия звуковой информации являются эффекты частотной и временномй маскировки.
15.2. Спектральные характеристики звуковых сигналов
Рис. 15.8. Участок записи звукового сигнала (а) и его спектр (б)
На рис. 15.11 схематично показано, как тон одной частоты f0 изменяет кривую порога слышимости в тишине и создает маскирующий эффект, при котором тон частоты fm оказывается замаскированным и не воспринимаемым. Как видно из этого графика, составляющая частоты fm имеет уровень, превышающий порог слышимости в тишине (штриховая линия) и была бы воспринята при отсутствии тона частоты f0. Если в качестве фонового маскирующего звука выступает шумовой сигнал с определенным спектром, то кривая порога слышимости оказывается накрытой маскирующим порогом, величина которого зависит от уровней составляющих спектра шума.
В профессиональной литературе рассматриваются несколько различных по спектру разновидностей шумов [6.2, 6.12].
–Белый шум обладает постоянной спектральной плотностью на всей протяженности спектра.
–Розовый шум, спектральная плотность которого уменьшается на 3 дБ с каждой последующей октавой.
–Оранжевый шум, спектральная плотность которого квазипостоянна и имеет полоски нулевой энергии, рассеянные на всей протяженности спектра. Такие полоски располагаются около частот, соответствующих музыкальным нотам.
–Зеленый шум подобен розовому шуму с усиленной областью в районе 500 Гц.
Глава 15. Основные характеристики звуковой информации
Таблица 15.3. Критические частотные полосы звуковых сигналов
|
Диапазон |
Ширина |
Центральная |
|
Номер |
частота |
|||
критической |
критической |
|||
полосы, Барк |
критической |
|||
полосы, Гц |
полосы, Гц |
|||
|
полосы, Гц |
|||
|
|
|
||
|
|
|
|
|
0 |
0–100 |
100 |
50 |
|
|
|
|
|
|
1 |
100–200 |
100 |
150 |
|
|
|
|
|
|
2 |
200–300 |
100 |
250 |
|
|
|
|
|
|
3 |
300–400 |
100 |
350 |
|
|
|
|
|
|
4 |
400–510 |
110 |
450 |
|
|
|
|
|
|
5 |
510–630 |
120 |
570 |
|
|
|
|
|
|
6 |
630–770 |
140 |
700 |
|
|
|
|
|
|
7 |
770–920 |
150 |
840 |
|
8 |
920–1080 |
160 |
1000 |
|
9 |
1080–1270 |
190 |
1170 |
|
10 |
1270–1480 |
210 |
1370 |
|
11 |
1480–1720 |
240 |
1600 |
|
12 |
1720–2000 |
280 |
1850 |
|
13 |
2000–2310 |
320 |
2150 |
|
14 |
2310–2700 |
380 |
2500 |
|
15 |
2700–3150 |
450 |
2900 |
|
|
|
|
|
|
16 |
3150–3700 |
550 |
3400 |
|
|
|
|
|
|
17 |
3700–4400 |
700 |
4000 |
|
|
|
|
|
|
18 |
4400–5300 |
900 |
4800 |
|
|
|
|
|
|
19 |
5300–6400 |
1100 |
5800 |
|
|
|
|
|
|
20 |
6400–7700 |
1300 |
7000 |
|
|
|
|
|
|
21 |
7700–9500 |
1800 |
8500 |
|
|
|
|
|
|
22 |
9500–12000 |
2500 |
10500 |
|
|
|
|
|
|
23 |
12000–15500 |
3500 |
13500 |
|
|
|
|
|
–Синий шум, спектральная плотность которого увеличивается на 3 дБ с каждой последующей октавой.
–Фиолетовый шум или дифференцированный белый шум, спектральная плотность которого увеличивается на 6 дБ с каждой последующей октавой.
–Серый шум, спектр имеет форму, аналогичную графику психоакустической кривой порога слышимости.
–Коричневый шум, спектральная плотность которого уменьшается на 6 дБ с каждой последующей октавой.
–Тональный шум, в спектре которого имеются слышимые дискретные тоны.
–Черный шум имеет постоянную конечную спектральную плотность за пределами частотного порога слышимости, равного 20 кГц.
Эффект частотной маскировки справедлив для частотных составляющих, присутствующих в спектре сигнала в одно и то же время. Однако за счет инерционности слуха эффект маскировки распространяется и во временномй области, как показано на рис. 15.12. В случае, когда маскирующий тон прекращается раньше маскируемого тона, создается постмаскирующий эффект. Возможна и пред-
15.3. Огибающая и мгновенная частота звуковых сигналов
Пусть функция u(t) ограничена по спектру частотой fпгр и определена дискретными отсчетами u(nT), 0 n N − 1. Положим также, что интервал между отсчетами в соответствии с теоремой Котельникова определяется соотношением T tn+1 − tn 1/2 · fпгр. Тогда форму сигнала и его спектр можно представить в виде:
N −1 |
|
|
sin v(t, n) |
|
|
|
N −1 |
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
u(t) = |
|
u(nT ) · |
|
v(t, n) |
, |
Fu(f ) = Ψ(f ) · |
u(nT ) · exp[−2πj · T f n], |
||||||||
n=0 |
|
|
|
|
|
|
|
|
|
n=0 |
|
|
|
||
где v(t, n) = Tπ (t n |
T ); t |
< |
|
; Ψ(f ) = |
1/2, |
f = fгр; |
(15.13) |
||||||||
|
|
||||||||||||||
|
|
|
|
|
|
|
|
|
|
1, |
0 f fгр; |
|
|||
|
|
|
− · |
|
| | ∞ |
0, |
f > fгр. |
|
|||||||
Форма преобразованного по Гильберту сигнала и его спектра в данном случае |
|||||||||||||||
определяются следующими соотношениями: |
|
|
|
|
|
||||||||||
|
|
|
N −1 |
|
|
|
|
|
|
|
|
|
|
|
|
u |
|
|
|
|
|
· |
1 − cos v(t, n) |
, |
F |
|
− |
|
(15.14) |
||
|
Γ |
|
n=0 |
|
|
|
|
v(t, n) |
uΓ |
|
u |
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Огибающая и изменение фазы звукового сигнала рассчитываются по формулам:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
uΓ(t) |
|
|
|
|
|
|
|
Uог(t) = u2(t) + uΓ2 |
(t), |
ϕ(t) = Arctg |
, |
|
(15.15) |
||||||||||||
|
|
|
|
u(t) |
|
||||||||||||||||
а мгновенная частота определяется производной фазы |
|
|
|
||||||||||||||||||
|
f |
|
(t) = |
|
1 dϕ(t) |
= |
1 |
|
u(t) · uΓ(t) − u (t) · uΓ(t) |
, |
(15.16) |
||||||||||
|
мгн |
|
|
|
|
|
|
|
· |
|
|||||||||||
|
|
|
|
|
2π dt |
|
2π |
|
|
u2(t) + uΓ2 (t) |
|
|
|
||||||||
где u (t) = |
du(t) |
, u |
(t) = |
|
duΓ(t) |
. |
|
|
|
|
|
|
|
|
|
|
|||||
dt |
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
|
|
Γ |
|
|
dt |
|
|
|
|
|
|
|
|
|
|
||||||
Производные исходного и сопряженного по Гильберту сигналов и их спектры
определяются следующими формулами: |
3, |
Fu(f ) = 2πj · f T · Fu(f ); (15.17) |
||||||
u (t) = n=0 u(nT ) · |
2 |
v(t, n) |
− |
v2 |
(t, n) |
|||
N −1 |
|
cos v(t, n) |
|
sin v(t, n) |
|
|
||
|
|
|
|
|
|
|
|
3, FuΓ (f ) = −2π · f T · Fu(f ). |
uΓ(t) = n=0 u(nT ) · 2 |
v(t, n) |
− |
1 |
−v2(t, n) |
||||
N −1 |
|
sin v(t, n) |
|
|
cos v(t, n) |
|
||
|
|
|
|
|
|
|
|
(15.18) |
|
|
|
|
|
|
|
|
|
Приведенные в соотношениях (15.13)–(15.18) преобразования сигналов и их спектров можно использовать для расчетов огибающей и мгновенной частоты звукового сигнала с применением быстрых прямого и обратного преобразований Фурье (БПФ и ОБПФ) как показано на рис. 15.13. В данном случае исходно с помощью БПФ формируются спектральные отсчеты Fu(m) дискретного сигнала u(n). Затем спектральные отсчеты производной исходного сигнала, Гильбертовой составляющей и ее производной формируются путем перемножения Fu(m) на соответствующие коэффициенты. Формирование всех необходимых сигналов осуществляется с использованием ОБПФ. Огибающая и мгновенная частота звукового сигнала вычисляются по формулам (15.15) и (15.16).
На некотором интервале T ограниченный по спектру, не имеющий постоянной составляющей сигнал может быть представлен, например, набором косинусо-
