1. Сигналы и каналы звукового вещания |
15 |
Рис. 1.10. Порог слышимости в тишине и частотная маскировка
Частоты ниже 20 Гц, инфразвуки, не фиксируются слуховым анализатором, но воздействуют на человека. Считается, что в диапазоне от 3 до 13 Гц расположен весь спектр эмоциональных воздействий от эйфории (около 3 Гц) до «летальной» частоты ужаса (около 7 Гц). Частоты выше 20 кГц, ультразвуки, также воспринимаются помимо слухового анализатора. Непосредственное звуковосприятие в коре головного мозга осуществляется и с помощью СВЧ-колебаний, хотя и с вредом для организма.
Нервные окончания под действием возбуждения генерируют импульсы (т.е. практически уже кодированный сигнал), передаваемые по нервным волокнам к головному мозгу: в первый момент до 1000 имп / с, а через секунду – из-за усталости – не более 200, что определяет процесс адаптации, то есть снижение воспринимаемой громкости при длительном воздействии сигнала. Импульсы, отображающие громкие звуки, сильнее и передаются по нервному волокну быстрее, чем слабые, как бы поглощая их, поэтому слабые звуки, прозвучавшие перед сильными, исчезают и не воспринимаются слушателями. Это явление называется предмаскировкой. После окончания сигнала волокна покровной мембраны (маятники на рис.1.9) какое-то время раскачиваются, сохраняя возбуждение, на фоне которого не воспринимаются слабые сигналы, что называют послемаскировкой. На рис.1.11 показан характер восприятия по громкости Lгр (пунктирная линия) сигнала с прямоугольной огибающей и уровнем L (сплошная линия). Участок предмаскировки длительностью 50 мс ограничивает незаметность слабых сигналов, следующих перед сильным, на следующем участке происходит адаптация и, как следствие этого, – снижение громкости сигнала, а на конечном
16 |
Цифровая обработка сигналов в трактах звукового вещания |
Рис. 1.11. К пояснению характера восприятия по громкости
участке – послемаскировка (350 мс). За счет послемаскировки, ее еще называют внутренним эхо-сигналом (реверберацией), человек не замечает коротких перерывов в звучании, если они не достигают 35 мс. При паузе более 50 мс сигнал воспринимается как новый или в качестве эхо-сигнала.
Рассмотрим временные параметры слуха. Для формирования ощущения громкости необходимо не менее 150…200 мс, а для различения двух сигналов достаточно лишь 20 мс; 2 мс достаточно для начала действия частотной маскировки, а 0,25 мс – время, достаточное для различения разницы в ходе огибающей процесса установления звука. Заметим, что за это время звук преобразуется системой рычагов (стремечки, молоточки, наковаленки и т.д.) из воздушной среды в жидкую, возбуждает мембрану, нервные окончания, достигает мозга и анализируется.
Как это следует из приведенной выше модели (рис.1.9), даже при восприятии одночастотного гармонического сигнала начинают раскачиваться почти все маятнички – волокна покровной мембраны, но особенно сильно – кратные по резонансной частоте, то есть появляются «субъективные» гармоники, определяемые внутренней нелинейностью самого слухового анализатора. Очевидно, что уровень внутренней нелинейности и определяет допустимую величину (около 2%) искажений сигнала вещания. Наличие субъективных гармоник (внутренней нелинейности) при больших уровнях приводит к появлению и субъективных субгармоник в области низких частот: согласно существующей гипотезе, человек именно по ним воспринимает низкочастотные колебания.
Часто спрашивают: зачем нужно такое точное цифровое представление звукового сигнала, если слуховой анализатор столь груб? Обратим внимание, как анализируется даже простой одночастотный сигнал: при уровне больше 40 дБ он возбуждает практически всю
1. Сигналы и каналы звукового вещания |
17 |
мембрану и анализируется параллельно всем анализатором. Локализация, то есть определение направления на источник звука, осуществляется за счет разницы приходящих к ушным раковинам сигналов: по давлению, по времени прихода, по разнице в спектрах – за счет затенения от головы и ушных раковин.
Наиболее сложно локализовать направление в медианной плоскости – спереди, сверху, сзади. В этом случае распознавание осуществляется по разнице спектрального состава сигнала. Так, преобладание составляющих в области 8 кГц приводит к локализации сигнала как звучащего сверху, существуют пеленговые полосы и для других направлений, что необходимо учитывать при проектировании систем озвучения с расположением звукоизлучателей сверху, сзади.
Для сохранения возможности локализации сигнала в сложных условиях (например, конференции с распределенными ораторами) необходимо учитывать закон первой волны, согласно которому локализация производится по первому из пришедших сигналов, даже если второй больше на 10 дБ и запаздывает на 30 мс.
Человека, как слушателя, интересуют также закономерности, позволяющие передавать (и, следовательно, воспринимать) смысловую (семантическую) и эмоциональную (эстетическую) информацию. Известным специалистом А. Молем предлагается следующее их определение [27]:
смысловая информация – это логическая информация, связанная со структурой сообщения, поддающаяся точной формулировке, переводимая, вызывающая определенные действия (например, мужская речь);
эмоциональная – информация непереводимая, вызывающая определенные состояния (например, музыка).
Вместе эти два вида информации складываются в сообщение. Для того чтобы определить, какие параметры сигнала какую информацию переносят, исследователи вносили в сигнал искажения – до разрушения сообщения. Показано, что эстетическую часть сообщения можно отфильтровать, разрушая «динамику», контраст интенсивностей до тех пор, пока не ухудшится передача смысла. Чтобы в этом убедиться, необходимо осуществить такое ограничение ЗВС, когда передаются только переходы функции через нуль (это можно рассматривать как модуляцию сигнала по длительности), а динамика сведена к минимуму. При этом сохраняется 96% словесной разборчивости, а у музыкального сигнала сохраняется возможность определить мелодию, инструментовку, состав оркестра. (В свое время такой способ обработки сигнала – клиппирование – использовался в системах информационного вещания в КВ диапазоне, позволяя увеличить громкость и зону охвата.)
18 |
Цифровая обработка сигналов в трактах звукового вещания |
Рис. 1.12. Распределение относительного количества звуковой информации на единицу полосы
Эксперименты показали, что смысловая информация связана с модуляцией длительности, с тонким восприятием ритма и передает в основном огибающей спектра сигнала. Уничтожить смысл, сохраняя динамику, можно, инвертировав сигнал во времени. В результате такого преобразования смысл уничтожается полностью, динамика сохраняется, а музыка становится странной, но понятна последовательность звуковых объектов.
Эстетическая информация передается тембром, динамикой, акцентированием распределения элементов, образующих звуковой символ – речевую или музыкальную фразу, перепадом уровней сигнала. Действительно, трудно качественно обругать окружающих, поддерживая постоянство уровня сигнала.
Исследование распределения относительного количества информации на единицу звуковой полосы показало [27], что максимум энергии, определяющей восприятие смысловой информации, сконцентрирован в области 2…4 кГц, а эстетической – в областях ниже
0,5 и выше 8 кГц (рис. 1.12).
Приведенные на этом рисунке кривые коррелированы с энергетическим спектром ЗВС, который характеризует распределение энергии сигнала (усредненной за 1…3 мин) по частоте (см. рис.1.8).
На рис.1.13 приведены распределения уровней спектральной плотности мощности для мужской и женской речи. Видно, что при равных усилиях даме удается обеспечить большую громкость, поскольку большая часть спектра находится в зоне максимальной чувствительности слухового анализатора.
Интересно, что в периоды между войнами, стихийными бедствиями, революциями, разница между основными тонами мужского и женского голосов уменьшается. Совместно с изменением остальных
1. Сигналы и каналы звукового вещания |
19 |
Рис. 1.13. Спектральная плотность мощности мужской и женской речи
признаков это приводит к уменьшению так называемой поляризации полов и, как следствие, к уменьшению рождаемости.
Для оценки спектра ЗВС используется также распределение значений относительного превышения заданного уровня во времени. На рис. 1.14 приведена такая зависимость для рок-музыки и «тяжелого металла» [62].
Рис. 1.14. Распределения значений относительного превышения заданного уровня во времени для рок-музыки и «тяжелого металла»
20 |
Цифровая обработка сигналов в трактах звукового вещания |
Рис. 1.15. Распределения значений относительного превышения заданного уровня во времени для фортепиано и органа
Видно, что в соответствии с рис. 1.12 звучания передают разное количество смысловой и эмоциональной информации. На рис. 1.15 приведены аналогичные распределения для фортепиано и органа.
С учетом инерционности слуха, для восприятия информации необходима относительная стационарность звукового сигнала на длительности, достаточной для его восприятия. А. Молем предложено членение сигнала на:
элементарные периодические структуры, формирующие символ – мгновенные спектры;
звуковые объекты – мельчайший объект, воспринимаемый как отдельное событие;
промежуточные структуры – последовательность звуковых объектов, соединенная посредством художественных приемов (ритмом, мелодией);
макроструктура – произведение в целом.
До настоящего времени в задачах компактного представления и обработки в основном использовалось представление звукового сигнала на уровне элементарных периодических структур. Только сравнительно недавно появилась возможность работы со звуком на уровне звуковых объектов. Очевидно, что дойдет очередь до промежуточных и макроструктур. Имеются патенты, в которых предлагается при передаче больших музыкальных форм по каналам связи кодировать только информацию, отличающую данный состав оркестра и дирижера, формируя сам сигнал из имеющихся звуковых архивов, т.е. превращая Филадельфийский оркестр в оркестр Московской консерватории.
1. Сигналы и каналы звукового вещания |
21 |
Звуковой объект характеризуется:
относительной однородностью относительно высоты и средней громкости;
индивидуальностью, определяемой огибающей амплитудного спектра;
характерным изменением (развитием) во времени.
Развитие во времени включает: фазу нарастания – переднего фронта, или «атаки», относительной стационарности – фазу «поддержки» и заднего фронта – спада.
Значимость атаки для восприятия звука становится понятной, если учитывать эффекты маскировки во времени и по частоте в слуховом анализаторе. В фазе установившегося периода и спада сигнала возбуждение слухового анализатора определяется, в основном, не свойствами сигнала, а свойствами самого слухового анализатора, и только в момент атаки оно максимально определяется сигналом.
Известно, что устранение атак из речевого сигнала делает его полностью неразборчивым, в то же время сохранение только атак, составляющих 10–15% длительности сигнала, позволяет сохранить словесную разборчивость на уровне 85% (несмотря на увеличение темпа). Устранение атак музыкального сигнала делает невозможным определение инструмента, даже для музыкантов. Инверсия звуков фортепиано превращает его в орган за счет изменения процессов нарастания и спада.
Длительность атаки по прямому звуку (без учета процесса реверберации) составляет: для речевого сигнала – от 2 до 40 мс (согласные звуки) и от 50 до 300 мс (гласные звуки); для музыкального сигнала – 20 мс (медные духовые и струнные щипковые); от 50 до 100 мс (деревянные духовые) и от 100 до 150 мс (смычковые инструменты).
1.4.О необходимости обработки сигнала в канале звукового вещания
Задачей обработки звукового вещательного сигнала в трактах формирования программ является согласование его спектрального состава, динамического диапазона с возможностями канала записи и передачи, а также введение спецэффектов. Оптимизация АЧХ необходима для:
-коррекции искажений, вносимых соединительными линиями;
-деформации АЧХ для улучшения разборчивости (рис. 1.16);
-введения эффекта присутствия (или отсутствия) исполнителя – за счет локального усиления группы частот (рис. 1.17);
22Цифровая обработка сигналов в трактах звукового вещания
-устранения «пеленговых» полос в системах звукофикации;
-реставрации, устранения шумов и помех.
Введение спецэффектов позволяет:
создать естественную акустическую обстановку за счет изменения времени реверберации (эхо-сигнала), когда вместо записи симфонического оркестра в полном составе (около 140 чел.) в большой студии записывают в камерных студиях по отдельности каждую инструментальную группу;
согласовать время воспроизведения без изменения тональности и изменение тональности без изменения времени воспроизведения при сведении многодорожечной записи разных инструментальных групп, входящих в большой симфонический оркестр;
ввести преднамеренные искажения, повышающие эмоциональное напряжение произведения.
Основной задачей обработки ЗВС звукорежиссером является необходимость уменьшения динамического диапазона, так как разрешенный уровень воспроизведения в бытовых помещениях составляет 96 дБ (в дневное время), а реальный уровень шумов – 50…60 дБ. Поэтому для передачи сигнала с динамическим диапазоном 60 дБ (симфонический оркестр) остается около 40 дБ, а сигнал с таким динамическим диапазоном может быть передан по большинству известных кана-
Рис. 1.16. Деформация АЧХ для лов передачи. улучшения разборчивости
Так как по всем органам чувств человека восприятие раздражителя дифференциально, то он реагирует, в основном, не на сам сигнал, а на его изменение. Следовательно, для сохранения эмоциональной информативности сигнала необходимо сохранять перепады уровня с градациями около 10 дБ, что соответствует шести градациям изменения громкости – от очень-очень тихо (pp-пиано-пианиссимо) до очень-очень громко (ff-форте-фортиссимо). С учетом этого, при условии сохранения перепадов уровня абсолютная величина динамического диапазона сигнала вещания может быть снижена.
1. Сигналы и каналы звукового вещания |
23 |
Рис. 1.17. Локальное усиление сигналов, принадлежащих к ряду группы частот
Звукорежиссер вручную, руководствуясь возможностями пульта, должен провести оптимизацию параметров ЗВС: частотной характеристики, уровня, ввести спецэффекты для каждого из источников звука, сводимого им в один сигнал. Осуществляется это по показаниям измерителя уровня (ИУ) и с использованием регуляторов уровня, частотных корректоров и устройств спецэффектов.
Рассмотрим работу звукорежиссера на примере. На рис. 1.18 приведены уровнеграммы начала Шестой симфонии Чайковского до и после обработки [7].
Перед началом исполнения публика разговаривает, шуршит фантиками и хлопает крышками стульев. Полностью убирать этот сигнал нельзя, поскольку он создает эффект присутствия, но уровень его звукорежиссер убавил. Затем появляется дирижер – публика слегка заинтересовалась и взорвалась аплодисментами.
Этот сигнал желательно сохранить, подчеркивая уважительное отношение к дирижеру. Далее начинается непосредственно работа звукорежиссера, который, используя партитуру и свое знакомство с музыкальным произведением, втискивает его динамический диапазон в 40 дБ с максимальным сохранением перепадов громкости.
24 |
Цифровая обработка сигналов в трактах звукового вещания |
Рис.1.18. Уровнеграммы начала Шестой симфонии Чайковского до (а) и после (б) обработки.
Время реакции звукорежиссера на изменение уровня составляет 1,5…2 с, сюда входят: время срабатывания ИУ (200 мс), время запаздывания (150 мс), определяемое расстоянием между головками записи и воспроизведения, время принятия решения и регулирования самим звукорежиссером. В результате погрешность регулирования составляет
4 дБ, а допуск на превышение уровня на входе МКЗВ – 1 дБ. Поэтому кроме ручной обработки ЗВС всегда производится автоматическая.
В процессе передачи ЗВС по каналу передачи, включающему ТПРП и ТВРП (см. разд. 1.1), сигнал подвергается многократной обработке с целью согласования его свойств с пропускной способностью тракта или его отдельных звеньев. Общим требованием к такой обработке является отсутствие заметности изменений сигнала для слушателя. В противном случае сводятся на нет все труды редакторов и звукорежиссеров, создававших программу. К сожалению, именно этого требования современные каналы передачи ЗВС, в большинстве случаев, и не обеспечивают. Более подробно этот вопрос будет рассмотрен в последующих разделах.
