Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

семестр 1 / лабы / лаба 2 / лаба_2_2_фипоз_метода

.pdf
Скачиваний:
0
Добавлен:
13.05.2026
Размер:
915.9 Кб
Скачать

2. НЕКОТОРЫЕ МАТЕМАТИЧЕСКИЕ ПРОЦЕДУРЫ АНАЛИЗА И ЦИФРОВОЙ ОБРАБОТКИ ЗВУКОВЫХ ВЕЩАТЕЛЬНЫХ СИГНАЛОВ

2.1. Способы спектрального анализа вещательного сигнала

Тема «Математические процедуры, используемые для анализа

иобработки сигнала звукового вещания» настолько объемная, что потребовала бы отдельного многотомного издания. Поэтому в рамках данного учебного пособия авторы рассматривают лишь ряд отдельных вопросов, подчеркивая необходимость при разработке математических процедур не забывать о физике процесса, а также об особенностях, присущих звуковому сигналу и процессам его восприятия слушателем. Поскольку в последние годы наибольшие успехи были достигнуты при обработке и представлении ЗВС в частотной области, остановимся далее на способах спектрального анализа

иреализации его комплексного представления.

2.1.1.Требования к спектральному анализу вещательного сигнала

Принято считать, что смысловая информативность ЗВС, то есть его распознаваемость и разборчивость, определяются, в ос-

новном, спектром сигнала, а эмоциональная информативность

огибающей уровня сигнала. Рассмотрим далее основные способы спектрального анализа, которые используются при изучении свойств звукового вещательного сигнала, в задачах его различения и распознавания, компактного представления.

В разд. 1.2 отмечалось, что во многих случаях к вещательному сигналу подходят как к случайному процессу. Однако слушателей мало волнуют статистические характеристики ЗВС на больших длительностях. Восприятие смысловой и эмоциональной информации происходит при анализе человеком звукового сигнала на уровне отдельных звучаний – звуковых объектов. На длительности своего существования Тзо каждый звуковой объект сохраняет относительную стабильность громкости и спектра – собственно, иначе невозможно было бы их восприятие с помощью достаточно инерционного периферического слухового анализатора человека. Отсюда следует, что желательно проводить спектральный анализ на длительности Тзо

2. Некоторые математические процедуры анализа звуковых сигналов

37

звучания каждого звукового объекта с точностью, близкой к точности, обеспечиваемой слуховым анализатором на этой длительности.

В основном, длительность звучания звуковых объектов составляет 40…250 мс, а именно: средняя длительность звучания отдельных фонем в слитной речи (в плотном дикторском тексте) – приблизительно 170 мс; длительность звучания отдельных гласных – от 80 до 250 мс, а самых коротких (взрывных) согласных – около 40 мс. Примерно таков же диапазон длительностей музыкальных объектов. Считается, что при меньшей длительности звук как самостоятельное событие не воспринимается.

Исследования показали, что особую ценность представляют участки нарастания уровня или изменения спектрального состава, соответствующие началу нового звукового объекта – так называемые атаки. Устранение атак из речевого сигнала делает его совершенно неразборчивым, при устранении атак из музыкального сигнала даже музыкант не может идентифицировать инструмент, на котором сыграно произведение. Учитывая особую ценность атак, именно их спектр должен анализироваться с особой тщательностью. Минимальная длительность нарастания ЗВС, зафиксированная в каналах передачи, составляет около 5 мс. Очевидно, что при изучении спектров ЗВС желательно, во-первых, уметь выделять атаки в структуре отдельных звуковых объектов, а во-вторых, проводить анализ именно на этой длительности.

В разд. 1.3 были рассмотрены основные свойства и предельные значения точности и разрешающей способности слухового анализатора, полученные на длительностях звучания более 200 мс. Напомним, что разрешающая способность по изменению амплитуды достигает 0,4 дБ (в зоне максимальной чувствительности), а по изменению частоты – 1,5 Гц (на частотах до 500 Гц) или 1,5% от абсолютного значения частоты – на частотах выше 500 Гц. С уменьшением длительности тестового сигнала падает и точность анализа. Так, при длительности тестового сигнала около 50 мс ошибка в определении абсолютного значения частоты в области до 1 кГц может достигать 200 Гц, а тестовые посылки менее 30 мс воспринимаются как щелчки с невыраженной амплитудой и частотой. В то же время при указанных длительностях сигнала чувствительность к модуляции сигнала по частоте и фазе остается высокой. Высокая чувствительность обеспечивается возможностью постоянного сравнения вновь поступающего сигнала с предыдущим – за счет эффекта внутренней реверберации (послемаскировки) на длительности около 350 мс. Мудрая природа предусмотрела возможность растянуть сигнал до длительности, на которой обеспечивается максимальная точность периферического слухового анализатора.

38Цифровая обработка сигналов в трактах звукового вещания

Впроцессе анализа ЗВС стремятся описать поведение каждой его спектральной составляющей, для чего их необходимо отделить друг от друга. Для вокализованной речи частотный разнос между составляющими определяется основным тоном и составляет от 75 до 350 Гц. Для спектральных составляющих невокализованной речи разнос еще меньше. Примерно такими же свойствами обладает и музыкальный сигнал, который исторически возникал как подобие голосу.

Точность анализа определяется длительностью анализируемой последовательности, используемой для формирования оценки, – непрерывной при цифровой фильтрации и дискретной при использовании ортогональных преобразований. Забегая вперед, скажем, что ни один из существующих способов спектрального анализа не обеспечивает необходимой точности, о чем не всегда помнят разработчики и исследователи, интерпретируя результаты спектрального анализа. Так, при анализе речевого сигнала невозможность обеспечить необходимую разрешающую способность на длительности большинства фонем приводит к ошибкам в оценке результатов анализа. При высоких порядках используемых фильтров анализ производится для нескольких фонем одновременно, что, возможно, и приводит к большой вариативности описаний одних и тех же фонем – в зависимости от их сочетаний.

Одной из существенных характеристик РС является частотная и фазовая модуляция его составляющих. Опыты показывают, что речевой и музыкальный сигналы во многом похожи на голограмму и несут смысловую информацию каждой своей компонентой. Узкополосная фильтрация и глубокое ограничение незначительно снижают разборчивость и распознаваемость, в основном ухудшая качество сигнала. Единственной информационной характеристикой в этом случае остается фазовая (или частотная) модуляция, выявление которой затруднительно существующими методами спектрального анализа. Все это делает необходимым продолжение исследований и разработок в области спектрального анализа РС.

Таким образом, задача максимального согласования спектральной оценки со свойствами слухового анализатора определяет совокупность требований к способу представления звукового сигнала в частотной области. В результате, в соответствии с существующей моделью звуковосприятия [51], можно сформулировать следующие основные требования к анализатору спектра ЗВС:

анализ желательно производить на нерегулярной шкале частот, обеспечивая:

- точность вычисления частоты – 1,5 % от абсолютного значения частоты – в области ниже 500 Гц и 3% – в области выше 500 Гц;

2. Некоторые математические процедуры анализа звуковых сигналов

39

-точность вычисления амплитуды – 0,4 дБ;

-точность вычисления фазы – 8 ;

-разрешающую способность – не хуже 20 Гц;

длительность сигнала, на которой производится анализ, не должна превышать 8 мс;

желательно формировать непрерывную оценку исследуемого узкополосного сигнала, что позволит выявлять его модуляционные характеристики;

необходимо обеспечить максимальную концентрацию энергии в полосе оценки;

желательно добиться устранения из сигнала частот, найденных в процессе последовательного анализа и соответствующих спектральным составляющим с максимальной амплитудой;

желательна обратимость оценки, то есть возможность создания исходного сигнала из представленного в частотной области – с искажениями, соответствующими требованиям ГОСТ

11515–91 [8].

Заметим, что сформулированные требования достаточно высокие и вместе с тем – весьма противоречивые, поскольку анализируются нестационарные звучания, и время анализа, определяющее точность и разрешающую способность анализа, не может быть увеличено произвольно.

2.1.2. Полосовая фильтрация в задачах спектрального анализа звуковых сигналов

Исторически для анализа спектральных свойств ЗВС сначала использовали полосовую фильтрацию. Эта технология широко используется в технике связи и в настоящее время – в том числе при анализе и обработке вещательных сигналов.

Из физики звукообразования известно, что все естественные звуковые сигналы являются следствием воздействия сигнала возбуждения, гармонического или шумового, на систему акустических или механических резонаторов. Синтезированные звучания создавались по образу и подобию естественных и поэтому не отличаются по свойствам от последних.

Известно, что корреляция между последовательно следующими отсчетами широкополосного ЗВС исчезает, в среднем, через 0,5 мс [11]. В то же время отдельные спектральные составляющие сложного звучания на длительности звукового объекта меняются достаточно медленно. Если, например, струна возбуждена и звучит на определенной ноте, то будет звучать в течение времени, достаточного

40

Цифровая обработка сигналов в трактах звукового вещания

для ее восприятия. Чем уже полоса анализа и чем ближе формируемая оценка к параметрам отдельной спектральной составляющей, тем выше корреляция между отсчетами. Именно это позволяет использовать для описания субполосных сигналов системы с предсказанием. Использование в системах передачи двухили четырехполосных систем позволило резко снизить объем передаваемой информации. В дальнейшем, субполосную фильтрацию стремились производить в соответствии со свойствами слуха, приближая ширину полос к «критическим».

Напомним (см. разд. 1.3), что одно из важнейших свойств слуха состоит в способности разделять спектр звука на частотные полоски на любом участке шкалы частот. В пределах каждой полоски интегрируется возбуждение и реально слышны только наиболее сильные спектральные составляющие, а слабые маскируются, что позволяет резко снизить разрядность представления при слабой заметности искажений.

При субполосном представлении звуковой сигнал фильтруется набором фильтров, ширина которых, по возможности, приближена к ширине «критических» полосок слуха и кодируется раздельно в каждой полосе. Достоинства систем с субполосным представлением сигнала подробно рассмотрены в многочисленных публикациях авторов этих систем и алгоритмов, поэтому остановимся на основных недостатках.

Для высокого качества фильтрации необходима большая длительность анализируемой последовательности, в то же время при анализе ЗВС нежелательна длительная систематическая задержка сигнала, да и анализ на длительности нескольких звуковых объектов не повышает точности анализа, как средняя температура по госпиталю не отображает состояния отдельного больного. Фильтры большой длины не применимы, и, следовательно, надо смириться с межполосным просачиванием, искажениями АЧХ и ФЧХ на стыках полос, с затягиванием передних фронтов – атак, определяющих распознаваемость и разборчивость сигнала, а также задних фронтов – участков спада, определяющих реверберационную характеристику сигнала, отображение акустической обстановки.

Никто и никогда не находил в периферическом слуховом анализаторе следов фильтров, соответствующих «критическим» полоскам слуха. Такая полоска динамически образуется вокруг зоны, возбужденной мощной спектральной составляющей или их группой, которая адаптивно смещается по частоте вместе с ними. Добавляет искажений и способ реализации разделения ЗВС на субполосные сигналы, соответствующие сигналам «критических» полосок слуха. Так, субполосная фильтрация используется при реализации алгоритма

2. Некоторые математические процедуры анализа звуковых сигналов

41

компактного представления ЗВС MUSICAM, на основе которого кодируется звук в стандартах MPEG, и в ряде других. Разработчиками использован набор цифровых фильтров с жестко закрепленными границами. Для приближения ширины полосы к «критической» используется последовательное деление ширины полосы на 2 – до тех пор, пока не получится нечто, близкое к «критической» полоске, что удобно при цифровой реализации. При этом ни о какой адаптации фильтров к свойствам сигнала речь не идет.

Достаточно сомнительны при такой реализации полосовых фильтров и алгоритмы устранения психофизиологической избыточности на границах полос, когда часть энергии единого сигнала попадает («просачивается») в соседние полосы за счет конечной крутизны АЧХ используемых фильтров и затем отбрасывается как «не воспринимаемая» за счет частотной маскировки. О затягивании фронтов авторы стыдливо упоминают только на последних страницах соответствующей рекомендации МСЭ-Р [28]. Напомним, что искажения огибающей сигнала на стадии нарастания (атаки) замечаются слушателем на длительности 0,2 мс, а желание повысить качество фильтрации приводит к необходимости увеличения порядка фильтра и искажениям усреднения.

Следующим требованием (скорее – пожеланием!) для обеспечения высокой эффективности полосовой фильтрации ЗВС является максимальная концентрация энергии в формируемых оценках. Такая концентрация возможна за счет адаптивного смещения полосы частот анализа в соответствии со смещением максимальной в полосе спектральной составляющей или их группы. Учитывая свойства слухового анализатора, необходимо использовать адаптивную фильтрацию сигнала, когда полоса пропускания фильтра смещается по спектру вместе с компонентами сигнала - с одновременным изменением ширины полосы пропускания фильтра в соответствии с положением центральной частоты.

Для полосовой фильтрации ЗВС необходимо формирование непрерывного, а не дискретного, как при ортогональных преобразованиях, субполосного сигнала.

Использование дискретной оценки приводит к затруднениям при выделении низкочастотной информации о частотной и фазовой модуляции компонент сигнала и к целому ряду искажений оценки, на которых остановимся позже.

Для устранения психофизиологической избыточности способ формирования спектральной оценки должен обеспечить возможность формирования субполосных сигналов с различной разрешающей способностью и точностью на шкале частот.

42

Цифровая обработка сигналов в трактах звукового вещания

2.1.3.Способы формирования спектральных оценок звуковых сигналов

Освоение нижеизложенного материала предполагает знакомство читателя с основами цифрового спектрального анализа, приведенными в Приложении.

При спектральной оценке звуковых сигналов решаются две задачи: обнаружения, т.е. выявления на интервале наблюдения сигнала с некоторыми априорно известными параметрами, и оценки, т.е. измерения значений параметров, описывающих сигнал. Существует два больших класса методов формирования таких оценок частотных свойств:

периодограммы, когда исходную функцию уныло множат на набор периодических функций, стационарных на времени анализа. Пока затруднения вызывала вычислительная сложность, умножали

на 1 (преобразование Уолша–Адамара и др.), затем стали умножать: на набор комплексных синусоид (преобразование Фурье), на набор косинусоид (косинусное преобразование), на набор синусов

икосинусов (синус-косинусное преобразование) и т.д.;

косвенный подход, в соответствии с которым осуществляется подбор спектральных функций оценки, обеспечивающий минимальную ошибку аппроксимации.

На рис. 2.1 показаны результаты спектрального анализа тестовой последовательности [т.е. формирования оценок спектральной плотности мощности (СПМ)], проведенного разными методами [26]. В качестве тестовой последовательности использован сигнал, включающий несколько дискретных спектральных составляющих, и шумовой сигнал с известной огибающей амплитудного спектра (рис. 2.1,а). Такой сигнал близок по свойствам к звуковому и при анализе

позволяет определить разрешающую способность метода для близко расположенных по частоте гармонических сигналов, точность определения амплитуд, отображение шумового сигнала.

Из анализа представленных данных следует, что для достижения поставленной цели наиболее близок алгоритм Прони. Действительно, в этом случае обеспечиваются распознавание близко расположенных спектральных составляющих, достаточно высокая точность оценок амплитуд, а шумовой сигнал представляется набором дискретных компонент с сохранением формы огибающей амплитуд, меняющихся от выборки к выборке, что при слуховом восприятии дает ощущение шума. При этом следует помнить, что метод Прони, минимизируя описание сигнала, не гарантирует соответствие его истинному спектру.

2. Некоторые математические процедуры анализа звуковых сигналов

43

Рис. 2.1. Спектральные оценки, полученные с помощью различных методов для одной и той же 64-точечной последовательности:

а – истинная СПМ; b – СПМ на основе периодограммы (вариант на основе БПФ); с – СПМ Блэкмана–Тьюки; d – АР–оценка СПМ на основе подхода Юла–Уокера; e – АР-оценка СПМ с помощью алгоритма Берга; f – АР-оценка СПМ по методу наименьших квадратов или алгоритма предсказания вперед и назад; g – СС-оценка СПМ; h – АРСС-оценка СПМ на основе обобщенных уравнений Юла–Уокера; i – СПМ на основе метода спектрального разложения Писаренко; j – энергетическая спектральная плотность Прини; k – частный вариант метода Прони на основе подхода Хильдербранда; l – СПМ Кейпона (метод максимального правдоподобия).

44

Цифровая обработка сигналов в трактах звукового вещания

Спектры Прони обеспечивают описание сигнала набором спадающих (и возрастающих) экспонент, расположенных на негармонической шкале частот при высокой разрешающей способности и точности. В то же время, являясь способом минимизации описания сигнала, алгоритм не гарантирует от появления в описании сверхнизких или сверхвысоких частот, отсутствующих в спектре анализируемого сигнала. Кроме того, высокая вычислительная сложность алгоритма позволяет использовать его только в научных целях.

В реальных условиях сигнал часто зашумлен, на него могут накладываться мешающие сигналы, что еще более усложняет оценку. Поэтому в реальных системах анализа и обработки чаще используются алгоритмы полосовой фильтрации или ортогональные преобразования.

2.1.4.Особенности спектрального оценивания с помощью ортогональных преобразований

Известно достаточно большое количество ортогональных преобразований, используемых в задачах спектрального оценивания ЗВС и его обработке. Наибольшее распространение в практических приложениях получило преобразование Фурье, или его разновидность для дискретных последовательностей конечной длительности – дис-

кретное преобразование Фурье (ДПФ):

S(n)

N 1

 

2

nk ) j sin(

2

 

,

(2.1)

s(k) cos(

N

N

nk )

 

k 0

 

 

 

 

 

n = 0, 1, ..., N

1.

 

 

 

 

 

 

ДПФ обеспечивает описание сигнала набором комплексных синусоид, неизменных на времени анализа и соотносимых со спектральными составляющими сигнала. Число коэффициентов оценки соответствует длине выборки анализа. Спектральное разрешение ДПФ, т.е. полоса, в пределах которой оценивается энергия каждым коэффициентом, определяется формулой:

df = b Fд / N, (2.2)

где df – cпектральное разрешение; Fд - частота дискретизации; b коэффициент, характеризующий увеличение ширины полосы оценки в зависимости от типа окна. Шаг сетки частот ДПФ принято называть бином; при b, равном единице (прямоугольное окно) его величина совпадает с df.

Так, при длине выборки 1000 точек будет произведена квазифильтрация сигнала с помощью 1000 фильтров, равномерно расположенных на шкале частот. Подставив значения соответствующих

2. Некоторые математические процедуры анализа звуковых сигналов

45

коэффициентов в аргумент выражения, обнаружим, что нулевому коэффициенту оценки Фурье соответствует умножение исследуемой временной функции на единицу, т.е. расчет постоянной составляющей. Первый коэффициент соответствует одному полному периоду на времени анализа, второй – двум и т.д.

Естественно, что точность анализа существенно повышается по сравнению с субполосной фильтрацией, причем при определенных условиях возможен анализ ЗВС на уровне спектральных составляющих. Достоинством ДПФ является представление анализируемого сигнала в привычном для исследователей виде – амплитуда, частота, фаза, что позволяет некоторым авторам распространять закономерности восприятия спектральных составляющих на коэффициенты ДПФ-оценки. Основным достоинством ДПФ является наличие алгоритма его быстрого вычисления – быстрое преобразование Фурье (БПФ), с помощью которого вычисляется также и большинство других ортогональных преобразований.

Быстрое преобразование Фурье – это не разновидность преобразования Фурье, а название целого ряда эффективных алгоритмов, предназначенных для быстрого вычисления дискретно-временного ряда Фурье (ДВРФ) (2.1). Основная идея БПФ – деление N-точечного ДВРФ на два и более меньших ДВРФ, каждый из которых можно вычислить отдельно, а затем линейно просуммировать с остальными с тем, чтобы получить ДВРФ исходной N-точечной последовательности. В общем случае вычисление N-точечного ДПФ требует выполнения log2 N шагов с операциями сложения и N/2 операциями умножения на каждом шаге. Таким образом, N-точечное БПФ требует выполнения примерно Nlog2N сложений и Nlog2(N/2) умножений комплексных чисел, что значительно меньше тех N2 операций, которые необходимы для раздельного вычисления N значений преобразования по N-точечной последовательности данных. Если используется дополнение нулями, то за счет исключения (или удаления) вычислительных путей, содержащих одни лишь нулевые значения, можно достичь еще большего уменьшения объема вычислений.

Алгоритм БПФ эффективен в вычислительном отношении и обеспечивает получение приемлемых результатов для большого класса сигнальных процессов. Однако и БПФ-оценке присущ ряд принципиальных ограничений, о которых будет сказано ниже.

Итак, реальный входной сигнал представляется набором коэффициентов, стационарных на времени анализа, с известными частотами, амплитудами и начальными фазами. Для сигналов гармонических частот, которые имели счастье уложиться целое число раз на времени анализа, будет получена абсолютно точная оценка, а для всех прочих – оценка одного колебания будет включать целый ряд

Соседние файлы в папке лаба 2