
- •Глава 4 обработка речевых и аудиосиналов
- •4.1 Основные свойства речевых сигналов
- •4.2 Дискретизация и квантование речевых сигналов
- •4.3. Анализ речевых сигналов во временной области
- •4.4 Анализ речевых сигналов в частотной области
- •4.5 Гомоморфная обработка речи
- •4.6 Анализ речи на основе линейного предсказания
- •4.7 Сжатие речевых сигналов
- •4.8 Сжатие аудиосигналов
- •4.8.1 Психоакустическая модель восприятия звука
- •4.8.2 Перцептивное кодирование аудиосигналов
- •4.8.3 Сжатие аудиосигналов в соответствии со стандартами iso/mpeg '
4.3. Анализ речевых сигналов во временной области
При решении многих задач обработки речи интерес представляют временные характеристики речевых сигналов. Поскольку речь является нестационарным процессом, то ее принято анализировать на коротких участках (10 - 30 мс), где спектрально-корреляционные характеристики остаются примерно постоянными [14].
Одним из важных параметров речевого сигнала является его энергия
Энергия может служить хорошей мерой отличия вокализованных и невокализованных участков речи. Энергия невокализованных участков речи намного меньше, чем вокализованных.
Иной способ обнаружения вокализованных и невокализованных участков речи основан на измерении среднего числа переходов через ноль речевого сигнала. Это измерение является грубой оценкой частотного состава речевого сигнала. Известно, что энергия вокализованных звуков концентрируется в диапазоне ниже 3 кГц, тогда как энергия фрикативных звуков сосредоточена, в основном, на частотах выше 3 кГц. Поэтому, если среднее число переходов через ноль велико, то это свидетельствует о невокализованном характере речи, и наоборот.
Важной задачей анализа речевых сигналов во временной области является оценивание периода основного тона. Период основного тона может быть определен как временной интервал между соответствующими пиками вокализованного участка речевого сигнала. Однако главная трудность здесь состоит в том, что даже на коротких интервалах времени речевой сигнал не имеет строгой периодической структуры.
Иной способ
определения периода основного тона во
временной области основан на вычислении
функции кратковременной автокорреляции
где My - максимальная задержка сигнала. |
При выявлении периода основного тона Р по автокорреляционной j функции необходимо учитывать условие Му>Р. Для вокализованных | участков речи на графике г[т] прослеживаются пики с интервалом, равным | периоду основного тона. !'{
С целью обострения пиков на графике г[т] сигнал х[п] клиппируют [17]. Суть этой нелинейной операции показана на рис.4.3,а. На рис.4.3,6 1 представлена автокорреляционная функция клиппированного сигнала.
Недостатком рассматриваемого метода определения периода основного | тона является то, что для вычисления автокорреляционной функции ';
требуется выполнить большое число арифметических операций.
4.4 Анализ речевых сигналов в частотной области
Одним из основных способов обработки речи в частотной области является кратковременный спектральный анализ. На выполнении; кратковременного спектрального анализа основана работа многих систем ' распознавания речи, спектрографов, вокодеров [15].
Кратковременный спектральный анализ может быть реализован с использованием гребенки полосовых фильтров (рис. 4.4) или с помощью дискретного преобразования Фурье. Полосы пропускания фильтров выбираются так, чтобы перекрыть весь частотный диапазон речи. Средние значения модулей выходных сигналов фильтров будут представлять значения спектральных коэффициентов в полосах.
Иногда частотный диапазон разбивают на неравные, полосы с учетом особенностей слухового восприятия человека. Экспериментально установлено, что во внутреннем ухе человека высота тона (частота) звукового сигнала преобразуется в механические колебания определенных участков базилярной мембраны. При этом линейным приращениям координаты вдоль тела мембраны соответствуют логарифмические приращения частоты звука, т.е. частота звука, воспринимаемого человеком, нелинейно зависит от действительной физической частоты. Это приводит к неодинаковой разрешающей способности по час! те и к восприятию звуков в соответствии с механизмом критических частотных полос. Сложный звук постоянной громкости, состоящий из нескольких тонов, лежащих в пределах критической полосы, воспринимается человеком с таким же субъективным ощущением, как одно-тональный звук, соответствующий центральной частоте критической полосы. Ширина критических полос для области частот до 500 Гц составляет примерно 100 Гц. Выше 500 Гц ширина критических полос увеличивается примерно на 20% по сравнению с шириной предыдущей полосы. Ширина критических полос аппроксимируется зависимостью [36]
Для характеристики субъективных частот, воспринимаемых человеком, предложено несколько шкал: барк-шкала, мел-шкала. Функция
используется для перевода частот, заданных в герцах, в барки.
Гребенка (банк) фильтров с неравными полосами пропускания, заданными в герцах и соответствующими критическим полосам слуха (табл.4.1), будет иметь равномерное распределение центральных частот и равные значения полос пропускания, измеренных в барках. Таким образом, применение баркшкалы соответствует равномерному разбиению оси субъективных частот. Мел-шкала вводится с аналогичной целью и имеет, незначительные отличия от барк-шкалы [36].
Кратковременный спектральный анализ речи может быть также выполнен на основе ДПФ. Кратковременное дискретное преобразование Фурье определяется следующим образом
где х,[п~\ представляет отрезок речи, взвешенный окном w[n], длиной N отсчетов:
На рис.4.5 показаны
кратковременные спектры Фурье и
соответствующие реализации вокализованного
и фрикативного участков речи. Спектры
представлены в логарифмическом
масштабе. При построении спектров
использовалось окно Хемминга длительностью
примерно 23 мс. Заметим, что кратковременный
спектр вокализованной речи имеет высокое
разрешение и характеризуется пульсациями,
обусловленными квазипериодическими
импульсами основного тона. Поэтому по
кратковременному спектру вокализованной
речи можно оценить частоту основного
тона.
Один из алгоритмов определения частоты основного тона основан на вычислении произведения [17] .
Значения, вычисляемые с помощью (4.14), могут быть весьма большими. Для уменьшения значений вычисляют логарифм от (4.14). 1
Зависимость Fi(a))
представляет произведение функций
|А'/(й'^)| , сжатых по частоте. В вокализованной
речи сжатие частоты в А раз должно
привести к совпадению гармоник основного
тона. Благодаря этому в спектре ri(u))
появляется максимум на частоте основного
тона. Невокализованная речь характеризуется
существенно меньшими значениями Fi(u))
и она не имеет максимума в спектре Fi(G>)
на частоте основного тона. Данный |
способ определения частоты основного
тона устойчив к шумам, поскольку,| шумовые
компоненты в спектре Fi(u))
не регулярны. На рис.4.6 показаны графики
Fi(f)
для вокализованной и невокализованной
речи, полученные при А=5. По расположению
пика на графике спектра j
вокализованной речи легко определяется
частота основного тона.