3.5. Речеобразование, как процесс фильтрации.

ГИП – генератор периодических импульсов.

С выхода ГИП сигнал поступает на линейную динамическую систему, импульсная характеристика V(t), которой соответствует форме колебания в голосовой щели. Коэффициент усиления вокализованного звука Кв определяет интенсивность возбуждения.

Для невокализованных звуков (шипящие и т. д.) модель возбуждения реализуется в виде генератора ГШ с регулируемым коэффициентом усиления Кнв. В качестве генератора шума можно использовать генератор случайных чисел с равномерным спектром и произвольной функцией распределения. Модель голосового тракта полностью характеризуется передаточной функцией G(z), полюса которой соответствуют резонансам (формантам) речевого сигнала. Эффект излучения речи описывается передаточной функцией R(z). Как правило модели голосовой щели, голосового тракта и излучателя объединяют вместе, записывая результирующую передаточную функцию в процессор речеобразования в виде: K(z) = V(z)G(z)R(z). Несмотря на то, что данная функция имеет как нули, так и полюса, нули обычно не рассматриваются, так как их учет вносит малый вклад в речеобразование.

Замечания:

для вокализованных звуков, относительно медленно меняющихся во времени, рассматриваемая модель речеобразования является достаточно точной.
для невокализованных звуков, быстро меняющихся во времени, данная модель может быть не адекватной реальным физическим процессам.

В любом случае предполагается, что речевой процесс, являющийся случайным и не случайным должен подвергаться кратковременному анализу.

Обычно полагают, что параметры модели постоянны на временном интервале 10-40 мс, на котором речевой сигнал может быть рассмотрен как локальностационарный.

При выборе длительности окна следует искать компромисс между двумя противоречиями:

окно должно быть достаточно малым, чтобы последовательность окон более точно отражало динамику изменения речевого сигнала.
окно должно быть достаточно большим, чтобы исследуемые характеристики для каждого окна отражали характеристики квазистационарного участка речи, что особенно важно для вокализованных звуков.

3.6. Кодирование с линейным предсказанием.

A(z) = G(z)V(z)R(z) – является передаточной функцией синтеза речи. Если на вход такой системы подать сигнал возбуждения e(n), имеющий Z – преобразование E(z), то на выходе получим речевой сигнал S(n) и Z – преобразование S(z).

Уравнение синтеза:

S(z) = E(z)A(z),

Уравнение анализа:

E(z) = S(z)/A(z).

Представим, что е(n) сигнал ошибки предсказания текущего отсчета S(n), сделанного на основе линейной комбинации М предыдущих отсчетов.

Обозначим:

, тогда

, коэффициенты ai, i = 1…m, представляют собой коэффициенты предсказания.

3.7. Кодер gsm.

В системе GSM для канала с полной скоростью передачи в качестве метода кодирования источника речевого сигнала используется регулярное импульсное возбуждение и долговременное предсказание (RPE - LTP).

е f

КП- кратковременное предсказание

ДП- долговременное предсказание

Предварительная обработка: 1)предискажения цифрового сигнала при помощи цифрового фильтра 2)нарезание сигнала на сегменты по 160 отсчётов 3)взвешивание каждого сегмента окном Хемминга.

Для каждого сегмента оцениваются параметры кратковременного предсказания LPC, которые по каналу связи преобразуются в логарифмические отношения площадей r. (для функции логорифма используется кусочно-линейная аппроксимация). На основе этих параметров предобработанный речевой сигнал анализируется.

Далее сигнал е фильтруется анализатором ДП, а выходной сигнал f фильтруется сглаживающим фильтром и используется для определения параметров сигнала возбуждения.

Передаваемые параметры Число бит Примечание