Скачиваний:
105
Добавлен:
01.05.2014
Размер:
282.62 Кб
Скачать

3.3. Линейная математическая модель речеобразования.

Линейная модель речеобразования была разработана в конце 50-х годов, ее математическое обоснование и подробное изучение проведено в работах [3,7] на основе тщательно поставленных экспериментальных исследований. Соответствующая ей структурная схема представлена на рис.3.3.

Модель Ug(t) Модель

e(t) голосовой щели голосового тракта

p

Коэффициент Ul(t)Излучение

коррекции спектра от губ S(t)

Рис.3.3. Линейная модель речеобразования.

Объемная скорость волны в районе голосовой щели Ug(t)моделируется выходным сигналом двухполюсного фильтра нижних частот с частотой среза около 100 Гц. Входной сигнал фильтраe(t)представляет собой импульсную последовательность с периодомРдля вокализованных звуков и случайный шум с равномерным спектром для невокализованных звуков. Следует заметить, что эта модель является частным случаем более общей модели, так как в ней не производится смешивание импульсных и шумовых сигналов для моделирования вокализованных фрикативных звуков или подсоединения еще одной ветви с фильтром для моделирования назальных звуков. Голосовой тракт в этой модели представляет собой полюсный фильтр, состоящий из небольшой группы каскадно включенных двухполюсных резонаторов. Каждый резонанс определяется здесь как форманта с соответствующими частотой и полосой.

Более точная модель требует дополнительного включения бесконечного числа резонаторов, которые должны обеспечить в основном подъем спектра в области низких частот. Следовательно, когда требуется точно моделировать характеристики системы речеобразования только в области низких частот, например, в наиболее важной части диапазона низких частот от 20 Гц до нескольких килогерц, то такая форма спектра может быть получена с помощью одного поправочного коэффициента для учета влияния на низкочастотную часть спектра всех полюсов, более далеко распространенных по оси частот, практически независимо от их параметров. Объемная скорость волны губ Ul(t) преобразуется в акустические колебания воздуха на некотором расстоянии от рта (именно такие колебания и представляют собой речевую волнуS(t) с помощью модели излучения губ).

3.4. Математическая модель речеобразования в терминах z-преобразования.

Математическая модель речеобразования может быть описана в терминах z-образования[7]с целью ее реализации на ЭВМ в виде соотношения

S(z)=E(z)G(z)V(z)L(z), (3.4.1)

гдеS(z) s(nT) = s(t) (3.4.2)

t = nT

которое означает соответствие между непрерывным сигналом s(t), его дискретной копией s(nT), полученной путем дискретизацииs(t)с интерваломT, и z-преобразованием S(z). Обычно для краткости полагают интервалТ=1, так чтоs(n) описывает результат дискретизацииs(t). Для других переменных интервалТтакже полагается нормированным. Сигнал возбуждения на входе модели голосовой щели описывается функцией E(z)  e(n) и представляет собой последовательность отсчетов единичной амплитуды с периодом следования, равным периоду основного тона P = IT, где

I - положительное целое число, т.е.

(3.4.3)

для |z|>1.Передаточная функция голосовой щелиG(z) имеет вид

, (3.4.4)

а передаточная функция модели излучения губ L

. (3.4.5)

Все эти упрощающие предположения не позволяют с помощью линейной модели предсказать конкретную реализацию речевого процесса.

Полюсная передаточная функция модели голосового тракта V(z), содержащаяКформант, имеет вид

,

где частота и ширина полосы i-й форманты вычисляются соответственно по формулами. При цифровом представлении такой модели корректирующий член, учитывающий влияние полюсов с более высокими частотами, может быть исключен.

При z=0нули не влияют на определение передаточных функций, содержащих только полюсы или только нули. Например, функция G(z) может быть записана в двух эквивалентных формах:

.

Другими словами, при z=0полюса и нули обычно не принимаются во внимание при подсчете общего количества полюсов и нулей. Описываемая модель речеобразования предполагает подачу на ее вход только квазипериодической импульсной последовательности или случайной последовательности и полностью характеризуется набором частот и полос формант. Таким образом определяются только гласные и фрикативные звуки в установившемся состоянии. Однако в этой модели легко реализовать и произвольный входной сигналe(n) и параметры функции V(z), которые изменяются или подстраиваются на требуемых временных интервалах для представления изменяющегося во времени характера речевого сигнала.

Обязательной процедурой, используемой при синтезе речи, является перестройка параметров модели речеобразующего тракта с последовательности e(n)в начале каждого периода основного тона (это называется синтезом, синхронным cчастотой основного тона).

Объединение передаточных функций моделей голосовой щели G(z), голосового тракта V(z)и излучения губ L(z)имеет вид

, (3.4.7)

где К- число формант, определяющих модель.

Числитель 1-z-1практически сокращается с одним из сомножителей знаменателя[1-exp(-cT)z-1], так как показатель экспонентысТзначительно меньше1. Эту дискретную модель синтеза речи можно упрощать и далее, сделав ее полюсной, т.е.

S(z) = E(z)A(z) (модель синтезатора), (3.4.8)

где A(z)определяется следующим образом:

приM>=2k+1. (3.4.9)

Фильтр с передаточной функцией A(z) содержит только нули и далее он будет называться обратным фильтром. Фильтр с передаточной функцией1/A(z)- это полюсный фильтр, который позволяет описать поведение сглаженного спектра речевого сигнала с точностью до постоянного множителя.

Уравнение (3.4.8)называется математической моделью синтеза, поскольку если сигнал,z-преобразование которого равноE(z), подается на полюсный фильтр с характеристикой 1/A(z), то его выходной сигнал и представляет собой модель речевого сигнала,z-преобразование которого обозначено через S(z)’. Умножение обеих частей(3.4.8)наA(z) позволяет получить модель анализа речевого сигнала:

E(z) = S(z)A(z). (3.4.10)

Это уравнение называется математической моделью анализа речи, так как если речевой сигнал S(z) подается на вход обратного фильтра с характеристикойA(z)(коэффициенты которого определяются на основе анализа речевого сигнала), то выходным сигналом будетE(z)-функция возбуждения речевого сигнала.

В качестве параметров, определяющих модель синтеза или речеобразования, служат коэффициенты ai, i=1,2,...,M фильтра с характеристикой1/A(z)и параметры функции E(z)- период основного тонаРи коэффициент усиления.

Соседние файлы в папке Lecture13