Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ГОТОВЫЕ ШПОРЫ_экз_2012.doc
Скачиваний:
3
Добавлен:
01.03.2025
Размер:
9.91 Mб
Скачать

47. Оценивание основного тона на основе специальных временных последовательностей. (метод || обработки)

Основной тон - гармоническое колебание. Выделить его проблемно. Фильтр должен быть настроен на основной фон.

Метод параллельной обработки

Если в сообщении им. гармоника, то она проявится в отсчетах этого сигнала. Формируется несколько последовательностей. Основной тон этих последовательностей подверг. логич. обработке и выдел. тон.

v

ФНЧ

Вычисл.

импульс

Вычисл. периода осн. фона

Выдел. основ. фона

Речь

Выдел. основ. фона

m1

m2

1. Формируются импульсы равные по амплитуде макс. значению сигнала. Формируются точки макс.

2. В кажд. точке макс. формир. импульс, равный по амплитуде разности между макс. и предшеств. мин.

3. В точке макс. формир. импульс, равный разности между текущим и предшеств. максимумов. Если разница отрицат, то формируется 0.

4. В точке мин. Формир. имульс равный минимуму сигнала.

5. Формируется пятый сигнал, равный сумме максимумов и минимумов.

6. Формируется сумма мин. Сигнала, взятого со знаком «-» и предшествующего мин. сигнала. Если разность <0 то формир 0.

ФНЧ до 900 Гц.

К аждая из этих последовательностей обраб. нелин. системой.

Работа системы:

Период формируется не сразу, а сзадержкой на 2-3 импульса.

  1. Модель речеобразования на основе линейного предсказания.

// всякая дополнительная фигня на 1 странице вопроса //

Речевой сигнал.

Сообщение передается акустическим звучанием сложным образом. Сообщение является набором звуков (фонемов). Число фонем различно в разных звуках (30-60). Есть верхний предел скорости передачи речи до 10 фонем/сек (т.к. до 60 бит/с). В технич системах речевой сигнал передается, хранится и обрабатывается разными способами.

При анализе речевого сигнала необходимо учитывать особенности фонем: гласные (передние - и, средние - а, задние - у), дифтонги (ай,но), полугласные (плавные –в,л, скользящие - р), согласные.

Согласные делятся на: аффрикаты (т,ц), носовые (м,н), взрывные (п,б,д), шумовые (щ).

Гласные образуются при кратковременном возбуждении голосового тракта из-за колебаний связок.

Механизм речеобразования

Состоит из гортани и речевой полости (ок. 17см). Площадь поперечного сечения возле губ, щеки, неба изменяется до 20 кв.см.

Звуки можно разделить на:

  1. Вокализованные - образуются при смыкании голосового тракта в какой-то области полости рта. За смычкой воздух сжимается, а затем внезапно высвобождается.

  2. Невокализованные (фрикативы) - имеют очень важные отличия от вокализованных. В период полного смыкания голосового тракта голосовые связки не колеблются. После этого периода, когда воздух за смычкой высвобождается, в течение короткого промежутка времени потери на трение возрастают из-за внезапной турбуленции потока воздуха. Далее шумовой воздушный поток из голосовой щели возбуждает голосовой тракт и после этого возникает голосовое возбуждение.

  3. Взрывные – воздух резко освобождается.

// Здесь уже по теме //

Модель речеобразования на основе лин предсказания

Генератор осн. тона

Модель голосовой щели

Группа 11 Прямая со стрелкой 16 Aj

Прямая соединительная линия 20 Прямая соединительная линия 22 Прямая соединительная линия 24 Прямая соединительная линия 26

Модель голосового тракта

Прямая соединительная линия 28

Модель излучения

Прямая со стрелкой 17 Прямая соединительная линия 29

Генератор шума

Аn

Прямая соединительная линия 21 Прямая соединительная линия 23

Если речь вокализованная, то работает ген. ОТ, если невокализованная – ген. Шума. Модель представляет собой линейный предсказывающий фильтр. Формирование речи м.б. описано системой диф уравнений в частных производных. Если звук представляет собой явно вокализированный, то модель оказывается точной. При произношении взрывных звуков модель не будет адекватной. Эта модель предполагает, что сигнал на протяжении 20-30 мс сохраняется постоянным. Т.к. модель представляется как рекурсивный фильтр, в котором нет нерекурсивных ветвей, значит передаточная функция не имеет нулей. Поэтому она плохо воспроизводит носовые звуки. Модель предполагает наличие только 2ух участков: вокализированные и невокализированные. На практике делают упрощенную модель:

Генератор послед сигн

1/А(z)

(параметры модели)

Прямая соединительная линия 34

Прямая соединительная линия 37

Генератор шума

Прямая со стрелкой 38

Прямая соединительная линия 35

Линейное предсказание является одним из наиболее эффективных методов анализа речевого сигнала. Этот метод является доминирующим при оценке основных параметров речевого сигнала, таких, как, например период основного тона, форманты, спектр, функция площади речевого тракта, а также при сокращенном представлении речи с целью ее передачи и хранения. Важность метода обусловлена высокой точностью получаемых оценок и простотой вычислений.

Основной принцип метода линейного предсказания состоит в том, что текущий отсчет речевого сигнала можно аппроксимировать линейной комбинацией предшествующих отсчетов. Коэффициенты предсказания при этом, определяются однозначно минимизацией среднего квадрата разности между отсчетами речевого сигнала и их предсказанными значениями. Коэффициенты предсказания – это весовые коэффициенты, используемые в линейной комбинации.

Итак, линейный предсказатель с коэффициентами ai определяется как система, на выходе которой имеется (3.1)

В качестве модели системы используется упрощенная модель речеобразовани. Для линейного предсказания эта модель является наиболее полной. Передаточную функцию, используемого в этой модели линейного фильтра можно записать как (3.2)

Определение периода основного тона и классификация тон/шум могут быть осуществлены на основе использования ряда методов. Для вокализированных звуков хорошо подходит модель, содержащая только полюсы (чисто полюсная) в своей передаточной функции, но для носовых и фрикативных звуков требуется учитывать еще и нули. Однако из дальнейшего будет ясно, что если порядок p модели достаточно велик, то полюсная модель позволяет получить достаточно точное описание почти для всех звуков речи. Главное достоинство этой модели заключается в том, что как параметр G, так и коэффициенты можно оценить непосредственно с использованием очень эффективных с вычислительной точки зрения алгоритмов.