Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
КИТ_лекции(2 четверть).docx
Скачиваний:
2
Добавлен:
01.03.2025
Размер:
66.26 Кб
Скачать

Лекция №1

  1. Анализ речевых сигналов в частотной области

Основные способы формирования речевого сигнала в частотной области называются кратковременным спектральным анализом, который может быть реализован с использованием гребенки полосовых фильтров, либо с помощью ДПФ(дискретное преобразование Фурье).

  1. Гомоморфная обработка речевых сигналов

Речевой сигнал является сверткой случайного шума и импульсной характеристики сигнала голосового тракта. Схема гомоморфной обработки речи имеет вид:

Где D{} – оператор нелинейного преобразования

T{} – соответствует линейной инвариантной системе.

Считается, что сигнал х[n] является сверткой двух последовательностей x1[n] и x2[n], тогда: x[z] = x1[z]* x2[z]. Линейная инвариантная система пропускает на выход либо x1[z], либо x2[z].

D-1{} – обратное преобразование. В результате Y[n] = x1[n], либо Y[n]=x2[n].

Гомоморфная обработка речи разделяет входные компоненты речи x1[n] и x2[n], соединенные во входном сигнале.

  1. Анализ речи на основе линейного предсказания.

Анализ основывается на использовании модели речевого сигнала. Основная задача анализа речи в том, чтобы для последовательности отсчетов речевого сигнала S[n] определить коэффициент a[k] цифрового фильтра указанной модели. Этот коэффициент еще называют коэффициентом линейного предиктивного кодирования ЛПК. Они определяются при нахождении частоты основного тона при кодировании речи в соответствии с адаптивной дифференциальной импульсной кодовой модуляцией в задачах распознавания синтеза речи.

Основное допущение при использовании метода в том, что речевой сигнал на выходе голосового тракта S[n] может быть представлен в виде линейной комбинации своих предыдущих значений и значений сигналов a[k]:

, где G – коэффициент усиления, p – порядок линейного предсказания.

В этом случае передаточная функция фильтра соответствует ПФ рекурсивного фильтра.

  1. Сжатие речевых сигналов

Данный принцип используется в схемах низкочастотной передачи речи и в мультимедийных системах. Он основывается на использовании методов линейного предсказания речи. Сжатие речевых сигналов осуществляется по схеме:

УО – устройство оценивания, с его помощью определяются коэффициенты линейного инверсного фильтра;

ВОТ – выделитель основного тона;

Т-Ш – анализатор тон-шум.

Кодер используется для кодирования коэффициентов фильтра и параметров функции возбуждения.

  1. Обработка речевых и аудио сигналов

    1. Свойства речевых сигналов

1 – генератор импульсной последовательности (ГИП)

2 – генератор случайных чисел (ГСЧ)

3 – цифровой фильтр с переменными параметрами

В соответствии с моделью вокализованные (звонкие) звуки формируются с помощью ГИП. Фрикативные (шумовые) формируются с помощью ГСЧ. Период следования импульсов на выходе ГИП соответствует основному периоду звуков, возбуждаемых голосовыми связками. ГСЧ формирует шумовой сигнал с равномерной спектральной плотностью. Амплитуда входного сигнала U[n] в цифровом фильтре определяется коэффициентом усиления G. Вокализованный звук – квазипериодические сигналы. Фрикативные звуки имеют случайный характер и более широкий частотный диапазон. Вокализованные звуки имеют большую энергию

Данная модель характеризуется:

  1. использованием классификатора вокализованного и фрикативного звуков;

  2. периодом основного тона;

  3. коэффициентом усиления G;

  4. параметрами цифрового фильтра.

Выбор способов представления речевого сигнала зависит от решаемой задачи и бывает 3-х классов:

  1. задачи анализа речи

  2. синтез речи по тексту

  3. анализ сжатия речевых сигналов в схеме для передачи по компьютерным сетям.