- •Классификация систем распознавания речи
- •Наиболее распространенный подход к распознаванию речи
- •Лекция 2
- •Цифровой звук и частота дискретизации
- •Ключевые операции цос
- •Формы преобразования Фурье
- •Б. Амплитудно-фазовая форма
- •В. Комплексная форма
- •А. Прореживание по времени
- •Вейвлет-разложение как способ представления речевого сигнала
- •Лекция 3
- •Методы представления речевого сигнала на основе кепстрального анализа и кодирования с линейным предсказанием
- •Лекция 4
- •Процесс речеобразования и принципы восприятия речи
- •Образование и артикуляционная классификация звуков речи
- •Психоакустические принципы восприятия речи
- •Признаки распознавания
- •Временные и спектральные характеристики, используемые для классификации звуков речи
- •Лекция 5
- •Выделение речи из звукового сигнала (vad-алгоритмы)
- •Сегментация речевого сигнала
- •Лекция 6
- •Применение скрытых марковских моделей для распознавания речи
- •Решение задачи 1, распознавание
- •Решение задачи 2. Алгоритм Витерби
- •Решение задачи 3. Алгоритм Баума-Уэлча.
- •Лекция 7
- •Гауссовы смешанные модели (gmm)
- •Распознавание речи с помощью нейронных сетей
- •Введение в нейронные сети
- •Лекция 8
- •Метод нелинейного растяжения-сжатия оси времени
Лекция 3
Тема. Способы параметризации речевого сигнала (продолжение)
На лекции будет рассмотрено:
Основы теории речеобразования.
Гомоморфная обработка сигналов.
Кодирование речевых сигналов на основе линейного предсказания.
Перцептуальное кодирование.
Методы представления речевого сигнала на основе кепстрального анализа и кодирования с линейным предсказанием
При обработке речевого сигнала (РС) в системах распознавания используют упрощенную модель, основанную на предположении, что РС – результат свертки сигнала возбуждения последовательностью импульсов либо случайным шумом и импульсной характеристики линейного фильтра с медленно изменяющимися параметрами, представляющего собой голосовой тракт (рис. 3.1).
Рис. 3.1. Структурная схема упрощенной модели речеобразования
Такая задача разделения компонент, участвующих в операции свертки, называется гомоморфной обработкой сигнала или кепстральным анализом.
Гомоморфная система имеет следующее свойство суперпозиции:
Процесс разделения двух компонентов сигнала называют разверткой и описывают так:
s(n) = u(n)h(n),
где u(n) — возбуждающий сигнал; h(n) — импульсная характеристика линейного фильтра; — развертка. Область частот этого процесса:
S(k)=U(k)K(k),
где K(k) – передаточная функция линейного фильтра. После логарифмирования обеих частей равенства возбуждение и голосовой тракт, наложенные друг на друга, могут быть разделены.
Кепстр представляет собой обратное Фурье-преобразование логарифма мощности сигнала:
|
Кепстральные коэффициенты чувствительны к шумам и искажениям сигнала. В связи с чем в системах распознавания используют методы сглаживания спектральных характеристик сигнала. Одним из самых широко используемых методов сглаживания является метод КЛП.
В этом методе спектр моделируется как авторегрессионый процесс и передаточная функция голосового тракта представляется в виде:
,
где G – коэффициент усиления модели,
– коэффициенты
линейного предсказания,
p – порядок предсказателя.
Линейный предсказатель с коэффициентами определяется как система, на выходе которой выполняется равенство
.
Задача анализа на основе КЛП заключается
в непосредственном определении параметров
по РС с целью получения оценок его
спектральных свойств. Вследствие
изменения свойств РС во времени
коэффициенты предсказания оцениваются
на коротких фреймах.
Основным подходом является определение параметров предсказания таким образом, чтобы минимизировать средний квадрат погрешности предсказания
,
что приводит к системе из p линейных уравнений с p неизвестными. Для подсчета коэффициентов предсказания используется автокорреляционный метод, который позволяет предсказать коэффициенты с помощью рекурсии Левинсона-Дарбина на основе автокорреляционной функции
|
( |
Используемые в методе коэффициенты
отражения
(2.24)
|
где
– j-й коэффициент и
-
погрешность предсказания для линейного
предсказателя порядка i, однозначно
определяют форму кусочно-постоянной
акустической трубы, содержащей (p+1)
цилиндрическую секцию фиксированной
длины. Процессы в этой трубе –
распространение плоской акустической
волны, а площади A поперечных сечений
соседних секций связаны коэффициентами
отражения
|
( |
С помощью коэффициентов КЛП,
автокорреляционной функции
и автокорреляционной функции коэффициентов
КЛП
|
( |
Сглаженный энергетический спектр, который используется в системах распознавания в качестве признаков РС, вычисляется по формуле
|
( |
Другим представлением сигнала является кепстр импульсной характеристики системы линейного предсказания, который получается с помощью рекурсивных соотношений
|
Альтернативой методу КЛП являются коэффициенты перцепционного линейного предсказания PLP. Техника использования PLP-параметризации основана на психоакустических концепциях при оценивании спектра: спектральный анализ в критических полосах частот; кривые равной громкости; нелинейная связь между интенсивностью и воспринимаемой громкостью звука. Извлечение PLP коэффициентов основано на стандартном мэл-частотном анализе спектра Фурье с помощью гребенки фильтров, применяемых при вычислении MFCC.
Спектр Фурье предварительно вычисляется по N – отсчетам сигнала s1,…, sN. Коэффициенты, полученные на выходе гребенки фильтров, взвешиваются кривой равной громкости, которая задана эмпирически в виде:
где
ωj – частота j-го треугольного окна
мел-шкалы,
и затем сжимаются путём извлечения
кубического корня
.
Далее путём расчета обратного преобразования Фурье на основе значений М"j вычисляют коэффициенты линейного предсказания КЛП по методу, описанному выше.

,
.
,
.
,
,
,
A1=1,
.
,
,
=1
,
.
,
ĥ(0)= 0,
.