- •Классификация систем распознавания речи
- •Наиболее распространенный подход к распознаванию речи
- •Лекция 2
- •Цифровой звук и частота дискретизации
- •Ключевые операции цос
- •Формы преобразования Фурье
- •Б. Амплитудно-фазовая форма
- •В. Комплексная форма
- •А. Прореживание по времени
- •Вейвлет-разложение как способ представления речевого сигнала
- •Лекция 3
- •Методы представления речевого сигнала на основе кепстрального анализа и кодирования с линейным предсказанием
- •Лекция 4
- •Процесс речеобразования и принципы восприятия речи
- •Образование и артикуляционная классификация звуков речи
- •Психоакустические принципы восприятия речи
- •Признаки распознавания
- •Временные и спектральные характеристики, используемые для классификации звуков речи
- •Лекция 5
- •Выделение речи из звукового сигнала (vad-алгоритмы)
- •Сегментация речевого сигнала
- •Лекция 6
- •Применение скрытых марковских моделей для распознавания речи
- •Решение задачи 1, распознавание
- •Решение задачи 2. Алгоритм Витерби
- •Решение задачи 3. Алгоритм Баума-Уэлча.
- •Лекция 7
- •Гауссовы смешанные модели (gmm)
- •Распознавание речи с помощью нейронных сетей
- •Введение в нейронные сети
- •Лекция 8
- •Метод нелинейного растяжения-сжатия оси времени
Признаки распознавания
Временные и спектральные характеристики, используемые для классификации звуков речи
Анализ акустических характеристик РС начинается с записи изменения звукового давления во времени с помощью микрофона. При компьютерной обработке происходит запись усредненного за некоторый отрезок времени (обратный частоте дискретизации) уровня звукового давления от времени, эта зависимость называется амплитудно-временным представлением (АВП) сигнала. Для квантования по времени аналогового РС обычно используется 22050 Гц, что учитывает границы частотного диапазона речи: от 100Гц (частота основного тона низких мужских голосов) до 8 КГц (спектры шумных глухих согласных).
Для классификации звуков речи на основе АВП сигнала могут быть получены следующие характеристики: значения исходной энергии сигнала; длина периода основного тона; количество переходов через ноль; количество локальных максимумов.
Основным инструментом исследования оцифрованного сигнала и получения его акустических характеристик является спектральный анализ. Исследование спектральных характеристик показывает, что спектры звуков речи, несмотря на их вариативность в разных реализациях, для каждого класса звуков имеют характерные особенности.
Анализ спектров РС позволяет установить форму огибающей и выделить области формантных частот (максимальных по своей энергии резонансных частот голосового тракта, выраженных локальными максимумами на графике спектра). В спектральном представлении формантную структуру имеют вокализованные звуки, при этом амплитуды и частоты формант являются важной характеристикой звука, поэтому место, ширина и энергия формантных областей, расстояние между формантами, отношение их частот и амплитуд принципиально важны для распознавания речи. Для гласных звуков первая форманта лежит в области от 300 до 700 Гц, вторая – от 600 до 1500 Гц, третья – от 2.2 до 2.6 кГц. Сонорные звуки содержат устойчивые форманты, которые находятся приблизительно на частотах 100-500 Гц и 1-4 кГц, причем имеют малую интенсивность, наибольшей интенсивностью обладает самая низкая из формант. В отличие от сонорных, шумные звонкие щелевые звуки имеют значительную шумовую составляющую, что приводит к преобладанию высоких частот в их спектре, вторая форманта лежит в области 1.5-6 кГц и интенсивнее первой.
Шумные глухие щелевые звуки и аффрикаты нестационарны, не имеют определенных спектральных параметров и характеризуются большой интенсивностью в диапазоне частот от 4 кГц до 8 кГц в зависимости от звука и диктора.
Наряду с формантным анализом для классификации звуков речи на основе энергетического спектра используются нормированный энергетический спектр и кумулятивное отношение, а также плотность распределения энергии. Эту характеристику также применяют для идентификации диктора, но независимо от голосовых данных диктора для РС характерен спад энергии в сторону высоких частот после 500 Гц, основная энергия сосредоточена в полосе 250…1000 Гц.
Мел-частотные кепстральные коэффициенты
Модификация кепстра применяется для вычисления мел-частотных кепстральных коэффициентов (MFCC - Mel-frequency cepstral coefficients), широко используемых в системах распознавания в качестве векторов признаков РС. Признаки, построенные на основе MFCC, учитывают психоакустические принципы восприятия речи, поскольку используют мел-шкалу, связанную с критическими полосами слуха – теми полосами, на которые слуховой анализатор разделяет весь спектр частот.
Процедура получения MFCC коэффициентов на практике состоит в следующем: выборку значений кепстра вычисляют через выборку значений, полученных путем усреднения непараметрической оценки спектра треугольными весовыми функциями (рис.3.1).
Рис. 3.1 - Мел-шкала и усредняющие треугольные функции
Ширина весовых функций постоянна на нелинейной мел-шкале частот. За счет использования мэл-шкалы удается учесть нелинейную зависимость слухового восприятия от частоты речевого сигнала.
Алгоритм вычисления MFCC следующий.
1.
Сигнал
разбивается на L
фреймов длиной
.
Для n-го фрейма
выполняется свертка сигнала с оконной
функцией w(n) и вычисляется спектр
Фурье
,
,
.
2. Для
n-го фрейма на i-ой
мел-частотной полосе (
)
вычисляется логарифмированная энергия
где
– треугольное окно (Барлета),
– четное число,
– границы частотных диапазонов i-ой
полосы (в отсчетах),
P – количество мел-полос.
3. Для n-го фрейма вычисляется MFCC, используя обратное дискретное косинусное преобразование
|
Наиболее используемые признаки для распознавания РС сведем в результирующую таблицу
На основе спектра Фурье (N – ширина окна анализа) |
|
Энергия спектра |
|
нормированный энергетический спектр |
|
кумулятивное отношение |
|
На основе вейвлет-спектра (jmin, jmax, – минимальный и максимальный уровни разложения, N – длина сигнала) |
|
мера контрастности |
|
На основе кепстрального анализа |
|
коэффициенты кепстра |
где: N – ширина окна анализа, Х – коэффициент спектра Фурье
|
мел-частотные кепстральные коэффициенты (MFCC) |
где: L – количество мел-полос, w(k) – оконная функция Бартлета,
|
На основе КЛП |
|
коэффициенты предсказателя порядка p |
|
нормированная автокорреляция сигнала |
|
коэффициенты отражения КЛП |
|
площади поперечных сечений акустической трубы |
|
нормированная автокорреляция КЛП |
|
нормированный сглаженный энергетический спектр КЛП |
|
кепстр импульсной характеристики |
|
Выбор характеристик РС, используемых при распознавании, существенно влияет на эффективность распознавания и зависит от способа представления сигнала.

,
.
(представляет собой скалярную
величину)
,
,
,
E
- полная энергия сигнала
,
,
,
,
,
– границы l-той полосы,
– четное число.
,
,
,
,
A1=1,
,
,
,
,
,