Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Lections_raspozn.docx
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
595.66 Кб
Скачать
    1. Признаки распознавания

    2. Временные и спектральные характеристики, используемые для классификации звуков речи

Анализ акустических характеристик РС начинается с записи изменения звукового давления во времени с помощью микрофона. При компьютерной обработке происходит запись усредненного за некоторый отрезок времени (обратный частоте дискретизации) уровня звукового давления от времени, эта зависимость называется амплитудно-временным представлением (АВП) сигнала. Для квантования по времени аналогового РС обычно используется 22050 Гц, что учитывает границы частотного диапазона речи: от 100Гц (частота основного тона низких мужских голосов) до 8 КГц (спектры шумных глухих согласных).

Для классификации звуков речи на основе АВП сигнала могут быть получены следующие характеристики: значения исходной энергии сигнала; длина периода основного тона; количество переходов через ноль; количество локальных максимумов.

Основным инструментом исследования оцифрованного сигнала и получения его акустических характеристик является спектральный анализ. Исследование спектральных характеристик показывает, что спектры звуков речи, несмотря на их вариативность в разных реализациях, для каждого класса звуков имеют характерные особенности.

Анализ спектров РС позволяет установить форму огибающей и выделить области формантных частот (максимальных по своей энергии резонансных частот голосового тракта, выраженных локальными максимумами на графике спектра). В спектральном представлении формантную структуру имеют вокализованные звуки, при этом амплитуды и частоты формант являются важной характеристикой звука, поэтому место, ширина и энергия формантных областей, расстояние между формантами, отношение их частот и амплитуд принципиально важны для распознавания речи. Для гласных звуков первая форманта лежит в области от 300 до 700 Гц, вторая – от 600 до 1500 Гц, третья – от 2.2 до 2.6 кГц. Сонорные звуки содержат устойчивые форманты, которые находятся приблизительно на частотах 100-500 Гц и 1-4 кГц, причем имеют малую интенсивность, наибольшей интенсивностью обладает самая низкая из формант. В отличие от сонорных, шумные звонкие щелевые звуки имеют значительную шумовую составляющую, что приводит к преобладанию высоких частот в их спектре, вторая форманта лежит в области 1.5-6 кГц и интенсивнее первой.

Шумные глухие щелевые звуки и аффрикаты нестационарны, не имеют определенных спектральных параметров и характеризуются большой интенсивностью в диапазоне частот от 4 кГц до 8 кГц в зависимости от звука и диктора.

Наряду с формантным анализом для классификации звуков речи на основе энергетического спектра используются нормированный энергетический спектр и кумулятивное отношение, а также плотность распределения энергии. Эту характеристику также применяют для идентификации диктора, но независимо от голосовых данных диктора для РС характерен спад энергии в сторону высоких частот после 500 Гц, основная энергия сосредоточена в полосе 250…1000 Гц.

Мел-частотные кепстральные коэффициенты

Модификация кепстра применяется для вычисления мел-частотных кепстральных коэффициентов (MFCC - Mel-frequency cepstral coefficients), широко используемых в системах распознавания в качестве векторов признаков РС. Признаки, построенные на основе MFCC, учитывают психоакустические принципы восприятия речи, поскольку используют мел-шкалу, связанную с критическими полосами слуха – теми полосами, на которые слуховой анализатор разделяет весь спектр частот.

Процедура получения MFCC коэффициентов на практике состоит в следующем: выборку значений кепстра вычисляют через выборку значений, полученных путем усреднения непараметрической оценки спектра треугольными весовыми функциями (рис.3.1).

Рис. 3.1 - Мел-шкала и усредняющие треугольные функции

Ширина весовых функций постоянна на нелинейной мел-шкале частот. За счет использования мэл-шкалы удается учесть нелинейную зависимость слухового восприятия от частоты речевого сигнала.

Алгоритм вычисления MFCC следующий.

1. Сигнал разбивается на L фреймов длиной . Для n-го фрейма выполняется свертка сигнала с оконной функцией w(n) и вычисляется спектр Фурье

, ,

.

2. Для n-го фрейма на i-ой мел-частотной полосе ( ) вычисляется логарифмированная энергия

где – треугольное окно (Барлета),

– четное число,

– границы частотных диапазонов i-ой полосы (в отсчетах),

P – количество мел-полос.

3. Для n-го фрейма вычисляется MFCC, используя обратное дискретное косинусное преобразование

, .

Наиболее используемые признаки для распознавания РС сведем в результирующую таблицу

На основе спектра Фурье (N – ширина окна анализа)

Энергия спектра

(представляет собой скалярную величину)

нормированный энергетический спектр

кумулятивное отношение

, ,

, E - полная энергия сигнала

На основе вейвлет-спектра (jmin, jmax, – минимальный и максимальный уровни разложения, N – длина сигнала)

мера контрастности

,

На основе кепстрального анализа

коэффициенты

кепстра

, ,

где: N – ширина окна анализа, Х – коэффициент спектра Фурье

мел-частотные кепстральные коэффициенты (MFCC)

, ,

где: L – количество мел-полос, w(k) – оконная функция Бартлета,

– границы l-той полосы, – четное число.

На основе КЛП

коэффициенты предсказателя

порядка p

,

нормированная автокорреляция

сигнала

,

коэффициенты

отражения КЛП

,

площади поперечных сечений акустической трубы

, A1=1,

нормированная автокорреляция КЛП

,

нормированный сглаженный энергетический спектр КЛП

, ,

кепстр импульсной характеристики

, ,

Выбор характеристик РС, используемых при распознавании, существенно влияет на эффективность распознавания и зависит от способа представления сигнала.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]