- •Методы обработки речевых сигналов в задаче распознавания
- •1. Основные этапы обработка звукового сигнала в системе распознавания речи.
- •2. Регистрация речевых сигналов с использованием звуковых карт.
- •Частота дискретизации
- •Разрядность представления звуковых данных
- •Монофонический и стереофонический звук
- •Формат wav-файла
- •2.2. Окно и шаг анализа
- •2.3. Некоторые основные методы анализа речевых сигналов
- •2.4. Влияние метода анализа на надежность распознавания
- •1.2.5. Недостатки существующих методов первичного описания
- •1.2.6. Обработка речевого сигнала в условиях шума
- •1.2.7. Выделение начала и конца слова
2.4. Влияние метода анализа на надежность распознавания
В [8] рассмотрены несколько методов описания речевого сигнала:
Спектральное описание речевого сигнала. Спектральный анализ производился при помощи алгоритма БПФ. Речевой сигнал кодировался с частотой 10кГц. Временной интервал равен 12,8мс. Энергетический спектр представлял собой 64 отсчета по оси частот, интервалы между которыми составляли 78,1Гц. В качестве метрики этого пространства использовалось евклидово расстояние.
Описание изолированного слова усредненным спектром. Первичное описаниеусредненный спектр по всему времени произнесения. Изолированно произнесенное слово представлялось 64 числами. Использовалась евклидова метрика. Такое описание очень экономно и требует малого объема вычислений.
Описание речевого сигнала при помощи КЛП. Коэффициенты автокорреляции и КЛП вычислялись с помощью рекуррентного алгоритма Левинсона. В качестве меры использовался логарифм отношения энергии остатков линейного предсказания.
Использование бинарных признаков изолированных слов. Признаки были получены на базе кратковременного спектра. 64 спектральных составляющих группировались в спектральные полосы. В первом случае как основу выбора брали шкалу равной разборчивости (шкалу Кенига), во второмшкалу, в которую были включены полосы, соответствующие формантным областям русского языка. В качестве двоичного описания использовался знак производной в каждой точке спектра. В качестве метрики пространства признаков использовалось расстояние Хэмминга.
Выделение некоторых просодических характеристик. При классификации участков на классы ''тон''-''шум''-''пауза'' использовались общая энергия данного участка речи и такое значение частоты, чтобы суммарная энергия спектральных составляющих, лежащих ниже этой частоты, составляла 50% общей энергии рассматриваемого сигнала. В первом приближении в качестве количества гласных принималось количество участков класса ''тон", разделенных участками "шум" или "пауза". Для определения местоположения ударного слога в слове использовались характеристики длительности гласного звука, интенсивности кратковременных энергетических спектров и суммарной интенсивности гласного звука.
Эксперименты проводились со словарем из 50 слов, произнесенных одним диктором. Результаты экспериментов по распознаванию, а также по выделению просодических характеристик приведены в таблице _____.
Таблица _____
|
Первичные признаки |
Правильно Распознается | ||
1. |
Кратковременный энергетический спектр |
100% | ||
2. |
Усредненный спектр |
92% | ||
3. |
Коэффициенты линейного предсказания |
95% | ||
4. |
Бинарные Признаки (шкала Кенига) |
по частоте по времени по частоте и по времени |
92% 71% 94% | |
5. |
Бинарные признаки (шкала формантных частот) |
97% | ||
6. |
Распознавание количества слогов |
80% | ||
7. |
Распознавание ударного слога |
93% |
В [10] описана серия экспериментов по сравнению эффективности различных описаний речевого сигнала.
Большинство систем автоматического распознавания речевых сигналов использует комплект фильтров или 9-14 КЛП, причем лучшие результаты получаются, когда их вычисляют синхронно с основным тоном. При сравнении фильтров и КЛП для выделения признаков предпочтение отдали комплекту фильтров, причем КЛП дают корректность распознавания 95-96%, а фильтры 99%. Эксперименты проводили со словарем из 50 слов. Для определения расстояния между входным сигналом и эталонами использовали сумму разности абсолютных величин.
Выделение всех вышеописанных признаков требует больших вычислительных затрат. В [9] рассмотрен простой способ сокращенного описания речевого сигнала представление речевых сигналов векторами нулей низких (nz,...,1z) и высоких (z0,z1,...,zm) порядков. Величины ziопределяются как число пересечений нулевого уровня последовательностями, где Воператор сдвигаВеличиныiz определяются аналогично по последовательностям
Для выбора оптимальной последовательности был проведен эксперимент. Обучающий словарь состоял из 20 слов, каждое из которых произнесли 30 дикторов-мужчин. Слова контрольной выборки были произнесены другими 30 дикторами. В память слова вводились с частотой 10кГц, а при обработке использовались интервалы длительностью 20мс. Результаты распознавания в зависимости от размерности вектора пересечений нулей высоких и низких порядков приведены в таблице _____.
Таблица _____
-
Размерность вектора (m,n)
Точность распознавания (%)
0,0
62,8
0,2
66,5
0,4
75,1
0,9
70,1
2,0
76,5
4,0
86,0
6,0
86,5
9,0
87,5
9,9
87,5
Данный способ позволяет быстро сократить объем данных. Кроме того, по значениям вектора zm,n=(mz,...,1z,z0,z1,...,zm) можно определить начало и конец слова. Наилучшая надежность распознавания получается при использовании нулей низких порядков.