- •Методы обработки речевых сигналов в задаче распознавания
- •1. Основные этапы обработка звукового сигнала в системе распознавания речи.
- •2. Регистрация речевых сигналов с использованием звуковых карт.
- •Частота дискретизации
- •Разрядность представления звуковых данных
- •Монофонический и стереофонический звук
- •Формат wav-файла
- •2.2. Окно и шаг анализа
- •2.3. Некоторые основные методы анализа речевых сигналов
- •2.4. Влияние метода анализа на надежность распознавания
- •1.2.5. Недостатки существующих методов первичного описания
- •1.2.6. Обработка речевого сигнала в условиях шума
- •1.2.7. Выделение начала и конца слова
1.2.5. Недостатки существующих методов первичного описания
Сложность проблемы поиска признаков вытекает [12] из неопределенности распределения речевой информации в акустическом сигнале. Из того, что все точки акустической кривой в физическом смысле равновероятны, не следует, что все они равноинформативны. Наоборот, во всех способах кодирования различают зоны, где может, а где не может появляться информация (например, тактовый или информационный импульс). Если информация сосредоточена на отдельных участках акустической кривой, то спектральные и корреляционные методы анализа окажутся, по крайней мере, неоптимальными.
Кроме того, методы анализа, косвенно выполняющие усреднение, не позволяют удовлетворительно объяснить такие феноменальные способности слуха как:
восприятие речи на фоне шума;
восприятие речи определенного аудитора на фоне посторонней речи;
идентификация аудитора.
При восприятии человеком зашумленного сигнала по мере увеличения отношения сигнал/шум сперва аудитор понимает, что это речь, затем определяет, является диктор мужчиной или женщиной, а уже потом улавливает эмоции и смысловое сообщение. Такое поэтапное восприятие сигнала означает, что для речевого сигнала определяющими можно назвать признаки: речь/не речь, мужской/женский голос. Эмоциональное состояние диктора и смысловое сообщение кодируются с меньшей надежностью.
Существование таких явлений объясняется принципом "органической общности", на которой основывается кодирование информации в живых организмах и излучаемых ими сигналах. Согласно этому принципу, информация кодируется конечным числом упорядоченных по важности и надежности кодирования признаков, таких, что поведение предыдущего признака задает область и регулирует стратегию поиска следующего по важности признака. Надежнее всего кодирован первый признак, надежность кодирования остальных признаков уменьшается с увеличением их порядковых номеров. Все признаки могут меняться внутри коридоров, широты и траектории которых задаются предыдущими признаками.
1.2.6. Обработка речевого сигнала в условиях шума
Многие устройства распознавания в шумах используют для анализа помехозащищенный микрофон или ларингофон, что позволяет распознавать лишь 30-40 слов при уровне шумов до 85-90дБ.
Для достижения приемлемой информативности описания речевого сигнала в [14] были привлечены артикуляционные характеристики речеобразования, а именно:
признак, отражающий изменение величины раствора ротовой щели;
признак степени огубления;
признак скорости воздушного потока из ротовой щели.
Экспериментальное исследование разработанной системы осуществлялось с привлечением тестовых словарей из 20, 50, 100, 150, и 200 слов в помещении, где искусственно создаваемый уровень белого шума достигал 100дБ.
В таблице _____ представлены оценки надежности распознавания слов в процентах при различных объемах n тестовых словарей в зависимости от обучающей выборки на каждом r-ом этапе обучения (однократного произнесения всего словаря).
Таблица _____
-
r
n
1
2
3
4
5
20
75
80
90
95
95
50
70
76
82
84
90
100
52
60
70
79
84
150
52
60
66
78
79
200
46
58
65
75
78