2.4. Влияние метода анализа на надежность распознавания

В [8] рассмотрены несколько методов описания речевого сигнала:

Спектральное описание речевого сигнала. Спектральный анализ производился при помощи алгоритма БПФ. Речевой сигнал кодировался с частотой 10кГц. Временной интервал равен 12,8мс. Энергетический спектр представлял собой 64 отсчета по оси частот, интервалы между которыми составляли 78,1Гц. В качестве метрики этого пространства использовалось евклидово расстояние.
Описание изолированного слова усредненным спектром. Первичное описаниеусредненный спектр по всему времени произнесения. Изолированно произнесенное слово представлялось 64 числами. Использовалась евклидова метрика. Такое описание очень экономно и требует малого объема вычислений.
Описание речевого сигнала при помощи КЛП. Коэффициенты автокорреляции и КЛП вычислялись с помощью рекуррентного алгоритма Левинсона. В качестве меры использовался логарифм отношения энергии остатков линейного предсказания.
Использование бинарных признаков изолированных слов. Признаки были получены на базе кратковременного спектра. 64 спектральных составляющих группировались в спектральные полосы. В первом случае как основу выбора брали шкалу равной разборчивости (шкалу Кенига), во второмшкалу, в которую были включены полосы, соответствующие формантным областям русского языка. В качестве двоичного описания использовался знак производной в каждой точке спектра. В качестве метрики пространства признаков использовалось расстояние Хэмминга.
Выделение некоторых просодических характеристик. При классификации участков на классы ''тон''-''шум''-''пауза'' использовались общая энергия данного участка речи и такое значение частоты, чтобы суммарная энергия спектральных составляющих, лежащих ниже этой частоты, составляла 50% общей энергии рассматриваемого сигнала. В первом приближении в качестве количества гласных принималось количество участков класса ''тон", разделенных участками "шум" или "пауза". Для определения местоположения ударного слога в слове использовались характеристики длительности гласного звука, интенсивности кратковременных энергетических спектров и суммарной интенсивности гласного звука.

Эксперименты проводились со словарем из 50 слов, произнесенных одним диктором. Результаты экспериментов по распознаванию, а также по выделению просодических характеристик приведены в таблице _____.

Таблица _____

	Первичные признаки			Правильно Распознается
1.	Кратковременный энергетический спектр			100%
2.	Усредненный спектр			92%
3.	Коэффициенты линейного предсказания			95%
4.	Бинарные Признаки (шкала Кенига)	по частоте по времени по частоте и по времени	92% 71% 94%
5.	Бинарные признаки (шкала формантных частот)			97%
6.	Распознавание количества слогов			80%
7.	Распознавание ударного слога			93%

В [10] описана серия экспериментов по сравнению эффективности различных описаний речевого сигнала.

Большинство систем автоматического распознавания речевых сигналов использует комплект фильтров или 9-14 КЛП, причем лучшие результаты получаются, когда их вычисляют синхронно с основным тоном. При сравнении фильтров и КЛП для выделения признаков предпочтение отдали комплекту фильтров, причем КЛП дают корректность распознавания 95-96%, а фильтры 99%. Эксперименты проводили со словарем из 50 слов. Для определения расстояния между входным сигналом и эталонами использовали сумму разности абсолютных величин.

Выделение всех вышеописанных признаков требует больших вычислительных затрат. В [9] рассмотрен простой способ сокращенного описания речевого сигнала представление речевых сигналов векторами нулей низких (_nz,...,₁z) и высоких (z₀,z₁,...,z_m) порядков. Величины z_iопределяются как число пересечений нулевого уровня последовательностями, где Воператор сдвигаВеличины_iz определяются аналогично по последовательностям

Для выбора оптимальной последовательности был проведен эксперимент. Обучающий словарь состоял из 20 слов, каждое из которых произнесли 30 дикторов-мужчин. Слова контрольной выборки были произнесены другими 30 дикторами. В память слова вводились с частотой 10кГц, а при обработке использовались интервалы длительностью 20мс. Результаты распознавания в зависимости от размерности вектора пересечений нулей высоких и низких порядков приведены в таблице _____.

Таблица _____

Размерность вектора (m,n)	Точность распознавания (%)
0,0	62,8
0,2	66,5
0,4	75,1
0,9	70,1
2,0	76,5
4,0	86,0
6,0	86,5
9,0	87,5
9,9	87,5

Данный способ позволяет быстро сократить объем данных. Кроме того, по значениям вектора z_m,n=(_mz,...,₁z,z₀,z₁,...,z_m) можно определить начало и конец слова. Наилучшая надежность распознавания получается при использовании нулей низких порядков.

<<< < Предыдущая 1 2 34 / 64 5 6 > Следующая >>>

Соседние файлы в папке Lecture14

#
01.05.2014311.3 Кб139Lecture14.doc
#
01.05.201416 б86readme