Скачиваний:
139
Добавлен:
01.05.2014
Размер:
311.3 Кб
Скачать

2.4. Влияние метода анализа на надежность распознавания

В [8] рассмотрены несколько методов описания речевого сигнала:

  1. Спектральное описание речевого сигнала. Спектральный анализ производился при помощи алгоритма БПФ. Речевой сигнал кодировался с частотой 10кГц. Временной интервал равен 12,8мс. Энергетический спектр представлял собой 64 отсчета по оси частот, интервалы между которыми составляли 78,1Гц. В качестве метрики этого пространства использовалось евклидово расстояние.

  2. Описание изолированного слова усредненным спектром. Первичное описаниеусредненный спектр по всему времени произнесения. Изолированно произнесенное слово представлялось 64 числами. Использовалась евклидова метрика. Такое описание очень экономно и требует малого объема вычислений.

  3. Описание речевого сигнала при помощи КЛП. Коэффициенты автокорреляции и КЛП вычислялись с помощью рекуррентного алгоритма Левинсона. В качестве меры использовался логарифм отношения энергии остатков линейного предсказания.

  4. Использование бинарных признаков изолированных слов. Признаки были получены на базе кратковременного спектра. 64 спектральных составляющих группировались в спектральные полосы. В первом случае как основу выбора брали шкалу равной разборчивости (шкалу Кенига), во второмшкалу, в которую были включены полосы, соответствующие формантным областям русского языка. В качестве двоичного описания использовался знак производной в каждой точке спектра. В качестве метрики пространства признаков использовалось расстояние Хэмминга.

  5. Выделение некоторых просодических характеристик. При классификации участков на классы ''тон''-''шум''-''пауза'' использовались общая энергия данного участка речи и такое значение частоты, чтобы суммарная энергия спектральных составляющих, лежащих ниже этой частоты, составляла 50% общей энергии рассматриваемого сигнала. В первом приближении в качестве количества гласных принималось количество участков класса ''тон", разделенных участками "шум" или "пауза". Для определения местоположения ударного слога в слове использовались характеристики длительности гласного звука, интенсивности кратковременных энергетических спектров и суммарной интенсивности гласного звука.

Эксперименты проводились со словарем из 50 слов, произнесенных одним диктором. Результаты экспериментов по распознаванию, а также по выделению просодических характеристик приведены в таблице _____.

Таблица _____

Первичные признаки

Правильно

Распознается

1.

Кратковременный энергетический спектр

100%

2.

Усредненный спектр

92%

3.

Коэффициенты линейного предсказания

95%

4.

Бинарные

Признаки

(шкала Кенига)

по частоте

по времени

по частоте и по времени

92%

71%

94%

5.

Бинарные признаки (шкала формантных частот)

97%

6.

Распознавание количества слогов

80%

7.

Распознавание ударного слога

93%

В [10] описана серия экспериментов по сравнению эффективности различных описаний речевого сигнала.

Большинство систем автоматического распознавания речевых сигналов использует комплект фильтров или 9-14 КЛП, причем лучшие результаты получаются, когда их вычисляют синхронно с основным тоном. При сравнении фильтров и КЛП для выделения признаков предпочтение отдали комплекту фильтров, причем КЛП дают корректность распознавания 95-96%, а фильтры 99%. Эксперименты проводили со словарем из 50 слов. Для определения расстояния между входным сигналом и эталонами использовали сумму разности абсолютных величин.

Выделение всех вышеописанных признаков требует больших вычислительных затрат. В [9] рассмотрен простой способ сокращенного описания речевого сигнала представление речевых сигналов векторами нулей низких (nz,...,1z) и высоких (z0,z1,...,zm) порядков. Величины ziопределяются как число пересечений нулевого уровня последовательностями, где Воператор сдвигаВеличиныiz определяются аналогично по последовательностям

Для выбора оптимальной последовательности был проведен эксперимент. Обучающий словарь состоял из 20 слов, каждое из которых произнесли 30 дикторов-мужчин. Слова контрольной выборки были произнесены другими 30 дикторами. В память слова вводились с частотой 10кГц, а при обработке использовались интервалы длительностью 20мс. Результаты распознавания в зависимости от размерности вектора пересечений нулей высоких и низких порядков приведены в таблице _____.

Таблица _____

Размерность вектора (m,n)

Точность распознавания (%)

0,0

62,8

0,2

66,5

0,4

75,1

0,9

70,1

2,0

76,5

4,0

86,0

6,0

86,5

9,0

87,5

9,9

87,5

Данный способ позволяет быстро сократить объем данных. Кроме того, по значениям вектора zm,n=(mz,...,1z,z0,z1,...,zm) можно определить начало и конец слова. Наилучшая надежность распознавания получается при использовании нулей низких порядков.

Соседние файлы в папке Lecture14