Алгоритмы распознавания речевых сигналов с использованием признаков, основанных на линейном предсказании.

Существуют различные методы распознавания речи, однако, в последнее время основным стал метод сравнения с эталоном. Главным образом это связано с прогрессом в области производства электронных компонентов, в частности, с увеличением вычислительной мощности процессоров и объемов памяти. В методе сопоставления с эталоном сигнал сравнивается заранее записанным эталонным образом и вычисляется степень его подобия. Результатом распознавания является наиболее похожий эталонный образ.

При распознавании путем сопоставления возникают некоторые проблемы, наиболее типичными из которых являются следующие:

временные изменения характерных речевых сигналов. Причиной изменения является различная скорость произнесения одних и тех звуков, то есть непостоянство длительности. Даже одни и те же слова, произнесенные одним и тем же человеком, каждый раз имеют разную длительность.
Влияние размеров органов речи. Размеры органов речи у разных людей различны. Поэтому слова которые произносятся голосовыми органами одинаковой формы, но разного размера имеют различные резонансные частоты.

Первая проблема связана с необходимостью подстраивать временные интервалы при сопоставлении (временная нормализация). Известно много способов согласования длительностей которые сильно различаются по эффективности и объему вычислений. В некоторых методах допускаются пропуски элементов реализации, иногда накладывается ограничение на множество вариантов растяжения реализации и эталона, позволяющие учесть ограничения на вариации темпа произнесения слова.

Проблема изменений, связанных с диктором, чрезвычайно сложна. В настоящее время наметился ряд путей ее частичного решения. Некоторые из них будут рассмотрены ниже.

4.1. Меры сходства.

Выбор меры сходства зависит от применяемого описания речевых сигналов и в значительной мере определяется удобствами вычислений. В[6]рассмотрены наиболее употребительные меры сходства.

- Хэммингово расстояние (количество несовпадающих компонент), еслиx_i иe_iимеют двоичные компоненты, например, знаки разности энергий в соседних спектральных полосах.
,- скалярное произведение векторовx_i иe_i,а(x_i) – некоторый скаляр, зависящий отx_i . Эта мера сходства используется, если речевые сигналы описываются посредством авторегрессионной модели. Тогда элементx_i имеет смысл вектора автокорреляции,e_i– смыслb-параметров, а(x_i)может быть энергией элементаx_i , взятой в степени (-3/4)
,- евклидово расстояние между векторами.
, гдеx_iv иe_iv,v=1,…,m – компоненты наблюдаемогоx_i и эталонногоe_iэлементов,_iv- дисперсияv-й компоненты эталонного элементаe_i. Эта мера удобна при использовании элементов, компоненты которых имеют различную физическую природу.
. Эта мера подобна рассмотренной в предыдущем пункте. Ее удобно использовать в случае когда распознаваемые элементыx_iсостоят только из двоичных компонент 0 и 1, а эталонные элементыe_iзаданы частотами встречаемостиp_ivзначения 1 вv-й компоненте.
, где- энергия эталонного элемента и сигнала в общей полосе частот;-энергия на выходеi-го фильтра;N – число спектральных полос[7].

Окончательным критерием качества выборки является минимум числа ошибок распознавания контрольной выборки.

1 / 51 2 3 4 5 > Следующая >>>

Соседние файлы в папке Lecture16

#
01.05.2014276.99 Кб119ilin3.doc
#
01.05.2014434.69 Кб129Lecture16.doc