Скачиваний:
129
Добавлен:
01.05.2014
Размер:
434.69 Кб
Скачать

1.3.2. Мера сходства речевого сигнала с эталоном

Статистический подход [19].

Пусть реализация слова представляется последовательностью элементов Xl=(x1,x2,...,xl). Распознаваемая реализация последовательно сравнивается с эталонными реализациями слова. При сравнении реализации с эталоном оба элемента растягиваются путем повторения отдельных элементов реализации и эталона до некоторой общей длины одним из методов нормализации.

Пусть идве реализации некоторого слова k. Естественной мерой близости является условиеобщности происхождения этих реализаций.

Предположим, что множество всевозможных реализаций Xlkгослова порождается из некоторого эталонного сигнала Eq=(e1,...,eq), длина которого короче всех возможных реализаций Xlk-го слова. Применим к Eqоператор растяжения w=­(W1,...,Wq) из множества

Результатом будет эталонный сигнал Elдлины l

.

Xlполучается из Е путем искажения некоторым аддитивным шумом.

В данной модели (кусочно-постоянной) учитываются нелинейные вариации темпа произнесения. Задав конкретные значения m и М, можно сузить множество W(q,l), не допуская чрезмерных искажений темпа произнесения слова. В сигнале Xlс прототипомимеется q сегментов (крайний левый элемент s-го сегмента, крайний правый), которые соответствуют фонемам или частям фонем.

Достаточно широкий класс распределений p(hi) описывается выражением

Тогда условная вероятность порождения реализаций инекоторым эталонным элементом Eq:

.

Так как необходимые для интегрирования априорные распределения неизвестны, некоторую оценку можно получить, заменяя интегрирование максимизацией по мешающим параметрам. Таким образом, меру близости можно записать как

Некоторые меры сходства

Выбор меры сходства d(xi,ei) зависит от применяемого описания речевых сигналов и в значительной степени определяется удобствами вычислений. В [3] рассмотрены примеры наиболее употребительных мер сходства.

  1. хэммингово расстояние (количество несовпадающих компонент), если xiи eiимеют двоичные компоненты, например, знаки разностей энергий в соседних спектральных полосах.

  2.  скалярное произведение векторов xiи ei, а(xi)некоторый скаляр, зависящий от xi. Эта мера сходства используется, если речевые сигналы описываются посредством авторегреcсионной модели. Тогда элемент xiимеет смысл элемента-автокорреляции, eiсмысл b-параметров, а(xi) может быть энергией элемента xi, взятой в степени

  3.  евклидово расстояние между векторами.

  4. где xivи eiv, v=1:mкомпоненты наблюдаемого xiи эталонного eiэлементов,дисперсия v-й компоненты эталонного элемента ei. Эта мера сходства удобна при использовании элементов, компоненты которых имеют различную физическую природу.

  5. Эта мера подобна рассмотренной в предыдущем пункте. Ее удобно использовать в случае, когда распознаваемые элементы xiсостоят только из двоичных компонент 0 и 1, а эталонные элементы eiзаданы частотами встречаемости pivзначения 1 в v-й компоненте.

  6. , где Е0(е), Е0(x)энергия эталонного элемента и сигнала в общей полосе частот; Еi(е), Еi(x)энергия на выходе i-го фильтра; Nчисло спектральных полос [30].

Окончательным критерием качества является минимум числа ошибок распознавания контрольной выборки.

Соседние файлы в папке Lecture16