Лабораторная работа №4 идентификация и распознавание речи.

Цель: автоматическое выделение отдельно произнесённых слов в речи и их идентификация.

Основные теоретические сведения.

Основным подходом к проблеме распознавания речи в настоящее время является ИМЗ-подход. Он базируется на иерархическом (И) принципе обработки информации и на использовании многозначных решений (МЗ) на всех уровнях этой обработки. Опыт исследований показывает, что для достижения приемлемой для практики надежности распознавания речи требуется решение проблемных задач на всех уровнях. А это требует больших затрат и времени. Поэтому выдвигается ряд промежуточных, но важных для практики задач:

распознавание отдельно произносимых слов;
выделение ключевых слов в потоке речи;
распознавание слитной речи, составленной из слов заданного словаря.

Оказалось, однако, что и решение перечисленных задач для произвольного диктора или неограниченного словаря требует серьезных усилий и остается еще целый ряд принципиальных вопросов, требующих глубокой проработки.

В данной работе ставится несколько иная задача. Отличительной особенностью этой задачи является то, что заранее известно, какую фразу должен произнести человек. Требуется распознать лишь то, что он ее действительно правильно произнес. То есть задача состоит в сравнении поступающего нового произнесения фразы с эталонным произнесением для проверки того, что это произнесения одной и той же фразы. Качество распознавания можно оценить по контрольным произношеньям фраз, про которые уже ясно, правильные ли они или ошибочные. Задача находит применение в системе обучения немецкому языку.

Цифровое представление речевого сигнала

Частотный диапазон речи находится в пределах 70-7000 Гц. При оценке уровня громкости звука в качестве эталона звукового давления P₀выбирается его минимальное значение на частоте 1 кГц, при котором звук становится уже слышимым, т.е.P₀=2×10^-5Н/м². Уровень звукового давления определяется соотношением

где P- значение звукового давления. Под динамическим диапазоном понимают разность между максимальным и минимальным уровнями сигналов. Динамический диапазон речи составляет 35-45 Дб.

Цифровая система звукозаписи требует представления аналогового речевого сигнала в цифровом виде. В результате аналого-цифрового преобразования (АЦП) непрерывный сигнал переводится в ряд дискретных отсчетов s_kкаждый из которых представляет собой целое число, характеризующее аналоговый сигнал в этой точке с определенной точностью. Точность представления зависит от ширины диапазона получаемых чисел, а следовательно от разрядности АЦП. Процесс разбиения сигнала на отсчеты носит название дискретизации. Число отсчетов в секунду называется частотой дискретизации. Частота дискретизации ν_Dсогласно теореме Котельникова должна быть, по крайней мере, в два раза выше максимальной частоты преобразуемого аналогового сигнала. Дело в том, что спектр сигнала, преобразованного с помощью АЦП в цифровую форму, имеет периодический характер. (Спектр сигнала - это его отображение, характеризующее интенсивность и распределение частотных составляющих сигнала.)

Сигнал после АЦП имеет кроме низкочастотной части спектра, отображающей аналоговый сигнал, еще и высокочастотные компоненты: низкочастотный спектр сигнала повторяется в виде боковых полос с центрами в точках, кратных частоте дискретизации. (ν_D, 2ν_D, 3ν_Dи т.д.) При уменьшении частоты дискретизации произойдет наложение низкочастотной части спектра и боковой полосы с центром в точке ν_D. Наложение спектров приводит к появлению новых спектральных составляющих в сигнале, а значит, к его искажению. В звукозаписи наложение спектров можно убрать, установив перед АЦП фильтр низких частот, подавляющий все частоты, лежащие выше половины частоты дискретизации. Так как на практике нельзя выполнить фильтр с отвесным спадом частотной характеристики, значение частоты дискретизации выбирается несколько больше, чем удвоенное значение верхней частоты спектра речевого сигнала, например, ν_D=22,05 кГц.

Процесс измерения сигнала с округлением до разряда АЦП носит название квантования. Задаваясь требуемым динамическим диапазоном цифровой системы звукозаписи, необходимое число разрядов квантования можно определить из выражения D=6n+1.8 , гдеD- динамический диапазон (в Дб),n- число двоичных разрядов. Отсюда получаем, что для записи речи необходимо отводить не менее восьми бит на каждый отсчет.

Определение 1.

Кадр X (длины N) - конечная последовательность отсчетов речевого сигнала s₁,...,s_k,...,s_N.

Определение 2.

Реализация фразы - цифровая запись произнесения фразы в виде последовательности кадров X⁽¹⁾,...,X^(t),...,X^(L), где L - длина реализации, X^(t)=s^(t)₁,...,s^(t)_k,...,s^(t)_N. Длина кадра фиксирована, например, N=256, что при частоте дискретизации ν_D=22,05 кГц соответствует длительности по времени 11,6 мс.

1 / 41 2 3 4 > Следующая >>>

Соседние файлы в папке MRO

#
23.03.201530.72 Кб21ТМРО_511.doc
#
23.03.201587.04 Кб15ТМРО_512.doc
#
23.03.2015154.62 Кб18ТМРО_513.doc
#
23.03.20151.15 Mб38ТМРО_514.doc
#
23.03.2015127.49 Кб47ТМРО_516.doc