Добавил:

Studfiles2 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Санкт-Петербургский государственный электротехнический университет "ЛЭТИ"

Предмет:

Распознавание изображений и речевых сигналов

Файл:

Лекции по МРРиИ, Геппенер В.В. / Lecture16 / Lecture16.doc

Скачиваний:

129

Добавлен:

01.05.2014

Размер:

434.69 Кб

Скачать

☆

<<< < Предыдущая 1 2 34 / 54 5 > Следующая >>>

1.3.4. Многодикторные системы распознавания речи

Для того чтобы системы распознавания речи нашли широкое применение и были просты в эксплуатации, они должны быть многодикторными, то есть надежность распознавания практически не должна зависеть от индивидуальных особенностей речи человека, работающего с системой (диктора). Вся информация об индивидуальных особенностях речи, личности и состоянии говорящего является при этом мешающей.

Наметился ряд путей, по которым идут исследования и разработка многодикторных систем. Два основных подхода к созданию таких систем рассмотрены в [20].

Признаковый подход.

Этот подход связан с поиском таких характеристик речевого сигнала (признаков), значения которых характеризуют звуки речи и не зависят от индивидуальных особенностей речи диктора.

Поскольку состояние речеобразующих органов (губ, челюсти, языка и т.д.) в каждый момент времени однозначно определяет произносимый звук и поскольку при произнесении одних и тех же звуков разными людьми их речеобразующие органы находятся практически в одинаковом состоянии, то наилучшими инвариантными по отношению к диктору признаками являются артикуляционные, описывающие в каждый момент времени состояние речеобразующего аппарата. Однако сегодня неизвестно, как решать задачу оценивания артикуляционных параметров по предъявленному речевому сигналу. Это вынуждает искать косвенно связанные с ними признаки, например, признаки способа образования (звонкости, шумности, гласности, назальности и т.п.) и места образования (формантные частоты F₁и F₂для гласных звуков и распределение длительностей интервалов между нулевыми значениями сигнала и частота переходов через нуль для шумных звуков) звуков.

По данным [20] использование признакового подхода позволяет в ряде случаев распознавать с надежностью около 95% несколько десятков слов в произнесении их многими дикторами.

Главным недостатком систем распознавания речи, основанных на таком подходе, является то, что они не позволяют увеличивать объем словаря без снижения размерности. Объясняется это тем, что существующие способы выделения признаков не позволяют делать это с высокой надежностью, а также тем, что значения этих признаков зачастую носят случайный характер и, главное, все-таки зависят от диктора.

Некоторые исследователи [21] считают, что создание систем распознавания без подстройки под диктора, обрабатывающих с высокой надежностью произвольные по составу словари невозможно, что высокой надежности не получить без блока семантико-синтаксического анализа. Лишь в случае незаменяемого ограниченного проблемно-ориентированного словаря возможно распознавание без подстройки под диктора.

Модельный подход.

В основе этого подхода лежит создание математических моделей речевых сигналов. Значения всех или части таких параметров зависят от диктора. На основании оценки параметров модели строятся эталоны слов и задаются их допустимые преобразования.

В рамках этого подхода одним из наиболее эффективных методов является КДП - метод, предложенный в 1968 г. Т.К. Винцюком. В его основе лежит составление эталонов из элементарных частей с помощью автоматных порождающих грамматик и сравнение их с реализациями методом динамического программирования. Затем данный метод применяли и развивали многие специалисты у нас в стране и за рубежом.

Базовой моделью в КДП - методе является следующая модель. Речевой сигнал X_lзадается последовательностью векторов x_i: X_l=(x₁,...,x_l).

Каждому слову k соответствует эталонный элемент E_qk^k=(e₁^k,...,e_qk^k) длины q_k, составленный из элементов, имеющих ту же природу, что и векторы признаков речевого сигнала. Ограничение на число повторений эталонных элементов при растяжении задается темпоральной транскрипцией k-го слова_k(l)=W(q,l).

Для экономии памяти можно ограничить количество эталонных элементов небольшим числом N и образовать из них упорядоченное множество E=(e(1),e(2),...,e(N)), где e(j) - j-й эталонный элемент. Исходный эталон k-го слова тогда составляется из этой общей для всех слов совокупности Е с помощью акустической транскрипции R_k, которая указывает, какие эталонные элементы и в каком порядке взятые образуют исходный эталон E_qk=R_kE. При использовании фонемного метода распознавания перечисленные параметры имеют следующую содержательную интерпретацию: эталонные элементы e(j) описывают микрофонемы (части фонем), акустическая транскрипция R_kзадает порядок следования микрофонем в k-м слове, темпоральная транскрипция_kустанавливает ограничения на возможные изменения темпа слова k.

(Наряду с этим распространен гораздо более простой подход, когда в качестве эталона слова берется одна из реализаций этого слова [19]).

Решение о том, какому классу принадлежит речевой сигнал, принимается по правилу величина уклонения реализации X_lот эталонного сигнала k-го слова.

Банк дикторов.

При обучении системы на определенный голос каждый диктор d будет характеризоваться только ему свойственными значениями параметров E^d, R_k^d,_k^d, k=1,2,...,K; d=1,2,...,D, где Dколичество дикторов. Величина D может постоянно увеличиваться и практически не ограничена. За счет настройки на словарь и голос диктора обеспечивается высокая надежность распознавания больших словарей.

При верификации диктора выбор параметров осуществляется по решающему правилу

В соответствии с этим решающим правилом предъявленный сигнал X_lсчитается принадлежащим тому диктору d*, чей эталонный сигнал наиболее похож на предъявленный сигнал.

Верификация дикторов может при этом осуществляться по следующему правилу: диктор подтверждается, если

где d* решение задачи распознавания дикторов;экспериментально подбираемый порог.

Такой способ эффективен при длительном времени работы дикторов с системой, поскольку обучение, хотя и является длительным процессом, проводится один раз отдельно для каждого диктора. По [20] опыт эксплуатации обучаемых систем показывает, что надежность распознавания не снижается даже спустя 10 лет после обучения и составляет 99% распознавания при словаре, содержащем 100 слов.

Однако, необходимо заметить, что автор [21] ставит под сомнение достигнутые высокие результаты по надежности (95-100%) распознавания больших словарей (объемом 100, 200 и более слов) при наличии обучения на диктора с использованием алгоритмов динамического программирования [20].

В [28] экспериментально установлены зависимости процента правильно распознанных слов от объема словаря и от числа повторений тех слов, которые при первичном произнесении система не смогла распознать или распознала ошибочно. Эксперименты проводились в условиях акустических шумов с уровнем порядка 75-80дБ на голос одного диктора. Результаты эксперимента представлены в таблице ____.

Таблица _____

Условия для подсчета	Объем словаря (количество слов)
результатов	10	50	100	150	200	300
при однократном произн.	99,3	98,9	98,5	98,1	97,7	97,2
при 1 повторении	99,5	99,4	99,2	99,0	98,8	98,6
при 2 повторениях	99,7	99,6	99,5	99,4	99,4	99,3
при 3 повторениях	100	100	99,9	99,8	99,8	99,7

Представленные данные свидетельствуют, что с расширением словаря достоверность распознавания практически не уменьшается, а путем повторений ее можно довести до 100%.

Этот подход можно использовать и для многодикторских систем. В [28] рассмотрена программа "вхождения в связь с системой", предусматривающая последовательность следующих операций:

диктор произносит стандартное вступительное высказывание;
реализация каждого из слов данного высказывания сличается с заданным количеством вариантов образца этого слова (в эксперименте испытывалось 6 вариантов);
в процессе произнесения высказывания по каждому из вариантов суммируются результаты сличения и накапливаются итоговые суммы (S₁,S₂,...,S₆) и выбирается наибольшая сумма S_m;
значение S_mсопоставляется с двумя порогами: К₁и К₂. Если S_m<K₁, то для последующей работы диктору предоставляются образцы соответствующего варианта. При К₁S_m>K₂диктору предлагается повторить высказывание. Если же S_mК₂, либо трехкратное повторение не приведет к превышению порога К₁, то система делает вывод о невозможности ее использования данным диктором.

При работе с системой диктор заинтересован в правильном распознавании, то есть сотрудничает с системой. В процессе произнесения оценивается темп и средний уровень громкости и при резком отклонении от нормы система вырабатывает рекомендации по их изменению.

С помощью описанной процедуры можно организовать режимы обслуживания как закрепленной ограниченной группы дикторов, так и их широкого круга, подбирая объем высказывания, количество вариантов и значения порогов К₁и К₂.

Быстрая адаптация системы распознавания к голосу нового диктора.

В том случае, когда проводить обучение системы на словарь и голос каждого нового диктора не представляется возможным, можно осуществить быструю адаптацию или настройку системы под особенности речи нового диктора.

Коррекция параметров может быть сделана на основе предположений, о существовании закономерностей, связывающих речевые сигналы разных дикторов. Несмотря на то, что результаты обучения являются индивидуальными для каждого диктора, естественно предположить, что степень этой индивидуальной зависимости различна для разных параметров. Так, при нормальной речи порядок следования фонем в словах, а также границы изменения темпа речи у всех дикторов примерно одинаковы. Наиболее индивидуальными представляются фонемы, которые зависят от индивидуальной манеры реализации звуков.

При этом предполагают, что транскрипции слов (R_k,_k) являются общими для всех дикторов, а индивидуальными являются только совокупности E^dэталонных элементов. Тогда задачу быстрой адаптации можно сформулировать следующим образом: на основании заданных начальных совокупностей E⁰, (R_k⁰,_k⁰), k=1,2,...,K, и небольшой обучающей выборки необходимо оценить совокупность E^dэталонных элементов для нового диктора d. Начальные совокупности могут быть получены путем обучения системы распознавания на выбранный словарь и голос какого-либо одного диктора.

Как показали эксперименты, надежности распознавания повышаются после адаптации до 98% при словаре, содержащем 100 слов, в то время как надежность распознавания речи одного диктора по эталонам другого не превышает 80% [20].

В [29] рассматривается система распознавания, работающая с дискретными отрезками речи длительностью до 4 с и возможностью работы без предварительного обучения на голос диктора. Для обеспечения распознавания речи произвольного диктора предварительно проводится анализ параметров и кластеризация голосов определенной выборки дикторов. Возможность доступа к системе произвольного диктора обеспечивается путем классификации его голоса по произнесенной парольной фразе и отнесения его к одному из наиболее близких по параметрам имеющихся кластеров. Программное обеспечение системы состоит из трех основных программ: кластеризации, эталонизации и распознавания речи.

Для кластеризации дикторов создавался банк эталонов множество U, в котором содержится по М описаний слов в произнесении N произвольных дикторов (в данном случае 30 мужчин и 20 женщин). Это множество состоит из подмножеств эталонов каждого диктора E_n:

{E₁,E₂,...,E_n,...,E_N}U.

Подмножества E_nсостоят из эталонов слов e_mnn-го диктора: {e_1n, e_2n,...,e_mn,...,e_Mn}E_n. Относительно каждого диктора методом ДП вычислялись меры сходства соответствующих слов всех остальных дикторов. Для всех N дикторов относительно каждого из них вычисляются суммы пар подобия по всем M эталонам S(k,n), где kномер контрольного диктора. По полученному массиву S(k,n) осуществлялась собственно кластеризация дикторов. Для определения наиболее общего кластера и его центра дополнительно вычисляются суммы:

По значениям S(k) определяется диктор, который принимается в качестве 1-го кластера . В этот кластер включаются те дикторы, для которых мера сходства с диктором с₁лежит в пределах некоторого порога R (радиуса кластера), то есть S(k,n)R при k=c₁.

Центр второго кластера определяется как при

k=c₁, а все дикторы, для которых S(k,n)R при k=c₁входят во второй

кластер. После создания очередного кластера, использованные значения S(k,n) исключаются из дальнейшего рассмотрения. Центры 3-го и последующих кластеров определяются по выражению:

где р порядковый номер кластера. Дикторы, входящие в каждый кластер, определяются из условия S(k,n)R при k=c_р. Процедура продолжается до исчерпания лимита дикторов в банке данных.

Обучение системы производится один раз для конкретного словаря. Для этого диктор, являющийся центром каждого кластера, произносит по одному разу слова из рабочего словаря, которые записываются в качестве эталонов для дикторов данного кластера. При смене словаря процедуру его эталонизации нужно повторить заново.

Процессу распознавания дискретной речи произвольного диктора предшествует кластеризация его голоса. По произнесенной парольной фразе его голос относится к одному из имеющихся кластеров, и дальнейшее распознавание проводится по эталонам этого кластера.

Система рассчитана на работу со словарями до 100 слов или слитных словосочетаний. Специальных ограничений на голос диктора нет, но встречаются голоса, не попадающие ни в один кластер, от работы с которыми система отказывается. Во время экспериментальных исследований при 7 кластерах была получена надежность распознавания для различных дикторов от 75 до 98%, в среднем составляющая 90%. Надежность во многом зависит от "сотрудничества" диктора с системой. Для опытных дикторов надежность всегда составляла не менее 90%.

В дикторонезависимых системах для увеличения надежности число эталонных образов, относящихся к одной категории, может быть очень велико (20-60), благодаря чему даже при сильных изменениях удается установить соответствие одному из них. Вместе с тем следует отметить, что объем вычислений при этом будет сильно возрастать [31].

В [27] было проведено экспериментальное исследование системы, основанной на использовании множества эталонов для каждого слова словаря.

В режиме обучения группа дикторов читает слова из заданного словаря. Поступающая речь фильтруется с использованием 16-канальной гребенки полосовых фильтров в полосе частот 150-6000Гц. Вычисляются двоичные информативные признаки, которые представляют собой знак первой производной сигнала по частоте. В режиме кластерного анализа фиксированные двоичные признаки для каждого словаря посылаются в кластерный алгоритм. В результате его работы формируются кластеры, содержащие повторения слов, удовлетворяющих пороговым условиям. В качестве эталонов слова выбираются либо минимаксные центры кластеров, либо "среднее" повторений слов, входящих в некоторый кластер. В режиме распознавания произносится неизвестное слово, после чего оно подвергается анализу с целью выделения двоичных признаков. Решение о распознавании принимается на основе правила К ближайших соседей.

Испытания системы проводились на словаре объемом 50 слов с максимальным числом эталонов на слово равным 5. Оценки надежности распознавания, усредненные по множеству дикторов для различных К ближайших соседей и различного числа эталонов N приведены в таблице _____.

Таблица _____

Центр кластера	L	K=1	K=2	K=3	K=4
	1	78			
	2	83	90		
минимаксный	3	94	94	94	
	4	94	95	96	95
	5	95	97	96	96
	1	83			
	2	93	91		
средний	3	95	96	96	
	4	95	97	98	97
	5	96	97	97	96

Таким образом, надежность распознавания при использовании средних центров кластеров выше, чем при использовании минимаксных центров. Различия при использовании К ближайших соседей довольно малы.

Кооперативные системы распознавания.

Описанные выше способы построения многодикторных систем распознавания речи требуют больших затрат памяти, особенно при большом числе дикторов. Кроме того, не всегда возможно провести обучение или быструю подстройку. Уменьшить требуемую память и сократить время настройки можно путем получения оценок параметров, общих для групп (кооператива) дикторов. Одним из способов получения таких оценок является кооперативное обучение оценивание эталонных элементов и транскрипций по обучающей выборке, составленной группой дикторов.

Кооперативная модель позволяет распознавать речь членов группы с надежностью 98% (при словаре из 100 слов). Кроме того, такая система обладает хорошими экстраполяционными свойствами: позволяет распознавать речь дикторов, не входивших в кооператив, с надежностью, практически такой же, как и для дикторов членов кооператива (97%). При этом для нового диктора не требуется проводить обучение и быструю подготовку [20].

Как показали эксперименты, число групп должно быть не менее двух отдельно для мужчин и отдельно для женщин.

<<< < Предыдущая 1 2 34 / 54 5 > Следующая >>>

Соседние файлы в папке Lecture16

#
01.05.2014276.99 Кб119ilin3.doc
#
01.05.2014434.69 Кб129Lecture16.doc