Скачиваний:
129
Добавлен:
01.05.2014
Размер:
434.69 Кб
Скачать

4. Использование нечетких множеств в задачах распознавания речи

Есть предположение, что элементами мышления человека являются элементы некоторого нечеткого множества или классов объектов, для которых переход от принадлежности к непринадлежности не скачкообразен, а непрерывен, то есть содержит не только значения 0 или 1, но и значения, лежащие между ними.

Поскольку речь есть образ биологической природы, и она несет информацию как о передаваемом сообщении, так и о дикторе, его самочувствии, настроении, ее целесообразно рассматривать как образ в сильной степени размытый. Образы такого типа не имеют точных границ, вследствие не столько стохастичности, сколько их природной размытости. Одновременно, условные плотности распределения вероятностей для классов неизвестны. Поэтому для распределений таких классов представляется разумным использовать классификаторы с мерами подобия и неподобия, основанными на значении размытой функции принадлежности. При нечетком распознавании образов анализу подвергаются такие признаки, которые обладают различной степенью принадлежности более чем к одному классу. Степень принадлежности некоторого признака x к данному классу обозначают при этом единица означает точную принадлежность к данному классу, тогда как нольполную непринадлежность.

В [33] задача параметрического представления и последующего анализа речевого сигнала для распознавания речи рассматривалась как задача последовательных преобразований из нечетких подмножеств в четкие и наоборот. В практических системах распознавания на параметрическом уровне не обязательно искать какие-то глобальные решения, а на фонетическом уровне добиваться однозначного решения о принадлежности к определенному классу, но можно принимать несколько вариантов звуков. При этом неопределенность может быть разрешена, если использовать более высокие лингвистические уровни лексический, синтаксический и семантический.

Таким образом, увеличение нечеткости решений для трудноопределимых классов на нижних уровнях распознавания может дать больше возможностей для правильного и надежного распознавания звуков речи, чем повышение жесткости при принятии решений на тех же уровнях. Речь, являющуюся по своей природе сложным информационным явлением, можно описать нечеткими лингвистическими переменными, отражающими особенности первичных параметров, которые, в свою очередь, являются результатами измерений и не содержат нечеткостей. Таким образом, на этапе первичной обработки речевого сигнала происходит прямое преобразование от нечеткого подмножества к четкому. В то же время метки, указывающие на принадлежность объектов обучающего множества соответствующим классам, могут быть нечеткими. Тогда результаты классификации могут оказаться более точными, так как на этапе обучения можно использовать больший объем информации. Таким образом, на этапе нечеткой классификации происходит обратный переход от обычных подмножеств к нечетким.

В случае первичной обработки речевого сигнала, применив понятие обычного подмножества -уровня A={X|(X)>}, можно получить общий принцип построения аппаратуры выделения первичных признаков речевого сигнала. Этот принцип заключается в поиске- уровня, управляющего прохождением речевого сигнала через некие ключевые схемы для их последующей обработки.

Опытным путем - уровни подбираются так, чтобы:

  • собственные шумы аппаратуры, стационарные шумы и шумы рабочего помещения не выделялись в паузах;

  • при появлении слабых фрикативных звуков (ф, х) все же выделялась информация о месте образования этих звуков.

В результате осуществления прямого преобразования из нечеткого подмножества аналогового речевого сигнала в четкое подмножество дискретных речевых кодов, то есть u(t){Aij}, где u(t)нечеткое множество аналоговых речевых сигналов, Aijмножество дискретных отсчетов параметров, представляющих речевой сигнал, j=1,2,...,Mтип параметра, i=1,2,...,Nномер отсчета.

В процессе работы алгоритма по нечетким правилам принятия решений происходит обратное преобразование из четкого множества дискретных отсчетов параметров, представляющих речевой сигнал, в нечеткое подмножество гипотез о произнесенном слове.

Следующее прямое преобразование из нечеткого подмножества гипотез о произнесенном словев четкую принадлежность введенной реализации определенному эталону может осуществляться, например, с учетом синтаксиса и семантики.

Таким образом, задачу параметрического представления и анализа речевых сигналов с целью распознавания можно рассматривать как задачу последовательных преобразований из нечетких подмножеств в четкие и наоборот и анализа полученных результатов после каждого преобразования.

В [34] рассмотрен класс речевых сигналов , представленных информацией о мгновенной частоте речевого сигнала в дискретные моменты времени. Обучающая информация задается следующим образом. Множество допустимых речевых сигналов {S} представляет собой сумму непересекающихся классов. Есть S10,...,Sm0эталонов, относительно которых известно, к какому классу принадлежит каждый из сигналов Si0.

Рассматриваются алгоритмы распознавания речевых сигналов, которые имеют вид:

где D однопараметрический оператор сегментации речевых сигналов, Gраспознающий оператор, Cоднопараметрическое решающее правило (модификация правила "ближайшего соседа").

Оператор D(,S) переводит сигнал S в сегментированный сигнал S'. Распознающий оператор G вычисляет для каждого класса Mj(j=1,...,l) расстояниеjмежду сигналом S и сигналами Si0Mjследующим образом:

расстояние между сегментированными речевыми сигналами, которое определяется на основе использования аппарата теории нечетких множеств.

Рассматривается нечеткое отношение , описывающее близость элементов yiи yj , такое, что функцияявляется функцией расстояния. В SWtnопределяется пороговое отношение, что позволяет породить оператор D(,S).

Для определения используется следующий результат.

Вводится нечеткое отношение , описывающее близость сегментов речевого сигнала L' и L":

Тогда имеет место следующая теорема:

Функция

является функцией расстояния.

В [35] сделана попытка отнести предварительно полученные сегменты (от 0 до 999) к одному из классов ("тон"-"шум"-"пауза") на основе идей теории нечетких множеств.

Параметрами первичного описания речевого сигнала являлись отсчеты интенсивности, полученные с гребенки полосовых фильтров (каналы 2-16), представленных в ЭВМ матрицей , где kотсчет времени, jномер канала. Таким образом, определено N-мерное (N=16) векторное пространство признаков с вектором-строкой матрицы X=A={a1,a2,...,a16}, содержащей m (m=3) классов образов ("тон"-"шум"-"пауза").

На этапе предварительного обучения производится выбор совокупности N-мерных эталонов классов R1,...,RN. На вход классификатора подается среднее значение векторов, принадлежащих предварительно определенному сегменту. Решение классификатора относительно этого среднего вектора Х основывается на значении его размытой функции принадлежности, соответствующей j-му классу:

,

где Flэкспоненциальный сглаживатель, Fdнормирующий сглаживатель, d(X,R)расстояние от вектора до эталона. Размытая функция принадлежности отображает N-мерное пространство признаков в m-мерное пространство принадлежности, поэтому значенияможно рассматривать как степень достоверности того, что Х принадлежит j-му классу и в качестве решения принять, если

Алгоритм был проверен на реализациях слитно произнесенных чисел от 0 до 999, полученных от 6 дикторов-мужчин. Результатом работы явилась правильная классификация около 98% сегментов.

В [33] рассмотрен пример построения конкретной системы распознавания с использованием нечетких множеств.

В качестве признаков, извлекаемых из речи, используется СВО (спектральный временной образ). Поскольку авторы считают, что интерес представляет лишь местоположение выброса, данные представляются в двоичном виде: 1 на месте локального выброса, 0в других местах. Применение полученного ДСВО (двоичного СВО) следующее: рассматривается функция принадлежности, учитывающая, как проявляются на ДСВО изменения частоты для разных людей и как происходят изменения во времени.

Число записанных слов можно обозначить через n, множество слов через I={i1,i2,...,in}, множество образов эталонов слов через X={x1,...,xj}. Множество Iэто обычное множество из n элементов, а множество X можно рассматривать как нечеткое множество, в котором xjпредставляет различные образы слова ij. Таким образом, можно определить множество функций принадлежности M={m1,m2,...,mn} подобно тому, как определяется множество образов xjслова ij. При вводе неизвестного образа y (yY) c использованием функции принадлежности М вычисляется степень сходства образов xjи y, и результатом распознавания является слово j, такое что

Предложена следующая последовательность построения функции принадлежности. Для всех слов, которые должны быть записаны, собираются голоса многих говорящих и преобразуются в ДСВО. Для каждого слова суммируются все образы и составляется двумерная функция принадлежности, в которой из этих данных выбраны изменения в представлении слова. В частности, определяется среднее арифметическое образов, отобранных в соответствии с некоторым критерием из ДСВО одного слова. Перед суммированием с помощью линейного растяжения/ сжатия осуществляется согласование длин образов.

Пусть y (yY)ДСВО неизвестного входного голоса. Если с помощью функций принадлежности mjопределить его степени принадлежности ко всем нечетким множествам, то можно узнать, какое это слово. Степень подобия определяется следующим образом:

где

степень принадлежности образа y к xj;

инверсная степень принадлежности, где

mjфункция принадлежности, представляющая образ дополнительного множества j.

В реальном устройстве распознавания приходится оперировать с дискретными величинами. В этом случае используется следующее выражение для степени подобия:

где

Знак обозначает произведение элементов mjи y, алогическое произведение mjи y уровня, т.е.

С помощью описанного выше метода распознавания была создана реальная система распознавания, представленная на рис._____.

Рис. _____

Звук с помощью микрофона преобразуется в сигнал; на группе фильтров производится разложение сигнала по частотам, затем добавляется преобразование в двоичный код и составляется ДСВО. Блок, обозначенный на рисунке пунктиром, относится к обучению, в обычном методе распознавания неопределенного говорящего он не используется. Работа остальных блоков осуществляется следующим образом.

  1. Группа фильтровэто набор из нескольких полосовых фильтров, в данной системе их было 15. Центральные частоты2506300Гц с шагом 1/3 октавы. Выходные сигнала фильтра сглаживаются, квантуются выборки через 10мс. В результате получаются 15-мерные векторы.

  2. Преобразование в ДСВО. Среди 15 данных из группы фильтров выделяются пиковые значения, их окрестности принимаются за 1, а остальные места за 0.

  3. Блок сравнения. Степень подобия между неизвестным входным образом и функцией принадлежности, зафиксированной как эталонный образ, вычисляется по вышеописанным формулам. Длительности обоих образов согласуются, как и при формировании функции принадлежностис помощью линейного растяжения/сжатия. Временные изменения фиксируются в функции принадлежности в виде изменений, нормированных линейным растяжением/сжатием.

По результатам эксперимента для данного метода: в звукоизолированном помещении при распознавании неопределенного говорящего и словаре из 120 слов надежность распознавания для различных языков составила примерно 93%. При реализации метода определенного говорящего при записи одного слова 3 раза можно получить надежность распознавания 98-99%.

Соседние файлы в папке Lecture16