Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Lections_raspozn.docx
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
595.66 Кб
Скачать

Лекция 5

Тема. Методы предварительной обработки речевых сигналов

На лекции будет рассмотрено:

Выделение речи из звукового сигнала (VAD-алгоритмы).

Методы сегментации речевого сигнала

Выделение речи из звукового сигнала (vad-алгоритмы)

Общим свойством VAD-алгоритмов является то, что они включают в себя обучение (вычисление характеристик шума) и спектральное вычитание. Чаще всего в качестве признаков, определяющих начало и конец слова, выбираются энергетические и спектральные характеристики сигнала, а также число переходов через ноль.

При обучении VAD вычисляется средний энергетический спектр шума, который используется в качестве порога. Гипотеза о начале полезного сигнала выдвигается, если энергетический спектр входного сигнала превышает порог, иначе выдвигается гипотеза об окончании полезного сигнала. Для некоторых детекторов требуется, чтобы амплитуда РС не менее, чем в 10 раз, превышала амплитуду шума. В некоторых случаях для вычисления порога предлагается использовать только низкочастотную область спектра (0-50 Гц).

VAD-алгоритм, используемый в мобильных телефонах основан на различии спектральных характеристик речи и шума. Спектральные отклонения входного сигнала от спектра фонового шума детектор определяет с помощью инверсного фильтра. Превышение порогового уровня принимается за наличие на входе РС. Можно адаптировать спектральные характеристики входного шума под текущий уровень сигнала, изменяя коэффициенты фильтра и шумовой порог. К недостаткам метода относится длительная адаптация к шуму.

Есть детекторы речи, в которых используются верхний и нижний пороги, полученные с помощью среднего значения и дисперсии количества нулевых переходов и энергии сигнала, содержащего только шум. Для записанного сигнала определяется интервал, на котором среднее значение превышает верхний порог. Предполагается, что начало и конец слова лежат вне этого фрагмента. Затем, двигаясь к началу записанного сигнала, определяют момент, в котором среднее значение энергии впервые оказалось меньше нижнего порога. Этот момент выбирается в качестве предполагаемого начала РС.

К недостаткам VAD-алгоритмов, базирующихся на оценке энергетических характеристик сигнала, относится возможность принятия кратковременного шума с высокой амплитудой за речь, либо низкоамплитудного РС за шум.

Для обучения корректно работающего в подобных ситуациях детектора необходимо наличие в обучающем множестве как сигнала, содержащего только шум, так и речевых баз данных.

Кроме того, большинство из VAD не способны точно определять границы речи в условиях шума, уровень которого превышает или близок к уровню шумных глухих щелевых и смычно-щелевых звуков. Для решения этой проблемы необходимо при формировании набора признаков, определяющих начало и конец слова, учитывать спектральные характеристики ШФК звуков речи, а также их длительность.

Сегментация речевого сигнала

Цель шага сегментации подготовить для этапа классификации гипотезы границ сегментов на основе признаков, характерных для целого сегмента или больших единиц речи, таких как слоги и слова.

Система пробует найти стационарные области (где признаки изменяются несущественно) и затем маркировать сегментированную область согласно тому, насколько признаки в пределах той области соответствуют индивидуальным признакам фонетических единиц. Эта стадия – основа акустическо-фонетического распознавателя. Ее надежность определяет качество работы всей системы, поэтому для ограничения диапазона вариантов сегментации и возможной маркировки используются различные стратегии. Стратегия маркировки может использовать лексические ограничения на слова, чтобы рассмотреть только слова с n фонетическими единицами всякий раз, когда сегментация дает n-1 границ сегментов. Эти ограничения уменьшают область поиска и значительно увеличивают эффективность (точность сегментации и маркировки) системы.

В мире системы сегментации находятся на уровне лабораторных разработок, исследования в этой области являются достаточно перспективными, а использование даже частных результатов сегментации в сочетании с другими техниками дает значительные преимущества в распознавании. Известно несколько общих подходов к сегментации речевого сигнала. Часть из них основана на фильтрации, часть оперирует такими просто вычисляемыми параметрами, как число пересечений определенного уровня и относительная энергия в заданных областях частот, часть ориентирована на использование формантных признаков. Часть исследователей использует спектрально-временное представление речи, часть – кепстрально-временное.

Ряд работ посвящен описанию методов выполнения предварительной сегментации речевых сигналов на основании признаков, относящихся к широкому классу способов артикуляции, используемых при, пре­рывании голоса, произнесении звонких взрывных и сонорных звуков. Такие алгоритмы не позволяют получить окон­чательную сегментацию, однако, если возможна последующая кор­рекция ошибок, то они могут быть полезны в качестве первого шага в процессе фонетической идентификации. Трудность состоит в том, что точная сегментация на основании простых акустических критериев невозможна. Для некоторых случаев сегментации необходимо детальное знание связей между фоноло­гией, артикуляцией и акустикой. В немногих случаях решения могут быть произвольными. Границы сег­ментов в этих случаях могут быть переопределены для удобства исследователей. Другие задачи, например, определение числа сег­ментов в словах коала, миллион или нахождение второй гласной в вы­ражении прими от, являются более сложными. Движение формант, со­ответствующее сочетанию прими от, акустически аналогично многим формантным переходам между гласными и согласными и анало­гично промежуточному звуку ненапряженных гласных.

Расщепление фрикативных последовательностей провести трудно, по­скольку они зависят от сложных проверок изменений спектра, ко­торые должны быть организованы так, чтобы исключить специаль­ные изменения, например, такие, как изменение спектров в взрывных сочетаниях. Два взрывных звука в сочетаниях не всегда можно отличить от одного взрывного звука, так как первый из них редко можно выделить, а их интер­вал смыкания ненамного больше, чем для одного предударного взрывного звука. Наконец, встречаются случаи искажения поло­жения третьей форманты, связанные с объединением пиков фор­мант для некоторых переходов между согласными и гласными. Например, в слове уа появляется дополнительный сегмент, если полагаться на расположение максимума и минимума формант у последовательности сонорных сегментов (видимо, следует счи­тать только максимумы и минимумы в F1 и F3).

Методы сегментации и общие положения об их реализации

Основное преимущество использования архитектуры распознавания, ориентированной на сегментацию, – дополнительная гибкость и возможность классификации сегмента в целом (в сравнении с фрейм-ориентированной концепцией).

Знание расположения границ сегмента позволяет использовать мощные внутри- и межсегментные признаки. Высокая степень корреляции между параметрами фреймов речи фонетического сегмента, как по частоте, так и по длительности – хорошо известный факт. Одна из тем исследований в области классификации сегментов – моделирование этих корреляций с использованием представления признаков, которое фиксирует динамику (траектории) параметров на протяжении всего фонетического сегмента.

Системы распознавания речи можно разделить на два класса: явно и неявно сегментирующие речь (фрейм-ориентированная архитектура). Системы, основанные на фреймах, неявно делят речь на фонетические сегменты как результат распознавания каждого фрейма. В основном, эти системы работают с малыми словарями, где основная единица распознавания – целое слово.

Для распознавания непрерывной речи и слов большого словаря применяют пофонемное распознавание, использующее явную сегментацию РС, т. е. разбиение сигнала на фонетически или артикуляторно значимые элементы. В связи с тем, что акустические характеристики для каждого из представителей фонетического класса сильно различаются, то для них невозможно отыскать инвариантные, контекстно-независимые признаки. Поэтому исследуют динамические свойства РС. Использование динамики состоит в оценке различия между векторами признаков соседних фреймов сигнала. В пределах одного сегмента расстояние между векторами не должно превышать некоторый порог. Недостатком этого подхода к сегментации является необходимость настройки порога, который зависит от голосовых данных диктора и интенсивности сигнала, а также невозможность четкого определения границ между фонемами, имеющими небольшой уровень амплитуды.

Приведем несколько алгоритмов сегментации

Сегментация на основе кластеризации

Рассмотрим простейший случай сегментации. Пусть известно, что отрезок речи содержит две фонемы, начало речевого отрезка соответствует началу первой фонемы, окончание – концу второй фонемы. Т.е. задача сводится к определению момента времени, в который происходит смена фонем. В этом случае можно применить технику кластерного анализа, используемую для построения пофонемной кодовой книги. В ее основе лежит процедура усреднения. Поскольку заранее известно, что перед нами два участка, соответствующие двум различным классам, то критерием разделения двух звуков может быть изменение центроида, к которому тяготеют вектора признаков.

Приведем пример получения сегментации слога. Наговариваем слог, состоящий из двух фонем, например, слог “си” и строим кодовую книгу из двух кодовых векторов.

С микрофона вводится речевой сигнал. Машина разбивает сигнал на отрезки по 368 отсчетов и для каждого из них строит вектор признаков. При сигнале в 10 тысяч отсчетов таких векторов получается 27. Далее происходит разбиение векторов на классы и построение соответствующих кодовых векторов.

Пусть речевой сигнал задается множеством векторов

.

Выберем число и построим вектора

, .

Определим теперь функцию

.

Если наименьшее значение этой функции достигается при то правый конец отрезка с номером принимается за границу аллофона. Далее отрезки по одну сторону найденной границы отбрасываются, к оставшейся части сигнала применяется вышеописанная процедура и т.д. Этот метод позволяет весьма надежно разделять две соседние гласные фонемы или гласную и соседствующую с ней сонорную согласную.

Амплитудная сегментация

Следующий метод сегментации является по сути своей амплитудным. Сигнал в 10 тысяч отсчетов разбивается на отрезки по 300 отсчетов в каждом. Для каждого из них вычисляется величина

.

Здесь - номер отрезка , - значение сигнала на -ом отсчете -го отрезка. Величины , как известно, принимают целочисленные значения от 1 до 256, так что под знаком суммы стоят отклонения от средней линии. Затем вычисляется среднее величин :

.

Наконец, весь сигнал разбивается на участки, состоящие из отрезков, для которых pi<p и участки, состоящие из отрезков, для которых pip.

Границы между этими участками принимаются за искомые границы сегментации.

Этот метод с высокой надежностью позволяет выделить участки отвечающие звукам “с”, “ш”, “щ”, “ц”, “ч”, “ф”, “х”, “б”, “г”, “д”, “п”, “к”, “т”. Он может выделять также другие согласные, особенно при отсутствии в слове вышеперечисленных звуков. В целом этот простой, надежный и чрезвычайно быстро работающий метод может, как показывает опыт, с успехом служить для целей предварительной сегментации речевого сигнала.

Сегментация на основе спектрального представления

Речевой сигнал, представленный отсчетами , разбивается на перекрывающиеся фрагменты объемом 256 отсчетов с шагом S, т. е. формируется множество векторов где . Для каждого вектора вычисляются спектральные коэффициенты дискретного преобразования Фурье, которые могут быть определены по формуле

.

Затем формируется множество векторов, представляющих собой мгновенные логарифмические спектральные срезы речевого сигнала: , где

.

Далее, в полученном множестве векторов выделяются смежные группы, состоящие из D векторов, для каждой из которых определяется среднее значение логарифмического спектра мощности в соответствии с формулой

, где .

Затем вводится функция однородности речевого сигнала, определяемая выражением

,

где . Полученные значения функции сглаживаются методом скользящего среднего и выполняется поиск локальных минимумов функции однородности, соответствующих границам однородных участков. Найденные границы принимаются за границы между фонемами. Этот метод в большинстве случаев сегментирует слова очень качественно. Однако он может строить лишние границы на длинных шипящих.

Сегментация на основе выделения квазипериодов

Пусть заданный речевой сигнал оцифрован с частотой дискретизации 20050 Гц, разрядность 8-битных. Тогда его можно представить последовательностью значений

,

Разобьем сигнал на квазипериоды. Рассмотрим функцию.

,

Найдем ее минимум по всем k таким, что MinkMax

Здесь Min и Max - числа, которые заранее определяются в соответствии с высотой голоса диктора. Если k0 - значение k, при котором реализуется указанный минимум, то назовем его длиной квазипериода с началом i0 и концом i0 + k0 -1. Ясно, что в случае, когда x(i) - периодическая функция с периодом n, мы будем иметь:

L(n)=0

и найденная длина квазипериода будет совпадать с n. Заменив теперь i0 на i0 + k0, найдем следующий квазипериод и т.д. Длины всех квазипериодов, отвечающих голосовым участкам сигнала, при обычной речи будут близки между собой и их среднее значение определяет высоту звука (высота основного тона).

Условимся для простоты все полученные отрезки называть “квазипериодами” (хотя для шипящих и пауз они таковыми не являются).

Нормируем каждый квазипериод по амплитуде.

Если x1, x2,…, xn – последовательность значений сигнала на квазипериоде, то полагаем

M=Max(x1, x2,…, xn), m= min (x1, x2,…, xn)

i=1,2,… n

Если мы имеем 2 соседних квазипериода одинаковой длины n, то вычислим величину

которая характеризует, насколько один квазипериод отличается от другого. В случае отличия квазипериодов по длине, описанную величину строим аналогично, обозначая через n длину более короткого квазипериода. Вычислив такие величины для всех последовательных пар рассматриваемых квазипериодов, места смены аллофонов следует искать в середине пар, которым соответствуют локальные максимумы полученной последовательности. Пусть последовательность этих максимумов есть

e1, e2,…, eL

Сигнал разбивается на блоки, границами которых служат соответствующие отсчеты.

Далее, на каждом из блоков подсчитывается число нестрогих минимумов исходного сигнала l и строится величина

a=n/l

где n-полное число отсчетов в блоке. Поскольку произнесение глухих взрывных звуков “п, к, т” связано с кратковременным перекрыванием ротовой полости, соответствующие участки речевого сигнала содержат отрезки “пауз” - кратковременное отсутствие речи. При 8-битной записи характерным свойством пауз является большое количество участков постоянства сигнала, так что в последней формуле число l не на много меньше числа n. В результате приходим к следующему критерию:

Если для блока выполняется неравенство

a<2,

то относим его к паузе. Отметим, что этот критерий может быть использован в модуле записи для определения начала и конца речевого сигнала.

Для выделения шипящих сигнал обрабатывается высокочастотным фильтром с частотой среза 1500 Гц. Пусть - последовательность значений профильтрованного сигнала.

Нумеруя отсчеты в пределах блока от 1 до n, строим величину

Она характеризует изменение энергии блока при указанной фильтрации. Характерным свойством шипящих является то, что для них изменение энергии при указанной фильтрации невелико и мы получаем следующий критерий:

Если для блока выполняется неравенство b<2, то этот блок относится к шипящей. В начале и в конце цепочки блоков, относящихся к шипящим, ставятся метки. Аналогичные процедуры выполняются для цепочки блоков, относящихся к паузе.

Выделив шипящие и паузы, переходим к сегментации голосовых звуков. Для этого находим все локальные максимумы последовательности e1, e2,…, не относящиеся к выделенным отрезкам шипящих и пауз, и в соответствующих местах сигнала проставляем метки, считая их границами между участками голосовых аллофонов.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]