Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Lections_raspozn.docx
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
595.66 Кб
Скачать

Лекция 4

Тема. Методы формирования наборов признаков распознавания речевых сигналов.

В лекции будет рассмотрено:

Широкая фонетическая классификация звуков речи.

Психоакустические принципы восприятия речи.

Признаки распознавания на основе АВП.

Спектральные признаки распознавания.

Признаки распознавания речевых сигналов на основе кодирования с линейным предсказанием.

Мел-частотные кепстральные коэффициенты (MFCC).

    1. Процесс речеобразования и принципы восприятия речи

      1. Образование и артикуляционная классификация звуков речи

РС, как любой акустический сигнал, может быть представлен в виде звуковых волн, источник которых – органы речеобразования человека.

В процессе речеобразования воздух из легких проходит через трахею и голосовые связки, которые смыкаются и размыкаются, модулируя воздушный поток, вследствие чего он приобретает вид последовательности импульсов сложной формы. Частота этих импульсов называется частотой основного тона. Звуки речи, в которых присутствует основной тон, называются вокализованными. Они квазипериодичны, длительность квазипериодов зависит от периода основного тона и составляет 0,0025-0,01 секунд, что составляет 100-400 Гц. Далее, через гортань воздушная струя попадает в ротовые и носовые резонансные области, где она либо проходит свободно, либо встречает препятствия и с шумом преодолевает их. Возможны такие случаи:

  1. Тон, созданный голосовыми связками, в ротовой полости не осложняется шумами. Так произносятся гласные.

  2. Тон осложняется шумом из-за того, что воздушная струя в ротовой полости встречает препятствия. Однако тон преобладает над шумом, поскольку приток для воздушной среды остается достаточно широким. Так произносятся сонорные согласные.

  3. Тон осложняется шумом; шум преобладает над тоном: препятствия на пути воздушной струи заставляют ее с интенсивным шумом преодолевать их. Так произносятся звонкие шумные согласные.

  4. Голосовые связки раздвинуты, тон не образуется; звук создают одни шумы, которыми сопровождается протекание воздушной струи через ротовую полость. Так произносятся глухие шумные согласные.

При соответствующей артикуляции языка, зубов и губ в голосовом тракте могут образовываться щели или полное смыкание прохода в нем. При дальнейшем прохождении воздушной струи в первом случае образуются щелевые и смычно-щелевые согласные звуки, во втором – смычные.

Таким образом, можно классифицировать звуки по их образованию на широкие фонетические классы (ШФК), как показано на рисунке.

Согласно этой классификации к согласным относятся: шумные глухие щелевые: [ф], [с], [x], [ш], [ф’], [с’], [x’], [ш’] и шумные глухие смычно-щелевые (аффрикаты):[ц], [ч]; шумные глухие смычные: [к], [т], [п], [к’], [т’], [п’]; шумные звонкие щелевые: [в], [з], [ж], [в’], [з’], [ж’]; шумные звонкие смычные: [б], [д], [г], [б’], [д’], [г’]; сонорные: [й], [л], [л’] – щелевые, [м], [н], [м’], [н’] – смычные, [р], [р’] – дрожащие (символ «’» обозначает мягкий вариант соответствующей согласной); гласные: [и], [э], [о], [у], [а], [ы].

      1. Психоакустические принципы восприятия речи

При цифровой обработке РС наряду с особенностями их образования необходимо учитывать и их восприятие. Среди психоакустических принципов восприятия важнейшими являются абсолютный порог слышимости, критические полосы слуха и маскировка.

Абсолютный порог слышимости определяется уровнем амплитуды акустического сигнала, необходимого для того, чтобы звук был слышен в абсолютной тишине. Анализ РС с учетом абсолютного порога слышимости позволяет убрать информацию, не воспринимаемую человеческим ухом, следовательно, не имеющую существенного значения для цифровой обработки. Зависимость порога слышимости от частоты была определена экспериментально и аппроксимируется функцией:

,

где f – частота гармонического сигнала.

Слуховой анализатор разделяет весь спектр частот на отдельные частотные группы, при этом в частотной области до 500 Гц органы слуха воспринимают интенсивность звука, разделяя ее на участки постоянной абсолютной ширины, а свыше 500 Гц — на участки постоянной относительной ширины. Эти частотные интервалы называют критическими полосками слуха. Поэтому на практике удобно представить ухо как дискретный набор полосовых фильтров. В связи с чем вводится шкала частот, в которой расстоянию в одну критическую полосу соответствует 1 барк. Наиболее часто используется для дискретного набора фильтров мел-шкала, границы полос которой соответствуют центральным частотам барк-шкалы. Перевод частоты f из Гц в мел-шкалу осуществляется по формуле

Mel(f)=2595 log(1+f/700)

Представление локальных значений мощности в пределах психоакустических шкал позволяет моделировать процесс обработки РС человеческим ухом.

Важным этапом психоакустического анализа является маскировка звуков. Если ухо человека воспринимает одновременно два или несколько звуков различной громкости, то более громкий звук заглушает слабые звуки. Этот эффект можно представить с помощью маскирующей функции.

Как и любые акустические сигналы, РС характеризуется определенным набором объективных характеристик.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]