Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
11 Механизмы формирования речи человеком и стру...docx
Скачиваний:
6
Добавлен:
21.11.2019
Размер:
103.36 Кб
Скачать

Лекция 11

Механизмы формирования речи человеком и структура речевого сигнала. Формирование речевых сообщений. Устройства вывода речи.

Слайд 1. Тема

Механизмы формирования речи человеком и структура речевого сигнала.

Для понимания принципов автоматического формирования (т.е. синтеза) и распознавания (т.е анализа) речи вначале необходимо познакомиться с цифровым звуком и со структурой речевого сигнала, формируемого и воспринимаемого человеком. Звук неразрывно связан с изменением состояния среды, т. е. распространяющейся в ней несущей энергию волной. В результате механических колебаний частиц воздуха, вызываемых голосовым трактом человека, диффузором громкоговорителя или иным образом происходит передача первоначального звукового возмущения. Тело, вызывающее звуковую волну, называют источником звука. Слуховой аппарат человека воспринимает эти колебания частиц воздуха, воздействуя на слуховые рецепторы.

Преобразование звуковых колебаний в аналоговый электрический сигнал может быть выполнено аналогично слуховому аппарату человека. Посредством простейшего микрофона, состоящего из мембраны из тонкого материала и связанной с ней катушкой индуктивности, включенной в электрическую цепь, механические колебания воздуха преобразуются в соответствующие изменения электрического сопротивления, а следовательно, и колебания напряжения в этой цепи. Аналоговый сигнал можно преобразовать в цифровую форму для обработки в компьютере цифровыми методами. Аналоговый и цифровой сигналы непосредственно не могут восприниматься человеком, а для их восприятия необходимо заставить колебаться какой-нибудь предмет — диффузор громкоговорителя, создающий звуковую волну в воздухе.

Слайд 2. Модель голосового тракта человека

а) Модель голосового тракта человека (1 - легкие, 2 - трахея и бронхи, 3 - голосовые связки, 4 - гортань, 5 - язык, 6 - полость носа, 7 - полость рта).

б) Форма акустической трубы для звуков «а» и «э» и амплитудно-частотные характеристики.

Речь человека — это непрерывная последовательность звуков. Эта последовательность звуков формируется голосовым трактом человека из периодического и шумового сигналов. Затем сформированное речевое сообщение передается в виде звуковых колебаний воздушной среды. Голосовой тракт человека, модель которого приведена на рисунке а (слайд 2), состоит из множества органов: легких 1, трахеи и бронхов 2, голосовых связок 3, гортани 4, языка 5, полости носа 6 и рта 7. Легкие создают избыточное давление воздуха, которое через трахею и бронхи передается к гортани и приводит к размыканию сомкнутых голосовых связок. Воздух получает выход, давление падает, а связки вновь смыкаются. В результате таких действий периодически меняющееся давление воздушной среды приводит к появлению звуков; частота изменения давления носит название частоты основного тона, а формируемые звуки — звонких. Такие звуки получаются при произношении гласных букв «а» или «э». Голосовой тракт возбуждается и при слегка раскрытых голосовых связках — воздух проходит через них, вызывая их вибрацию. Формируемые при этом звуки являются глухими. Полости глотки, носа и рта служат резонаторами; они определяют спектральные характеристики звука. В упрощенной модели голосового тракта мягкое небо и носовую полость можно не рассматривать, тогда его модель выглядит как некоторая акустическая труба, с одной стороны накачиваемая управляемым источником давления (легкими и голосовыми связками), а с другой — ее конец (он соответствует рту) излучает звуковые колебания в воздушную среду.

При снятии частотной характеристики такой трубы можно заметить несколько резонансов, частоты которых носят название формантов голосового тракта. Воспринимаемые человеческим ухом формантные частоты и распределение амплитуд колебаний вблизи них человек интерпретирует как речь. Особенно важны форманты при произношении гласных звуков. Считается, что мужской голос обладает четырьмя формантами, а женский — тремя. На практике полагают, что все информативные признаки речи проявляются в диапазоне частот от 100 Гц до 4,0 кГц, хотя человеческое ухо способно воспринимать звуки, частота которых лежит в пределах от 20 Гц до 20 кГц и даже выше. Именно в частотном диапазоне от 100 Гц до 4,0 кГц, ответственном за разборчивость и ясность воспринимаемого речевого сигнала, и присутствуют все форманты; в зависимости от произносимых звуков они непрерывно смещаются, а амплитуда звуковых колебаний вблизи них изменяется. Смещение формантных частот происходит за счет мышечных усилий, приводящих к изменению параметров голосового тракта, т. е. изменению диаметра акустической трубы на модели голосового тракта. Для звуков «а» и «э» форма акустической трубы и амплитудно-частотные характеристики A(f) приведены на рисунке б (слайд 2). Для разборчивого восприятия речи необходимы первые три форманты.

Формирование речевых сообщений и устройства вывода речи

Вначале остановимся на формировании и выводе речевых сообщений. Для вывода такого сообщения необходимо преобразовать его символьное представление, сформированное и хранящееся в памяти компьютера, в звуковые (речевые) сигналы. Для преобразования сообщения в речевой сигнал могут быть использованы различные способы и средства, выбор которых определяется требуемым качеством речи, объемом словаря и допустимыми затратами.

Слайд 3. Способы формирования речевых сообщений

Существует два различных способа формирования речевых сообщений:

  • формирование сообщения по образцам (компилятивный синтез);

  • синтез сообщения по правилам.

Чтобы сформировать сигнал речевого сообщения, необходимо выполнить два этапа. Вначале нужно сконструировать сообщение, а после этого выполнить синтез речевого сигнала. Конструирование речевого сообщения — это довольно сложный процесс, в результате которого вырабатывается последовательность команд управления для аппаратуры синтезатора. Конструирование речевого сообщения может выполняться в ПК программным путем или специальным встроенным в синтезатор микропроцессором. Выработанная последовательность команд служит для управления аппаратурой синтезатора, осуществляющего непосредственное преобразование речевого сигнала.

Слайд 4. Формирование сообщения по образцам

Формирование речевого сообщения по образцам.

Для формирования сообщения по образцам необходимо, чтобы в память компьютера были занесены заранее все возможные выходные речевые сообщения. Эти сообщения образуют словарный запас, или разговорник устройства речевого вывода. Никакие другие слова, кроме тех, что записаны в память компьютера, в сообщении появиться не могут. При необходимости сформировать какое-либо сообщение компьютер (программно или посредством микропроцессора) вырабатывает последовательность поисковых признаков, находит необходимые слова и словосочетания в памяти и передает их в ПУ, где будет окончательно сформировано нужное сообщение и преобразовано в аналоговый вид. Но непосредственно такой способ формирования сообщений пригоден только для очень коротких сообщений, число которых также невелико.

Для создания словаря-разговорника при формировании речевого сообщения по образцам оператор должен занести в память компьютера все необходимые слова. Это делается посредством микрофона, аналоговый сигнал от которого с помощью ПНК (преобразователь напряжение–код) преобразуется в последовательность цифровых отсчетов, а затем эта последовательность обязательно подвергается процедуре сжатия. Полученная сжатая последовательность числовых отсчетов и представляет собой описание речевого сообщения; она сохраняется в компьютере. Как уже было описано выше, на этапе конструирования речевого сообщения производится поиск нужного сжатого описания в памяти компьютера, а затем на этапе синтеза — восстановление несжатого описания и преобразование его в аналоговую форму с помощью ПКН (преобразователь код–напряжение). Большое разнообразие устройств формирования речи по образцам вызвано различными способами описания и сжатия речевого сигнала, поскольку они определяют возможный словарь, качество звучания и обладают различной сложностью и ценой аппаратной реализации. С их помощью можно получить достаточно хорошее качество воспроизведения речевых сообщений, но объем словаря сообщений и их длительность ограничены.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]