Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Биофизика.doc
Скачиваний:
3
Добавлен:
01.07.2025
Размер:
14.57 Mб
Скачать

Глава 13. Речеобразующая система человека

Речь состоит из последовательности звуков. Звуки и переходы между ними служат символическим представлением информации. Порядок следования звуков (символов) определяется правилами языка. Изучение этих правил и их роли в общении между людьми составляет предмет лингвистики, анализ и классификация самих звуков речи — предмет фонетики.

13.1. Механизм речеобразования

На рентгеновском снимке (рис. 13.1) показаны наиболее важные органы речеобразующей системы человека. Голосовой тракт, который на рисунке обведен пунктиром, начинается с прохода между голосовыми складками, называемого голосовой щелью, и заканчивается у губ. Голосовой тракт, таким образом, состоит из гортани (от пищевода до рта) и рта, или ротовой полости. У взрослого мужчины общая длина голосового тракта составляет примерно 17 см. Площадь поперечного сечения голосового тракта, которая определяется положением языка, губ, челюстей и небной занавески, может изменяться от нуля (тракт полностью перекрыт) до примерно 20 см2. Носовая полость начинается у небной занавески и заканчивается ноздрями. При опущенной небной занавеске носовая полость акустически соединена с голосовым трактом и участвует в образовании носовых звуков речи. При изучении процесса речеобразования полезно изображать основные органы физической системы в таком виде, при котором становится ясной математическая сторона вопроса. На рис. 13.2 показано подробное схематическое изображение речеобразующей системы. Для полноты в диаграмму включены и такие органы, как легкие, бронхи и трахея, расположенные ниже гортани. Совокупность этих органов служит источником энергии для образования речи. Речь представляет собой акустическую волну, которая вначале излучается этой системой при выталкивании воздуха из легких и затем преобразуется в голосовом тракте. В качестве примера па рис. 13.3 показано речевое колебание, соответствующее слову «СПЕКТР». Основные особенности колебания легко объяснить на основе подробного анализа механизма образования речи.

Рис. 13.1. Рентгеновский снимок речеобразующих органов человека

Рис. 13.2. Схематическое изображение речеобразующих органов человека

Звуки речи могут быть разделены на три четко выраженные группы по типу возбуждения. Вокализованные образуются проталкиванием воздуха через голосовую щель, при котором периодически напрягаются и расслабляются голосовые складки и возникает квазипериодическая последовательность импульсов потока воздуха, возбуждающая голосовой тракт. Фрикативные или невокализованные звуки генерируются при сужении голосового тракта в каком-либо месте (обычно в конце рта) и проталкивании воздуха через суженное место со скоростью, достаточно высокой для образования турбулентного воздушного потока. Таким образом, формируется источник широкополосного шума, возбуждающего голосовой тракт. При произнесении взрывных звуков голосовой тракт полностью закрывается (обычно в начале голосового тракта). За этой смычкой возникает повышенное сжатие воздуха. Затем воздух внезапно высвобождается.

Рис. 13.3. Запись последовательности слов «спектр»

Голосовой тракт и носовая полость показаны на рис. 13.2 в виде труб с переменной по продольной оси площадью поперечного сечения. При прохождении звуковых волн через эти трубы их частотный спектр изменяется в соответствии с частотной избирательностью трубы. Этот эффект похож на резонансные явления, происходящие в трубах органов и духовых музыкальных инструментов. При описании речеобразования резонансные частоты трубы голосового тракта называют форматными частотами или просто формантами. Формантные частоты зависят от конфигурации и размеров голосового тракта: произвольная форма тракта может быть описана набором формантных частот. Различные звуки образуются путем изменения формы голосового тракта. Таким образом, спектральные свойства речевого сигнала изменяются во времени в соответствии с изменением формы голосового тракта.

На рис. 13.4 показаны спектры гласных русского языка, полученные при их фонации женщиной среднего возраста с голосовым трактом без патологических изменений.

Для объективной оценки голосового аппарата человека используются различные методы компьютерного анализа сигнала голоса, ориентированные как на пространство сигналов, так и на пространство частот.

Ф онема «а»

Ф онема «е»

Ф онема «и»

Ф онема «о»

Ф онема «у»

Ф онема «э»

Рис. 13.4. Оконные преобразования Фурье основных гласных русского языка

Так как сигнал голоса относится к нестационарным сигналам, то для его анализа предпочтительно использовать частотно-временные представления, наиболее распространенным из которых является сонограмма. Для получения сонограммы необходимо установить так называемый фрейм - это длина (число дискретных отсчетов) того интервала речи, который представляется оконным преобразованием Фурье, соответственно звуковой сигнал представляется в виде смежных фрагментов. Для каждого фрагмента применяется дискретное преобразование Фурье, которое выдает все частоты (амплитуды этих частот), которые присутствуют в обрабатываемом сигнале. Затем фрейм перемещается на некоторое расстояние вперед (обычно на размер самого фрейма) по звуковому сигналу и переключаются на обработку следующего фрагмента. И так далее. В итоге получаем частотно-временную плоскость - сонограмму, по структуре напоминающую формат телевизионного изображения. Каждая строчка этой плоскости соответствует дискретному преобразованию Фурье соответствующего фрейма. Переходя от строчки к строчке сонограммы, мы можем проследить эволюцию спектров Фурье фреймов во времени. Сравнивая амплитуды частот соседних фрагментов, можно судить о том, какие изменения происходят в звуковом сигнале в конкретный момент времени. эти изменения в разных полосах спектра нередко дают прямые указания на то, в каком состоянии находятся сейчас органы речевого тракта диктора.

Однако такое представление обладает существенным недостатком, связанным с постоянством ширины «окна». Слишком широкое «окно» снижает временное разрешение сигнала, а слишком узкое приводит к большим частотным погрешностям. Компромиссный вариант, реализуемый посредством использования «окон» с перекрытием, должен был бы повысить временное и частотное разрешения. Однако на низких частотах повышение временного разрешения является избыточным с точки зрения информативного подхода, а, учитывая, нестационарность сигнала голоса это приводит к негативным последствиям, связанным с увеличением помех на «картине» голоса. В области же верхних частот нестационарность сигнала существенно сказывается на спектральную «картину», так как она как раз и обусловлена нестационарностью высокочастотных составляющих сигнала, поэтому высокочастотная область сонограммы наименее устойчивая, следовательно, наименее информативная.

Подводя итого вышесказанному, приходим к выводу, что основным требованием к «картине» голоса при диагностике заболеваний голосового аппарата является возможность концентрации исследователя на группе, желательно взаимно не зависимых гармоник, например, на нескольких формантах, и отслеживании их эволюций во времени в течение произношения тестового слова или времени фонации с высоким разрешением. Этим требованиям удовлетворяет вейвлет-преобразование, которое позволяет повышать разрешение во времени на высоких частотах анализа и повышать разрешение по частоте на низких частотах анализа.

Вейвлет-преобразование представляет сигнал голоса в виде «картины», состоящей из горизонтальных полос, соответствующих формантным частотам. При этом их число не отличается существенно как для фонемы «а» - наиболее насыщенной кратными гармониками, так и для фонемы «и» - наименее насыщенной гармоническими составляющими. Некоторые вейвлет-плоскости фонемы «Е» в слове «СПЕКТР» показаны на рис. 13.5.

Вейвлет-преобразование имеет много общего с преобразованием Фурье. В то же время имеется ряд достаточно существенных отличий. Семейства вейвлетов во временной или частотной области используются для представления сигналов и функций в виде суперпозиций вейвлетов на разных уровнях декомпозиции (разложения) сигналов. Математический аппарат вейвлет-преобразований находится в стадии активной разработки, однако специальные пакеты расширений по вейвлетам уже присутствуют в основных системах компьютерной математики. Вейвлет спектр, в отличие от преобразования Фурье, является двумерным и определяет двумерную поверхность в пространстве переменных a и b. При графическом представлении параметр растяжения/сжатия спектра (параметр масштаба) a откладывается по оси ординат, параметр локализации b по оси абсцисс – оси независимого переменного сигнала.

резонансные частоты голосового тракта имеют вид затемненных областей на вейвлет-плоскости (13.5). Анализ спектров гласных показывает, что при фонации гласных мы имеем дело с квазипериодическим сигналом, состав которого определяю кратные гармоники основного тона и гармоники обертонов в высокочастотной области.

рис. 13.5. сигнал голоса мальчика, фонируемого гласную И, вверху; Фурье-спектр этого сигнала, в центре; вейвлет плоскость того же сигнала (первая форманта соответствует частоте 300 Гц, вторая 604 Гц, верхняя частота вейвлет – плоскости 4410 Гц, нижняя -176 Гц)

Однако большая часть энергия сигнала может быть сосредоточена не в области основной гармоники, а в более высокочастотной области, причем это характерно для большей части гласных фонем. Исключением является фонема «И», в которой основная энергия сигнала сосредоточена в основной гармонике. Кроме того, фонема «И» включает минимум кратных гармоник, а также в ней представлены обертоны.