Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Музыкальная акустика 4 глава.docx
Скачиваний:
2
Добавлен:
01.03.2025
Размер:
452.08 Кб
Скачать

Глава 4

с развитием направления автомати-

ческого распознавания и синтеза

речи изучаются акустические характе-

ристики речевых сигналов и предпри-

мс нимаются попытки установления свя-

зи между ними и их фонетическими

признаками. Проблема заключается в

Рис. 4.6.18. Уровнеграмма том, чтобы понять, как мозг, получив

звукового сигнала информацию о характере изменения

звукового давления во времени, из-

влекает информацию о смысловом содержании речи. В этом на-

правлении получено уже очень много результатов [108, 109, 112-

116], в качестве примера можно привести одну из книг знаменитого

ученого М. Шредера «Компьютерная речь: распознавание, ком-

прессия, синтез» [111].

Однако изучение чисто акустических характеристик речевых

сигналов представляет значительную самостоятельную ценность

для систем звукозаписи, радиовещания, компьютерной обработки

речи и др.

Анализ акустических характеристик речевого сигнала начинается

с записи изменения звукового давления во времени с помощью мик-

рофона и построения уровнеграммы (см. гл. 2). Пример уровнеграм-

мы речевого сигнала показан на рис. 4.6.18. Полученные уровне-

граммы позволяют провести статистический, корреляционный

и спектральный анализ, что можно делать с помощью обычных му-

зыкальных редакторов, а также с помощью специальных про-

грамм, предназначенных именно для речевых сигналов с учетом

их специфики: например, программ Praat (Голландия), Viper

(Германия), Ultrasound (Австралия), CSRE (Англия), Phonograph

(Россия) и др.

Поскольку речевой сигнал (как и музыкальный) представляет

собой сигнал квазислучайный, т. е. предсказать его будущие зна-

чения можно только с определенной вероятностью, то к его харак-

теристикам могут быть применены методы статистического анали-

за, а именно: может быть исследовано распределение во времени

мгновенных значений и уровней речевого сигнала, длительностей

непрерывного существования разных уровней, длительностей пауз;

распределение максимальных уровней по частоте; распределение

текущей и средней мощности, спектральной плотности мощности;

кроме того, могут быть определены динамический диапазон и пик-

фактор; вычислено распределение основной фонационной часто-

ты, спектральное распределение формант и др. Исследование

этих характеристик для русской речи было выполнено в работах

В. В. Фурдуева, А. В. Римского-Корсакова, М. А. Сапожкова, Б. В. Бел-

кина, Л.В.Шитова, В. Г. Михайлова и др. [86, 117-120]. Знание

Акустика музыкальных инструментов. Акустика речи и пения

413

0,5 1,0 1,5 2,0 2,5

Рис. 4.6.19. Частотное распределе-

ние формантных областей

в русской речи

статистических характеристик ре-

чевых сигналов необходимо для

оптимальной организации систем

звукового вещания, систем звуко-

записи, современных систем сжа-

тия речевого сигнала и др.

При анализе акустических пара-

метров речевого сигнала в совре-

менных специализированных про-

граммах обычно оцениваются

уровнеграммы и все связанные с

ними параметры (динамический диапазон, распределение мгновен-

ных значений сигнала, текущая мощность и др.); одномерный

спектр (распределение формантных областей); трехмерный

спектр — 3D (изменение формы огибающей во времени) и спек-

трограммы, или сонограммы (широкополосные, узкополосные,

слуховые), из которых могут быть получены такие характеристики

как изменение основной фонационной частоты во времени, изме-

нение формантных областей, распределение гармоник голосового

источника и др., а также информация о фонетическом содержании

речевого сигнала.

Прежде всего речевой сигнал, как и рассмотренные выше сиг-

налы, создаваемые музыкальными инструментами, характеризует-

ся следующими акустическими параметрами.

Диапазон воспроизводимых частот в среднем составляет 100—

7000 Гц (для мужских голосов 80-5000 Гц, для женских 220-7000 Гц).

Расчет огибающей спектра для звуков русской речи позволяет уста-

новить среднестатистическое распределение формантных облас-

тей по частоте, по амплитуде и по ширине полосы (добротности)

(рис. 4.6.19). Анализ спектров дает возможность также рассчитать

среднее значение частоты основного тона, которое для русской

речи составляет 139 Гц (мужская речь) и 249 Гц (женская речь)

[120].

Для интегральной оценки свойств

речевого сигнала может быть рас-

считан спектр мощности и постро-

ено распределение спектральной

плотности мощности, которая для

речевого сигнала показана на рис.

4.6.20. Анализ его позволяет уста-

новить, что основная энергия рече-

вого сигнала сосредоточена в поло-

се 250-1000 Гц, спад в сторону

высоких частот происходит со ско-

ростью - 6 дБ/окт после 500 Гц.

в,дБ_

35

30

25

20

15

10

5

0

500 1000 5000 /,Гц

Рис. 4.6.20. Распределение

спектральной плотности

мощности

414