Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Cool Edit 2k

.doc
Скачиваний:
2
Добавлен:
03.09.2019
Размер:
289.79 Кб
Скачать

А

УДК 681.3.06

нализ и синтез с использованием звукового редактора Соо
lEdit 2000

Данилов В.В

Для измерения характеристик речевого сигнала используется звуковой редактор СооlEdit.

Речевой сигнал – это нестационарный случайный процесс. Искусственное воспроизведение (синтез) речевого сигнала требует предварительного его анализа с целью с целью вычисления признаков на основе которых

происходит воспроизведение сигнала.

В первую очередь следует записать исходный сигнал и фоновый шум. Для этого необходимо с помощью программы Cool Edit 2000 :

  • создать волновую форму с параметрами, указанными на рис.1,

  • записать исходный речевой сигнал с помощью панели контроля (рис.2), как можно более монотонно произнеся требующуюся фонему,

  • с оздать новую волновую форму с такими же параметрами

  • записать 1-2 секунды фонового шума

Фильтрование исходного сигнала от фонового шума

Ч тобы произвести фильтрование требуется выделить спектр фонового шума с целью удаления его составляющих из исходного сигнала. С помощью окна Noise Reduction (Transform/Noise Reduction/Noise Reduction) (рис.3). посредством функции Get Profile from Selection вычисляется спектр фонового шума. Для того, чтобы сохранить вычисленные параметры используется функция Save Profile.

Далее производится урезание волновой формы исходного сигнала до одного периода с целью получения «чистого» тона требующейся фонемы. Обычно наиболее монотонна средняя часть записанного звука.

С ледующее что необходимо сделать – это очистить полученный период волны от фонового шума. Для этого используется окно Noise Reduction и функция Load Profile (которая позволит загрузить параметры фонового шума). При нажатии кнопки OK производится очистка исходного сигнала от шума, параметры которого были заданы. В результате произведенных операций получается относительно «чистое» звучание исходной фонемы.

Анализ исходного сигнала

Все операции с исходным сигналом были совершены для того, чтобы максимально упростить процесс его спектрального анализа.

Спектральный анализ проводится посредством окна Frequency Analysis (Analyze/Frequency Analysis) (рис.4). Указанные на рисунке наиболее оптимальны при анализе исходного сигнала (FFT Size – 1024, Hamming, отключенный Linear View).

И спользование функции Scan приводит к обновлению информации о спектре в окне. По этому спектру определяется несколько важнейших параметров сигнала для правильного синтеза звука. Это – частота основного тона, частоты обертонов, а также их амплитуды (громкость) в децибелах (рис.5).

В данном случае производилась запись фонемы «м» и соответствующие параметры измерялись для нее (таблица 1).

Для улучшения качества звучания можно также провести анализ общей формы огибающей (определить остальные обертоны и их амплитуды).

Для данного случая все параметры сведены в таблицу 2.

Таблица 1. Таблица 2.

Частота

Амплитуда

657 Гц

-52 дБ

752 Гц

-49 дБ

838 Гц

-61 дБ

985 Гц

-59 дБ

1325 Гц

-58 дБ

1437-2336 Гц

-62 дБ

2899 Гц

-55 дБ

3848 Гц

-59 дБ

4404-6089 Гц

-76 дБ

6426-7763 Гц

-83 дБ

8417-10730 Гц

-90 дБ

Частота

Амплитуда

Примечание

108 Гц

-25 дБ

Основной тон

217 Гц

-25 дБ

Первый обертон

325 Гц

-35 дБ

Второй обертон

432 Гц

-46 дБ

Третий обертон

582 Гц

-44 дБ

Четвертый обертон


Синтез речевого сигнала

После проведенного анализа параметров сигнала генерируется базовый сигнал, который будет основой дальнейших операций.

В новом файле волновой формы при помощи окна Generate Tones (Generate/Tones) (рис.6) в местах помеченных на рисунке стрелками выставляются соотвествующие параметры (основной тон и обертоны). Основной тон выставляется так, как он и был измерен (то есть в данном случае в окно ввода заносится число 108). Обертоны заносятся таким образом – вычисляется множитель обертона путем деления частоты обертона на частоту основного тона. Получившийся коэффициент заносится в окно ввода обертона. С помощью слайдеров можно выставить пропорциональное соотношение обертонов друг к другу. При этом надо учитывать, что основной тон тоже является частотным компонентом и заносится как первый обертон. В результате в полях Frequency Components будут находится основной тон и четыре обертона.

Громкость (амплитуда) (dB Volume) выставляется любой, но лучше всего выставлять от –10 до –6. Длительность (Duration) выставляется также любой.

Фильтрация и повышение качественности сигнала

В результате проделанных действий получатся некоторый сигнал, который по звуку слабо похож на исходный сигнал. Поэтому в целях повышения качества сигнала следует провести фильтрацию сигнала на основе параметров из таблиц 1 и 2 (для приведенного случая).

При помощи окна FFT Filter (Transform/Filters/FFT Filter) (рис.7) посредством фильтров (пример на рис.7) повторяется огибающая исходного сигнала на основе таблицы 2.

Для приведенного случая все параметры накладываемого фильтра сведены в таблицу 3.

В результате производимых действий получается форма огибающей сигнала близкая к форме огибающей исходного сигнала, при этом качество сигнала становится значительно лучше.

Очевидно, что для получения более качественного сигнала фильтр надо пересчитывать и накладывать несколько раз.

Т аблица 3 (фильтр для фонемы «м») (рис.8)

Диапазон частот фильтрации

Уровень выделения/маскирования

44 Гц

+24 дБ

64 Гц

+28 дБ

88 Гц

-22 дБ

108 Гц

-21 дБ

125 Гц

-17 дБ

151 Гц

+16 дБ

172 Гц

+22 дБ

197 Гц

-27 дБ

214 Гц

-21 дБ

238 Гц

-16 дБ

280 Гц

+23 дБ

296 Гц

-27 дБ

321 Гц

-16 дБ

339 Гц

-12 дБ

388 Гц

+18 дБ

432 Гц

-17 дБ

495 Гц

+26 дБ

536 Гц

+35 дБ

582 Гц

-22 дБ

666 Гц

+33 дБ

742 Гц

+33 дБ

783 Гц

+20 дБ

826 Гц

+20 дБ

872 Гц

+5 дБ

998 Гц

+32 дБ

1082 Гц

+11 дБ

1142 Гц

+21 дБ

1206 Гц

+7 дБ

1273-2638 Гц

+29 дБ

2860 Гц

+42 дБ

3549-3848 Гц

+27 дБ

4287-5615 Гц

+13 дБ


Приложение

Приводятся таблицы для генерации фонем «и» и «я».

Фонема «и».

Частота

Амплитуда

Примечание

108 Гц

-17 дБ

Основной тон

130 Гц

-17 дБ

Первый обертон

242 Гц

-15 дБ

Второй обертон

343 Гц

-38 дБ

Третий обертон

475 Гц

-42 дБ

Четвертый обертон

Диапазон частот фильтрации

Уровень выделения/маскирования

44 Гц

+30 дБ

64 Гц

+27 дБ

88 Гц

-17 дБ

1 08 Гц

-6 дБ

131 Гц

-4 дБ

151 Гц

+18 дБ

192 Гц

-4 дБ

214 Гц

-4 дБ

238 Гц

-7 дБ

256 Гц

-9 дБ

296 Гц

-5 дБ

321 Гц

-16 дБ

339 Гц

-24 дБ

367 Гц

-15 дБ

409 Гц

-9 дБ

481 Гц

-26 дБ

536-1142 Гц

-4 дБ

1206 Гц

+8 дБ

1273-1380 Гц

+4 дБ

1456 Гц

+6 дБ

1667 Гц

+2 дБ

2014 Гц

+20 дБ

2125 Гц

+31 дБ

2567 Гц

-2 дБ

3363-5615 Гц

+29 дБ

7159 Гц

+24 дБ

Фонема «я».

Частота

Амплитуда

Примечание

108 Гц

-26 дБ

Основной тон

217 Гц

-28 дБ

Первый обертон

317 Гц

-31 дБ

Второй обертон

415 Гц

-36 дБ

Третий обертон

515 Гц

-44 дБ

Четвертый обертон

Диапазон частот фильтрации

Уровень выделения/маскирования

44 Гц

+23 дБ

64 Гц

+16 дБ

88 Гц

-15 дБ

108 Гц

-14 дБ

131 Гц

-11 дБ

155 Гц

+12 дБ

170 Гц

+18 дБ

214 Гц

-21 дБ

256 Гц

+13 дБ

296 Гц

-5 дБ

327 Гц

-20 дБ

343 Гц

-25 дБ

361 Гц

-7 дБ

415 Гц

-16 дБ

475 Гц

-3 дБ

515 Гц

-16 дБ

622 Гц

+24 дБ

712-1039 Гц

+17 дБ

1882-2822 Гц

+12 дБ

3229-7659 Гц

+4 дБ


Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]