
- •Исследование параметров речевого сигнала
- •Порядок выполнения
- •Теоретическая часть
- •Порядок выполнения
- •Теоретическая часть Алгоритм разделения сигнала на речь и паузы
- •Лабораторная работа 3 Создание базы данных фонем русского языка
- •Лабораторная работа 4 Преобразование речи в текст
- •Формирование обучающей выборки для нейросети
- •1. Цель работы.
- •9. Выводы по работе
Лабораторная работа №1
Исследование параметров речевого сигнала
Цель: исследовать особенности речевого сигнала. Измерить основные характеристики сигнала с помощью звукового редактора.
Порядок выполнения
Загрузить звуковой редактор. (Cool Edit, Sound Forge, Steinberg Wavelab). Подключить к выходам звуковой карты микрофон и наушники (динамики).
Настроить параметры записи сигнала. Использовать следующие значения частоты дискретизации Fd: 44100 Гц, 22050 Гц, 11025 Гц. Разрядность - 16 бит. Количество каналов – 1 (моно).
Рисунок 1 - Установка параметров записи речевого сигнала
в редакторе Cool Edit
Произвести запись фразы, состоящей из одного предложения. Данные сохранить в виде wav-файла.
Оценить влияние значения частоты дискретизации Fd на качество звучания оцифрованного речевого сигнала.
Используя инструменты редактирования сигнала во временной области, провести сегментацию записанного речевого материала на слова. Исследовать программные модули автоматического поиска областей сигнала по требуемым параметрам:
модуль Find - NextWord (Sound Forge);
модуль Auto-Que (Cool Edit)
Используя инструменты редактирования сигнала во временной области, выделить фонемы из записанных речевых сигналов слов. Из полученного материала сформировать речевую БД фонем.
Исследовать процесс подавления шума с помощью встроенных модулей звукового редактора:
модуль Noise_Reduction (Cool Edit, Sound Forge);
Для этого в диалоговом окне «Noise Reduction» (рис. 2) используя функцию «Get Profile from Selection» вычислить спектр шумовой составляющей сигнала. Затем сохранить вычисленные параметры - функция «Save Profile».
Рисунок 2 - Подавление шума с помощью модуля Noise_Reduction звукового редактора Cool Edit
Для удаления шума из сигнала фонемы используется функция «Load Profile» (которая загружает сохраненные на предыдущем этапе параметры фонового шума). Таким образом, производится очистка исходного сигнала от шума, параметры которого были заданы. В результате получается относительно «чистое» звучание исходной фонемы.
С помощью средств амплитудно-частотного анализа редактора построить спектрограммы для фонем различных фонетических классов: тональные, сонорные, звонкие шумные длительные, звонкие шумные мгновенные, глухие шумные. Выделить различия в спектрах фонем, сделать выводы о преобладании частотных составляющих для каждого исследуемого класса. Спектральный анализ проводится с помощью функции Frequency Analysis редактора Cool Edit (рис.3). Использовать следующие параметры: FFT Size – 1024, Hamming, Linear View - отключить.
Рисунок 3 - Спектральный анализ с помощью редактора Cool Edit
Звуковой редактор Steinberg Wavelab предоставляет мощный инструмент 3D Frequency Analysis, с помощью которого можно проследить изменение частотных составляющих во времени (Рис. 4).
Рисунок 4 –Трехмерный спектральный анализ с помощью редактора Steinberg Wavelab
Для каждой реализации фонемы измерить следующие параметры:
- длительность;
- апмлитуду;
- частота основного тона (для фонем гласных);
- первые три формантные частоты и их амплитуды (для фонем глассных);
- отношение сигнал/шум;
Оценить влияние интонации на характеристики речевого сигнала.
Содержание отчета
1. Цель работы.
2. Анализ влияния параметров преобразования сигнала в цифровую форму на качество звучания, размер файла.
3. Описание выполненных исследований и данные об измеренных параметрах речевых сигналов.
4. Рисунки спектров фонем различных фонетических классов. Анализ частотных составляющих.
5. Таблицы с параметрами фонем для БД гласных русского языка.
6. Анализ влияния интонации на характеристики речевого сигнала.
7. Выводы по работе