
- •Исследование параметров речевого сигнала
- •Порядок выполнения
- •Теоретическая часть
- •Порядок выполнения
- •Теоретическая часть Алгоритм разделения сигнала на речь и паузы
- •Лабораторная работа 3 Создание базы данных фонем русского языка
- •Лабораторная работа 4 Преобразование речи в текст
- •Формирование обучающей выборки для нейросети
- •1. Цель работы.
- •9. Выводы по работе
Порядок выполнения
Подключить к выходам звуковой карты микрофон и наушники (динамики).
Запустить из среды Matlab файл wav.m модуля измерения характеристик речевого сигнала. Откроется рабочая область программы (рисунок 2.1).
Рис. 2.1. Рабочая область программы
Настроить параметры записи сигнала. Для этого в меню Параметры - Запись (рис. 2.2), следует выбрать значения частоты дискретизации и количества бит на отсчет (по умолчанию эти величины равны 44100Гц и 16 бит, соответственно).
Рис. 2.2. Окно установки параметров записи
Произвести запись фразы, состоящей из одного предложения. Данные сохранить в виде wav-файла. Запись и воспроизведение осуществляются с помощью панели управления (кнопки: Запись, Воспроизведение, Пауза, Стоп). Открытие и сохранение wav - файлов в программе выполняется с помощью диалоговых окон, вызываемых через соответствующие команды в меню Файл. Открытый файл или записанный сигнал отображается в графической области приложения (рис. 2.1). Нажатие кнопки Увеличение включает разметку графика сигнала, и появляется возможность масштабирования (Нажатие левой кнопки мыши - увеличение, правой - сжатие, есть возможность выделения участка сигнала для просмотра под увеличением).
Выполнить сегментацию записанного речевого сигнала на слова. Для это нужно воспользоваться функцией Сегментация, предназначенной для выделения слов в речевом потоке. При использовании этой функции слитные участки речи из сигнала выделяются в отдельные сегменты, которые отображаются в Списке сигналов (рис. 2.1). Выбрав из списка сигнал, его можно просмотреть и сохранить в .wav файл. Для использования данной функции необходимо, чтобы первые 100мс сигнала не содержали речи.
Оценить качество сегментации, изменяя значения порог энергии сигнала P (файл words.m). Отобразить в отчете результат разбиения фразы на слова (Таблица 1).
-
k
Результат сегментации
60
очень_хорошо_быть_важным_но_гораздо_важнее_быть_хорошим
Для кепстрального анализа задайте параметры преобразования Фурье (количество точек, участвующих в ПФ, тип окна, количество точек перекрытия), которые задаются в меню Параметры - Преобразование Фурье (рис. 2.6).
Рис. 2.6. Окно установки параметров преобразования Фурье
Определите частоту основного тона для вокализованных звуков записанного речевого сигнала. Для этого воспользуйтесь функцией вычисления кепстра сигнала, вызываемой нажатием кнопки «Кепстр». При этом графически отображается кепстр анализируемого речевого сигнала (рис. 2.7), автоматически определяется значение частоты основного тона. Если сегмент не вокализован, выдается предупреждение.
Рис. 2.7. Окно кепстрального анализа
С помощью инструмента формантного анализа определите значения трех первых формантных частот вокализованных звуков записанного речевого сигнала. Запуск формантного анализа вызывает окно, в котором строится график кепстрально сглаженного логарифма спектра (рис. 2.8). Пики на данном графике соответствуют формантным частотам. Бегунок, позволяет выбрать область сигнала, для анализа, данная функция позволяет проследить изменения формантных частот во времени. В расположенном ниже текстовом поле предлагается определить размер анализируемой области кепстра. Изменение этого значения в диапазоне (0;0.01)с влияет на “сглаженность” спектра: чем меньше значение, тем спектр более плавный. Значения первых трех формантных частот в герцах автоматически определяются и выводятся в нижней строке окна (рис. 2.8).
Рис. 5.8. Окно формантного анализа
диктор (М - мужской голос, Ж - женский голос) |
гласная |
fо, Гц |
F1, Гц |
F2, Гц |
F3, Гц |
М |
а о … |
98,4 99,3 … |
462 387 … |
1022 1485 … |
1894 1808 … |