
- •Исследование параметров речевого сигнала
- •Порядок выполнения
- •Теоретическая часть
- •Порядок выполнения
- •Теоретическая часть Алгоритм разделения сигнала на речь и паузы
- •Лабораторная работа 3 Создание базы данных фонем русского языка
- •Лабораторная работа 4 Преобразование речи в текст
- •Формирование обучающей выборки для нейросети
- •1. Цель работы.
- •9. Выводы по работе
Лабораторная работа 3 Создание базы данных фонем русского языка
Процесс формирования РБД 1) Составляется список слов, отражающий звучание указанных фонем (Таблица 1). При выделении сигналов фонем необходимо использовать слова, содержащие различные фонетические сочетания.
2) Последовательно записываются речевые сигналы слов, с указанными параметрами преобразования в цифровую форму (Таблица 2).
3) Проводится предварительная обработка, включающая удаление пауз в начале и в конце речевого сигнала.
4) Из записанного речевого сигнала слова выделяются фонемы, время звучания фонемы не должна быть меньше 36мс (800 отсчетов при частоте дискретизации 22050 Гц).
5) Полученные записи реализаций фонем и слов сохраняются в файлах формата .wav (PCM).
Шаблон имени файла - <Название фонемы>_<Номер реализации>.wav
<Слово>_<Номер реализации>.wav
В названии использовать латинские символы.
Полученные wav-файлы вместе с информацией о дикторе, разместить на сервер РБД.
Предоставить речевой материал в виде набора wav-файлов.
Таблица 1 - Список фонем
Фонема |
Слово |
Транскрипция |
Фонема |
Слово |
Транскрипция |
а |
пара |
п а! р а |
ф |
фарс |
ф а! р с |
и |
мели |
м' е! л' и |
ф' |
физика |
ф' и! з' и к а |
ы |
дыры |
д ы! р ы |
в |
ваза |
в а! з а |
у |
тулуп |
т у л у! п |
в' |
виза |
в' и! з а |
о |
город |
г о! р а т |
с |
сын |
с ы! н |
э |
цепь |
ц э! п' |
с' |
сено |
с' е! н а |
г |
гусь |
г у! с' |
з |
запах |
з а! п а х |
г' |
гибкий |
г' и! п к' и й |
з' |
корзина |
к а р з' и! н а |
п |
пыль |
п ы! л' |
ш |
шар |
шар |
п' |
пить |
п' и! т' |
щ |
щука |
щука |
б |
быть |
б ы! т' |
ж |
жир |
ж ы! р |
б' |
бить |
б' и! т1 |
х |
хлеб |
х л' е! п |
т |
тост |
т о! с т |
х' |
хитрый |
х' и! т р ы й |
т' |
тень |
т' е! н' |
м |
май |
м а! й |
д |
дым |
д ы! м |
м' |
мята |
м' а т а |
д' |
день |
д' е! н' |
н |
найти |
н а й т' и! |
к |
кот |
к о! т |
н' |
нить |
н' и! т' |
к' |
кит |
к' и! т |
л |
луч |
л у! ч |
й |
июль |
и й у! л' |
л' |
любовь |
л' у б о! ф' |
ц |
цепь |
ц э! п' |
р |
краб |
к р а! п |
ч |
чай |
ч а! й |
р' |
резать |
р' е! з а т' |
Таблица 2 - Параметры записи речевого сигнала
Параметр |
Значение |
Частота дискретизации речевого сигнала |
22050 Гц |
Разрядность |
16 |
Количество каналов (стерео / моно) |
1 (моно) |
Речевая единица |
Фонема |
Длина сегмента фонемы, (мин. длительность примера фонемы) |
36 мс |
Количество примеров для каждой фонемы в обучающей выборке |
20 фонем (200 примеров) |
Теоретическая часть
Решение задач, использующих речевые технологии, помимо собственно речевых материалов, требует также наличия большого количества данных лингвистического характера, таких, как наборы текстов, их лингвистические описания, словари различного рода и т.п. Исследования в таких областях, как синтез и распознавание речи, требуют накопления все большего и большего количества речевых фрагментов, сопровождаемых описанием соответствующих деталей этих фрагментов. Поэтому при разработке системы преобразования речи в текст возникает необходимость создания речевой базы данных.
Речевая база данных (РБД) - это база данных, в которой хранятся речевые данные в виде массивов отсчетов оцифрованного речевого сигнала, а также необходимая справочная информация (данные о дикторе, параметры сигнала и т.д.). Каждый массив отсчетов обычно записывается в отдельном файле, а в самой базе данных хранится только имя этого файла. Современное развитие вычислительной техники позволяет собирать объемные БД и хранить их в достаточно компактном виде.
Жизненный цикл РБД включает в себя создание (сбор данных), систематизацию (разметка, индексирование данных) и продолжительное интенсивное использование. РБД может использоваться большим числом разработчиков, которые могут быть заинтересованы в различных ее приложениях (распознавание и синтез речи, идентификация голоса).
Условия записи образцов речи (требования к микрофону, уровню шума, частоте оцифровки сигнала, разрядности) в БД должны быть оговорены заранее и выдержаны в последствии на протяжении всего процесса записи. Звуковые данные обычно сохраняют в цифровом виде. Далее представлена общая структура речевой базы данных:
Справочная информация о дикторе:
тип диктора (мужчина, женщина, ребенок);
фамилия, имя, отчество;
возраст.
Информация о речевых единицах:
текст;
наименование речевых единиц (слова, слоги, фонемы и т.д.);
ссылки на звуковые файлы речевых единиц.
Информация о методах вычисления признаков речевого сигнала:
название метода;
параметры;
признаки, вычисленные данным методом.
При заполнении РБД, возникает необходимость привлечения дикторов с учетом диапазона их голосов. При формировании обучающей выборки необходимо учитывать влияние на фонемы окружающих звуков.
Контрольные вопросы
Какое значение при формировании РБД имеет использование речевых образов дикторов различных возрастных групп и полов.
Назовите основные этапы жизненного цикла РБД?
Какие основные параметры записи должны быть выдержаны при создании РБД?