Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Руководство к лаб.работам_ver3f.doc
Скачиваний:
182
Добавлен:
14.03.2016
Размер:
5.56 Mб
Скачать
  1. Модификация фонограмм

Модификация основных параметров речевого сигнала широко используются в современных речевых технологиях (рис.Б.3.1) как сама по себе, так и в качестве вспомогательной операции.

Рис.Б.3.1. Модификация фонограмм области применения

Операция изменения темпа позволяет так обработать речевой сигнал, чтобы скорость произнесения изменялась в заданное количество раз, но при этом тембр (частота основного тона) голоса оставалась без изменений. Можно привести следующие примеры использования изменения темпа речи:

  • повышение комфортности восприятия речевой информации (настройка подходящей скорости воспроизведения при прослушивании аудиокниг, аудиоэкскурсий и т.п.),

  • ведение оперативной стенографии (ручной перевод фонограммы в текстовую форму),

  • быстрое прослушивание фонограмм, контролируемая перемотка фонограмм,

  • обеспечение необходимой скорости синтеза в синтезаторах речи.

На сегодняшний день, несмотря на наличие целого ряда методов и способов изменения временной структуры речевых сигналов, еще не удалось достигнуть возможности изменения и надежного распознавания речи в темпе, приближенному к граничному темпу восприятия информации на слух, который приблизительно в 4 раза превышает темп речеобразования. Причиной этого является отсутствие глубоких теоретических и экспериментальных исследований процессов изменения темпа речи человеком.

Таким образом, исследование и создание методов, алгоритмов и способов временной трансформации речевых сигналов с целью обеспечения возможности эффективного ускорения или замедления темпа речевой информации в широком диапазоне сегодня представляет собой актуальную задачу и имеет теоретический и практический интерес.

Начальный этап обработки фонограммы при реализации алгоритма модификации темпа речи состоит из следующих шагов:

  • аналого-цифровое преобразование речевого сигнала,

  • определение участков фонограммы с речевой активностью говорящего с помощью алгоритма VAD,

  • автоматический анализ и классификация речевых отрезков: определяются типы временных сегментов и основные характеристики, присущие каждому типу.

Вектор параметров, полученный технологическими методами, описывает каждый сегмент обрабатываемой фонограммы и используется непосредственно для реализации функционального метода, в частности алгоритма изменения темпа речи.

Последовательность операций при модификации темпа речевого сигнала представлена в виде блок-схемы на рис.Б.3.2.

Использование многоуровневой сегментации РС (рис.Б.3.2., бл. 1..3) при реализации алгоритма МВС показано на рис.Б.3.2.

Важно отметить, что исследование методов модификации фонограмм показало, что для разных типов речевых сегментов следует применять различные алгоритмы сжатия (растяжения).

Рис.Б.3.2. Основные этапы работы алгоритма изменения темпа произнесения

Рис.Б.3.3. Использование МВС для алгоритма изменения темпа произнесения РС

85

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]