Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
main (Автосохраненный).docx
Скачиваний:
9
Добавлен:
22.08.2019
Размер:
1.74 Mб
Скачать
    1. Преобразование текста в синтезированную речь

Существуют аналогии между вычислительной обработкой звука в процессе речевого ввода и в процессе речевого вывода. Поставщики применяют различные алгоритмы, однако базовые рабочие процессы, используемые всеми необходимыми модулями, остаются одинаковыми.

Задача первого этапа речевого синтеза состоит в том, чтобы избавится от «шума»: кавычек, скобок, апострофов и знаков препинания. Она решается модулем нормализации, который обрабатывает зависящие от конкретного языка сокращения, форматы дат, времени, денежных единиц, телефонных номеров и других специальных обозначений.

Модуль преобразования переводит текст из орфографического в фонетический формат. Для некоторых языков, таких как немецкий, выполнить это легко, так как правила преобразования достаточно просты. В английском же напротив, правила отличаются большой сложностью, а для многих случаев даже не существуют. В русском языке соответствующие правила довольно просты, но также имеются некоторые аномальные случаи.

Модуль анализа выполняет одновременно лексикографическую и синтаксическую обработку для выбора между возможными вариантами произношения, а также ритма и интонации. Лексический анализ применяется для выяснения значения слова с учетом контекста, а синтаксический – для проверки порядка следования слов с целью расстановки акцентов.

Результатом работы модуля анализа является фонетическое представление исходного текста, которое передается на вход фонетического модуля. Здесь данные из входного потока заменяются такими элементами речи, как дифтонги, трифтонги и четырехзвучия. Все они были выделены из естественной человеческой речи, так что в них сохранены межфонемные переходы. Связывание или сцепление вместе этих речевых элементов позволяет получить высококачественную синтезированную речь. Объем требуемой для хранения отдельных образцов речи компьютерной памяти составляет примерно от 1 до 20 Мбайт, в зависимости от языка, конкретного приложения и потребностей рынка, на которые оно ориентировано.

Фонетический модуль обеспечивает разбиение текста на сегменты для формирования ритмического и интонационного рисунка. В контексте компьютерного синтеза речи под этим понятием подразумевается ритмический и интонационный баланс предложения. Для формирования легкой для восприятия и естественно звучащей речи хороший интонационный рисунок очень важен. Он достигается выбором надлежащей длительности воспроизведения каждой фонемы и обеспечением гладкости огибающей звуковой последовательности.

    1. Структура синтезатора речи по тексту

Синтез устной речи по тексту осуществляется на основе лексико-грамматического анализа входного текста путем моделирования процессов речеобразования с учетом правил произношения звуков и интонирования, свойственных данному языку. Орфографический текст документа поступает на вход синтезатора и далее подвергается последовательной обработке рядом специализированных процессоров в соответствии с общей структурой синтезатора речи, представленной на рисунке 3.1. В общем случае синтезатор включает четыре основных модуля: текстовый процессор, просодический процессор, фонетически процессор и акустический процессор. Каждый из этих модулей поддерживается наборами соответствующих баз данных и правил. Рассмотрим основные функции этих модулей.

Рисунок 3.1 – Структура системы синтезатора речи

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]