- •Введение
- •Технико-экономическое обоснование работы
- •Описание предметной области
- •Анализ существующих аналогов
- •Руководство оператора;
- •Преобразование текста в синтезированную речь
- •Структура синтезатора речи по тексту
- •Текстовый процессор
- •Просодический процессор
- •Фонетический процессор
- •Акустический процессор
- •Компоненты Speech api
- •Необходимые компоненты и их установка
- •Оценка разборчивости синтезированной речи
- •Выбор языка программирования
- •Разработка алгоритмов
- •Общий алгоритм решения задачи
- •Алгоритм подключения голосовых модулей
- •Алгоритм настройки голосовых модулей
- •Алгоритм управления голосовым модулем
- •Описание логической структуры разработанной программы
- •Разработка интерфейса пользователя
- •Разработка форм
- •Структура программы
- •Проверка программы
- •Настройка программы
- •Сообщения системному программисту
- •Руководство оператора
- •Назначение и условия применения программы
- •Обращение к программе для запуска
- •Входные и выходные данные
- •Сообщения пользователю
- •Заключение
- •Список используемых источников
Преобразование текста в синтезированную речь
Существуют аналогии между вычислительной обработкой звука в процессе речевого ввода и в процессе речевого вывода. Поставщики применяют различные алгоритмы, однако базовые рабочие процессы, используемые всеми необходимыми модулями, остаются одинаковыми.
Задача первого этапа речевого синтеза состоит в том, чтобы избавится от «шума»: кавычек, скобок, апострофов и знаков препинания. Она решается модулем нормализации, который обрабатывает зависящие от конкретного языка сокращения, форматы дат, времени, денежных единиц, телефонных номеров и других специальных обозначений.
Модуль преобразования переводит текст из орфографического в фонетический формат. Для некоторых языков, таких как немецкий, выполнить это легко, так как правила преобразования достаточно просты. В английском же напротив, правила отличаются большой сложностью, а для многих случаев даже не существуют. В русском языке соответствующие правила довольно просты, но также имеются некоторые аномальные случаи.
Модуль анализа выполняет одновременно лексикографическую и синтаксическую обработку для выбора между возможными вариантами произношения, а также ритма и интонации. Лексический анализ применяется для выяснения значения слова с учетом контекста, а синтаксический – для проверки порядка следования слов с целью расстановки акцентов.
Результатом работы модуля анализа является фонетическое представление исходного текста, которое передается на вход фонетического модуля. Здесь данные из входного потока заменяются такими элементами речи, как дифтонги, трифтонги и четырехзвучия. Все они были выделены из естественной человеческой речи, так что в них сохранены межфонемные переходы. Связывание или сцепление вместе этих речевых элементов позволяет получить высококачественную синтезированную речь. Объем требуемой для хранения отдельных образцов речи компьютерной памяти составляет примерно от 1 до 20 Мбайт, в зависимости от языка, конкретного приложения и потребностей рынка, на которые оно ориентировано.
Фонетический модуль обеспечивает разбиение текста на сегменты для формирования ритмического и интонационного рисунка. В контексте компьютерного синтеза речи под этим понятием подразумевается ритмический и интонационный баланс предложения. Для формирования легкой для восприятия и естественно звучащей речи хороший интонационный рисунок очень важен. Он достигается выбором надлежащей длительности воспроизведения каждой фонемы и обеспечением гладкости огибающей звуковой последовательности.
Структура синтезатора речи по тексту
Синтез устной речи по тексту осуществляется на основе лексико-грамматического анализа входного текста путем моделирования процессов речеобразования с учетом правил произношения звуков и интонирования, свойственных данному языку. Орфографический текст документа поступает на вход синтезатора и далее подвергается последовательной обработке рядом специализированных процессоров в соответствии с общей структурой синтезатора речи, представленной на рисунке 3.1. В общем случае синтезатор включает четыре основных модуля: текстовый процессор, просодический процессор, фонетически процессор и акустический процессор. Каждый из этих модулей поддерживается наборами соответствующих баз данных и правил. Рассмотрим основные функции этих модулей.
Рисунок 3.1 – Структура системы синтезатора речи
