- •Введение
- •Технико-экономическое обоснование работы
- •Описание предметной области
- •Анализ существующих аналогов
- •Руководство оператора;
- •Преобразование текста в синтезированную речь
- •Структура синтезатора речи по тексту
- •Текстовый процессор
- •Просодический процессор
- •Фонетический процессор
- •Акустический процессор
- •Компоненты Speech api
- •Необходимые компоненты и их установка
- •Оценка разборчивости синтезированной речи
- •Выбор языка программирования
- •Разработка алгоритмов
- •Общий алгоритм решения задачи
- •Алгоритм подключения голосовых модулей
- •Алгоритм настройки голосовых модулей
- •Алгоритм управления голосовым модулем
- •Описание логической структуры разработанной программы
- •Разработка интерфейса пользователя
- •Разработка форм
- •Структура программы
- •Проверка программы
- •Настройка программы
- •Сообщения системному программисту
- •Руководство оператора
- •Назначение и условия применения программы
- •Обращение к программе для запуска
- •Входные и выходные данные
- •Сообщения пользователю
- •Заключение
- •Список используемых источников
Алгоритм настройки голосовых модулей
Настройка добавленного голосового модуля – наиболее важный пункт, так как от него зависит качество воспроизведения текстовой информации. В параметрах настройки должны входить все основные пункты:
Тон;
Громкость;
Скорость воспроизведения;
Правила чтения;
Метод чтения, который включает в себя:
Чтение по буквам;
Чтение по словам;
Чтение по абзацам.
Алгоритм работы представлен на рисунке 4.3.
Рисунок 4.3. - Обработка основных параметров для выбранного голосового движка
Алгоритм управления голосовым модулем
Под управлением голосовым модулем подразумеваются такие функции, как:
Запуск воспроизведения потока синтезированной речи;
Приостановка воспроизведения потока синтезированной речи;
Полная остановка воспроизведения потока синтезированной речи.
Данные функции непосредственно работают с источником текстовой информации. Передача текста на синтез передается с помощью буфера обмена. Алгоритм запуска воспроизведения представлен на рисунке 4.4.
Рисунок 4.4. – Запуск воспроизведения
Алгоритм приостановки воспроизведения представлен на рисунке 4.5.
Рисунок 4.5. – Приостановка воспроизведения
Алгоритм полной остановки воспроизведения представлен на рисунке 4.6.
Рисунок 4.6. – Остановка воспроизведения
Описание логической структуры разработанной программы
При запуске программы необходимо сформировать список голосовых движков, которые имеются в системе. Для этого в обработчике метода FormCreate необходимо организовать поиск и добавление всех имеющийся голосовых движков (рисунок 4.7):
Рисунок 4.7 – Поиск и добавление имеющихся голосовых движков
После того, как список сформирован, необходимо сформировать и вывести все основные параметры выбранного голосового движка: регулятор громкости, скорости, тона. Процедура обработки основных параметров для выбранного движка из списка представлена на рисунке 4.8:
Рисунок 4.8 – Обработка основных параметров для выбранного голосового движка
После того, как имеются все необходимые данные, необходимо реализовать процедуры для работы движка:
- процедура проигрывания;
- процедура паузы;
- процедура остановки;
Процедура проигрывания потока синтетической речи представлена на рисунке 4.9:
Рисунок 4.9 – Процедура проигрывания потока
Процедура формирования паузы представлена на рисунке 4.10:
Рисунок 4.10 – Формирование паузы
Процедура останова потока представлена на рисунке 4.11:
Рисунок
4.11 – Процедура останова потока
Разработка интерфейса пользователя
Разработка форм
Визуальная структура главной формы представлена на рисунке 5.1:
Компонент BitBtn
Рисунок 5.1. – Визуальная структура главной формы
Визуальная структура формы «Книга» представлена на рисунке 5.2:
Компонент AcroPDF
Рисунок 5.2. – Визуальная структура формы «Книга»
Визуальная структура формы настройки голосового модуля представлена на рисунке 5.3:
Компонент TrackBar
Компонент Label
Компонент ComboBox
Компонент RichEdit
Компонент Image
Компонент SpeedButton
Рисунок 5.3 – Визуальная структура формы настройки голосового модуля
Визуальная форма глобальной настройки программы представлена на рисунке 5.4:
Компонент ComboBox
Компонент Label
Компонент ComboBox
Рисунок 5.4 – Визуальная структура формы глобальной настройки программы
Визуальная структура справочной формы представлена на рисунке 5.5:
Компонент WebBrowser
Рисунок 5.5 – Визуальная структура справочной формы
Разработка сценария инсталляции программы
Сценарий программы установки клиентского приложения разработан с помощью сторонней программы InstallShield и включает в себя следующие компоненты:
Исполняемый файл SeB.exe;
Файл справочной системы Main.htm;
Архив резервной копии исходного текста программы;
Архив резервной копии модуля Speech.pas;
Разработка программной документации
Руководство системного программиста
Общие сведения о программе
Данная программа использует технологию преобразования текста в искусственную синтезированную речь при помощи библиотеки Microsoft Speech API v5.1 (SAPI). SAPI существенно снижает количество кода, который нужно написать для использования приложения, использующих распознавание и синтез текста, делая речевые технологии более приемлемыми и устойчивыми для решения широкого круга задач. SAPI обеспечивает высокоуровневый интерфейс между приложением и голосовым модулем – движком.
Программа имеет следующие возможности:
Возможность выбора источника текстовой информации;
Возможность выбора голосового модуля;
Возможность настройки выбранного голосового модуля;
Возможность управления потоком синтезированной речи.
Программа использует следующие дополнительные ресурсы:
Библиотека Microsoft SAPI v.5.1;
Набор голосовых модулей от компании Lernout & Hauspie, которые имеют поддержку русского языка;
Программу Adobe Reader X, которая позволяет просматривать и редактировать текстовые документы в формате .pdf;
Программа совместима только с операционной системой Microsoft Windows XP, так как версия SAPI доступна только для данной ОС.
