- •Введение
- •Технико-экономическое обоснование работы
- •Описание предметной области
- •Анализ существующих аналогов
- •Руководство оператора;
- •Преобразование текста в синтезированную речь
- •Структура синтезатора речи по тексту
- •Текстовый процессор
- •Просодический процессор
- •Фонетический процессор
- •Акустический процессор
- •Компоненты Speech api
- •Необходимые компоненты и их установка
- •Оценка разборчивости синтезированной речи
- •Выбор языка программирования
- •Разработка алгоритмов
- •Общий алгоритм решения задачи
- •Алгоритм подключения голосовых модулей
- •Алгоритм настройки голосовых модулей
- •Алгоритм управления голосовым модулем
- •Описание логической структуры разработанной программы
- •Разработка интерфейса пользователя
- •Разработка форм
- •Структура программы
- •Проверка программы
- •Настройка программы
- •Сообщения системному программисту
- •Руководство оператора
- •Назначение и условия применения программы
- •Обращение к программе для запуска
- •Входные и выходные данные
- •Сообщения пользователю
- •Заключение
- •Список используемых источников
Технико-экономическое обоснование работы
Описание предметной области
Речевые технологии – технологии XXI века. Благодаря им появилась возможность управлять компьютером с помощью голоса, диктовать текст, прослушивать книги, а в перспективе – управлять компьютером дистанционно на интеллектуальном уровне. Основными направлениями в этой области являются: распознавание речи, синтез голоса, средства речевого управления, идентификация по образцу.
Построение речевого интерфейса сводится к реализации трех задач:
Обеспечение восприятия компьютером отдельных команд;
Распознавание компьютером слитной речи человека в целях полной замены использования клавиатуры;
Способность компьютера преобразовывать информацию в речевое сообщение.
На сегодняшний момент решение существует только для последней задачи. Синтез речи – это математическая задача, которая уже решена. Решению первой задачи препятствует тот факт, что еще не выяснено, каким образом можно расчленить речь так, чтобы извлечь из неё смысл. В человеческом речевом потоке нельзя выделить отдельно буквы и слоги – это цельный объект. Однако, если отдельно рассматривать каждое слово, то можно выделить и буквы, и слоги. Вторая задача решена на половину, так как нет однозначного решения вопроса распознавания потока речи, в то время как задача перевода текста в речь уже решена.
Речевые технологии в программном обеспечении каждый раз находят новые сферы применения. Начав с простого преобразования текста в синтезированную речь, они заняли прочное место в компьютерном мире. Из существующих новейших направлений развития программного обеспечения в области речевых технологий можно выделить несколько основных групп:
Управление программой голосовыми командами;
Диктовка текста;
Идентификация по образцу речи;
Синтез речи;
Офисный голосовой интерфейс;
Мультимедийные обучающие системы.
Прикладной интерфейс программирования Microsoft Speech API (SAPI) включает в себя следующие возможности:
Командное управление - Command Control;
Диктант- Dictation;
Текст в речь - Text to Speech;
Телефония - Telephony;
Рассмотрим назначение технологий:
Технология Command & Control – предусматривает распознавание речи в виде отдельных слов или фраз из списка ожидаемых компьютеру. Подобная функция может использоваться для управления , голосом. Команды для управления могут как статическими, так и вариантными, что дает богатые возможности для реализации поставленной задачи;
Технология Dictation – реализует ввод распознавания речи произвольного содержания, т.е. предназначена для диктовки текста;
Технология Text To Speech –позволяет синтезировать связную речь из передаваемого текста;
Технология Telephony – представляет собой смесь распознавания и синтеза речи. Типовые функции VoiseTelephony – расширенный автоответчик, голосовая почта, голосовая справочная служба.
Анализ существующих аналогов
В рамках работы был проведен анализ существующих аналогов на наличие достоинств и недостатков. Результат анализа приведен в таблице 1.1.
Таблица 1.1. – Результат анализа существующих аналогов
ПО |
Общая информация |
Достоинства |
Недостатки |
«Балаболка» |
Программа "Балаболка" предназначена для чтения вслух текстовых файлов. Сама по себе программа не воспроизводит звук, а работает с "паре" любыми речевыми синтезаторами, установленные на компьютере, например такими как Николай или Алёна. Воспроизведение речи можно контролировать при помощи стандартных кнопок, подобных тем, что присутствуют в любой мультимедийной программе ("воспроизвести/приостановить/остановить"). |
Автоматическое удаление переносов слов. Чтение текста из буфера обмена. Позволяет изменять скорость и тембр речи. Расширенные настройки параметров шрифта.
|
Большой размер. Сложность настройки. |
«TextAloud» |
Программа для преобразования любого текста будь-то веб-страница, текстовый файл, PDF или DOC-документ в речь, а также в аудиофайлы формата MP3 или WMA. После запуска программа находится в системном лотке и всегда готова к работе. Может встраиваться в браузер Internet Explorer. В дистрибутив программы включен английский голосовой движок. |
Встраиваемость в браузер. Расширенные возможности управления чтением текста. |
Платная. Английский интерфейс. Большой размер. |
Проведя анализ можно сделать следующие выводы:
1. Основными недостатками данных программных продуктов являются: сложность настройки, отсутствие русскоязычного интерфейса, наличие платных версий;
2. Большинство достоинств, которые имеются в обеих программах , также имеются в программе, которая была разработана в ходе выполнения поставленной задачи.
Постановка задачи
Основание для разработки программы
Основанием для разработки является задание на выпускную квалификационную работу на тему «main_theme», которое было утверждено «месяц_год» года Рязанским Государственным Радиотехническим Университетом.
Назначение разработки
Требуется создать программное обеспечение, выполняющее следующие функции:
1. Загрузка текста в виде документа формата .pdf;
2. Ручной ввод текста;
3. Выбор голосового движка;
4. Настройка выбранного голосового движка;
5. Управление выбранным голосовым движком (проигрывание, пауза, остановка проигрывания).
Требования к программе
В ходе разработки к программе были предъявлены следующие требования к функциональным характеристикам:
Программа должна обеспечивать загрузку входного текста для для последующего его преобразования в виде выходного аудио-потока;
Должна иметься возможность выбора голосового движка;
Должна иметься возможность настройки выбранного голосового движка;
Программа должна содержать справку и должна устанавливаться на компьютер пользователя. Также должен поддерживаться вызов программы из основного меню операционной системы (ОС).
Условия эксплуатации
Были предъявлены следующие условия:
1. Использовать программу с предустановленной библиотекой функций Microsoft SAPI v 5.1;
2. Использовать программу с предустановленным Adobe Reader v. 10;
3. Запускать программу на операционной системе Windows XP.
Требования к программной совместимости
В ходе разработки программы были установлены следующие требования:
1. Для работы с программой использовать операционную систему Windows XP;
2. Использовать технологию Microsoft SAPI версии 5.1, которая на данный момент является последней доступной для свободного использования библиотекой функций.
Требования к программной документации
Программный продукт должен сопровождаться следующими документами:
