Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
main (Автосохраненный).docx
Скачиваний:
9
Добавлен:
22.08.2019
Размер:
1.74 Mб
Скачать
  1. Технико-экономическое обоснование работы

    1. Описание предметной области

Речевые технологии – технологии XXI века. Благодаря им появилась возможность управлять компьютером с помощью голоса, диктовать текст, прослушивать книги, а в перспективе – управлять компьютером дистанционно на интеллектуальном уровне. Основными направлениями в этой области являются: распознавание речи, синтез голоса, средства речевого управления, идентификация по образцу.

Построение речевого интерфейса сводится к реализации трех задач:

  1. Обеспечение восприятия компьютером отдельных команд;

  2. Распознавание компьютером слитной речи человека в целях полной замены использования клавиатуры;

  3. Способность компьютера преобразовывать информацию в речевое сообщение.

На сегодняшний момент решение существует только для последней задачи. Синтез речи – это математическая задача, которая уже решена. Решению первой задачи препятствует тот факт, что еще не выяснено, каким образом можно расчленить речь так, чтобы извлечь из неё смысл. В человеческом речевом потоке нельзя выделить отдельно буквы и слоги – это цельный объект. Однако, если отдельно рассматривать каждое слово, то можно выделить и буквы, и слоги. Вторая задача решена на половину, так как нет однозначного решения вопроса распознавания потока речи, в то время как задача перевода текста в речь уже решена.

Речевые технологии в программном обеспечении каждый раз находят новые сферы применения. Начав с простого преобразования текста в синтезированную речь, они заняли прочное место в компьютерном мире. Из существующих новейших направлений развития программного обеспечения в области речевых технологий можно выделить несколько основных групп:

  • Управление программой голосовыми командами;

  • Диктовка текста;

  • Идентификация по образцу речи;

  • Синтез речи;

  • Офисный голосовой интерфейс;

  • Мультимедийные обучающие системы.

Прикладной интерфейс программирования Microsoft Speech API (SAPI) включает в себя следующие возможности:

  1. Командное управление - Command Control;

  2. Диктант- Dictation;

  3. Текст в речь - Text to Speech;

  4. Телефония - Telephony;

Рассмотрим назначение технологий:

  1. Технология Command & Control – предусматривает распознавание речи в виде отдельных слов или фраз из списка ожидаемых компьютеру. Подобная функция может использоваться для управления , голосом. Команды для управления могут как статическими, так и вариантными, что дает богатые возможности для реализации поставленной задачи;

  2. Технология Dictation – реализует ввод распознавания речи произвольного содержания, т.е. предназначена для диктовки текста;

  3. Технология Text To Speech –позволяет синтезировать связную речь из передаваемого текста;

  4. Технология Telephony – представляет собой смесь распознавания и синтеза речи. Типовые функции VoiseTelephony – расширенный автоответчик, голосовая почта, голосовая справочная служба.

    1. Анализ существующих аналогов

В рамках работы был проведен анализ существующих аналогов на наличие достоинств и недостатков. Результат анализа приведен в таблице 1.1.

Таблица 1.1. – Результат анализа существующих аналогов

ПО

Общая информация

Достоинства

Недостатки

«Балаболка»

Программа "Балаболка" предназначена для чтения вслух текстовых файлов. Сама по себе программа не воспроизводит звук, а работает с "паре" любыми речевыми синтезаторами, установленные на компьютере, например такими как Николай или Алёна. Воспроизведение речи можно контролировать при помощи стандартных кнопок, подобных тем, что присутствуют в любой мультимедийной программе ("воспроизвести/приостановить/остановить").

Автоматическое удаление переносов слов.

Чтение текста из буфера обмена.

Позволяет изменять скорость и тембр речи.

Расширенные настройки параметров шрифта.

Большой размер.

Сложность настройки.

«TextAloud»

Программа для преобразования любого текста будь-то веб-страница, текстовый файл, PDF или DOC-документ в речь, а также в аудиофайлы формата MP3 или WMA. После запуска программа находится в системном лотке и всегда готова к работе. Может встраиваться в браузер Internet Explorer. В дистрибутив программы включен английский голосовой движок.

Встраиваемость в браузер.

Расширенные возможности управления чтением текста.

Платная.

Английский интерфейс.

Большой размер.

Проведя анализ можно сделать следующие выводы:

1. Основными недостатками данных программных продуктов являются: сложность настройки, отсутствие русскоязычного интерфейса, наличие платных версий;

2. Большинство достоинств, которые имеются в обеих программах , также имеются в программе, которая была разработана в ходе выполнения поставленной задачи.

  1. Постановка задачи

    1. Основание для разработки программы

Основанием для разработки является задание на выпускную квалификационную работу на тему «main_theme», которое было утверждено «месяц_год» года Рязанским Государственным Радиотехническим Университетом.

    1. Назначение разработки

Требуется создать программное обеспечение, выполняющее следующие функции:

1. Загрузка текста в виде документа формата .pdf;

2. Ручной ввод текста;

3. Выбор голосового движка;

4. Настройка выбранного голосового движка;

5. Управление выбранным голосовым движком (проигрывание, пауза, остановка проигрывания).

    1. Требования к программе

В ходе разработки к программе были предъявлены следующие требования к функциональным характеристикам:

  1. Программа должна обеспечивать загрузку входного текста для для последующего его преобразования в виде выходного аудио-потока;

  2. Должна иметься возможность выбора голосового движка;

  3. Должна иметься возможность настройки выбранного голосового движка;

Программа должна содержать справку и должна устанавливаться на компьютер пользователя. Также должен поддерживаться вызов программы из основного меню операционной системы (ОС).

      1. Условия эксплуатации

Были предъявлены следующие условия:

1. Использовать программу с предустановленной библиотекой функций Microsoft SAPI v 5.1;

2. Использовать программу с предустановленным Adobe Reader v. 10;

3. Запускать программу на операционной системе Windows XP.

      1. Требования к программной совместимости

В ходе разработки программы были установлены следующие требования:

1. Для работы с программой использовать операционную систему Windows XP;

2. Использовать технологию Microsoft SAPI версии 5.1, которая на данный момент является последней доступной для свободного использования библиотекой функций.

    1. Требования к программной документации

Программный продукт должен сопровождаться следующими документами:

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]