Скачиваний:
105
Добавлен:
01.05.2014
Размер:
282.62 Кб
Скачать

5. Kurzweil Voice for Windows

  • Платформа : Windows 3.1 или выше

  • Описание : Kurzweil Voice for Windows – продукт для диктовки, позволяющий пользователю открывать текст и вводить данные с помощью голоса в windows – приложения. Система адаптивна, но требует настройки. Пользователь может выбрать активный словарь в 30.000 или 60.000 слов. Трансляция команд поддерживается для множества windows – приложений, таких как: WordPerfect, 1-2-3, Organizer, Word ( список из более чем 30 поддерживаемых приложений приведен на WWW сайте Kuzweil ). Дополнительная информация содержится там же.

  • Системные требования : 486DX/33 или выше, 8 or 16 MB памяти ( в зависимости от размера словаря ), 30 MB дискового пространства, VGA адаптер или выше, саундкарту поддерживаемую Kurzweil.

  • Дополнительная информайция :

WWW: http://www.kurzweil.com/

7. Microsoft Dictation Research Demonstration

  • Платформа: Windows 95 или Windows NT 4.0

  • Описание: Демонстрация технологии исследований, которая позволяет компьютеру вводить то, что вы говорите, в Windows - приложения, такие как email и word-процессоры. Особенности демо версии :

  • Словарь в 60.000 слов с возможностью добавления новых

  • Высокая точность распознавания

  • Работа с любыми Windows – приложениями

  • "Dictation Pad" предоставляет расширенные возможности диктовки

  • "IntelliSense" автоматически преобразует произносимые числа и время

  • Совместима с Microsoft Speech API

  • Системные требования: Windows 95 или Windows NT 4.0, Pentium 90 или лучше ( возможность использования RISC ), 16 MB памяти ( Windows 95 саундкарта, поддерживающая ввод звука с частотой 16 kHz и разрядностью 16 бит, высококачественный микрофон, наушники

  • Демо версия доступна на

http://www.research.microsoft.com/research/srg/install.htm

  • Дополнительная информация

http://www.research.microsoft.com/research/srg/

8. Microsoft Command and Control Engine

  • Платформа: Windows 95

  • Описание: Предоставляет функции управления распознаванием речи с помощью SAPI ( Microsoft Speech API ) и "Whisper" – технологией распознавания речи Microsoft. Особенности

  • Не зависит от оператора, распознавание непрерывной речи, контекстно свободная грамматика

  • Имеет собственные правила преобразования букв в звук, что позволяет распознавать любые слова

  • Американский английский

  • Распознавание речи с микрофона или телефона с высокой производительностью

  • Написан для SAPI, Microsoft Speech API

  • Системные требования: Windows 95 или Windows NT 4.0, Pentium 60 или лучше ( возможность использования RISC ), 1.5 MB памяти, саундкарта поддерживающая ввод звука с частотой 16 kHz или 8 kHz, 6 MB дискового пространства, требуется Microsoft Speech SDK

  • Демо версия доступна на

http://www.research.microsoft.com/research/srg/install.htm

  • Дополнительная информация

http://www.research.microsoft.com/research/srg/

3. Речевой сигнал и его структура

3.1 Фонетическая модель речевого сигнала

Основным назначением речевых сигналов является передача сообщений. С ее помощью люди могут общаться друг с другом. В физическом смысле речь представляет собой исключительно нестационарный сигнал. Чаще всего язык можно описать набором звуков или фонем. Тем самым фонема для языка - то же, что буква для письменности.

За годы изучения проблемы разработано множество различных способов описания речи. Будем считать, что речь - звуковой сигнал, переведенный в цифровую форму.

Рассмотрим механизм речеобразования. Голосовой тракт начинается с прохода между голосовыми связками, называемого голосовой щелью, и заканчивается у губ. Голосовой тракт, таким образом, состоит из гортани (от пищевода до рта) и рта, или ротовой полости. Носовая полость начинается у небной занавески и заканчивается ноздрями. При опущенной небной занавеске носовая полость акустически соединена с голосовым трактом и участвует в образовании носовых звуков речи. При изучении процесса речеобразования полезно изображать основные органы физической системы в таком виде, при котором становится ясной математическая сторона вопроса. На рис. 3.1 показано подробное схематическое изображение речеобразующей системы.

рис. 3.1. Схематическое изображение речеобразующих органов человека.

Совокупность легких, бронхов и трахеи, расположенных ниже гортани служат источником энергии для образовании речи. При таком представлении речь является акустической волной, которая вначале излучается этой системой при выталкивании воздуха из легких и затем преобразуется в голосовом тракте.

Звуки могут быть разделены на три четко выраженные группы по типу возбуждения. Вокализированные звуки образуются проталкиванием воздуха через голосовую щель, при котором переодически напрягаются и расслабляются голосовые связки и возникает квазипериодическая последовательность импульсов потока воздуха, возбуждающая голосовой тракт. Фрикативные или невокализованные звуки генерируются при сужении голосового тракта в каком-либо месте (обычно в конце рта) и проталкивании воздуха через суженное место со скоростью, достаточной для образования турбулентного воздушного потока. Таким образом, формируется источник широкополосного шума, возбуждающего голосовой тракт.

Голосовой тракт и носовая область показаны на рис. 3.1 в виде труб с переменной по продольной оси площадью поперечного сечения. При прохождении звуковых волн через эти трубы их частотный спектр меняется в соответствии с частотной избирательностью трубы. Этот эффект похож на резонансные явления, происходящие в трубах органов и духовых музыкальных инструментов. При описании речеобразования резонансные частоты голосового тракта называют формантными частотами или формантами. Формантные частоты зависят от конфигурации и размеров голосового тракта: произвольная форма тракта может быть описана набором формантных частот. Различные звуки образуются путем изменения формы голосового тракта. Таким образом, спектральные свойства речевого сигнала изменяются в соответствии с изменением формы голосового тракта.

Соседние файлы в папке Lecture13