
- •1.1. Распознавание речевых сообщений.
- •1.2. Синтез речевых сообщений.
- •1.3. Документирование речевых сообщений с использованием эффективных систем сжатия информации.
- •1.4. Передача речевых сообщений в компьютерных сетях .
- •2. Общие понятия о системах распознавания речи и обзор современных систем распознавания речи.
- •2. 1. Классификация систем распознавания речи.
- •2.2. Обзор современных систем распознавания речевой информации.
- •2.2.1. Русско-язычные системы распознавания речи.
- •1. Система распознавания речевых команд "Труфалдино",
- •3. Система диктовки русской речи "Горыныч".
- •2.2.2. Англоязычные системы распознавания речи
- •1. Dragon NaturallySpeaking
- •2. DragonDictate for Windows.
- •3. Ibm VoiceType Dictation
- •4. Ibm ViaVoice 98 Executive Edition
- •5. Kurzweil Voice for Windows
- •7. Microsoft Dictation Research Demonstration
- •8. Microsoft Command and Control Engine
- •3. Речевой сигнал и его структура
- •3.1 Фонетическая модель речевого сигнала
- •3.2 . Фонетическая структура речи.
- •3.3. Линейная математическая модель речеобразования.
- •3.4. Математическая модель речеобразования в терминах z-преобразования.
5. Kurzweil Voice for Windows
Платформа : Windows 3.1 или выше
Описание : Kurzweil Voice for Windows – продукт для диктовки, позволяющий пользователю открывать текст и вводить данные с помощью голоса в windows – приложения. Система адаптивна, но требует настройки. Пользователь может выбрать активный словарь в 30.000 или 60.000 слов. Трансляция команд поддерживается для множества windows – приложений, таких как: WordPerfect, 1-2-3, Organizer, Word ( список из более чем 30 поддерживаемых приложений приведен на WWW сайте Kuzweil ). Дополнительная информация содержится там же.
Системные требования : 486DX/33 или выше, 8 or 16 MB памяти ( в зависимости от размера словаря ), 30 MB дискового пространства, VGA адаптер или выше, саундкарту поддерживаемую Kurzweil.
Дополнительная информайция :
WWW: http://www.kurzweil.com/
7. Microsoft Dictation Research Demonstration
Платформа: Windows 95 или Windows NT 4.0
Описание: Демонстрация технологии исследований, которая позволяет компьютеру вводить то, что вы говорите, в Windows - приложения, такие как email и word-процессоры. Особенности демо версии :
Словарь в 60.000 слов с возможностью добавления новых
Высокая точность распознавания
Работа с любыми Windows – приложениями
"Dictation Pad" предоставляет расширенные возможности диктовки
"IntelliSense" автоматически преобразует произносимые числа и время
Совместима с Microsoft Speech API
Системные требования: Windows 95 или Windows NT 4.0, Pentium 90 или лучше ( возможность использования RISC ), 16 MB памяти ( Windows 95 саундкарта, поддерживающая ввод звука с частотой 16 kHz и разрядностью 16 бит, высококачественный микрофон, наушники
Демо версия доступна на
http://www.research.microsoft.com/research/srg/install.htm
Дополнительная информация
http://www.research.microsoft.com/research/srg/
8. Microsoft Command and Control Engine
Платформа: Windows 95
Описание: Предоставляет функции управления распознаванием речи с помощью SAPI ( Microsoft Speech API ) и "Whisper" – технологией распознавания речи Microsoft. Особенности
Не зависит от оператора, распознавание непрерывной речи, контекстно свободная грамматика
Имеет собственные правила преобразования букв в звук, что позволяет распознавать любые слова
Американский английский
Распознавание речи с микрофона или телефона с высокой производительностью
Написан для SAPI, Microsoft Speech API
Системные требования: Windows 95 или Windows NT 4.0, Pentium 60 или лучше ( возможность использования RISC ), 1.5 MB памяти, саундкарта поддерживающая ввод звука с частотой 16 kHz или 8 kHz, 6 MB дискового пространства, требуется Microsoft Speech SDK
Демо версия доступна на
http://www.research.microsoft.com/research/srg/install.htm
Дополнительная информация
http://www.research.microsoft.com/research/srg/
3. Речевой сигнал и его структура
3.1 Фонетическая модель речевого сигнала
Основным назначением речевых сигналов является передача сообщений. С ее помощью люди могут общаться друг с другом. В физическом смысле речь представляет собой исключительно нестационарный сигнал. Чаще всего язык можно описать набором звуков или фонем. Тем самым фонема для языка - то же, что буква для письменности.
За годы изучения проблемы разработано множество различных способов описания речи. Будем считать, что речь - звуковой сигнал, переведенный в цифровую форму.
Рассмотрим механизм речеобразования. Голосовой тракт начинается с прохода между голосовыми связками, называемого голосовой щелью, и заканчивается у губ. Голосовой тракт, таким образом, состоит из гортани (от пищевода до рта) и рта, или ротовой полости. Носовая полость начинается у небной занавески и заканчивается ноздрями. При опущенной небной занавеске носовая полость акустически соединена с голосовым трактом и участвует в образовании носовых звуков речи. При изучении процесса речеобразования полезно изображать основные органы физической системы в таком виде, при котором становится ясной математическая сторона вопроса. На рис. 3.1 показано подробное схематическое изображение речеобразующей системы.
|
рис. 3.1. Схематическое изображение речеобразующих органов человека. |
|
Совокупность легких, бронхов и трахеи, расположенных ниже гортани служат источником энергии для образовании речи. При таком представлении речь является акустической волной, которая вначале излучается этой системой при выталкивании воздуха из легких и затем преобразуется в голосовом тракте.
Звуки могут быть разделены на три четко выраженные группы по типу возбуждения. Вокализированные звуки образуются проталкиванием воздуха через голосовую щель, при котором переодически напрягаются и расслабляются голосовые связки и возникает квазипериодическая последовательность импульсов потока воздуха, возбуждающая голосовой тракт. Фрикативные или невокализованные звуки генерируются при сужении голосового тракта в каком-либо месте (обычно в конце рта) и проталкивании воздуха через суженное место со скоростью, достаточной для образования турбулентного воздушного потока. Таким образом, формируется источник широкополосного шума, возбуждающего голосовой тракт.
Голосовой тракт и носовая область показаны на рис. 3.1 в виде труб с переменной по продольной оси площадью поперечного сечения. При прохождении звуковых волн через эти трубы их частотный спектр меняется в соответствии с частотной избирательностью трубы. Этот эффект похож на резонансные явления, происходящие в трубах органов и духовых музыкальных инструментов. При описании речеобразования резонансные частоты голосового тракта называют формантными частотами или формантами. Формантные частоты зависят от конфигурации и размеров голосового тракта: произвольная форма тракта может быть описана набором формантных частот. Различные звуки образуются путем изменения формы голосового тракта. Таким образом, спектральные свойства речевого сигнала изменяются в соответствии с изменением формы голосового тракта.