- •Глава 9 системы мультимедиа
- •9.1.Назначение и состав систем мультимедиа
- •9.2. Анимационные устройства ввода-вывода
- •9.3. Устройства ввода-вывода звуковых сигналов
- •9.3.1. Физические основы генерации компьютерного звука
- •9.3.2. Ввод в эвм и машинный синтез речи
- •9.3.3. Программное обеспечение для работы со звуковой информацией
9.3.2. Ввод в эвм и машинный синтез речи
Особое место в системах мультимедиа занимает использование аудиоаппаратуры для речевого общения. Структура задач речевого общения приведена на рис. 9.9.
Для распознавания и понимания речи дикторов необходимо ввести речевые сигналы в ЭВМ с помощью акустических устройств ввода и проанализировать вводимую речь.
Системы речевого ввода делятся на два типа по характеру распознаваемой речи:
• системы, ориентированные на восприятие отдельных слов;
• системы, воспринимающие связную речь.
Разница между ними весьма существенна, так как при слитном произношении слов изменяется их звучание.
При анализе отдельных слов (команд) осуществляется их оцифровка, идентификация и инициируется выполнение программы, отрабатывающей принятую команду. Этот же режим используется и для речевого ввода цифровой информации; в этом случае после идентификации введенное слово преобразуется в соответствующий код ASCII (за счет чего достигается существенное сжатие речи). Фирма «Курцвейл» выпускала по этому принципу устройство Voice Writer, которое распознавало около 10000 отдельно произнесенных английских слов и печатало их на принтере.
Сегодня практически отсутствуют устройства для ввода динамически развивающихся звуковых сцен. Устройства ввода и программы-анализаторы не позволяют выделить эмоциональную составляющую речи, которая значительно корректирует смысл (и может даже изменить его до противоположного). Чаще всего эмоциональная составляющая рассматривается как помеха (за исключением систем контроля эмоционального состояния). Как дополнительный источник информации эмоциональная окраска голоса (и введенного сообщения) в настоящее время не используется.
Системы речевого вывода называются синтезаторами речи.
Существуют три основных технологически различных подхода к проблеме синтеза речи:
• метод сжатия-восстановления формы сигналов;
• аналоговый метод синтеза формантных частот;
• цифровое моделирование голосового тракта.
Первый метод — самый простой. ЭВМ в этом случае служит как цифровой магнитофон. Фразы и слова записываются раздельно и выбираются для воспроизведения в нужный момент по командам, поступающим от соответствующей программы. В такой системе невозможно воспроизвести слово, которое не было заранее записано.
Для хранения оцифрованной речи требуется память большого объема, так как хранить необходимо каждое слово из лексикона ЭВМ с учетом различных падежных окончаний, рода («пошел-пошла-пошло»), числа и т.д. Но зато качество воспроизведения речи очень высокое.
Разновидностью синтезаторов этого типа являются автоответчики, построенные из ЭВМ и Voice-модема; речевая телепочта (передача речевого сообщения по вычислительным сетям).
Считается, что этот метод эффективен, когда словарный запас невелик — не превышает 10—15 слов (например, говорящий приборный щиток автомобиля, говорящие часы, калькулятор, календарь).
Второй метод использует принципы акустического моделирования голосового тракта человека. Речь составляется из формантных частотных полос, которые создаются полосовыми фильтрами. Суммарный выходной сигнал формантных фильтров достаточно близко соответствует частотному спектру человеческой речи. Но такая речь звучит, как голос робота, разборчивость ее оставляет желать лучшего.
Этот метод универсален: с его помощью можно синтезировать любые слова, иметь неограниченный словарь, так как речь создается из отдельно генерируемых звуков. Синтезатор может быть реализован программным путем.
Наиболее распространенный способ возбуждения синтезатора формантных частот состоит в использовании отдельных, поддающихся идентификации звуков речи, называемых фонемами.
Фонемный синтезатор образует последовательность фонем, которая при воспроизведении на акустическом устройстве вывода звучит как речь.
Фонемный синтез речи практически не требует дополнительной аппаратуры; он может быть реализован на ЭВМ стандартной конфигурации программным путем.
Речь разделяется на отдельные элементарные части — фонемы. Например, в английском языке выделяются такие фонемы для гласных звуков, как ее, i, eh и др. (табл. 9.1).
Таблица 9.1 Фонемы гласных звуков английского языка
Фонема
|
Произношение
|
F1
|
F2
|
fз
|
ее
|
feet
|
250
|
2300
|
3000
|
i
|
hid
|
375
|
2150
|
2800
|
eh
|
head
|
550
|
1950
|
2600
|
ае
|
had
|
700
|
1800
|
2550
|
ah
|
tot
|
775
|
1100
|
2500
|
aw
|
talk
|
575
|
900
|
2450
|
u
|
took
|
425
|
1000
|
2400
|
oo
|
tool
|
275
|
850
|
2400
|
F1,F2,F3 — три основные формантные частоты, наблюдаемые в спектрограмме при произношении средним мужским голосом.
Однако кроме гласных в речи человека существуют фрикативные, взрывные и носовые согласные. Помимо этого каждая фонема имеет вариации — аллофоны.
В русском языке согласные фонемы бывают мягкие и твердые, глухие и звонкие (шумные, сонорные, губные, зубные, альвеолярные, велярные).
Третий метод использует словарь, который создается голосом человека, но в память записывается не оцифрованный акустический сигнал, а его частотные параметры, при этом уменьшается объем памяти, занимаемый словарем. Синтез же речи производится интегральными микросхемами, генерирующими заданный набор частот с заданными амплитудами и смешивающими их.