Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Центральные и переферийные устройства электронно вычислительных средств.pdf
Скачиваний:
284
Добавлен:
02.05.2014
Размер:
6.14 Mб
Скачать

Глава 15. Устройства ввода - вывода речевой информации

219

Тембры голосов разных операторов порой сильно отличаются друг от друга,

осо-

бенно велико отличие между женскими и мужскими голосами. Это объясняется отличающимися спектральными характеристиками звуковых колебаний из-за наличия разного набора гармонических составляющих одного и того же звука, произносимого разными операторами. Машинное описание фонем будет также различаться для разных операторов и будет отличным от эталонов, что приведет в дикторо-зависимых системах к нераспознаванию некоторых фонем (в худшем случае всех) и к ошибкам в вводимой информации. Поэтому при смене операторов требуется предварительная настройка системы путем записи новых эталонов с голоса пользователя. Этот прием в интеллектуальных системах называется обучением.

Второй вариант настройки на голос оператора - индивидуальная подстройка ампли- тудно-частотных характеристик полосовых фильтров анализатора. Для этого вводится сложная система частотно-зависимой отрицательной обратной связи, обеспечивающая постоянство частотного спектра сигнала независимо от индивидуальных свойств голоса оператора. Наибольший эффект достигается, когда тембры голосов близки.

Пока еще в дикторо-зависимых, тоесть настраиваемых, системах ввода речи удается получить в 4 раза меньшее количество ошибок распознавания , чем в дикторо-независимых.

На особо важных объектах, к управлению которыми допущен ограниченный круг лиц, необходима настройка аппаратуры под речевые параметры конкретного оператора, которыми являются тембр, скорость произнесения слов, акцент, дефекты речи.

При проектировании новых универсальных устройств ввода речевых сообщений ставится основная цель - разработка дикторо-независимых методов и систем распознавания слитной речи с большим словарем. Для достижения этого разработчиками в настоящее время решаются последовательно следующие задачи: вначале прогнозируется создание дикто- ро-зависимых систем распознавания дискретной речи со словарем ограниченного объема (от 15000 до 20000 слов); затем - адаптивных (настраиваемых на конкретного диктора в процессе работы) систем распознавания дискретной речи с большим словарем (более 20000 слов); и, наконец, ожидается создание дикторо-независимых систем распознавания слитной речи со словарем в 200 - 300 слов для использования в системах речевого управления.

15.4.Устройства вывода речевой информации - синтезаторы

Задача вывода речевой информации сводится к преобразованию машинных кодов, поступающих от ЭВМ, ПЗУ или линии связи, в колебания звуковых частот, составляющих речевой сигнал. Устройства вывода речевых сообщений при любой реализации аппаратно и программно проще, чем устройства ввода и не требуют больших системных ресурсов. Особенно экономится память при синтезе по фонетическим правилам.

Синтезаторы подразделяются на классы и группы по тем же признакам, что и анализаторы. Классам анализаторов речевых сигналов и сообщений соответствуют такие же классы синтезаторов: речевых сигналов и речевых сообщений. Синтезаторы речевых сообщений, как и анализаторы речевых сообщений (рис. 15.6), делятся на две группы: синтезаторы ограниченного словаря - компиляторы (рис. 15.7, а) и универсальные (рис. 15.7, б).

В компиляторах любое сложное речевое сообщение может быть получено путем компиляции (простого соединения) элементов речи. Этот метод называется методом синтеза по образам (по образцам). Элементы речи заранее начитываются диктором, соответствующие им сигналы компрессируются, кодируются и записываются в ПЗУ( рис. 15.8). Закодированные таким образом речевые элементы в процессе вывода считываются в нужной последовательности и одновременно восстанавливается речевой сигнал.

Вместо генераторов звуковых частот могут быть использованы цифровые полосовые фильтры. На рис. 15.9 приведена структурная схема компилятора. Электрические сигналы с

Глава 15. Устройства ввода - вывода речевой информации

220

генератора основного тона (при формировании звонких звуков) и генератора шума (при формировании глухих звуков) через переключатель поступают на многозвеньевой управляющий цифровой фильтр. Фильтр и ЦАП управляются от ЗУ кадров, куда заранее из памяти описаний образцов заносится выбранное устройством управления описание сообщения, представляющее собой последовательность кадров. Каждый кадр содержит параметры громкости, частоты основного тона, длительности синтезируемого звука и ряд других. Кадры опрашиваются с интервалом квантования по времени, равным 20 мс. Если основной тон модулировать по частоте в соответствии с таблицей частот музыкальных нот, приведенной в приложении, можно синтезировать пение.

При использовании в качестве элементов речи отдельных словоформ, подставляемых в определенное место стандартной фразы, компиляционный метод позволяет получить удовлетворительный по качеству синтез речи. Попытки добиться высококачественного синтеза фонем или аллофонов не привели пока к положительным результатам, поскольку все эти элементы тесно связаны между собой внутри фразы. В слитной речи не существует аналогов этих элементов, произнесенных изолированно, и, наоборот, речь из изолированно произнесенных элементов звучит ненатурально. В связи с этим подготовка словаря в компиляторах представляет собой самостоятельную и сложную проблему.

Номер

 

Компилятор

 

 

Синтезатор

 

сообщений

 

 

речи

 

 

 

 

 

 

 

 

 

 

 

 

ЭВМ

ПЗУ

словаря

а)

Текст

Лингвистический

 

 

Синтезатор

 

 

 

процессор

 

 

речи

 

 

 

 

 

 

 

 

ЭВМ

База знаний

б)

Рис. 15.7. Структуры устройств вывода речевых сообщений: а - ограниченного словаря - компилятор, б - универсальное

Глава 15. Устройства ввода - вывода речевой информации

221

Динамики

Генератор f1=50 Гц

 

 

 

 

 

 

 

Дешифратор

 

Генератор f2

 

Смеситель

Машинный

 

 

 

 

 

 

 

 

 

 

 

 

 

код фонемы

 

 

 

 

 

от ЭВМ или

 

 

 

 

 

ПЗУ

 

 

 

 

 

 

 

Генератор fn=5 КГц

 

 

 

 

 

 

 

 

 

 

 

 

 

Рис. 15.8. Схема синтеза звуковых сообщений

от

УУ выборкой и

Память описаний

 

ЭВМ

ЗУ кадров

 

синхронизацией

образцов

 

Выбор

 

 

 

Fосн

Коммутатор

 

 

 

 

 

Генерат. высоты основн. тона

Многозвен.

Перекл. цифр. упр. ЦАП фильтр

Генератор

шума

Динамик

Усил.

Синтезатор

Рис. 15.9. Структурная схема компилятора

При разработке универсальных синтезаторов речевых сообщений стремятся получить функциональную модель речеобразования, адекватную реально существующим языковым и акустическим явлениям. Речь формируется по правилам фонетики языка, поэтому метод получил также названия синтеза по правилам и фонетический метод. На входе такой модели - орфографический или фонемный текст произвольного содержания, на выходе - звучащая речь. По своему существу такие синтезаторы являются кибернетической функциональ-

Глава 15. Устройства ввода - вывода речевой информации

222

ной моделью чтения текста человеком. В базе знаний синтезатора хранится не только информация об элементарных единицах речи (эталоны фонем, аллофонов и интонем), но и алгоритмические правила их модификации в зависимости от конкретного контекста звуковой реализации. Процесс применения этих правил к эталонам фонем и интонем для входного синтезируемого текста реализуется лингвистическим процессором. Универсальные синтезаторы отличаются малым расходом памяти на один элемент речи и неограниченностью словаря синтезируемых сообщений.

Одним из основных параметров, характеризующих синтезаторы речи, является емкость памяти, необходимая для хранения объема речи, произносимого за 1секунду. Эта емкость составляет примерно 1,5 - 2 слова. В таблице приведены некоторые параметры синтеза по образцам (компиляция) и по правилам фонетики слова “алло”, произносимого за 0,3 с.

Таблица 15.1. Сравнение методов синтеза речи

__________________________________________________________________________

Метод синтеза

Скорость,

Объем памяти

Время звучания речевой

 

бит/с

для хранения

информации, хранимой в

 

 

описания

памяти ЭВМ емкостью

 

 

слова “алло”,

48 Кбайт

 

 

 

байт

__________________________________________________________________________

Формирование

1200

45

5

мин 20 с

по образцам

5000

188

1

мин 17 с

(компиляция)

 

 

 

 

Формирование

100

4

1

ч 4 мин

по правилам

800

30

8 мин

(фонетический)

 

 

 

 

__________________________________________________________________________

При формировании по образцам словарь компилируемых слов ограничен объемом описаний образцов, хранимых в ПЗУ; при формировании по правилам словарь практически не ограничен.

Примером высококачественного синтезатора, с помощью которого можно воспроизвести близкую к естественной речь различного темпа и оттенка непосредственно по тексту неограниченного словаря является устройство типа DЕCtolk. Устройство представляет собой блок размером 10х45х30 см, на задней панели которого расположены разъемы для подключения ЭВМ, видеотерминала и печатающего устройства, различных устройств вывода речевой информации, в том числе телефона, индикатора на светодиодах, регулятора громкости. Пользователь может выбрать 7 различных голосов, в том числе стандартные женский, мужской и детский, а также низкий мужской, высокий женский и голос пожилого человека. Высокое качество обусловлено большой библиотекой используемых правил, возможностью выбора словаря по желанию пользователя и качеством аппаратных средств для преобразования речи.

Контрольные вопросы к главе 15

1. Назовите два типа речевых процессоров.

2.В чем заключаются основные трудности при вводе речевых сообщений?

3.Назовите единицы речи при распознавании речевых сообщений.

4.Назовите три характеристики речи, реализующие интонацию и ударение в слитной речи.

5.Назовите три метода анализа речи.

6.Как и для чего производится сегментация речи на этапе анализа?

7.Назовите шесть спектральных параметров, которые оцениваются на этапе анализа речевого сообщения.

8.Назовите две группы анализаторов речевых сообщений.

9.Какие операции выполняет лингвистический процессор?

Глава 15. Устройства ввода - вывода речевой информации

223

10. Какова разрядность АЦП в речевом предпроцессоре?

11. Каким образом определяются границы фонем при анализе слитной речи/ 12. Назовите значение емкости памяти эталонов команд языка программирования, включающего порядка 65 команд и знаков (язык Си).

13. В чем заключается настройка анализатора речи на голос оператора? Назовите два варианта настройки. 14. Какова ошибка распознавания дискретной речи? Слитной речи?

15. Назовите классы и группы, на которые подразделяются устройства вывода речевых сообщений - синтезаторы речи.

16. Что хранится в базе знаний устройства вывода речевых сообщений - речевого синтезатора ? 17. Сравните два метода синтеза речи - по образцам (компиляция) и по правилам (фонетический).