Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Центральные и переферийные устройства электронно вычислительных средств.pdf
Скачиваний:
284
Добавлен:
02.05.2014
Размер:
6.14 Mб
Скачать

Глава 14. Устройства полуавтоматического ввода графической информации - дигитайзеры

211

Контрольные вопросы к главе 14

1. Что является признаками вводимых с помощью дигитайзера фрагментов чертежа?

2.Назовите тип аппроксимации, применяемой в дигитайзерах.

3.Назовите опорные точки при кодировании чертежа.

4.Назовите принцип, положенный в основу работы дигитайзера.

5.Что представляет собой съемник дигитайзера?

6.Каким образом кодируются символы в поле чертежа?

7.Чему равен объем кадра дигитайзера?

8.Назовите среднее значение скорости оцифровки чертежа на современных дигитайзерах

9.Какова точность ввода современных дигитайзеров?

10. Назовите состав оборудования автоматизированного рабочего места проектировщика (АРМ).

Глава 15. Устройства ввода - вывода речевой информации

212

Глава 15. УСТРОЙСТВА ВВОДА - ВЫВОДА РЕЧЕВОЙ ИНФОРМАЦИИ

15.1. Модель речи

Устройства ввода - вывода речевой информации относятся к совмещенным периферийным устройствам, наиболее адаптированным к эргономическим параметрам оператора. Общение с ЭВМ по речевому каналу дает пользователю преимущества, которыми не обладают другие оперативные ПУ:

-общение ведется в двух направлениях, что обеспечивается универсальностью канала;

-общение проходит на естественном языке благодаря удобному интеллектуальному интерфейсу, поэтому не требуется дополнительное обучение оператора;

-речевой канал для пользователя является самым быстродействующим и экономичным с точки зрения энергетических затрат, позволяет освободить зрительный и тактильный аппараты и повысить степень сосредоточенности на основной выполняемой работе;

-УВВ речи легко совмещаются с другими ПУ и не ограничивают свободы действий человека;

-аппаратные средства при современном уровне электронной техники могут быть выполнены малогабаритными, механически прочными и дешевыми.

Устное общение человека с ЭВМ удобно во многих областях человеческой деятельности, особенно там, где оператор перегружен визуальной информацией, например, при управлении сложным технологическим процессом или сложным техническим объектом (летательным аппаратом, системой вооружения), при работе в условиях слабой освещенности. Особенно это полезно при передаче сообщений об экстремальных ситуациях. Ни мигающая красная лампочка, ни громкий зуммер не способны передать информацию о характере и источнике экстремальной ситуации.

Работа оператора в диалоговом режиме при вводе и отладке программ, написанных на алгоритмических языках, при составлении программ для станков с числовым программным управлением также представляется удобной при голосовом программировании.

“Говорящие компьютеры” могли бы с успехом применяться и в непроизводственной сфере, например, при обучении родному или иностранному языку, при обучении незрячих

ислабослышащих людей. К далекому будущему следует отнести машины - переводчики с голоса в реальном времени.

Вобщем случае системы речевого общения строятся на базе специализированных речевых процессоров двух основных типов: анализаторов (УВв) и синтезаторов (УВыв).

Процесс ввода речи, как процесс распознавания слуховых образов, состоит из трех этапов: анализа, идентификации и собственно ввода в ЭВМ (рис. 15.1). Распознавание речи с 60-х годов привлекает внимание ученых, к настоящему времени созданы УВВ речи в дискретной языковой форме (“диктовка”), однако реальные результаты в распознавании слитной речи существенно скромнее. Основные трудности представляет индивидуальность голоса и слитность речи, что усложняет анализ и идентификацию единиц речи - звуков, фонем, слов.

Глава 15. Устройства ввода - вывода речевой информации

213

Микрофон

I

 

 

 

II

 

 

 

 

III

 

 

 

 

 

 

Анализ речи

 

 

Распознавание

 

 

Кодирование

Ввод в ЭВМ машинного

 

 

 

 

 

 

 

 

 

 

 

 

кода фонемы

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Коды эталонов фонем на ПЗУ или памяти ЭВМ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рис. 15.1. 3 этапа процесса ввода речевого сообщения

1

 

2

 

3

50

Поддиапазоны

5000

f, Гц

1-й

 

2-й

3-й

 

фильтр

 

фильтр

фильтр

 

50

900

2200

5000

f, Гц

Рис. 15.2. Частотный спектр речи (а) и амплитудно-частотные характеристики полосовых фильтров (б)

с г с

с г

с

с

г

с

с г

с

с

г

с

г

с

К а к н а ш

П у

ш к и

н

х

о

р

о

ш

0

 

 

 

 

1

 

 

1,5

 

2

 

t, c

 

 

 

 

 

 

 

 

2,5

 

Dt

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рис. 15.3. Фонограмма речи: с - согласный, г - гласный звуки

 

 

Человеческая речь представляет собой последовательность звуковых колебаний в диапазоне от 50 до 5 000 Гц (рис. 15.2-а). Средняя скорость произнесения равна примерно 200 слов/мин. На рис. 15.3 показана фонограмма речевого сообщения “Как наш Пушкин хорош!” Из рисунка видно, что найти границы звуков и слогов нелегко, так как речь непрерывна. В результате проведения этапа анализа речь должна быть разложена на элементы - фонемы. Фонема, с одной стороны, это элементарная смысло-различи-

Глава 15. Устройства ввода - вывода речевой информации

214

тельная единица письменной речи, с другой стороны, это абстрактное обозначение конкретного звука устной речи. Фонема описывается совокупностью различительных признаков, таких как гласная, согласная, глухая, звонкая, шипящая, взрывная, сонорная и другие. Например, слова “там” и “дам” отличаются одной фонемой [т] и [д], различительными признаками фонем [т] и[д] является глухость - звонкость. Русский язык содержит 42 фонемы, из них 6 гласных и 36 согласных. В английском языке 20 гласных, из них 5 дифтонгов, и 24 согласных (см. приложение). Во французском языке - 16 гласных и 20 согласных фонем. В потоке речи в зависимости от конкретных условий характеристики фонем изменяются, что приводит к появлению оттенков фонем - аллофонов. Общее число аллофонов гласных равно 480, согласных - 8880.

Акустические характеристики фонем тесно связаны с артикуляционными особенностями их образования - местом и способом. Речевой аппарат человека представляется в виде двух параллельных каналов - ротового и носового, образующих единую акустическую систему, возбуждаемую периодическими колебаниями голосовых связок либо турбулентным шумом. Распространение акустических волн в такой системе описывается уравнением Вебстера:

1 ∂

 

∂ P

1

2 P

,

 

 

 

(S(x)

 

) =

 

∂ t2

S(x)

∂ x

∂ x

c2

где S(x) - функция площади сечения речевого тракта вдоль оси х распространения волн, P- давление, с - скорость звука, t - время. Решение этого уравнения для речевого тракта различных конфигураций, соответствующих различным звукам речи, является основным предметом исследования акустической теории речеобразования.

Интонация и ударение в слитной речи реализуются тремя просодическими характеристиками:

-мелодика - изменение частоты основного тона голоса;

-ритмика - текущее изменение длительности звуков и пауз;

-энергетика - текущее изменение интенсивности звука.

Минимальным элементом, из совокупности которых складывается интонация фразы и текста в целом, является акцентная группа - одно или несколько полнозначных слов, объединенные общим просодическим контуром, привязанным к единому групповому ударению.

Существуют несколько методов анализа речи. Первым был применен метод предварительной визуализации речи. При этом анализируются оптические изображения губ оператора. Этот метод построен на опыте языка общения глухонемых и тяготеет к бионике. Второй метод - метод анализа колебаний голосовых связок, снимаемых с помощью лорингофона. Он, как и первый метод, тяготеет к бионике и пригоден к работе в условиях сильных звуковых помех, например, в кабине летательного аппарата, вблизи прокатного стана.

Третий метод анализа - анализ спектральных характеристик речи - энергетических, частотных, временных и амплитудных спектров. Этот метод рассмотрим подробнее в применении к распознаванию отдельных слов, например, команд управления.

Этап анализа распадается на ряд операций. Вначале производится сегментация речи - машинное разбиение речи на фонемы. Для этого речевой сигнал разбивается по времени на 10-миллисекундные кванты ∆ t, (рис. 15.3). В каждом кванте производится оценка шести спектральных параметров. 1-й , 2-й, 3-й параметры - это максимальные значения амплитуд колебаний в трех поддиапазонах: 50 - 900 Гц, 900 - 2 200 Гц и 2 200 - 5 000 Гц. 4-й, 5-й и 6-й параметры - число переходов через нуль сигналов этих частот, то есть косвенно определенные значения частот тех колебани, которые имеют максимальную амплитуду в каждом из трех поддиапазонов.