Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Центральные и переферийные устройства электронно вычислительных средств.pdf
Скачиваний:
284
Добавлен:
02.05.2014
Размер:
6.14 Mб
Скачать

Глава 15. Устройства ввода - вывода речевой информации

215

15.2. Структурная схема анализатора речи

Анализаторы подразделяются на два основных класса: анализаторы сигналов и анализаторы сообщений. В анализаторах сигналов достигается сжатие (компрессия) информационного потока сигналов с микрофона (105 бит/c) за счет учета акустических и статистических характеристик речевого сигнала без обращения к его смысловой функции.

Ванализаторах речевых сообщений осуществляется компрессия информационного потока за счет введения операции распознавания смысловых элементов речи (фразы, слова, морфемы, фонемы). Анализаторы речевых сообщений подразделяются на две группы: с ограниченным словарем и универсальные.

Анализаторы ограниченного словаря ориентированы на распознавание заданного конкретной задачей числа речевых команд (обычно 100), то есть на идентификацию одной из произносимых речевых команд словаря в виде номера команды. На этапе распознавания производится сопоставление эталонов команд с произносимой командой и выбора наиболее схожего эталона (рис. 15.6, а).

Универсальные анализаторы ориентированы на текущее распознавание полного набора смысловых элементов речи (фонем или морфем), из которых может быть составлено и

вдальнейшем распознано любое слово или слитно произнесенное речевое сообщение. Распознавание осуществляется лингвистическим процессором по правилам, заложенным в базе знаний (рис. 15.6, б).

Вобщем случае системы речевого общения строятся на базе специализированных речевых процессоров. Анализатор реализуется аппаратно и представляет собой специализированное устройство, включающее в себя радиоэлектронные и вычислительные блоки, зачастую называемое предпроцессором. Предпроцессор - программно-управляемое аналого- во-цифровое устройство, которое осуществляет спектральный анализ речевого сигнала с последующим преобразованием данных в цифровую форму.

Для получения значений шести спектральных параметров звука (при анализе по методу спектральных характеристик речи) электрический сигнал, полученный с микрофона, пропускается через три полосовых фильтра (рис. 15.4) с полосами пропускания, равными поддиапазонам речевого спектра (рис. 15.2, б). В каждом канале трех поддиапазонов пиковый детектор выделяет максимальное значение амплитуд сигналов за время кванта (рис. 15.5); аналого-цифровой преобразователь выдает в двоичном коде значение величины выделенной амплитуды. В процессе работы, особенно в сложных условиях полета, уровень речевого сигнала пилота, поступающего на вход анализатора, может изменяться в несколько раз. Для обеспечения стабильной работы в схему анализатора введены усилители, охваченные глубокой обратной связью, которые осуществляют автоматическую регулировку усиления амплитуды сигнала. В сложных УВв речи служебного назначения число разрядов АЦП обычно берут равным 8-ми, что соответствует 256-ти дискретным уровням сигнала, то есть дискреты квантования по уровню отличаются друг от друга менее, чем на 0,5%. Так получаются 1-й, 2-й и 3-й параметры, описывающие звук.

На выходе порогового устройства получаются полуволны гармонических составляющих спектра сигнала в данном поддиапазоне (рис. 15.5). Число полуволн (число переходов через нуль) подсчитывается счетчиком и выдается в двоичном коде, это - 4-й, 5-й и 6-й параметры.

Затем программно производится объединение или разбиение квантов речи в зависи-

мости от того, установившийся сегмент речи или переходной, параметры соседних квантов которого резко меняются. Для этого необходимо измерять сходство между параметрами двух соседних квантов, а затем и сегментов. При большом сходстве кванты объединяются, если же изменение параметров слишком велико, сегменты разбиваются. Таким образом определяются границы фонем.

Глава 15. Устройства ввода - вывода речевой информации

216

Фильтр 1

 

 

 

Пиковый

150 - 900Гц

 

 

детектор

 

 

 

 

 

 

 

 

 

 

 

 

 

Усилитель

 

 

Фильтр 2

 

 

Пиковый

 

 

 

 

900 - 2200Гц

 

 

детектор

 

 

 

 

 

 

 

 

 

 

 

Фильтр 3

 

 

Пиковый

2200 - 5000Гц

 

 

 

детектор

 

 

 

 

 

 

 

Параметры

 

 

АЦП

 

 

1-й

 

 

2-й

Усилитель

Пороговое

Счетчик

устройство

 

 

 

 

3-й

 

 

АЦП

 

 

ЭВМ

 

 

4-й

Усилитель

Пороговое

Счетчик

устройство

 

 

 

 

5-й

 

 

АЦП

 

 

6-й

Усилитель

Пороговое

Счетчик

устройство

 

 

Рис. 15.4. Структурная схема анализатора речи по методу спектральных характеристик

t

D t

t

t

Спектрограмма звука

Сигнал на выходе 1-го пикового детектора (для 1-го параметра)

Сигнал на выходе 2-го детектора (для 4 -го параметра)

Рис. 15.5. Сигналы детекторов анализатора речи

Число частотных фильтров в значительной мере определяет достоверность распознавания речевой команды, слова, поэтому оно зависит от объема словарного запаса, имеющегося в ПЗУ или в памяти ЭВМ.

Данные с выхода анализатора обычно снимают с частотой ниже минимально возможной частоты основного тона. Этому условию соответствует принятая в Увв речи периодичность опроса данных, которая составляет порядка 100 мкс.

Глава 15. Устройства ввода - вывода речевой информации

217

15.3. Структура устройств ввода речи

Вторая операция этапа анализа речевого сообщения - машинное описание речи с помощью тех же спектральных характеристик. В зависимости от словаря распознаваемых слов

иот задач ввода - слитная речь или дискретная (“диктовка”), можно описывать фонемы, слоги, слова. Соответственно и эталоны должны быть описаны такими же спектральными характеристиками. Емкость памяти словаря эталонов зависит от числа распознаваемых фонем

ислов. Так, для голосового программирования на языке Си, включающем 65 команд и знаков, емкость памяти для хранения эталонов команд должна быть равна 3,5Кбайт, поскольку для хранения одной последовательности, характеризующей входной речевой сиг-

нал, необходимо 55 байт. Объем программы распознавания в этом случае, написанной в свою очередь на языке Си, составляет 991 строку.

Эталоны слов в виде их описаний на уровне фонем помещаются в словарь, хранящийся в памяти ЭВМ либо в ПЗУ эталонов. Затем полученное на этапе анализа описание сравнивается по типу ассоциативного поиска методом перебора или на матричном процессоре с описаниями всех эталонов. Вводимой фонеме (слову) приписывается имя того эталона, код описания которого наиболее близок к коду описания распознаваемого слухового образа.

Если набор слов ограничен, например, команды управления в АСУ либо система команд алгоритмического языка при голосовом программировании, то распознавать слова и границы между ними довольно просто (рис. 15.6, а). В этом случае алгоритм распознавания речевых команд основан на принципе перцептрона. Из кодовой последовательности, поступившей с анализатора, формируется матрица по определенному шаблону, имеющему вид:

А11 А12 . . . А1m

А21А22 . . . А2m

. . . . . . . . . .

Аn1An2 . . . Amn ,

где Аij - ij-й элемент последовательности, поступившей с анализатора. Аij может принимать значения 1 или 0. Данный шаблон формируется случайным образом, так, чтобы в i-ой строке не оказалось одинаковых элементов Аij. После формирования данной матрицы вычисляется массив yi , причем

yi =1, если

m

Α

ij >

0 ,

 

j= 1

 

 

 

yi=0, если

m

Α

ij

0 .

 

j= 1

 

 

 

Таким образом, для каждой последовательности, поступившей на распознавание, будет сформирован массив y.

Далее производитcя процесс настройки: 1. Вычисляется сумма

S = n

yiλ 1i ,

i= 1

где yi - элементы массива y для первой последовательности, поступившей с анализатора, λ i

-элементы массива λ, первоначально сформированного случайным образом.

2.Эта сумма должна принадлежать интервалу δ 1 −δ 2. Если S>δ 2, то меняем λ i возведением в степень по формуле:

λki + 1 = λ ki − θλ ki ,

Глава 15. Устройства ввода - вывода речевой информации

218

Анализатор речевых

 

 

Нелинейный коррелятор

Номер

 

 

сигналов

 

 

команды

 

 

 

 

 

 

 

 

 

 

 

 

 

ЭВМ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ПЗУ эталонов команд

 

 

 

 

 

 

 

 

 

 

 

а)

Акустический процессор

 

 

Лингвистический

Текст

 

 

процессор

 

 

 

 

 

 

 

 

 

 

ЭВМ

База знаний

б)

Рис. 15.6. Структуры устройств ввода речевых сообщений: а - ограниченного словаря, б - универсальное

где θ определяет процент, на который происходит изменение λ i. Если S<δ, то:

λ ki + 1 = λ ki + θλ ki .

Процесс изменения λ i происходит до тех пор, пока сумма S не попадет в диапазон δ 1 −δ 2. 3. Пункты 1 и 2 повторяются для каждой последовательности, вводимой в процессор

на распознавание.

Так как после вычисления очередного набора λ i изменились значения сумм, рассчитанных для предыдущих последовательностей, то после вычисления набора λ i для последней последовательности необходимо повторение всего цикла заново. Процесс пересчета λ i конечен и закончится, когда все суммы станут принадлежать своим интервалам δ S1−δ S2.

Таким образом, после вычислений получим набор λ i (i=1, 2, . . . n), с помощью которого вычислениями по формуле для S последовательность, поступившая с анализатора, может быть отнесена к одному из интервалов δ S1−δ S2. По тому, к какому интервалу принадлежит сумма, можно определить, какая команда поступила на анализатор и идентифицирована.

Лучшие из современных программ после предварительной настройки на голос пользователя распознают дискретную речь с ошибкой, не превышающей 5%. При распознавании слитной речи (рис. 15.6, б) число ошибок примерно в 5 раз больше. При спонтанном диалоге ошибок распознавания примерно вдвое больше, чем при чтении текста. С увеличением объема словаря разбиение на слова становится сложнее, качество распознавания падает.

На третьем этапе ввода в ЭВМ поступает последовательность цифровых кодов с существенно меньшим, чем на входе Увв речи, информационным потоком, порядка 10 - 104 бит/с.