Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
inform / Лекция 4.doc
Скачиваний:
70
Добавлен:
08.06.2015
Размер:
18.2 Mб
Скачать

1.3. Структура коммуникационной системы человека

Р.О. Якобсон [3] интерпретировал идеи К. Шеннона для лингвистики. В модели коммуникации, или речевого события, по Якобсону (рис. 3), участвуют адресант и адресат, от первого ко второму направляется сообщение, которое реализовано с помощью кода. Контекст в модели Якобсона связан с содержанием сообщения, с информацией, им передаваемой.

Рис. 1.4. Модель Р.О. Якобсона

Сообщение может быть понято адресатом только в том случае, если последний осуществляет выбор из множества альтернатив, то есть и у адресанта и у адресата имеется общая модель мира (контекст), в рамках которой и осуществляется этот выбор.

В такой постановке структура коммуникационной системы для организации речевого поведения выглядит следующим образом (Рис. 1.5).

Рис. 1.5. Структура коммуникационной системы для организации речевого поведения. Она симметрична, поскольку адресант не отличается ничем от адресата. Здесь: (1) индивидуальная многомодальная модель мира правого полушария, (2) социализированная модель мира левого полушария, (3) подсистема управления синтезом речи (4) артикуляторные органы, (5) периферия слуховой подсистемы, (6) подсистема распознавания речи.

Как у адресанта, так и у адресата, имеются многомодальные модели мира, сформированные при их обучении (совместном обучении), в соответствующих иерархических структурах. Эти модели состоят из двух частей: индивидуальной модели мира, которая формируется у правши в правом доминантном полушарии, и социализированной модели мира, сформированной в левом полушарии.

Индивидуальные модели мира формируются у адресанта и у адресата только на основе тех физических и социальных ограничений, которые среда и социум накладывают на человека. При этом имеется некоторая общность моделей адресанта и адресата, определяемая тем, что и адресант и адресат живут и действуют в одной и той же физической среде. Имеются и определенные различия, поскольку социальная среда у адресанта и у адресата может отличаться. Различается, также, по составу и связям (генетически), физическая структура отдельных блоков всей коммуникационной системы (один из них может быть моцартом, другой - сальери). Различаются традиции и конкретные условия формирования семантических представлений. Несмотря на отличия в составе моделей мира адресанта и адресата, их общая часть может оказаться достаточно большой - в этом случае и появляется принципиальная возможность коммуникации.

  1. Процесс порождения и восприятия речи у человека

    1. Порождение и восприятие речи

Продукция речи начинается с формулирования сообщения, которое он хочет передать слушающему. Следующий шаг – конвертация сообщения в языковой код. Сообщения представляется последовательностью фонем, соответствующих звукам, составляющим слова, сопровождающихся просодическими маркерами, определяющими длительность фонем, громкость и ударения в соответствующих местах. Языковой код преобразуется в нейромышечные команды, определяющие сокращение и вибрацию связок, а также в форму речевого тракта, необходимую для производства конкретных звуков. На выходе мы имеем речевую волну. Нейромышечные команды одновременно управляют движением губ, языка, зубов, а также перегородки, которая позволяет реализовать назализованные звуки.

Дошедшая до слушающего речевая волна возбуждает стоячую волну на базилярной мембране внутреннего уха. При этом реализуется спектральный анализ входной речевой волны. Волосковые клетки преобразуют отклик базилярной мембраны в активность слухового нерва, которая эквивалентна потоку первичных признаков речевой волны. Далее эта активность в корковом конце слухового анализатора преобразуется в языковой код, который подвергается процессу понимания.

Рис.2.1. Схематическая диаграмма процесса порождения/восприятия речи человеком (по Фланагану [1]).

Процесс порождения/восприятия речи, как он принят в теории и практике распознавания речи, выглядит более машиноподобно (см. Рис. 2.2). Он синхронизирован со шкалой скорости передачи информации. Процесс формирования сообщения в дискретных символах соответствует скорости передачи 50 бит/сек., соответствующих 8 произносимым звукам в секунду. После конвертации сообщения в языковой код с добавлением просодической информации информационная скорость возрастает до 200 бит/сек. На уровне нейромышечного управления скорость передачи информации возрастает до 2000 бит/сек, а на уровне звуковой волны – до 30000-50000 бит/сек. Обратный процесс распознавания речи симметричен по скоростям передачи информации процессу порождения.

Рис.2.2. Взгляд на процесс порождения/восприятия речи с точки зрения компьютерных наук.

Рис. 2.3. Голосовой механизм человека по Фланагану [2].

Рис. 2.4. И его схематическое представление.

Рис. 2.5. Спектральное представление речевой волны.

    1. Представление речи во временной и частотной областях

Речевая волна это медленно изменяющийся во времени сигнал в том смысле, что его характеристики почти неизменны на временном отрезке от 5 до 100 мсек. Тем не менее, на более длительных интервалах времени речевой сигнал меняется, что соответствует произнесению различных звуков.

Рис. 2.6. Речевая волна, соответствующая началу фразы «It’s time». Каждый отрезок на графике соответствует временному отрезку в 100 мсек.

Речевая волна обычно представляется во временной области как квазипериодическое колебание для гласных звуков и низкоамплитудный высокочастотный сигнал для согласных (Рис. 2.6). Альтернативное представление возможно в спектральной области (Рис. 2.7). Наиболее распространено квази-трехмерное представление интенсивности звука в различных частотных диапазонах.

Рис. 2.7. Широкополосная и узкополосная спектрограммы и речевая волна для последовательности «Every salt breeze comes from the sea».

Рис. 2.8. Еще один способ представления речи в виде формантных траекторий. Например, для последовательности «Why do I owe you a letter». Особенностью речевой волны является несовпадение признаков фонем для разных дикторов (см. Рис. 2.9).

Рис. 2.9. Измеренные частоты первой и второй формант для большого числа дикторов для нескольких гласных. Наблюдается перекрытие областей формантных частот для различных звуков для различных дикторов.

Рис. 2.10. Тем не менее, имеется некоторое усредненное представление о положении центроидов основных гласных в фазовом пространстве первых двух формант.

    1. Автоматическое распознавание речи

Имеется три основных подхода к распознаванию речи.

1. Акустико-фонетический подход.

2. Подход, основанный на распознавании образов.

3. Искусственно-интеллектуальный подход.

Рис. 2.11. Системы распознавания речи на основе распознавания образов и акустико-фонетического подходов.

      1. Акустико-фонетический подход

Акустико-фонетический подход базируется на теории акустической фонетики и постулирует, что существуют конечное число отчетливо различимых фонетических единиц в речи, и что фонетические единицы характеризуются набором признаков, представленных в речевом сигнале, или в его спектре. И хотя, упомянутые признаки сильно варьируют в зависимости от диктора и положения фонетической единицы в конкретном окружении (так называемая коартикуляция), предполагается, что эти признаки могут извлекаться по некоторым правилам, формируемым в процессе обучения, что позволяет извлекать признаки и использовать это в приложениях. Наиболее принятые техники первичного описания речевого сигнала в данном подходе – техники, основанные на спектральном описании речевой волны: использование гребенки фильтров и линейное предсказывающее кодирование.

Первый шаг в акустико-фонетическом подходе – сегментация – разделение речевой волны на отдельные фрагменты, которым затем присваиваются фонетические метки в зависимости от присущих этим фрагментам признаков. Среди первичных признаков описания речевого сигнала фигурируют: назальность, фрикативность, локализация формант, вокализация, а также отношение высокочастотной и низкочастотной компонент речевого сигнала. Эти признаки вычисляются параллельно и участвуют в логических правилах принятия решения для вычисления фонетичекой метки текущего речевого сегмента.

Далее, последовательности фонетических меток интерпретируются в терминах слов или последовательностей слов, которые, в зависимости от задачи, должны удовлетворять некоторым синтаксическим, семантическим и прагматическим ограничениям. Как для последовательности слов “all about” в виде строки фонетических значков «SIL-AO-L-AX-B-AW-T».

Рис.2.12. Фонетические гипотезы полученные при использовании акустико-фонетического подхода для распознавания строки слов «all about».

Рис. 2.13. Блок-диаграмма акустико-фонетической системы.

Сегментация речевой волны осуществляется на основе алгоритмов, учитывающих резкое изменение параметров речевой волны во времени. Также привлекаются различные эмпирики, которые позволяют упростить решение задачи сегментации.

Разметка также осуществляется на основе системы правил, позволяющих разделить акустические сегменты друг от друга. Это можно показать на примере дерева классификации звуков (см. Рис. 2.14).

Рис. 2.14. Бинарное дерево классификации речевых звуков.

Рис. 2.15. Сегментация и разметка для последовательности слов «seven-six».

Проблемы подхода сводятся к следующим.

  1. Подход требует хорошего знания акустических свойств фонетических единиц.

  2. Для большинства решений выбор фонетических признаков основывается на интуиции автора.

  3. Конструирование классификаторов звуков также обычно не оптимально.

  4. Не существует автоматических процедур для настройки параметров.

      1. Подход, основанный на распознавании образов

Подход, основанный на распознавании образов используется по следующим соображениям.

1. Простота. Он легко интерпретируется. Имеется хорошо развитый математический аппарат для всех процедур подхода. Он широко применяется.

2. Устойчивость и инвариантность к различным словарям, пользователям, выбору признаков, использования алгоритмов сравнения образов и принятия решения, а также групп дикторов, используемого оборудования, канала. Не зависит от выбора речевой единицы: от фонемы до фразы.

3. Дает хорошие результаты в широком круге задач.

Недостатки подхода.

1. Чувствительность к объему обучающей выборки.

2. Подверженность качества распознавания влиянию шума.

3. Неиспользование лингвистической информации.

4. Большая вычислительная емкость.

В подходе, основанном на распознавании образов, речевые образы используются целиком без сегментации на фрагменты, соответствующие фонемам, и без вычисления признаков, как акустико-фонетическом подходе. В этом подходе есть два этапа: обучение (речевым образам) и распознавание путем сравнения с эталонами. На этапе обучения в обучающую выборку должно войти достаточное число произнесений речевой единицы, используемой в распознавании. И эти речевые единицы должны отличаться друг от друга. Процедура обучения предваряется процедурой классификации образов, во время которой выясняется какие акустические признаки распознаваемых речевых единиц релевантны этим единицам и устойчиво повторяются от произнесения к произнесению. На этапе распознавания производится сравнение полученных в процессе обучения эталонов с входной реализацией с вычислением наиболее близких к входной реализации эталонов.

Рис. 2.16. Блок-схема распознавателя речи на основе подхода, основанного на распознавании образов.

Процедура, основанная на указанном подходе, включает четыре основных шага.

  1. Измерение первичных признаков речевого сигнала. Обычно вычисляются спектральные признаки либо с помощью гребенки фильтров, либо с помощью линейного предсказывающего кодирования, либо с помощью дискретного преобразования Фурье.

  2. Формирование эталонов (обучение). Эталоны формируются с помощью некоторых усредняющих процедур. Это может быть модель, характеризующая статистику признаков эталона.

  3. Классификация, во время которой входной образ сравнивается с эталонами. Сравнение образов, которые есть последовательность векторов признаков, осуществляется с использованием как локального расстояния между двумя синхронными векторами, так и глобальной выравнивающей во времени процедуры (чаще всего, это процедура динамического программирования), которая компенсирует различные скорости произнесения входного и эталонного образов.

  4. Принятие решения.

Различные методы, используемые в данном подходе, зависят от системы первичных признаков, от модели, на которой строятся эталоны, от методов сравнения образов.

      1. Подход на основе искусственного интеллекта

Идея искусственно-интеллектуального подхода во включении в процесс принятия решения любой доступной информации - знаний всех уровней: акустических, лексических, синтаксических, семантических.

Акустические знания представлены в виде акустических признаков. Лексические – в виде фонетических описаний слов в лексиконе. Синтаксические знания представлены в виде допустимых (с точки зрения грамматики) комбинаций слов – предложений, фраз. Семантическая информация представлена в виде смысловой сочетаемости слов предметной области.

Рис. 2.17. «Снизу-вверх» подход интеграции знаний для распознавания речи.

Рис. 2.18. «Сверху-вниз» подход к интеграции знаний для распознавания речи.

Рис. 2.19. Подход, основанный на концепции классной доски для интеграции знаний для распознавания речи.

      1. Подход, основанный на применении искусственных нейронных сетей

Искусственные нейронные сети эффективно используются для решения тех или иных задач в области распознавания речи.

Рис. 2.20. Многослойный персептрон для классификации гласных, основанной на формантных измерениях.

Рис. 2.21. Нейронная сеть с задержками.

  1. Первичная обработка

Как было сказано ранее, система распознавания речи, в ее наиболее простом представлении, включает в себя алгоритмы из широкого спектра предметных областей, в том числе, статистического распознавания образов, теории коммуникаций, обработки сигналов, комбинаторной математики, а также лингвистики. Они в той или иной степени включены в разные подходы к распознаванию речи. Однако все без исключения системы распознавания речи включают в свой состав уровень первичной обработки речевого сигнала, который преобразует речевую волну в некоторый вид параметрического представления (имеющий значительно более низкую скорость передачи сигнала, чем речевая волна), используемый для последующей обработки. Рассмотрим наиболее распространенные в области обработки сигналов технологии.

Наиболее часто используемый вид параметризации – вычисление огибающей мгновенного спектра. Методы анализа спектра являются ключевыми в первичной обработке речевой волны в системах распознавания речи. Рассмотрим два наиболее известных метода оценки спектра речевого сигнала: с использованием гребенки фильтров, и на основе линейного предсказывающего кодирования. Одновременно рассмотрим так называемый метод векторного квантования, который позволяет свести континуум спектральных представлений к небольшому числу характерных их представителей, что позволяет еще более снизить скорость передачи. Далее мы рассмотрим так называемую антропоморфную модель обработки речевой волны, которая оказывается более устойчивой к шумам и реверберации, чем обработка с помощью гребенки фильтров и линейного предсказывающего кодирования.

    1. Спектральный анализ

Как было показано выше, независимо от подхода, используемого для распознавания речи (см. Рис. 2.11), первичная обработка речевой волны, с целью формирования боле компактного описания входного события, осуществляется во всех подходах. Рассмотри гребенку фильтров (рис. 3.1) и линейное предсказывающее кодирование (рис. 3.2).

Рис. 3.1. Модель анализа на основе гребенки фильтров.

Рис. 3.2. Модель анализа на основе линейного предсказывающего кодирования.

      1. Модель анализа на основе гребенки фильтров

Рис. 3.3. Модель анализа на основе полной гребенки фильтров.

Блок-схема канонической модели анализа на основе гребенки фильтров представлена на рис. 3.3. Квантованный во времени речевой сигнал пропускается через гребенкуQ фильтров, дающих на выходе Q сигналов:

, (2.1)

где (m) – импульсный отклик i-го фильтра гребенки в ответ на отсчетов входного сигнала. Или, другими словами, мы используем для представления действия фильтра на входной сигналсвертку. Каждый фильтр гребенки дает представление об энергии речевого сигнала в его полосе пропускания. Далее, полученный на выходе каждого фильтра гребенки сигналпропускается через нелинейное преобразование – полнопериодный или полупериодный выпрямитель. Нелинейность разделяет спектр на низкочастотную и высокочастотную компоненты.Применение далее низкочастотной фильтрации удаляет из сигналавысокочастотную компоненту. В результате получается набор откликов, которые представляют оценку речевой энергии в каждой изQ частотных полос.

Чтобы представить картину более понятно, представим, что выход i-го фильтра есть чистая синусоида с частотой :

. (2.2)

Такое представление вполне подходит для речевого сигнала, поскольку гласные представлены в речевом сигнале стационарными квазипериодическими фрагментами. Используем в качестве нелинейности полнопериодный выпрямитель:

. (2.3)

Представим выход нелинейности как:

, (2.4)

где

, (2.5)

см. рис. 3.4.

Рис. 3.4. Типичная волна и ее спектр, в случае анализа чистой синусоиды с помощью гребенки фильтров.

Поскольку выход нелинейного преобразования может быть представлен модулированным во времени, как на рис. 3.3, тогда в частотной области мы получим:

, (2.6)

где ,и- преобразование Фурье сигналов,и, соответственно, ициклическая свертка. Спектрединственный импульс при, в то время как- множество импульсов на дополнительных гармонических частотах. Поэтому спектресть импульс прии множество низкоамплитудных импульсов при. Влияние нелинейности заключается в пропуске низкочастотной компонентыи устранении высокочастотных компонент.

Приведенный анализ, точно характеризующий обработку единственной синусоиды, тем не менее, является приемлемой моделью для демонстрации процессов, происходящих при обработке квазипериодических речевых вокализованных звуков, поскольку пропускающий фильтр не настолько широк, чтобы пропустить две или больше высокоамплитудных гармоники. Поскольку речевой сигнал изменяется во времени (квазипериодичен), спектр низкочастотного сигнала не является чистым импульсом, но содержит информацию в низкочастотной области в близи чистого импульса. На рис. 3.5. представлены сигналы ,,идля 20 мсек отрезка речевой волны, обработанной узкополосным фильтром с центром около 500 Гц (частота квантования 10000Гц). А также представлен результирующий вид спектра для этих сигналов. Можно видеть, чтоимеет максимум его энергии около частоты 500 Гц (), в то время как квазипериодическийаппроксимируется гармониками с пиками на частотах 500, 1500, 2500 Гц. Спектр результирующего сигналасодержит как нужный низкочастотный сигнал, так и нежелательные пики на частотах 1000, 2000, и т.д. Гц. Роль низкочастотного фильтра в конце обработки – подавить эти нежелательные высокочастотные пики.

Рис. 3.5. Типичный вид речевой волны и ее спектра в модели анализа на основе гребенки фильтров.

Полоса сигнала зависит от наибольшей скорости изменения гармоник речевого сигнала в узких полосах и обычно не превышает 20-30 Гц. Поэтому два последних блока на рис. 3.3 это блок уменьшения частоты квантования, в котором отфильтрованный низкочастотный сигналпереквантуется при частоте 40-60 Гц (для экономичного представления), а динамический диапазон сигнала сжимается с использованием схемы амплитудной компрессии (логарифмическое кодирование,-кодирование, и т.д.).

Пусть есть Q=16 канальнаф гребенка для широкополосного речевого сигнала, где наибольшая частота 8 кГц. Предположим мы имеем частоту квантования . Информационная скорость передачи речевого сигнала – 240 кбит/сек (20 к отсчетов в секунду по 12 бит на отсчет). На выходе анализатора, если частота квантования – 50 Гц и на выходе имеется 7 битовый логарифмический компрессор, получается информационная скорость передачи 16-ти каналов по 50 отсчетов в секунду на канал по 7 бит на отсчет, или 5600 бит/сек. То есть мы имеем сжатие в 40 раз по скорости передачи.

      1. Модель анализа на основе линейного предсказывающего кодирования

Теория линейного предсказывающего кодирования применительно к анализу речевого сигнала разрабатывалась длительное время [3].

Сначала покажем, почему линейное предсказание так широко используется в распознавании речи для анализа речевого сигнала.

  1. ЛПК представляет собой очень хорошую модель речевого сигнала. Особенно для квази стационарных гласных, где ЛПК дает хорошую аппроксимацию спектральной огибающей.

  2. Способ, которым применяется ЛПК, приводит к разделению моделей источника речевого сигнала и речевого тракта. Становится возможным получить характеристики речевого тракта из речевого сигнала.

  3. ЛПК метод хорошо интерпретируется математически. Вычислительная сложность ЛПК алгоритмов меньше таковой для гребенки фильтров при равном качестве представления сигнала.

  4. ЛПК модель хорошо работает в речевых приложениях. Решения на основе ЛПК дают нехудший результат по сравнению с гребенкой фильтров.

ЛПК модель. Основной идеей линейного предсказания является утверждение, что текущий речевой отсчет в момент времени n может быть представлен линейной комбинациейp предыдущих отсчетов:

, (2.7)

где коэффициенты предполагаются неизменными на интервале анализа. Преобразуем выражение (2.7) с учетом члена, характеризующего источник возбуждения:

, (2.8)

где u(n) – нормированное возбуждение, а G – величина возбуждения. Переведя выражение 2.8. в z-представление, получим:

, (2.9)

что приводит к передаточной функции:

. (2.10)

Рис. 3.6. Модель на основе линейного предсказывающего кодирования.

Интерпретация 2.10 дана на рис. 3.6, на котором показано, как нормализованный источник возбуждения u(n) , нормированный весом G, воздействует на полюсную систему , порождая сигнал. Поскольку для речевого сигнала возбуждающая функция или квазипериодическая импульсная последовательность (для вокализованных звуков) или высокочастотный шум (для невокализованных звуков), является подходящей моделю генерации речевого сигнала, удобной для ЛПК анализа, она выглядит так, как представлена на рис. 3.7. Здесь нормализованный источник возбуждения, представленный переключателем, чье положение управляется вокализацией/невокализацией речевого сигнала, порождает квазипериодическую последовательность импульсов для возбуждения вокализованных звуков, или случайный шум для генерации невокализованных звуков. Подходящая амплитудаG источника определяется из речевого сигнала, и шкалированный источник используется как входной для цифрового фильтра H(z), который управляется параметрами речевого тракта синтезированной речи. Таким образом, параметрами этой модели являются признак вокализованности/невокализованности, период основного тона для вокализованных звуков, значение амплитуды, а также коэффициенты цифрового фильтра {}. Все эти параметры медленно изменяются во времени.

Рис. 3.7. Модель синтеза речевого сигнала на основе линейного предсказывающего кодирования.

Вычисление коэффициентов линейного предсказания. Еще одним параметром модели является значение ошибки предсказания:

. (2.11)

Основной проблемой анализа на основе линейного предсказывающего кодирования является определение множества коэффициентов предсказания {} прямо из речевого сигнала. Поскольку спектральные характеристики речевой волны медленно изменяются во времени, коэффициенты предсказания в момент времениn могут быть определены на основе анализа небольшого сегмента речевой волны, близкого к моменту времени n таким образом, чтобы минимизировать квадрат ошибки предсказания на небольшом отрезке речевой волны (обычно, порядка 10 мсек.):

. (2.12)

Ошибка анализа на основе ЛПК уменьшается с увеличением числа коэффициентов предсказания (см. рис. 3.8), но при этом возрастает объем вычислений.

Рис. 3.8. Зависимость качества анализа на основе линейного предсказывающего кодирования в зависимости от числа коэффициентов предсказания p.

Вычисление поперечных сечений артикуляционного тракта.

Рис. 4.32. Последовательность цилиндрических секций, соединенных как акустическая труба – модель речевого тракта (по Маркелу и Грею [3]).

      1. Векторное квантование

Результатом ЛПК анализа или анализа на основе гребенки фильтров является последовательность векторов характеристик изменяющегося во времени речевого сигнала. Определим векторы как , где каждый вектор имеет размерность p. Если сравнить скорость передачи информации на входе процедуры первичного анализа и после нее, можно заметить, что скорость заметно уменьшится. Пусть речевая волна квантуется с частотой 10 кГц и по 16 бит на отсчет. В этом случае скорость передачи некомпрессированной речевой волны будет равна 160000 бит/сек. После проведения процедуры спектрального анализа размерностью p=10 по 100векторов в секунду и 16-битным представлением каждого вектора мы получим скорость передачи информации – 16000 бит/сек. Мы имеем 10-кратное уменьшение скорости передачи информации. В идеале было бы неплохо довести число представляющих речевую волну векторов до одного (среднего в некотором смысле) на фонему. Но это не реально. Однако, реальна идея создания кодовой книги, где все многообразие векторов сводится к некоторому конечному числу представителей классов векторов (то есть все векторы кластеризуются на классы). Такая кодовая книга реализуется в результате процедуры векторного квантования. Допустим, мы имеем кодовую книгу, содержащую 1000 уникальных спектральных векторов (по 25 векторов на каждую из базовых фонем). В этом случае, для представления спектрального вектора нам достаточно 10-битного номера, который характеризует входной спектральный вектор одним из векторов кодовой книги. В этом случае для представления потока векторов, поступающих со скорости в 100 векторов/сек достаточно скорости передачи информации - 1000 бит/сек. Это в 16 раз меньше, чем требуется для представления потока векторов из континуального множества.

Рассмотрим достоинства и недостатки векторного квантования.

1. ВК уменьшает скорость передачи информации.

2. Уменьшает объем вычислений, поскольку векторы из кодовой книги меняются реже, чем из континуального множества.

3. Приводит к дискретизации представления речевой волны, так как позволяет пометить вектора кодовой книги метками соответствующих фонем.

4. Увеличивает ошибку квантования.

5. Требуется большой объем памяти для хранения кодовой книги.

Рис. 3.9. Блок-схема векторного квантования, включающая обучающую и классифицирующую компоненты.

Процедура векторного квантования реализуется в несколько шагов (см. рис. 3.9).

  1. На основе множества векторов L исходной речевой волны выявляется оптимальное множество векторов M кодовой книги (M<<L), которое корректно представляет все спектральное многообразие векторов речевой волны.

  2. Нахождение спектрального расстояния, позволяющего, во-первых, раскластеризовать векторы речевой волны на эффективные классы, а, во-вторых, вычислить степень подобия входного вектора векторам кодовой книги.

  3. Выявление центроидов кластеров M.

  4. И, наконец, классификация входных векторов соотнесением с M классами кодовой книги.

Объем обучающей выборки векторов для формирования кодовой книги должен учитывать:

- множество дикторов (мужчин, женщин и детей), их возраст, акцент, скорость произнесения, степень интеллектуальности, и многие другие особенности;

- условия произнесения, такие как шум;

- каналы передачи речевой волны (микрофон, телефон, направление, канал – телефонный, радио, акустический – и другие условия);

- тип речевых единиц как специальных словарей (цифры, например), так и разговорной речи.

Независимо от ситуации обучающее множество должно быть насколько возможно более велико.

Спектральная мера в векторном квантовании:

. (2.13)

Для векторов, полученных с помощью гребенки фильтров чаще всего используются меры и, в то время как для векторов, полученных с помощью ЛПК меры на основе меры правдоподобия и меры кепстрального расстояния.

Кластеризация множества векторов обучающей выборки может производиться разными способами, например, представленным ниже, и осуществляется в несколько шагов.

  1. Выбираем M начальных векторов в кодовой книге.

  2. Для каждого вектора обучающей выборки находим ближайший класс кодовой книги с помощью процедуры поиска ближайшего соседа.

  3. После формирования классов на основе векторов обучающей выборки смена центроидов классов.

  4. Повторение шагов 2 и 3 до тех пор, пока среднее расстояние между входными векторами и центрами классов не станет меньше заданного (см. рис. 3.10).

Рис. 3.10. Представление пространства признаков, разбитого на кластеры с центральными векторами классов.

Пример кодовой книги в фазовом пространстве двух первых формант имеет вид, представленный на рис. 3.11.

Рис. 3.11. Локализация классов в фазовом пространстве F1 – F2 (для 32-векторной кодовой книги), пересекающихся для гласных (по Juang et al. [6].)

Процедура классификации реализуется вычислением индекса класса, к которому входной вектор относится в наибольшей степени:

. (2.14)

      1. Антропоморфная модель анализа

Речь - это процесс обмена информацией между людьми при помощи последовательности звуков, который в результате эволюции оптимально соответствует свойствам как голосового тракта, так и аудиторного аппарата человека. И поэтому логично предположить, что аудиторный аппарат человека способен выделять именно ту информацию из входного речевого сигнала, которая необходима для успешного распознавания произнесённого. Основной гипотезой является предположение о том, что более подробные и точные модели аудиторного аппарата способны служить основанием для создания искусственных систем, которые по своей эффективности будут ближе к уровню человека, нежели уже существующие системы. Кроме того, как и в случае человека, их эффективность будет более универсальна по отношению к природе помех по сравнению со специализированными алгоритмами, направленными на борьбу с каким-то априорно известным их типом.

Процесс восприятия человеком речи можно разделить на два этапа: этап первичной обработки и этап центральной обработки. На этапе первичной обработки осуществляется преобразование акустического сигнала во внутреннее нейронное представление, в основе которого лежит слуховая спектрограмма. На этапе центральной обработки происходит анализ спектрограммы, в результате которого из нее извлекается контекст спектральных и временных модуляций.

На этапе первичной обработки звуковой сигнал попадает в ухо и с помощью барабанной перепонки и косточек среднего уха преобразуется в механические колебания. Эти колебания возбуждают сложные пространственно-временные колебания вдоль основной мембраны слуховой улитки. Характер этих колебаний таков, что разные звуковые частоты преобразуются в активность, локализованную в различных точках мембраны улитки. Таким образом, основная мембрана может быть представлена как банк фильтров с высокой степенью перекрытия равномерно распределенных на логарифмической частотной оси. Основная мембрана представляет собой кусочек кожи, и на ней имеются волосковые клетки. Эти клетки являются частью сложной структуры, называемой кортиевым органом. Любое движение мембраны заставляет эти волоски деформироваться. Давление и напряжение, передаваемые на волосковые клетки, вызывают активность в соединяющихся с ними нервных волокнах, генерируя электрические импульсы, которые распространяются по слуховому нерву.

На этапе центральной обработки слуховой спектр представляется в более подходящей форме, интерпретируется и разделяется на различные компоненты и параметры, связанные с разными источниками сигнала. В частности, на этой стадии производится оценка контекста слуховой спектрограммы. В этом процессе большую роль играют низкочастотные модуляционные составляющие, которые являются основными носителями информации в речевом сигнале: низкочастотные волны «несущие информацию» модулируют высокочастотные несущие волны.

Подавляющее большинство используемых в настоящий момент алгоритмов выделения признаков для систем распознавания речи используют анализ спектра речевого сигнала, как первый этап обработки.

Концепция критических полос была предложена в исследованиях частотного маскирования. Предполагается, что в эксперименте по маскированию тона белым шумом основной вклад в маскирование вносят те компоненты шума, которые лежат в окрестности маскируемого тона. Для получения количественных характеристик дополнительно полагается, что маскирование наблюдается в тот момент, когда энергия маскируемого тона становятся меньше энергии шума с некоторой полосой вокруг центральной частоты, на которой расположен маскируемый тон. При этих допущениях, определяя ширину полосы шума, необходимую для того, чтобы маскировать центральный тон, делается вывод о существовании некой “характеристической” ширины полосы шума, внутри которой порог обнаружения тестового тона не меняется. В дальнейшем предложенная концепция была доработана [20] до широко принятой в настоящий момент.

Перцептивное линейное предсказание. Примером алгоритма выделения признаков для ИСРР, в котором использована психоакустическая концепция критических полос, может служить метод PLP (Perceptual Linear Prediction, перцептуальное линейное предсказание) [5]. Классическая схема линейного предсказания в нём преобразована с учетом особенностей восприятия речи человеком. Структурная схема метода приведена на рис. 3.12(а). С помощью кратковременного преобразования Фурье вычислялся спектр мощности входного сигнала. Частотная шкала спектра модифицировалась преобразованием из шкалы Герцев в шкалу барков. Для выделения критических полос использовался набор взвешивающих функций, представленный на рис. 3.12(б). Эти взвешивающие функции были получены с учетом кривой равной громкости.

Рис. 3.12 - Перцептивное линейное предсказание (PLP)

Рис. 3.13 – Сравнение алгоритмов обычного и перцептивного линейного предсказания

Рис. 3.14 – Уменьшение ошибки предсказания при использовании перцептивного линейного предсказания вместо обычного

Рис. 3.15 – Гладкость формантных траекторий, полученных методом обычного и перцептивного линейного предсказания (по Hermansky [5]).

Использование перцептуально обоснованных шкал частот в распознавании речи не ограничивается только Барк-шкалой. Широкое распространение получили алгоритмы выделения признаков, использующие в своей работе Мел-шкалу [1] аналогично тому, как это делается в PLP.

Рис. 3.16. Более общее представление об устройстве внутреннего уха человека.

Рис. 3.17. Блок-схема модели внутреннего уха (по Ghitza [7]).

Рис. 3 18. Частотные отклики базилярной мембраны кошки (по Ghitza [7]).

Рис. 3.19. Амплитуды откликов модели внутреннего уха (по Ghitza [7]).

Рис. 3. 20. Отклик модели на чистую синусоиду (по Ghitza [7]).

Рис. 3. 21. Отклик модели на чистую синусоиду (по Ghitza [7]) Продолжение.

Обработка сигналов в модуляционной области. Условно процесс восприятия человеком речи можно разделить на два этапа: начальный и центральный. На начальном этапе осуществляется преобразование акустического сигнала во внутреннее нейронное представление, в основе которого лежит слуховая спектрограмма. На центральном этапе происходит анализ спектрограммы, в результате которого из нее извлекается контекст спектральных и временных модуляций.

На начальном этапе звуковой сигнал попадает в ухо и с помощью барабанной перепонки и косточек среднего уха преобразуется в механические колебания. Эти колебания возбуждают сложные пространственно-временные колебания вдоль основной мембраны слуховой улитки. Характер этих колебаний таков, что разные звуковые частоты преобразуются в активность, локализованную в различных точках звуковой мембраны. Таким образом, основная мембрана может быть представлена как банк фильтров с высокой степенью перекрытия равномерно распределенных на логарифмической частотной оси. Основная мембрана практически представляет собой кусочек кожи, и, как и на коже, на ней имеются волосковые клетки. Эти клетки являются частью сложной структуры, называемой кортиевым органом, и лежащей на основной мембране. Любое движение основной мембраны заставляет эти волоски деформироваться. Давление и напряжение, передаваемые на волосковые клетки, вызывают активность в соединяющихся с ними нервных волокнах, генерируя электрические импульсы, которые распространяются по слуховому нерву.

На центральном этапе слухового анализа слуховой спектр трансформируется в более подходящую форму, интерпретируется и разделяется на различные компоненты и параметры, связанные с разными источниками сигнала. В частности, с абстрактной точки зрения, на этой стадии производится оценка контекста слуховой спектрограммы. В этом процессе большую роль играют низкочастотные модуляционные составляющие, которые являются основными носителями информации в речевом сигнале и тембра в музыке. К таким выводам пришли разные ученые исходя из психофизических, психологических и другие исследований в этой области.

В 1939 году Dudley [10] подытожил свою знаменитую работу по анализу речи: «…основная природа речи как совокупности слышимых звуковых потоков, на которых пропечатывается смысловое содержание волн несущих информацию, которые сами по себе не слышимы». Другими словами Dudley заметил, что речь и другие аудиосигналы в действительности низкочастотные процессы, которыми модулируются несущие частоты. Предположение заключалось в том, что несоответствие между физической природой звуковых волн и размерами нашей головы и голосового тракта являются результатом этого умного механизма: низкочастотные волны «несущие информации» предположительно модулируют высокочастотные несущие волны.

Основные модуляционные частоты влияющие на разборчивость речи находятся в диапазоне от 1 до 16 Гц, с пиком около 3-5 Гц, кроме того, более 95% модуляционных компонент речевого сигнала, сконцентрированы в этом диапазоне. Это обусловлено количеством слогов произносимых человеком за одну секунду. Таким образом, модуляционные компоненты (шумы, реверберация), изменяющиеся с частотами не входящими в данный диапазон, могут быть удалены с помощью фильтрации спектра модуляции. Тем самым, будет достигнуто уменьшение уровня шума и реверберации и повышение качества речи.

Более полные исследования восприятия речи показали, что наиболее важная перцепционная информация находится в модуляционных частотах ниже 16 Гц.

Упрощенно схема обработки сигнала в модуляционной области может быть представлена следующим образом (рис. 3.22).

Рисунок 3.22 - Схема обработки сигналов в модуляционной области

Речевой сигнал разделяется на M частотных полос с помощью банка ДПФ модулированных полифазных фильтров. В каждой k-ой полосе вычисляется огибающая, производится ее трансформация путем нелинейного статического сжатия (T), фильтруется времязависимым модуляционным фильтром, преобразуется обратно в линейный масштаб (). Восстанавливается сигнал речи на основании огибающей амплитуды и оригинальной фазы речевого сигнала. Параллельно с фильтрацией, осуществляется подстройка коэффициентов модуляционного фильтра.

Нелинейное статическое сжатие позволяет трансформировать конволютивные искажения в аддитивную область и отфильтровать их. Кроме того, оно влияет на степень улучшения качества сигнала.

Результат работы метода повышения качества речи путем фильтрации спектральных огибающих в модуляционной области можно увидеть на рисунке 3.23. Был использован сигнал, записанный с частотой дискретизации 8 кГц в условиях шума с SNR = 4 дБ рис. 3.23а и реверберации (2400 мсек) рис. 3.23б.

Рисунок 3.23 - Речевой сигнал и его спектрограмма записанный в условиях: шума а); реверберации б); шума после обработки предложенным методом в); реверберации после обработки предложенным методом г).

Ниже приведены результаты сравнения нейроморфного метода повышения качества речевого сигнала с методом спектрального вычитания. Этот метод оценки уровня шума показал наилучший результат в условиях динамического изменения акустической обстановки.

На рис. 3.24 показаны результаты обработки речевого сигнала, который был искажен белым шумом с динамически меняющийся энергией, реверберацией и тоном 500Гц.

Рисунок 3.24а)

Рисунок 3.24б)

Рисунок 3.24в)

Рисунок 3.24 - Результаты работы алгоритмов повышения качества речевого сигнала: а) – исходный сигнал, б) – результат спектрального вычитания, в) – результат фильтрации в модуляционной области

Анализ результатов обработки (рис. 3.24б и рис. 3.24в) показывает, что качество обработки сигнала по алгоритму на основе нейроморфного подхода (фильтрация в модуляционной области) выше для алгоритма спектрального вычитания с перцептивной обработкой.

  1. Принятие решения

Ключевым вопросом в распознавании речи является вопрос сравнения входного образа с эталонными образами с целью выяснения степени их подобия. Проблема сравнения образов имеет ряд особенностей.

Соседние файлы в папке inform