Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
МСКИТ Конспект полный вроде как.doc
Скачиваний:
1
Добавлен:
01.03.2025
Размер:
4.56 Mб
Скачать

10.3. Гомоморфная обработка речи.

Речевой сигнал является сверткой функции возбуждения (случайного шума либо квазипериодической последовательности импульсов) и импульсной характеристики голосового тракта. Гомоморфный анализ речи позволяет разделить эти компоненты. Поэтому, используя гомоморфный анализ, можно определить период основного тона и частотные свойства голосового тракта. Общая схема гомоморфной обработки приведена на рис. 3.

Рис. 3. Общая схема гомоморфной обработки.

В соответствии с этой схемой сначала выполняется нелинейное преобразование сигнала , которое определяется отношением:

. (6)

Затем выполняется оператор , который соответствует линейной инвариантной системе. В конце реализуется преобразование .

Пусть сигнал является сверткой двух последовательностей и . Тогда:

. (7)

Подставив (7) в (6), получим:

. (8)

Линейная инвариантная система пропускает на выход только одну из компонент или . Соответственно обратное преобразование дает или . Следовательно, гомоморфная обработка разделяет входные компоненты и , содержащиеся во входном сигнале.

Рис. 4. Гомоморфная система анализа речи.

Гомоморфная система анализа речи показана на рис. 4. Здесь на первом этапе вычисляется логарифм модуля кратковременного преобразования Фурье. Если предположить, что сигнал в точке А является сверткой функции возбуждения и импульсной характеристики голосового тракта, то в точке С мы получим сумму логарифмов спектра функции возбуждения и импульсной характеристики голосового тракта. Сигнал в точке D, полученный с помощью обратного дискретного преобразования Фурье, называется кепстром. Кепстр в точке D равен сумме кепстров функции возбуждения и импульсной характеристики голосового траста.

10.4. Психоакустическая модель восприятия звука.

По сравнению с речевыми сигналами аудиосигналы характеризуются более широким частотным диапазоном ( Гц), большим динамиче­ским диапазоном, большей изменчивостью спектральных свойств, многоканальностью (стерео звук). Частота дискретизации аудиосигналов обычно равна кГц. Данная частота используется при обработке звука в цифро­вых магнитофонах, при записи звука на компакт диски. Каждый отсчет зву­кового сигнала представляется -ти разрядным двоичным кодом. В случае стерео звука это создает цифровой поток со скоростью передачи Мбит/с. На практике из-за наличия дополнительной служебной информации скорость передачи оказывается существенно выше. Так, при считывании отсчетов звукового сигнала с компакт диска формиру­ется цифровой поток со скоростью Мбит/с. Ограниченная пропускная способность каналов связи, ограниченная емкость запоминающих уст­ройств требуют сжатия аудиосигналов.

Сжатие аудиосигналов основано на учете особенностей слуха челове­ка. Ухо человека воспринимает звуковой сигнал в изолированном от внеш­них шумов помещении, если звуковое давление превышает некоторый по­рог, называемый абсолютным порогом слышимости (АПС). Зависимость АПС от частоты аппроксимируется нелинейной функцией:

дБ. (9)

Как отмечалось выше, внутренне ухо человека выполняет кратковре­менный спектральный анализ на основе механизма критических частотных полос. Если в критической частотной полосе находится несколь­ко спектральных составляющих, то наблюдается явление частотного маски­рования. Суть его состоит в том, что спектральная составляющая (тон) с низким уровнем может не прослушиваться, если в этой же критической по­лосе имеется спектральная составляющая звука с более высоким уровнем. Спектральная составляющая с высоким уровнем повышает порог слышимости и маскирует присутствие, составляющих с низким уровнем. Повышенный порог слышимости называется порогом маскирования. Все спектральные составляющие, уровень которых ниже порога маскирования, не прослушиваются.

Зависимость порога мшиваются.

Зависимость порога мтся уровнем и частотой маскирующей составляющей, а также уровнями и частотами маскируемых спектральных составляющих. Порог маскирования имеет максимальное значение на частоте маскирующей спектральной составляю­щей и снижается при уменьшении или увеличении частоты. При уменьшении частоты относительно частоты маскирующей составляющей порог мас­кирования снижается быстрее, чем при её увеличении, т.е. составляющие, частоты которых лежат выше частоты маскирующей частотной составляющей, маскируются в большей степени.

На практике наблюдается присутствие маскирующих спектральных составляющих во многих полосах. Такие составляющие ока­зывают взаимное влияние на пороги маскирования в соседних полосах. В результате этого образуется суммарный порог маскирования. Частотные со­ставляющие, уровень которых ниже суммарного порога маскирования, не воспринимаются на слух и, соответственно, могут быть исключены из спек­тра сигнала при его записи и хранении в запоминающих устройствах или при передаче по каналам связи. Это позволяет снизить требования к емко­сти запоминающих устройств или пропускной способности каналов связи.

Помимо частотного маскирования, описанного выше, важную роль в восприятии звука играет временное маскирование. Временное маскирова­ние наблюдается в том случае, когда два звука появляются через короткий интервал времени. Тогда звук, характеризующийся большим уровнем зву­кового давления, может частично или полностью маскировать присутствие звука с меньшим звуковым давлением, даже в том случае, если маскируе­мый звук предшествует маскирующему. Это связано с переходными про­цессами во внутреннем ухе, которые формируются маскирующим звуком.

Продолжительность эффекта временного маскирования до воспри­ятия маскирующего звука равна примерно мс. Продолжительность маски­рующего эффекта после окончания восприятия маскирующего звука равна мс. Временное маскирование используется для подавления предва­рительного эхо, которое наблюдается при восстановлении сжатых звуковых сигналов. Предварительное эхо прослушивается до появления восстанов­ленного звукового сигнала и обусловлено шумами квантования, распро­страняющими свое действие на весь блок данных, подвергшийся сжатию, в том числе и на ту его часть, которая предшествовала звуку.

Тема: КОМПЬЮТЕРНЫЕ ИНФОРМАЦИОННЫЕ

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]