Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Одесский национальный политехнический университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

МСКИТ Конспект полный вроде как.doc

Скачиваний:

Добавлен:

01.03.2025

Размер:

4.56 Mб

Скачать

☆

<<< < Предыдущая 4 5 6 7 8 9 10 11 12 13 14 1516 / 3216 17 18 19 20 21 22 23 24 25 26 27 28 > Следующая >>>

10.3. Гомоморфная обработка речи.

Речевой сигнал является сверткой функции возбуждения (случайного шума либо квазипериодической последовательности импульсов) и импульсной характеристики голосового тракта. Гомоморфный анализ речи позволяет разделить эти компоненты. Поэтому, используя гомоморфный анализ, можно определить период основного тона и частотные свойства голосового тракта. Общая схема гомоморфной обработки приведена на рис. 3.

Рис. 3. Общая схема гомоморфной обработки.

В соответствии с этой схемой сначала выполняется нелинейное преобразование сигнала , которое определяется отношением:

. (6)

Затем выполняется оператор , который соответствует линейной инвариантной системе. В конце реализуется преобразование .

Пусть сигнал является сверткой двух последовательностей и . Тогда:

. (7)

Подставив (7) в (6), получим:

. (8)

Линейная инвариантная система пропускает на выход только одну из компонент или . Соответственно обратное преобразование дает или . Следовательно, гомоморфная обработка разделяет входные компоненты и , содержащиеся во входном сигнале.

Рис. 4. Гомоморфная система анализа речи.

Гомоморфная система анализа речи показана на рис. 4. Здесь на первом этапе вычисляется логарифм модуля кратковременного преобразования Фурье. Если предположить, что сигнал в точке А является сверткой функции возбуждения и импульсной характеристики голосового тракта, то в точке С мы получим сумму логарифмов спектра функции возбуждения и импульсной характеристики голосового тракта. Сигнал в точке D, полученный с помощью обратного дискретного преобразования Фурье, называется кепстром. Кепстр в точке D равен сумме кепстров функции возбуждения и импульсной характеристики голосового траста.

10.4. Психоакустическая модель восприятия звука.

По сравнению с речевыми сигналами аудиосигналы характеризуются более широким частотным диапазоном ( Гц), большим динамическим диапазоном, большей изменчивостью спектральных свойств, многоканальностью (стерео звук). Частота дискретизации аудиосигналов обычно равна кГц. Данная частота используется при обработке звука в цифровых магнитофонах, при записи звука на компакт диски. Каждый отсчет звукового сигнала представляется -ти разрядным двоичным кодом. В случае стерео звука это создает цифровой поток со скоростью передачи Мбит/с. На практике из-за наличия дополнительной служебной информации скорость передачи оказывается существенно выше. Так, при считывании отсчетов звукового сигнала с компакт диска формируется цифровой поток со скоростью Мбит/с. Ограниченная пропускная способность каналов связи, ограниченная емкость запоминающих устройств требуют сжатия аудиосигналов.

Сжатие аудиосигналов основано на учете особенностей слуха человека. Ухо человека воспринимает звуковой сигнал в изолированном от внешних шумов помещении, если звуковое давление превышает некоторый порог, называемый абсолютным порогом слышимости (АПС). Зависимость АПС от частоты аппроксимируется нелинейной функцией:

дБ. (9)

Как отмечалось выше, внутренне ухо человека выполняет кратковременный спектральный анализ на основе механизма критических частотных полос. Если в критической частотной полосе находится несколько спектральных составляющих, то наблюдается явление частотного маскирования. Суть его состоит в том, что спектральная составляющая (тон) с низким уровнем может не прослушиваться, если в этой же критической полосе имеется спектральная составляющая звука с более высоким уровнем. Спектральная составляющая с высоким уровнем повышает порог слышимости и маскирует присутствие, составляющих с низким уровнем. Повышенный порог слышимости называется порогом маскирования. Все спектральные составляющие, уровень которых ниже порога маскирования, не прослушиваются.

Зависимость порога мшиваются.

Зависимость порога мтся уровнем и частотой маскирующей составляющей, а также уровнями и частотами маскируемых спектральных составляющих. Порог маскирования имеет максимальное значение на частоте маскирующей спектральной составляющей и снижается при уменьшении или увеличении частоты. При уменьшении частоты относительно частоты маскирующей составляющей порог маскирования снижается быстрее, чем при её увеличении, т.е. составляющие, частоты которых лежат выше частоты маскирующей частотной составляющей, маскируются в большей степени.

На практике наблюдается присутствие маскирующих спектральных составляющих во многих полосах. Такие составляющие оказывают взаимное влияние на пороги маскирования в соседних полосах. В результате этого образуется суммарный порог маскирования. Частотные составляющие, уровень которых ниже суммарного порога маскирования, не воспринимаются на слух и, соответственно, могут быть исключены из спектра сигнала при его записи и хранении в запоминающих устройствах или при передаче по каналам связи. Это позволяет снизить требования к емкости запоминающих устройств или пропускной способности каналов связи.

Помимо частотного маскирования, описанного выше, важную роль в восприятии звука играет временное маскирование. Временное маскирование наблюдается в том случае, когда два звука появляются через короткий интервал времени. Тогда звук, характеризующийся большим уровнем звукового давления, может частично или полностью маскировать присутствие звука с меньшим звуковым давлением, даже в том случае, если маскируемый звук предшествует маскирующему. Это связано с переходными процессами во внутреннем ухе, которые формируются маскирующим звуком.

Продолжительность эффекта временного маскирования до восприятия маскирующего звука равна примерно мс. Продолжительность маскирующего эффекта после окончания восприятия маскирующего звука равна мс. Временное маскирование используется для подавления предварительного эхо, которое наблюдается при восстановлении сжатых звуковых сигналов. Предварительное эхо прослушивается до появления восстановленного звукового сигнала и обусловлено шумами квантования, распространяющими свое действие на весь блок данных, подвергшийся сжатию, в том числе и на ту его часть, которая предшествовала звуку.

Тема: КОМПЬЮТЕРНЫЕ ИНФОРМАЦИОННЫЕ

<<< < Предыдущая 4 5 6 7 8 9 10 11 12 13 14 1516 / 3216 17 18 19 20 21 22 23 24 25 26 27 28 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.07.2025719.36 Кб1МПС_укр.doc
#
01.07.20254.3 Mб1МР до ЛР ФХОВНДЕ.doc
#
01.04.20251.15 Mб1МР стац 2012.doc
#
01.05.2025801.02 Кб1МРГП.docx
#
01.07.202582.94 Кб2МС-3.doc
#
01.03.20254.56 Mб1МСКИТ Конспект полный вроде как.doc
#
01.07.2025229.38 Кб1МУ вир пр. 3 курс 2016.doc
#
01.07.2025420.86 Кб1МУ для заочн.по ИННОВАЦИЯМ.doc
#
21.11.2019786.94 Кб27МУ ДП ИМС.doc
#
01.07.2025672.77 Кб3МУ ДП ИМС.doc
#
10.02.20163.82 Mб172МУ к Практическим ОХТ Р.doc