Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
31
Добавлен:
10.02.2015
Размер:
733.7 Кб
Скачать

Кадровая коррекция

Огибающие XES(t)kиYES(t)k выбираются из масштабированных сигналовXS(t)иYS(t).Огибающая определена какLOG(MAX(E(k)/Ethresh, 1)), гдеE(k) – это энергия кадраkза 4 мс, аEthreshпорог чувствительности речи, воспринимаемый детектором голосовой активности. Корреляция огибающих исходного и кодированного сигналов используется для примерной оценки задержки между ними, с временным разрешением примерно равным 4 мс.

Точная временная коррекция

Вследствие того, что натуральные модели чувствительны к временным сдвигам, очень важно подсчитать точную величину задержки. Она подсчитывается следующим образом:

  • На кадры длиной 64 мс (75% перекрытия) накладываются окна Ханна и вычисляется корреляция между исходным и кодированным сигналом, после того, как проведено выравнивание на основе огибающих.

  • Максимум корреляции, в степени 0,125, используется в качестве доверительного интервала для коррекции в каждом из кадров. Значение максимума дает задержку, рассчитываемую для каждого кадра.

  • Обрабатывается гистограмма оценки этих задержек, дополненных доверительным интервалом.

  • Затем гистограмма сглаживается сверткой симметричными треугольными импульсами длительностью 1 мс.

  • Максимум гистограммы вместе с предыдущей оценкой задержки дает итоговую оценку задержки.

  • Максимум гистограммы, деленный на сумму гистограмм до свертки дает доверительный критерий между 0 (нет доверия) и 1 (полное доверие).

Результат точной временной коррекции представлен как величина задержки и доверительного интервала задержки для каждого выражения, а также расчет задержек в период тишины. Одновременно с известными точками начала и конца каждого выражения это позволяет определить задержку каждого кадра в натуральной модели.

Разделение выражений

Процесс изменения задержек во время речи тестируется с помощью разделения и рекоррекции временных интервалов в каждом выражении. Выравнивание, выполняемое на огибающих, применяется для вычисления оценки задержек для каждой части. Затем точная временная коррекция применяется для идентификации задержки и доверительных интервалов для каждой части. Процесс разделения повторяется в нескольких точках в каждом выражении, и разделение, которое дает наибольшую достоверность, идентифицируется. Если эта достоверность больше, чем достоверность без разделения, и части имеют различные задержки, выражение соответственно делится. Тест применяется рекурсивно к каждой части после того, как использовалось разделение для для тестирования на дальнейших измерениях задержки.

Таким образом, вычисляются изменения задержки как при активной речи, так и во время тишины, и рассчитается задержка по каждому временному интервалу (di) вместе с расчетом начала и завершения выборки. Количество временных интервалов определяется числом смены задержек.

Натуральная рекоррекция

После составления натуральной модели разделы, которые имеют очень большое отклонение (большее, чем пороговое значение), идентифицируются и повторно корректируются кросс-корреляцией. Этот этап улучшает точность модели с помощью небольшого количества файлов, трудных для корреляции, где задержки процесса предыдущей временной коррекции определены не точно предыдущей временной коррекцией (см. раздел Рекоррекция неудачных интервалов).

Натуральная модель

Натуральная модель PESQиспользуется для определения разницы между исходным и кодированным сигналом. Это может быть достигнуто с помощью монотонной функции для получения предсказания субъективной оценки для заданного субъективного теста. ОценкаPESQограничена значениями от –0.5 до 4.5, в то же время в основном в большинстве случаев это значение лежит в пределах от 1 до 4.5.

Предварительный расчет постоянных величин

Определенные постоянные величины рассчитываются заранее. Для тех параметров, которые зависят от частоты дискретизации, предварительно записываются в программу их значения для частот 8 и 16 кГц.

Размер кадра для быстрого преобразования Фурье в зависимости от частоты (8 или 16 кГц)

В PESQвременные сигналы прикреплены к временно-частотным базисам, используя короткие преобразования Фурье с кадрами размером 32 мс. Для 8 кГц образуется 256 отсчета в каждом кадре и для 16 кГц – 512 отсчетов, перекрытие окон составляет 50%.

Абсолютный порог слышимости

Абсолютный порог слышимости P0(f) интерполируется, чтобы получить значения в центре используемых полос частот в барках1. Эти значения запоминаются и потом используются в формулах громкости Цвикера.

Коэффициент усиления мощности

Существует постоянная случайного усиления, следующая из быстрого преобразования Фурье для частотно-временного анализа. Эта постоянная вычислена для синусоидального колебания частотой 1 кГц с амплитудой 29.54 (40 дб), преобразованного в цифру с использованием обратного преобразования Фурье на 32 мс. Дискретная частотная ось впоследствии конвертируется в модифицированную шкалу Барка, постоянно регулируя полосы частот дискретного преобразования Фурье. Пиковая амплитуда спектра, отрегулированная к шкале частот в барках, названная «уровень плотности мощности», которая должна быть равна 40 дб. Это происходит из-за постмультипликации с коэффициентом усиления мощности Sp.

Соседние файлы в папке Лабораторная работа 2