
- •Факультет «Информатика и системы управления»
- •Лабораторная работа
- •Оценка качества речи, передаваемой по каналу gsm
- •Содержание
- •Задание
- •Теоретическая часть Введение
- •Субъективная оценка качества речи
- •АлгоритмPesq
- •ОсновыPesq
- •Предпроцесс временного и уровневого выравнивания Вычисление общего усиления системы.
- •Irs фильтрация (Intermediate Reference System)
- •Временное выравнивание
- •Кадровая коррекция
- •Точная временная коррекция
- •Разделение выражений
- •Натуральная рекоррекция
- •Коэффициент усиления громкости
- •Irs-приемная фильтрация
- •Вычисление активных интервалов речи.
- •Короткое быстрое преобразование Фурье
- •Расчет уровней плотностей мощности
- •Частичная компенсация исходного уровня плотности частоты для уравновешивания функции преобразования.
- •Частичная компенсация преобразованного уровня плотности мощности для непостоянных во времени вариаций усиления между исходным и кодированным сигналами.
- •Расчет плотностей громкости
- •Расчет плотности возмущения
- •Кадрово–ориентированное умножение с асимметричным фактором
- •Группировка плотности ошибок по частоте и фазе на тихих частях исходного сигнала
- •Обнуление возмущений кадров, в ходе которого значительно уменьшаются задержки
- •Рекоррекция неудачных интервалов
- •Группировка ошибки по вторичным интервалам
- •Часть 2.
- •Варианты заданий
Кадровая коррекция
Огибающие XES(t)kиYES(t)k выбираются из масштабированных сигналовXS(t)иYS(t).Огибающая определена какLOG(MAX(E(k)/Ethresh, 1)), гдеE(k) – это энергия кадраkза 4 мс, аEthresh – порог чувствительности речи, воспринимаемый детектором голосовой активности. Корреляция огибающих исходного и кодированного сигналов используется для примерной оценки задержки между ними, с временным разрешением примерно равным 4 мс.
Точная временная коррекция
Вследствие того, что натуральные модели чувствительны к временным сдвигам, очень важно подсчитать точную величину задержки. Она подсчитывается следующим образом:
На кадры длиной 64 мс (75% перекрытия) накладываются окна Ханна и вычисляется корреляция между исходным и кодированным сигналом, после того, как проведено выравнивание на основе огибающих.
Максимум корреляции, в степени 0,125, используется в качестве доверительного интервала для коррекции в каждом из кадров. Значение максимума дает задержку, рассчитываемую для каждого кадра.
Обрабатывается гистограмма оценки этих задержек, дополненных доверительным интервалом.
Затем гистограмма сглаживается сверткой симметричными треугольными импульсами длительностью 1 мс.
Максимум гистограммы вместе с предыдущей оценкой задержки дает итоговую оценку задержки.
Максимум гистограммы, деленный на сумму гистограмм до свертки дает доверительный критерий между 0 (нет доверия) и 1 (полное доверие).
Результат точной временной коррекции представлен как величина задержки и доверительного интервала задержки для каждого выражения, а также расчет задержек в период тишины. Одновременно с известными точками начала и конца каждого выражения это позволяет определить задержку каждого кадра в натуральной модели.
Разделение выражений
Процесс изменения задержек во время речи тестируется с помощью разделения и рекоррекции временных интервалов в каждом выражении. Выравнивание, выполняемое на огибающих, применяется для вычисления оценки задержек для каждой части. Затем точная временная коррекция применяется для идентификации задержки и доверительных интервалов для каждой части. Процесс разделения повторяется в нескольких точках в каждом выражении, и разделение, которое дает наибольшую достоверность, идентифицируется. Если эта достоверность больше, чем достоверность без разделения, и части имеют различные задержки, выражение соответственно делится. Тест применяется рекурсивно к каждой части после того, как использовалось разделение для для тестирования на дальнейших измерениях задержки.
Таким образом, вычисляются изменения задержки как при активной речи, так и во время тишины, и рассчитается задержка по каждому временному интервалу (di) вместе с расчетом начала и завершения выборки. Количество временных интервалов определяется числом смены задержек.
Натуральная рекоррекция
После составления натуральной модели разделы, которые имеют очень большое отклонение (большее, чем пороговое значение), идентифицируются и повторно корректируются кросс-корреляцией. Этот этап улучшает точность модели с помощью небольшого количества файлов, трудных для корреляции, где задержки процесса предыдущей временной коррекции определены не точно предыдущей временной коррекцией (см. раздел Рекоррекция неудачных интервалов).
Натуральная модель
Натуральная модель PESQиспользуется для определения разницы между исходным и кодированным сигналом. Это может быть достигнуто с помощью монотонной функции для получения предсказания субъективной оценки для заданного субъективного теста. ОценкаPESQограничена значениями от –0.5 до 4.5, в то же время в основном в большинстве случаев это значение лежит в пределах от 1 до 4.5.
Предварительный расчет постоянных величин
Определенные постоянные величины рассчитываются заранее. Для тех параметров, которые зависят от частоты дискретизации, предварительно записываются в программу их значения для частот 8 и 16 кГц.
Размер кадра для быстрого преобразования Фурье в зависимости от частоты (8 или 16 кГц)
В PESQвременные сигналы прикреплены к временно-частотным базисам, используя короткие преобразования Фурье с кадрами размером 32 мс. Для 8 кГц образуется 256 отсчета в каждом кадре и для 16 кГц – 512 отсчетов, перекрытие окон составляет 50%.
Абсолютный порог слышимости
Абсолютный порог слышимости P0(f) интерполируется, чтобы получить значения в центре используемых полос частот в барках1. Эти значения запоминаются и потом используются в формулах громкости Цвикера.
Коэффициент усиления мощности
Существует постоянная случайного усиления, следующая из быстрого преобразования Фурье для частотно-временного анализа. Эта постоянная вычислена для синусоидального колебания частотой 1 кГц с амплитудой 29.54 (40 дб), преобразованного в цифру с использованием обратного преобразования Фурье на 32 мс. Дискретная частотная ось впоследствии конвертируется в модифицированную шкалу Барка, постоянно регулируя полосы частот дискретного преобразования Фурье. Пиковая амплитуда спектра, отрегулированная к шкале частот в барках, названная «уровень плотности мощности», которая должна быть равна 40 дб. Это происходит из-за постмультипликации с коэффициентом усиления мощности Sp.