Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ЦОС, УПОиС (Витязев В.В.).doc
Скачиваний:
3
Добавлен:
01.04.2025
Размер:
6.03 Mб
Скачать

3.8. Методика разделения речевого сигнала на участки шума, пауз и речи.

На основе вычисления кратковременной энергии и числа пересечений нуля каждое временное окно можно отнести к типам: 1)Пауза; 2)Вокализованная речь; 3)Невокализованная речь.

Энергия речи в окне t из N отсчётов:

Число пересечений нуля:

Простейший алгоритм определения типа окна содержит этапы:

1)Разделение потоков отсчётов на интервалы – фреймы

2)Вычисление и

3)Установка текущих пороговых значений и

4)Сравнение значений кратковременной энергии и числа пересечений нуля с пороговыми значениями по схеме:

– пауза

Следует отметить что при попадании в сегмент как вокализованного, так и невокализованного участка достоверность оценки уменьшается. Для уменьшения вероятности ошибки уменьшают размер сегмента и анализируют поведение сигнала не только в текущем, но и в нескольких предыдущих сегментах.

Определение состояния канала речь\шум может производиться не только в целях качественного определения параметров, но и с целью экономии энергетических ресурсов и ресурсов канала связи.

Статистические измерения показывают, что в процессе диалога речевая активность абоненте не превышает 40% времени длительности обмена. Это позволяет в 2 раза снизить речевую нагрузку, вводимую в сеть за счёт формирования и передачи речевых пакетов, т.е. используя прерывистую передачу (система DTX).

DTX – эффективный способ увеличения спектральной эффективности в подвижных системах передачи речи. Основной принцип DTX – включение передатчика только на те периоды когда есть речь для передачи.

Недостатком DTX является потенциальное снижение качества речи: идентификация речи как шума, следовательно потеря информации; идентификация шума как речи, следовательно уменьшение эффективности самой DTX.

Даже точная идентификация ведёт к ухудшению качества, т.к. приводит к резким изменениям уровня фонового шума. Способом устранения этого является генерация комфортного шума.

Основным элементом DTX является детектор активности речи VAD. Реализация алгоритмов VAD базируется на положениях:

1)Речь – нестационарный сигнал. Форма её спектра обычно меняется через 20-30мс.

2)Фоновый шум обычно стационарен на более длинном отрезке времени, немного изменяясь.

3)Уровень речевого сигнала обычно выше уровня фонового шума. В противном случае речь неразборчива.

Основной принцип VAD – сравнение с порогом, т.к. шумовая обстановка меняется, то порог должен быть адаптивным. Существуют приложения в которых уровень шума м.б. высок и быстро изменяться во времени, что делает неэффективным применение простого энергетического порога. В любом случае порог должен вычисляться исходя из анализа сегмента сигнала, на котором присутствует только шум. Для этого проверяются спектральные характеристики сигнала.

Структурная схема VAD с обработкой в частотной области, применяемая в GSM имеет вид:

Работа схемы основана на различии спектральных характеристик сигнала и шума. VAD определяет спектр отклонения входного воздействия от спектра фонового шума. Это осуществляется инверсным фильтром, коэффициенты которого устанавливаются применительно к воздействию на входе только фонового шума.

При наличии (речь+шум) инверсный фильтр осуществляет подавление компонент шума и снижает его мощность. Далее сигнал подвергается пороговой обработке. Превышение порога сигнализирует о наличии речевой активности

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]