
- •Цифровая обработка сигналов в сетях радиодоступа
- •1.Технологии передачи телефонии в сетях подвижной связи
- •1.1 Основы цифровой передачи телефонии
- •1.2 Снижение скорости передачи речи. Дикм.
- •1.3 Дельта-модуляция.
- •1.4 Эффективное кодирование речи. Принципы сжатия речевых сигналов.
- •1.5. Обработка речи в вокодерах
- •1.6 Вокодер rpe-ltp
- •1.7 Вокодеры типа celp
- •1.8 Адаптивный многоскоростной кодек (amr)
- •Прерывистая передача телефонии
- •Кодирование информационных сигналов
- •2.1. Необходимость кодирования информационных сигналов
- •Блочное кодирование
- •2.4. Перемежение
1.5. Обработка речи в вокодерах
Кодирование речи с линейном предсказанием, предложенное в 1970 г. (B.S.Atal), широко используют в вокодерах для снижения скорости передачи речевого сигнала, в устройствах синтеза и распознавания речи. Процесс кодирования можно разбить на ряд типовых процедур, каждую из которых выполняют методами цифровой фильтрации. При кодировании выявляют периодические процессы в речевом сигнале, определяют их параметры, а затем устраняют из речевого сигнала избыточность, исключая найденные периодичности. В результате получают остаточный речевой сигнал, который аппроксимируют и передают вместе с параметрами периодических процессов в речи по каналу связи. Перечисленные процедуры составляют процесс анализа речи.
В приемнике, в декодирующем устройстве, по принятому остаточному сигналу и параметрам периодических процессов речи восстанавливают речевой сигнал, выполняя процесс синтеза речи. Рассмотрим основные процедуры анализа и синтеза речевого сигнала u(t) (рис.1.12).
Рис. 1.12 Процедуры анализа речевого сигнала
После дискретизации речевого сигнала (при телефонии с тактовой частотой fT = 8 кГц и соответственно периодом выборок ТТ = 125 мкс) выборки аналогового сигнала с помощью АЦП преобразуют в цифровой код, над которым и совершают все последующие операции.
Последовательность отсчетов разбивают на отдельные, следующие друг за другом сегменты. Длительность сегмента выбирают так, чтобы на его протяжении состояние речевого тракта мало менялось. Естественно, чем короче сегмент, тем с большей точностью его можно описать набором характерных параметров, но при этом общее количество параметров, передаваемых в единицу времени, возрастает и, следовательно, увеличивается скорость передачи. Поэтому стремятся увеличивать длительность сегмента до тех пор, пока качество восстановленного в приемнике сигнала удовлетворяет соответствующей средне экспертной оценке. В результате многочисленных исследований в кодеках речи большинства систем подвижной связи выбирают сегменты длительностью 20 мс. При этом каждый сегмент содержит 20*10-3 = 160 отсчетов речевого сигнала, что соответствует 1280 бит. В более высококачественных системах длину сегмента сокращают до 10 мс.
В каждом отдельном сегменте выявляют периодичность, обусловленную формантами речи. Эту операцию выполняют с помощью процедуры, называемой кратковременным линейным предсказанием, а устройство, ее реализующее, называют кратковременным линейным предсказателем.
Идея метода состоит в том, что каждый отсчете s (n)внутри отдельного сегмента аппроксимируют линейной комбинацией из р предшествующих отсчетов с неизменными для данного сегмента коэффициентами аk :
(1.9)
В
(1.9)
-
оценка или приближенное значение
отсчета, которое отличается от исходного
s(n)
на
величину ошибки
Выполняя z-преобразование над обеими частями этого выражения, получаем
(1.10)
где
(1.11)
B предсказателе для каждого сегмента определяют коэффициенты цифрового фильтра с передаточной характеристикой A1(z) (Здесь и далее будем использовать при описании цифровой обработки сигналов во времени функции вида F(n), где п - номер текущего отсчёта, и обозначение F(z) при переходе к z-преобразованию).
Если s(п) - цифровой речевой сигнал, a s (z) - его z-преобразование, то устранение из речевого сигнала избыточности, обусловленной колебаниями на формантах, производят с помощью фильтрации:
r1(z)=A1(z)s(z). (1.12)
Полученный в результате фильтрации сигнал ошибки г1(п) называют первым остаточным сигналом. Зная его, можно восстановить (синтезировать) исходный сигнал, выполняя обратное преобразование
s(z)=r1(z)Al-1(z)= r1(z)H1(z)
(1.13)
где Н1(z)= 1/ Al(z) - передаточная функция цифрового фильтра-синтезатора, инверсная A1(z) фильтра-анализатора. Отметим, что оба цифровых фильтра: и анализатора, и синтезатора, являются адаптивными, т.е. их параметры (коэффициенты) меняются от сегмента к сегменту.
4. На втором этапе анализа выявляют тонкую структуру речи, а именно периодичность на частоте основного тона. Для этого используют процедуру долговременного линейного предсказания, в результате чего появляется возможность устранить избыточность (периодичность) из первого остаточного сигнала с помощью цифровой фильтрации
r2(z) = A2(z)r1(z), (1.14)
где A2(z) - передаточная функция фильтра-анализатора долговременного предсказателя, а г2(п) - ошибка долговременного предсказания, или второй остаточный сигнал. Восстановить первый остаточный сигнал можно, используя фильтр-синтезатор долговременного предсказателя с передаточной функцией
H2(z)=1/A2(z);
r1{z)=H2(z)r2(z). (1.15)
5. Третий
этап анализа - аппроксимация второго
остаточного сигнала с целью максимального
уменьшения числа бит, необходимых для
его передачи. В ранних разработках
вокодеров остаточный сигнал для звонких
звуков аппроксимировали равномерной
последовательностью импульсов и
случайным шумом для остальных звуков,
причем при хорошей разборчивости не
удавалось получить естественного
звучания принятой речи. В 1982 г. B.S.Atal
предложил новую модель формирования
остаточного сигнала, получившую
известность как многоимпульсное
возбуждение. В
результате вместо второго остаточного
сигнала r2(п)
по
каналу связи передают его аппроксимированное
представление
,
связанное
с сигналом r2(п)
соотношением
= K(z) r2(z) (1.16)
где K(z) - передаточная функция эквивалентного цифрового фильтра, соответствующего операции аппроксимации второго остаточного сигнала. При восстановлении (синтезе) речи в приемнике в соответствии с (1.13), (1.15) и (1.16) получим
(1.17)
Следовательно,
исходный сигнал s(z)
отличается
от синтезированного сигнала
(z)
на
величину ошибки es(z)
= s(z)(1
- K(z)).
Естественное
желание минимизировать ошибку es(n)
привело
разработчиков вокодеров к следующему
шагу: ввести в кодирующее устройство
обратную связь, т.е. построить кодер как
систему с динамическим регулированием
параметров. Найденное решение получило
название кодера по схеме анализ-синтез.
Это был решающий шаг, позволивший при
скорости передачи 6.5-13 кбит/с в радиоканале
получить синтезированную речь, сравнимую
по качеству с речью, передаваемой по
стандартному телефонному каналу.
Структура кодирующего устройства по схеме анализ-синтез представлена на рис.1.13. В отличие от прямого алгоритма, описываемого выражениями
Рис. 1.13. Структура кодирующего устройства по схеме анализ-синтез
(1.15)
и (1.16), в схеме рис.1.13 аппроксимируют
не второй остаточный сигнал, а разность
между передаваемым речевым сигналом
s(n)
и
восстановленным сигналом
В соответствии со схемой рис. 1.13
В соответствии со схемой рис. 1.13
что и снижает ошибку по сравнению с (1.17). В цепь обратной связ
так что схема (рис.1.13) включает схему декодера, устанавливаемого в приемнике. Кроме того, в цепи обратной связи поставлен специальный взвешивающий фильтр, который поднимает относительный уровень спектральных составляющих остаточного сигнала (ошибки еw(n)), не маскируемых интенсивными колебаниями на частотах формант, что придает большую естественность синтезированной речи. После аппроксимации на основе среднеквадратичного критерия минимизации ошибки взвешенного остаточного сигнала ew(n) получают набор параметров, необходимых для работы генератора возбуждения.
Поскольку
A1(z)инверсно
по отношению к H1(z),
то цифровой фильтр с передаточной
функцией (1.11) часто называют инверсным.
Функция H1(z)
аппроксимирует
огибающую сегмента речи и содержит одни
полюсы. Число р
определяет
порядок фильтра и его называют порядком
предсказателя, а коэффициенты аk
(k
1...р) - коэффициентами
предсказателя. Вычисление {аk}
является
целью первого этапа обработки сегмента.