Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Razdely_2.1-2

.5.pdf
Скачиваний:
9
Добавлен:
16.04.2015
Размер:
429.44 Кб
Скачать

2. ЦИФРОВЫЕ МЕТОДЫ ОБРАБОТКИ И ПЕРЕДАЧИ ЗВУКОВЫХ СООБЩЕНИЙ

При реализации современных систем телекоммуникаций предпочтение отдают цифровым методам обработки и передачи сигналов. Цифровые системы по сравнению с аналоговыми имеют ряд существенных преимуществ при обработке, запоминании и передаче сигналов. Представление сообщений в цифровой форме обеспечивает высокую помехоустойчивость, возможность более полного использования пропускной способности каналов, стабильность параметров передачи и гибкость при построении телекоммуникационных сетей. Особое значение приобретает применение цифровых методов при передаче звуковых сообщений. В данном разделе рассмотрены методы кодирования источника звуковых сообщений. Устройство, осуществляющее преобразование первичного речевого сигнала в цифровую форму, называют речевым кодером.

2.1. Особенности представления звуковых сообщений в цифровой форме

Человеческий голос порождает первичный аналоговый сигнал, который занимает полосу частот примерно от 50 до 10000 Гц. Представление этого сигнала в цифровой форме осуществляется путем дискретизации во времени и квантования по уровням (рис. 2.1) и сопровождается неустранимой ошибкой, называемой шумом квантования. Шум квантования – один из факторов, определяющих верность передачи непрерывных сообщений по дискретному каналу (вторым фактором являются помехи в канале передачи, накладывающиеся на полезный сигнал и приводящие к ошибочному приему).

Ограничение спектра сигнала

s(t)

 

Фильтр

 

Дискрети-

s(n)

 

Кванто-

 

sq(n)

 

 

нижних

 

затор

 

 

ватель

 

 

 

 

 

 

 

 

 

 

 

частот

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Тактовые

 

 

 

 

 

 

 

 

 

импульсы

 

 

 

 

 

 

 

 

 

FД=1/ТД

 

 

 

 

 

 

 

 

Рис. 2.1.

 

 

 

 

При квантовании возникает ошибка квантования ε(n), равная разнице между квантованным sq(n) и истинным значениями сигнала:

ε(n)= sq(n) - s(n),

(2.1)

где n- порядковый номер отсчета (рис.1.1, г).

Искажения, вносимые квантователем, оценивают значением среднеквадратичной ошибки (СКО):

D =

1 [sq (n) s(n)]2 .

(2.2)

 

M

 

M n=1

Если значение квантуемого сигнала не выходит за пределы рабочего диапазона квантователя, то ошибка

 

ε(n)

 

2 ,

(2.3)

 

 

 

 

 

где – шаг квантования (рис.1.1).

Как следует из выражения (2.3) для снижения ошибки (шума) квантования необходимо снижать шаг квантования и соответственно увеличивать число уровней квантования. Если полный размах непрерывного сигнала равен 2smax, то число уровней квантования

LКВ=2smax/ +1.

(2.4)

Наиболее очевидный подход заключается в использовании квантователя с постоянным шагом квантования . В этом случае для высококачественной передачи звуковых сообщений с малой ошибкой квантования, как показывает практика, требуется, чтобы LКВ4000. При цифровом кодировании такого сигнала с помощью двоичных символов на каждый дискретный отсчет потребуется не менее n=12 разрядов, поскольку LКВ=2n.

Оценим скорость цифрового потока в телекоммуникационном канале при передаче звуковых сообщений.

Для передачи речи в аналоговой телефонии в 60-х годах 20 столетия была выбрана полоса частот 0,3-3,4 кГц. Решающими в выборе такой полосы были экономические соображения и нехватка телефонных каналов. Несмотря на определенное ухудшение восприятие ряда звуков (например, шипящих, существенная часть энергии которых сосредоточена в верхней части речевого спектра), такое ограничение незначительно повлияло на разборчивость речи.

При представлении речевых сигналов в цифровой форме верхнюю частоту в спектре дискретизируемого сигнала с выбирают равной 4 кГц. Согласно теореме Котельникова при

Fmax=4 кГц, период дискретизации составляет ТД=1/(2 Fmax)=125 мкс. При этом частота

дискретизации FД=1/ТД=8000 Гц. Скорость цифрового потока соответственно равна

 

W= FД n.

(2.5)

При передаче речевых сообщений, использующей 12-разрядное кодирование отсчетов, скорость цифрового потока, поступающего на вход телекоммуникационного канала, составит 96 кбит/сек. Еще более высокие требования будут предъявляться к пропускной способности канала при передаче высококачественных звуковых сообщений, например, музыки. Известно, что для высококачественного воспроизведения музыки на компакт-дисках частота дискретизации составляет FД =44,1 кГц при 16-разрядном кодировании отсчетов. Подставляя эти значения в (2.5), определим скорость цифрового потока, которая составит:

W=44100 отсчетов/сек · 16 бит/отсчет = 705,6 кбит/сек.

При использовании 2-х стереофонических каналов скорость цифрового потока превысит 1400 кбит/сек.

Необходимость эффективного использования телекоммуникационных каналов явилась причиной разработки специальных технических решений, позволяющих уменьшить скорость цифрового потока при передаче речевых сообщений. Процедуру преобразования речевых сигналов, при которой уменьшается скорость цифрового потока, назвали компрессией (сжатием). Практический эффект такого уменьшения скорости очевиден – появляется возможность обслужить большее количество абонентов на телекоммуникационном канале с заданной пропускной способностью или осуществлять передачу речевых сообщений по низкоскоростным каналам, по которым передача сигналов в некомпрессированном виде была бы невозможна.

2.2. Классификация методов и показатели качества компрессии сигналов при передаче звука

Речевые кодеры можно разделить на 3 основные группы: кодеры формы, вокодеры и гибридные кодеры.

В кодерах формы обработке подвергается каждый отсчет дискретизированной последовательности. Кодеры данного типа обеспечивают сохранение и передачу формы исходного аналогового сигнала. При этом, как правило, достигается достаточно высокое качество восстановленного сигнала, поскольку основным источником искажений формы выходного сигнала является квантование. Однако скорость цифрового потока на выходе кодера формы остается все-таки достаточно высокой. Так при передаче речевых сообщений кодеры формы формируют цифровой поток со скоростью от 24 до 64 кбит/с.

Работа вокодеров (от английских слов VОice – голос и CODER – кодировщик) основана на моделировании речевых сигналов с учетом их характерных особенностей. Это позволяет снизить скорость передачи до 0.5 - 16 кбит/с. Однако до середины 80-х годов 20-го столетия качество сигналов при вокодерном кодировании было плохим, и это ограничивало их

практическое использование. Современные вокодеры обеспечивают качество, ненамного уступающее принятому в телефонной сети общего пользования, и их широко применяют, в частности, в системах подвижной радиосвязи.

Вгибридных кодерах используется метод, объединяющий преимущества кодеров формы

ивокодеров.

Качество кодирования и восстановления речевых сигналов измеряется часто по пятибалльной шкале MOS (mean opinion score - средняя субъективная оценка). Поскольку человек как получатель информации является ключевым элементом любой телекоммуникационной системы, качество сигнала оценивается по его субъективному восприятию речи. Оценка по шкале MOS определяется путем обработки оценок, даваемых группами слушателей нескольким речевым сигналам, воспроизводимым различными громкоговорителями. Каждый слушатель выносит оценку каждого сигнала: 1 - плохо, 2 - слабо, 3 - разборчиво, 4 - хорошо, 5 - отлично. Затем результаты усредняются.

Соотношение качества и скорости для рассматриваемых методов приведено на рис.2.2.

[2].

Качество

5

 

 

 

Гибридные

Кодеры

4

кодеры

формы

 

 

3

 

 

2

 

Вокодеры

1

1

2

4

8

16

32

W, кбит/сек

Рис. 2.2.

2.3. Кодеры формы

2.3.1. Нелинейное кодирование

Для уменьшения сравнительно большого количества уровней квантования, которое вытекает из соотношений, полученных в разделе 2.1 в предположении об использовании квантователя с равномерным шагом квантования, следует учесть особенности работы слухового аппарата человека.

Человеческое ухо воспринимает звук нелинейно: наиболее заметными оказываются искажения при слабом уровне звука, в то время как при большом уровне звука чувствительность к искажениям звукового сигнала снижается. Принимая во внимание указанные особенности, можно уменьшить количество уровней квантования и, соответственно, скорость цифрового потока в телекоммуникационном канале, применив квантование с неравномерным шагом. Суть такого подхода состоит в изменении шага квантования пропорционально уровню входного сигнала. При этом малые уровни сигнала квантуются с меньшей ошибкой, чем большие. Закон изменения шага квантования определяют из условия, чтобы отношение сигнал-шум сохранялось постоянным при изменении уровня сигнала.

Условно неравномерное квантование можно представить как последовательное соединение устройства компрессии входного сигнала и равномерного квантователя (рис. 2.3.). При приеме нелинейные искажения сигнала, вносимые компрессором, устраняют экспандером, нелинейным устройством с амплитудной характеристикой, обратной характеристике компрессора.

 

 

 

 

Компрессор

 

Линейный

 

 

 

 

 

f(x)

 

 

y(n)

yq(n)

 

x(n)

 

 

 

 

 

 

 

 

квантователь

 

 

 

 

 

 

 

 

▪ ▪ ▪

Вход

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Линия

связи

xq(n)

Экспандер

f(x)

 

Выход

 

 

 

 

▪ ▪ ▪

 

 

 

 

 

 

х

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рис. 2.3.

 

 

 

 

 

Для обозначения процессов КОМпрессии и эксПАНДИРОВАНИЯ для краткости пользуются одним термином – КОМПАНДИРОВАНИЕ, а совокупность 2-х устройствкомпрессора и экспандера называют компандером.

При передаче речи используют два типа компандирования: по µ-закону и по A-закону. Первый метод используют в США и Японии. При µ-законе сигнал в компрессоре преобразуется следующим образом:

 

sign(x)

 

 

x

 

 

 

 

 

 

 

 

 

 

yμ =

 

ln 1

+ μ

 

 

 

 

,

(2.6)

 

 

 

ln(1+ μ)

 

 

xmax

 

 

 

 

 

 

 

 

 

 

 

где x- сигнал на входе компрессора, xmax- его максимальное значение,

µ - константа (обычно µ=255).

A-закон используется в Европе. В этом следующим образом:

 

 

 

 

 

 

A

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

,

 

 

 

 

 

 

1 + ln

A

x max

 

 

 

 

 

 

 

 

 

 

 

 

 

y

 

 

 

sign

 

( x )

 

 

 

 

x

 

 

A

=

 

 

 

 

1

+ ln A

 

 

 

 

,

 

 

 

 

 

 

 

1 +

ln A

 

 

 

 

x max

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

случае компрессор преобразует сигнал

 

x

 

 

1

 

 

 

x max

 

A

 

 

 

 

 

1

 

 

 

 

x

 

 

 

(2.7)

 

 

 

 

 

 

1 .

A

 

x max

 

 

 

 

 

 

 

 

Наиболее часто используют значение параметра A=87.6.

Применение рассмотренных методов компадирования позволяет в одном и том же заданном диапазоне изменения речевого сигнала вместо 12-разрядных двоичных чисел использовать восьмиразрядные двоичные числа. Таким образом, скорость цифрового потока при передаче речевого сигнала уменьшится с 96 до 64 кбит/сек. Указанный способ компрессии речи закреплен в международной рекомендации G.711.

Учитывая, что сжатие и последующее восстановление к первоначальному виду непрерывных по величине отсчетов звуковых сигналов может сопровождается появлением погрешности из-за отклонений характеристик компрессора и экспандера от расчетных значений, вместо рассмотренного выше на практике обычно применяется другой способ нелинейного кодирования (рис.2.4). После равномерного квантования при числе уровней L=212 и предварительного кодирования производится цифровая компрессия, в результате чего длина кодовой комбинации уменьшается до n=8 разрядов. Результатом преобразования является двоичная последовательность со скоростью 64 кбит/с.

Ограничение

 

Дискрети-

 

Квантование и

 

Цифровая

 

спектра

 

зация

 

кодирование

 

компрессия

 

сигнала

 

 

 

 

 

 

64

 

 

 

 

 

 

 

кбит/с

 

 

 

 

 

 

fMAX=3,4 кГц

 

fД=8 кГц

 

n=12

 

n=8

Рис. 2.4.

2.3.2. Дифференциальная импульсно-кодовая модуляция (ДИКМ)

Обычно между двумя соседними отсчетами сигнала существует определенная взаимосвязь, которую в радиотехнике обозначают термином корреляция. Это справедливо для всех сигналов за исключением так называемого белого шума, отсчеты которого некоррелированы. Степень корреляции между отсчетами возрастает с ростом частоты дискретизации. Наличие корреляции указывает на наличие избыточности в сигнале.

Учитывая корреляцию между отсчетами, можно сжать сигнал по сравнению с обычной ИКМ. Самый распространенный метод кодирования, основанный на учете корреляции между отсчетами, - ДИКМ-кодирование.

При ДИКМ кодируют и передают по каналу не сам отсчет (как в ИКМ), а разность (или ошибку) между текущим отсчетом и предварительной оценкой (предсказанным значением) этого отсчета, полученной из анализа предыдущих отсчетов

ε(n)=s(n)-sПРЕДСК.(n). (2.8)

Чем точнее осуществляется предсказание очередного отсчета, тем меньше по величине разностный сигнал и, следовательно, тем меньшее количество разрядов потребуется для его кодирования в цифровом виде. В качестве сигнала предсказания можно использовать либо предыдущий отсчет s(n-1), либо M предшествующих отсчетов, что позволяет повысить точность предсказания:

s

где ci – коэффициенты.

Типовой вариант реализации

M

 

предск. = сi s(n i) ,

(2.9)

i=1

метода ДИКМ приведен на рис.2.5.

 

 

 

 

ε (n)

 

 

 

 

εq (n)

 

 

 

а) Передающая сторона

 

 

 

 

 

 

 

 

+

Квантователь

 

 

Кодер

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

s(n)

 

 

 

 

 

 

 

Сигнал

 

 

 

 

 

 

 

 

 

 

 

 

 

 

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

sПРЕДСК.(n)

 

 

 

 

 

 

 

 

 

ДИКМ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Устройство

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

предсказания

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

б) Приемная сторона

 

 

 

 

 

 

 

 

 

ε*q (n)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

+

 

 

 

 

 

Декодер

 

 

 

 

 

 

 

 

 

 

 

 

Сигнал

 

 

 

+

 

s*(n)

 

 

 

 

 

 

 

 

ДИКМ

 

s*ПРЕДСК.(n)

 

 

Устройство

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

предсказания

 

 

 

 

 

 

Рис.2.5.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

.

На приемной стороне (рис.2.5,б) восстановление исходного сообщения осуществляется на основе соотношения

s*(n) = ε*(n)+ s*ПРЕДСК.(n).

Эффективность метода ДИКМ может быть повышена путем перехода к адаптивной дифференциальной импульсно-кодовая модуляции (АДИКМ). При этом производится автоматическое регулирование величины шага квантования сигнала ошибки предсказания, а

также автоматическая подстройка коэффициентов ci в (2.9) в соответствии с изменением текущего спектра передаваемого сообщения. Для этого как в передающее, так и в приемное устройства вводятся дополнительные цепи автоматической регулировки усиления и подстройки параметров предсказателя на основе статистического оценивания параметров передаваемого сообщения.. Этот алгоритм дает практически такое же качество воспроизведения речи, как и ИКМ, однако для передачи информации при его использовании требуется полоса всего в 32 кбит/с. Алгоритм АДИКМ был принят в качестве международного стандарта G.726 в 1984 г.

2.4. Вокодеры 2.4.1. Принципы вокодерного кодирования

Вокодеры предназначены для кодирования исключительно речевого сигнала. При их построении максимально учитывают особенности образования речи и ее восприятия человеком. Форма восстановленного сигнала при этом может радикально отличаться от формы исходного сигнала. В качестве примера на рис. 2.6 приведены осциллограммы двух сигналов, внешне весьма различных. Тем не менее, при их воспроизведении человек не заметит разницы. Дело в том, что спектральный состав обоих сигналов одинаков: они являются суммой синусоиды и ее третьей гармоники. Различны лишь значения начальной фазы третьей гармоники. Органы слуха человека не реагируют на фазовые соотношения.

Рис. 2.6.

Задача ИКМ, ДИКМ, АДИКМ и других аналогичных им методов - максимального точно передать информацию о форме сигнала. Именно поэтому эти методы кодирования называют

кодированием формы. Задача вокодерной обработки другая - обеспечить, чтобы восстановленный сигнал звучал как можно более сходно с исходным сигналом.

Принципиальное отличие вокодерного кодирования от кодирования формы состоит в том, что по каналу связи передают не сам сигнал, а параметры модели его образования. На приемном конце восстановленный сигнал синтезируют.

Существует большое число идей построения вокодеров. Например, в канальных или полосовых вокодерах спектр речи делят на 7 - 20 полос (каналов) аналоговыми или цифровыми полосовыми фильтрами. Большее число каналов дает большую натуральность и разборчивость. С каждого полосового фильтра сигнал поступает на детектор и фильтр низких частот. На приемный конец раз в 20 мс передают информацию об уровне сигнала в каждом канале. Синтезатор речи представляет собой набор синусоидальных генераторов и регулируемых аттенюаторов, устанавливающих требуемые соотношения между амплитудами колебаний разных частот. Передача информации об уровне сигнала в каждом канале возможна в аналоговом или цифровом виде.

В фонемных вокодерах используют тот факт, что речь передается ограниченным числом звуков – фонем. Например, русский язык использует 42 фонемы. Выполняя фонемный анализ речи, можно периодически (например один раз в 20 мс) передавать на приемный конец номер соответствующей фонемы, закодированный 6 битами, а также информацию об уровне сигнала (еще 6 бит). Таким образом, скорость цифрового потока составит (6+6)/20=0,6 кбит/c. На приемном конце синтезатор воспроизводит соответствующую фонему, извлекая ее из памяти. Известны и другие принципы вокодерного кодирования. Хотя первые вокодеры были предложены в 30-е годы, до начала 80-х годов качество восстанавливаемой речи было крайне низким. Область применения вокодеров ограничивалась линиями командной связи, речевого управления и говорящими автоматами информационно-справочных служб. При этом достигалась низкая скорость передачи (порядка 0,6 - 4 кбит/c).

Прогресс вокодеров в 80-е и 90-е годы непосредственно связан с новыми возможностями цифровой обработки сигналов и микропроцессорной техники. С другой стороны, он явился ответом на потребности быстро развивающегося рынка массовых цифровых систем подвижной радиосвязи, в частности сотовых систем.

Вокодеры используют достаточно сложные алгоритмы обработки речевых сигналов и по этой причине выполняются на основе цифровых сигнальных процессоров (ЦСП). Производительность ЦСП обычно оценивают в миллионах операций в секунду. Вокодеры, использующие ЦСП, способные выполнять 15 млн. операций в секунду, относятся к низкопроизводительным, если указанный параметр превышает 30 млн. операций в секунду, то такие вокодеры считаются выскопроизводительными.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]