Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

(по цифровому вещанию) Dvorkovich_V_Cifrovye_videoinformacionnye_sistemy

.pdf
Скачиваний:
301
Добавлен:
15.03.2016
Размер:
23.26 Mб
Скачать

Глава 15. Основные характеристики звуковой информации

Рис. 15.27. Пример выделения битов для кодирования коэффициентов МДКП

На рис. 15.27 в качестве примера вверху приведена кривая ступенчатой формы. Коэффициенты МДКП, расположенные ниже этой кривой, не кодируются, поскольку лежат ниже относительного порога слышимости. В нижней части рис. 15.27 приведено число битов, которое требуется выделить для кодирования мантисс каждого из тех коэффициентов МДКП, которые необходимо передать в декодер.

Предусмотрено «грубое» и «плавное» смещение кривой глобального порога маскировки соответственно CSNR и FSNR. При этом шаг смещения кривой FSNR установлен равным 3/16 дБ, а кривой CSNR — 3 дБ. Суммарная величина смещения глобального порога маскировки относительно ее исходного положения определяется формулой:

SNROFFSET = 4 · [16 · (CSNR − 15) + FSNR].

(15.71)

15.8. Предыскажения звуковых сигналов при цифровом кодировании

При ИКМ1преобразовании звукового сигнала с малым шагом квантования спектр шума имеет равномерный характер вплоть до половины частоты дискретизации fпд/2, в то время как уровень спектральных составляющих сигнала уменьшается при увеличении их частоты. По этой причине для уменьшения влияния шумов квантования применяются частотные предыскажения на стороне кодера и восстановление сигнала при его декодировании (см. рис. 15.28).

Рис. 15.28. Характеристики цепей предыскажений

В соответствии с Рекомендацией 651 МККР [6.57] при линейном кодировании с 14-битовым разрешением, а также при нелинейном кодировании с почти мгновенным компандированием для уменьшения разрядности с 14 до 10 битов на отсчет звуковых сигналов с полосой спектра до 15 кГц предыскажения должны соответствовать Рекомендации J.17 МККТТ [6.58] с вносимым затуханием 6,5 дБ на частоте 0,8 кГц — рис. 15.28, кривая 1, соотношение (15.72), или характеристике 50/15 мкс — рис. 15.28, кривая 2, соотношение (15.73).

 

1

2

 

 

 

 

K(f ) = 10 lg

+ (2πf /3000)

,

(15.72)

 

2

 

75 + (2πf /3000)

 

 

 

 

 

1

2

 

 

 

K(f ) = 10 lg

+ (0, 05 · 2πf )

 

,

(15.73)

 

2

1 + (0, 015 · 2πf )

 

 

 

 

 

где f — частота в Гц.

В декодере эти частотные предыскажения компенсируются. Ввиду того что спектр шума квантования обрабатывается только восстанавливающей цепью, отношение сигнал/шум увеличивается примерно на 4 дБ.

Алгоритмы сжатия речи весьма гибки, используют различные методы обработки информации, что может привести к существенному различию в качестве декодируемой информации при одной и той же степени ее сжатия. Информация об основных стандартах кодирования речевой информации приведена в табл. 16.1.

Таблица 16.1. Основные параметры кодеков речи

Наименование

 

Скорость передачи

Оценка

Год

Тип кодека

информации,

стандарта

качества MOS

публикации

 

кбитов/с

 

 

 

 

ITU-T G.711

ИКМ

64

4,12

1972

ITU-T G.722

АДИКМ

48; 56; 64

3,8–4,2

1993

ITU-T G.722.1

Siren7

16; 24; 32

3,8–4,2

1999

ITU-T G.722.2

AMR-WB

6,6–23,85

3,8–4,2

2002

ITU-T G.723.1

MP–MLQ

6,3

3,9

1996

ITU-T G.723.1

ACELP

5,3

3,65

1996

ITU-T G.726

АДИКМ

16–40

2–4,3

1984

ITU-T G.727

АДИКМ

40; 32; 24; 16

2,2–4,3

1986

 

 

 

 

 

ITU-T G.728

LD-CELP

16

3,61

1992

 

 

 

 

 

ITU-T G.729

CS-ACELP

8

3,92

1997

(без VAD)

 

 

 

 

 

 

 

 

 

ITU-T G.729

двукратное

8

3,27

1997

кодирование

 

 

 

 

 

 

 

 

 

ITU-T G.729

трехкратное

8

2,67

1997

кодирование

 

 

 

 

ITU-T G.729a

CA-ACELP

8

3,7

1999

ETSI GSM FR

RPE-LTP /

13

3,58

1992

MPE-LTP

 

 

 

 

 

 

 

 

 

ETSI GSM

RPE-LTP /

12,2

3,8

1999

EFR

MPE-LTP

 

 

 

 

 

 

 

 

iLBC

LPC-LSF-CD

13,33

3,7

1998

 

 

 

 

 

iLBC

LPC-LSF-CD

15,2

3,9

1999

 

 

 

 

 

Speex NB

CELP-VBR-

2,15 — 24,6

2 — 4,4

2004

VAD

 

 

 

 

Speex WB

CELP-VBR-

4 — 44,2

2,8 — 4,4

2004

VAD

 

 

 

 

 

 

 

 

 

16.2. G.722 — кодирование речи со спектром до 7 кГц в цифровой поток 64 кбитов/c

G.711 — один из основных стандартов ITU-T для аудиокодеков. Он является частью более общих мультимедийных стандартов, используется в телефонии, определяет преобразование аудиосигнала с шириной полосы 3,4 кГц для передачи по информационным каналам со скоростью 64 кбитов/с.

Рекомендация предусматривает импульсно-кодовую модуляцию (ИКМ, Pulse Code Modulation — PCM) в диапазоне частот аналогового голосового сигнала [6.24]. Номинальная частота дискретизации сигнала — 8000 Гц, каждый отсчет представляется 8 битами.

Предлагаются два правила кодирования — A-law и μ-law, определяемые соотношениями (15.33 и 15.34) и заданные в Рекомендации таблично. По международным цифровым каналам связи между странами, в которых приняты различные правила кодирования, должны передаваться сигналы, закодированные в соответствии с правилом A-law. Если обе страны используют одно правило кодирования, то для передачи должно использоваться это правило кодирования. Все необходимые преобразования должны осуществляться странами, использующими правило μ-law. При последовательной передаче цифровых данных первым передается наиболее значимый бит.

Алгоритмы преобразования аудиосигнала стандарта G.711 рекомендованы для большинства систем цифровой передачи речи в качестве метода предварительного аналого-цифрового преобразования. Кодек поддерживается практически всеми устройствами IP-телефонии, не подлежит лицензированию, требует использования весьма скромных вычислительных ресурсов и обеспечивает хорошее качество, правда создавая при этом довольно высокую нагрузку на каналы передачи.

В2008 г. ITU-T был принят стандарт G.711.1 [6.25], являющийся расширением стандарта G.711 и совместимый с ним при скорости цифрового потока 64 кбитов/с. Кодер G.711.1 может преобразовывать аудиосигналы со спектром 50–7000 Гц при частоте дискретизации 16 кГц с формированием цифрового потока 80 или 96 кбитов/с [6.25].

В2009 г. ITU-T была принята рекомендация G.711.0 [6.26] безыскаженной дополнительной компрессии сигналов цифрового потока кодера G.711.

!

Рекомендация определяет характеристики системы кодирования звука (50 Гц– 7 кГц) с использованием адаптивной дифференциальной импульсно-кодовой модуляции (АДИКМ) при скорости выходного потока до 64 кбита/с. В методике обработки речевой информации (SB-ADPCM) частотная полоса делится на два поддиапазона (верхний и нижний), и сигнал в каждом поддиапазоне кодируется с помощью АДИКМ (ADPCM). Система имеет три основных режима работы, соответствующих скоростям выходного битового потока 64, 56 и 48 кбитов/с. По-

Глава 16. Основные стандарты кодирования речевой информации

следние два режима позволяют передавать в канале с пропускной способностью 64 кбита/с дополнительные данные 8 или 16 кбитов/с соответственно [6.27].

Всостав системы входит звуковая часть, которая преобразует звуковой сигнал

вравномерно квантованный цифровой 14-битный сигнал с частотой дискретизации 16 кГц, и SB-ADPCM кодер, который уменьшает цифровой поток до скорости 64 кбита/с. Для приложений, использующих дополнительный канал данных, требуется устройство ввода этих данных на передающей стороне, которое, при необходимости, вводит 1 или 2 бита на октет в зависимости от режима работы, и устройство извлечения данных на приемной стороне, извлекающее дополнительные данные. В Рекомендации описаны три варианта декодера SB-ADPCM, оптимизированных для трех различных режимов работы. Когда режим работы не указывается, необходимо использовать режим 64 кбита/с.

Несовпадение режимов работы кодера и декодера не приводит к неправильной работе декодера, однако для получения максимального качества звука необходимо минимизировать время несовпадения режимов работы. Для совместимости различных типов звуковых терминалов рекомендуется поддерживать как минимум режим 64 кбита/с.

В состав кодера SB-ADPCM входят нижеследующие элементы.

Два квадратурно-зеркальных нерекурсивных фильтра (QFM) с линейной фазовой характеристикой, которые делят частотный диапазон 0–8000 Гц на два поддиапазона: нижний (0–4000 Гц) и верхний (4000–8000 Гц). Частота дискретизации сигнала fIN на входе QFM — 16 кГц, а на выходах фильтров fL и fH — 8 кГц.

Кодер ADPCM нижнего поддиапазона, формирующий оценку SL входного сигнала XL, обеспечивает вычисление разностного сигнала EL. Адаптивный 60-уровневый нелинейный квантователь используется для формирования 6-битного сигнала IL с потоком 48 кбитов/с; в петле обратной связи два наименее значащих бита IL удаляются, что дает 4-битный сигнал ILt, который используется для адаптации квантователя и для получения квантованного дифференциального сигнала DLt, получаемого после 15-уровневого адаптивного обратного квантования. Оценка сигнала SL добавляется к этому сигналу, что дает восстановленное значение RLt входного сигнала нижнего поддиапазона. Работа с 4 битами вместо 6 в петле обратной связи как кодера, так и декодера ADPCM нижнего поддиапазона дает возможность введения дополнительных данных без нарушения работы декодера.

Кодер ADPCM верхнего поддиапазона формирует оценку SH сигнала XH и вычисляет разностный сигнал EH . Адаптивный 4-уровневый нелинейный квантователь используется для формирования 2-битного сигнала IH с потоком 16 кбитов/с. Обратное адаптивное квантование создает дифференциальный сигнал DH . Оценка сигнала SH добавляется к этому дифференциальному сигналу, что дает восстановленное значение R входного сигнала верхнего поддиапазона.

Мультиплексор, объединяющий сигналы IH и IL кодеров верхнего и нижнего поддиапазонов и формирующий полный сигнал I с потоком 64 кбита/с в виде октетов следующего формата:

16.2. G.722 — кодирование речи со спектром до 7 кГц в цифровой поток 64 кбитов/c

IH1 IH2IL1IL2IL3IL4IL5IL6.

В состав декодера SB-ADPCM входят нижеследующие элементы.

Демультиплексор, разделяющий состоящий из октетов IR сигнал с потоком 64 кбита/с на два сигнала IL и IH , которые затем поступают на входы декодеров ADPCM нижнего и верхнего поддиапазонов.

Декодер ADPCM нижнего поддиапазона, работающий в одном из трех режимов. Часть, определяющая оценку сигнала SL, включая адаптацию квантователя, аналогична петле обратной связи кодера ADPCM нижнего поддиапазона. Восстановленный сигнал RL получается при суммировании оценки сигнала с одним из трех квантованных разностных сигналов DL6, DL5 или DL4 в зависимости от режима работы.

Декодер ADPCM верхнего поддиапазона, аналогичный петле обратной связи кодера ADPCM верхнего поддиапазона, формирует восстановленный сигнал RH .

Квадратурные зеркальные нерекурсивные фильтры (QFM) с линейной фазовой характеристикой интерполируют сигналы RL и RH с частотами дискретизации 8 кГц до частоты 16 кГц и формируют выходной сигнал XOUT.

Более новая версия кодека G.722 — кодек G.722.1 (1999 г.) [6.28]. Он предназначен для сжатия широкополосного аудиосигнала и базируется на третьем поколении технологии сжатия Siren R компании Polycom. Этот стандарт обеспечивает передачу широкополосного аудиосигнала, близкого по качеству к FM-радио. G.722.1 определяет работу кодека на скоростях 24 и 32 кбитов/с при ширине спектра входного сигнала 50 Гц–7 кГц.

Кодек G.722.1 Annex C базируется на патентованной технологии Siren 14 R компании Polycom. Качество аудиосигнала приближено к CD. Этот алгоритм сжатия обеспечивает сверхширокополосный аудиосигнал 14 кГц при скоростях передачи 24, 32 и 48 кбитов/с.

Часто используемый вариант кодека — кодек G.722.2 (2002 г.), известный как «Адаптивный многоскоростной–широкополосный» (AMR-WB — Adaptive Multi Rate — WideBand). Он обеспечивает возможность быстрого изменения скорости сжатия при изменении пропускной способности сети передачи данных [6.29]. G.722.2 определяет 9 различных режимов скорости передачи от 6,6 кбитов/с до 23,85 кбитов/с, перечисленные ниже.

В обязательных многоскоростных конфигурациях:

6,60 кбитов/с (используется в системах коммутации каналов в GSM- и UMTS-со- единениях; должен использоваться только временно в случае плохого радиосоединения и не считается предназначенным для передачи широкополосного речевого сигнала);

8,85 кбитов/с (используется в системах коммутации каналов в GSM- и UMTS-со- единениях; должен использоваться только временно в случае плохого радиосоединения и не считается предназначенным для передачи широкополосного речевого сигнала; обеспечивает качество, равное G.722 при скорости передачи 48 кбитов/с для качественной речи);

Глава 16. Основные стандарты кодирования речевой информации

12,65 кбитов/с (основная скорость; используется в системах коммутации каналов в GSM- и UMTS-соединениях; предлагает отличное качество аудиосигнала на этой и более высоких скоростях передачи; обеспечивает качество, равное G.722 при скорости передачи 56 кбитов/с для качественной речи).

Более высокие скорости для передачи речи в неблагоприятных условиях с повышенными шумами, для совместной передачи речи и музыки и для конференций со множеством участников:

14,25 кбитов/с;

15,85 кбитов/с;

18,25 кбитов/с;

19,85 кбитов/с;

23,05 кбитов/с (не предназначен для полноскоростных GSM каналов);

23,85 кбитов/с (обеспечивает качество, равное G.722 при скорости передачи

64 кбита/с для качественной речи; не предназначен для полноскоростных GSM каналов).

Рекомендация описывает кодирование речи или других звуковых компонент мультимедийных служб при низких скоростях передачи данных. Качество кодированного звука выше при скорости 6,3 кбитов/с. Возможно переключение между скоростями передачи на границе любого звукового кадра. Возможно дополнительное использование режимов передачи с паузами и заполнение шумом в интервалах отсутствия речевого сигнала [6.30].

Речь и другие звуковые сигналы обрабатываются кадрами, используется кодирование с линейным предсказанием, анализом и синтезом. Возбуждающий сигнал для высокоскоростного кодера — многоимпульсное квантование с максимумом правдоподобия (MP-MLQ), а для низкоскоростного — линейное предсказание с алгебраическим кодовым возбуждением (ACELP). Размер кадра равен 30 мс, также дополнительно учитывается последующий интервал 7,5 мс. Таким образом, общая задержка, вносимая алгоритмом, — 37,5 мс. Все дополнительные задержки кодера образуются из задержки при обработке (вычислениях), задержки системы передачи и задержки буферизации протоколов мультиплексирования.

Кодер предназначен для работы с цифровым сигналом, полученным после фильтрации в полосе речевого сигнала при дискретизации с частотой 8000 Гц и линейном квантовании с глубиной 16 битов на отсчет. Структурная схема кодера приведена на рис. 16.1.

В кодере, на который подаются отсчеты сигнала y[n], обрабатываются блоки (кадры), по 240 отсчетов каждый (30 мс при частоте дискретизации 8 кГц). Каждый блок s[n] сначала передается через фильтр высоких частот (ФВЧ) для устранения постоянной составляющей, а затем делится на четыре подкадра по 60 отсчетов x[n] каждый.

16.3. G.723.1 — речевой кодек с двумя скоростями потока — 5,3 и 6,3 кбитов/с

 

Z-характеристика ФВЧ определяется соотношением:

 

H (z) =

 

1 − z−1

.

(16.1)

 

128127 z−1

1

 

 

Для каждого подкадра вычисляется фильтр кодирования с линейным предсказанием (LPC) 10-го порядка, при этом используется необработанный входной

сигнал. Его характеристика имеет вид:

 

 

Ai(z) =

 

 

1

, 0 i 3,

(16.2)

 

 

 

 

 

j!

 

 

 

10

 

 

1

aij z−j

 

 

 

 

=1

 

 

а коэффициенты aij определяются рекурсивно с применением алгоритма Левин- сона–Дурбина (Levinson–Durbin).

Фильтр LPC для последнего подкадра квантуется с помощью разделяющего векторного квантователя с предсказанием (LSP qantizator). Неквантованные коэффициенты LPC используются для построения короткого взвешивающего фильтра, который применяется для фильтрации всего кадра и для получения взвешенного речевого сигнала.

Для каждых двух подкадров (120 отсчетов) по взвешенному речевому сигналу рассчитывается период шага открытой петли LOL. Оценка шага осуществляется по блокам из 120 отсчетов. Период шага определяется в диапазоне от 18 до 142 отсчетов. Далее речь обрабатывается по подкадрам из 60 отсчетов.

В состав кодера входит эквивалент декодера, содержащий LSP-декодер и LSP-ин- терполятор. Характеристика фильтра синтеза используется для того, чтобы ге-

нерировать декодированный речевой сигнал, и определяется формулой:

 

˜

 

 

1

 

(16.3)

Ai(z) =

 

 

10

, 0 i 3,

 

 

 

 

 

1

˜aij z−j

 

 

 

 

=1

 

 

 

 

 

j!

 

 

где a˜ij — коэффициенты, определяемые используемыми алгоритмами интерполяции.

Выделение воспринимаемых формант производится с использованием взвешивающего фильтра:

 

 

 

!

 

 

 

 

 

10

 

 

Wi(z) =

1 − j=1 aij z−jγ1j

, 0 i 3,

(16.4)

 

 

j!

 

 

 

10

 

 

1

aij z−jγ2j

 

 

 

 

=1

 

 

где γ1 = 0,9; γ2 = 0,5.

Определение основного тона осуществляется с использованием периода шага разомкнутого цикла LOL и воспринимаемой взвешенной речи f [n]. Оценка периода шага осуществляется с использованием критерия взаимной корреляции согласно следующему выражению:

119

2

 

 

 

 

 

n=0 f [n] · f [n − j]

, 18

 

j

 

142.

(16.5)

COL (j) = 119

 

 

!

 

 

 

 

 

 

!

f [n − j] · f [n − j]

n=0

Глава 16. Основные стандарты кодирования речевой информации

Рис. 16.1. Структурная схема кодирующего устройства G.723.1: 1 — формирователь кадров (ФК); 2 — высокочастотный фильтр (ФВЧ); 3 — кодер с линейным предсказанием (LPC); 4 — квантователь линейных спектральных пар (LSP); 5 — декодер LSP; 6 — интерполятор LSP; 7 — обработчик формант (ОФ); 8 — блок оценки основного тона (ОТ); 9 — формирователь огибающей гармонического шума (ФГШ); 10 — формирователь импульсной характеристики (ФИХ); 11 — формирователь отклика при отсутствии входного сигнала (ОВХ); 12 — предсказатель основного тона (ПОС); 13 — MP-MLQ/ACELP — многополюсное квантование с максимумом правдоподобия / линейное предсказание с алгебраическим кодовым возбуждением; 14 — декодер возбуждения (ДВ); 15 — декодер основного тона (ДОТ); 16 — блок обновления памяти (ОП)

Индекс j, при котором взаимная корреляция максимальна, определяет значение величины воспринимаемого основного тона.

На основе оценки периода шага строится гармонический фильтр шума w[n], улучшающий качество закодированной речи. Характеристика этого фильтра:

Pi (z) = 1 − βz−L.

Оптимальная величина L для этого фильтра максимизирует критерий при соответствующих значениях N (j):

59

N (j) = f [n] · f [n − j],

n=0

(16.6)

CP W (j)

(16.7)

CP W (j) =

(N (j))2

, L1 j L2,

(16.8)

59

 

n!

 

 

 

=0 f [n − j] · f [n − j]

 

 

где L1 = LOL − 3 и L2 = LOL + 3. Максимальное значение обозначено как CL.

16.3. G.723.1 — речевой кодек с двумя скоростями потока — 5,3 и 6,3 кбитов/с

Оптимальная величина усиления фильтра Gopt и энергия речевого сигнала E равны:

 

59

 

 

 

 

n=0 f [n] f [n − L]

 

Gopt =

!

 

,

(16.9)

59

 

 

=0 f [n − L] f [n − L]

 

 

n!

59

 

 

 

 

 

 

 

E =

f 2 [n].

(16.10)

n=0

Тогда коэффициент β гармонического фильтра шума равен:

 

0,0,

· Gopt,

иначе.

 

CEL 2,0,

β =

0,3125

если − 10 lg

1

 

Вектор w[n] вычисляется по формуле:

w [n] = f [n] − βf [n − L] , 0 n 59.

(16.11)

(16.12)

Комбинация синтезирующего LPC фильтра, взвешивающего фильтра формант и гармонического фильтра шума находится импульсный отклик:

˜

(16.13)

Si (z) = Ai (z) · Wi (z) · Pi (z) , 0 i 3,

используемый в дальнейших вычислениях.

Отсутствие входного сигнала определяется результатами вычисления Si(z). Результатом обработки является разность значений {w[n]} и {z[n]}, n = 0 . . . 59; полученный вектор определяется как:

t[n] = w[n] − z[n].

(16.14)

Предсказатель основного тона формирует сигнал подобия следующим образом. Для подкадров 0 и 2 задержка шага петли выбрана приблизительно соответствующей задержке шага разомкнутого цикла в диапазоне ±1. Для подкадров 1 и 3 задержка шага петли кодируется дифференцированно, используя 2 бита, и может отличаться от предыдущей задержки подкадра только на −1, 0, +1 или +2. Квантованные и декодированные значения задержки шага обозначаются Li. Диапазон прогнозирующего блока — квантованный вектор, использующий две кодовые книги с 85 или 170 элементами старшего разряда и 170 элементами младшего разряда. 170 кодовых книг входа одинаковы для обеих норм. Если величина L0 меньше, чем 58, для подкадров 0 и 1, или если величина L2 меньше, чем 58, для подкадров 2 и 3, то используется кодовая книга с 85 элементами.

Для получения остаточного сигнала {r[n]}, n = 0, . . . , 59, результат работы прогнозирующего устройства {p[n]}, n = 0, . . . , 59, вычитается из целевого вектора {t[n]}, n = 0, . . . , 59:

r [n] = t [n] − p [n] .

(16.15)

Этот остаточный новый целевой вектор при высокой скорости кодирования передается блоку многополюсного квантования с максимумом правдоподобия MP-MLQ. Этот блок выполняет квантование вектора таким образом, что формируемый сигнал должен быть близким к величине:

n

 

 

 

 

 

j

 

v [n

 

j], 0 n 59,

(16.16)

r [n] = h [j]

·

=0