(по цифровому вещанию) Dvorkovich_V_Cifrovye_videoinformacionnye_sistemy
.pdf
Глава 15. Основные характеристики звуковой информации
Рис. 15.27. Пример выделения битов для кодирования коэффициентов МДКП
На рис. 15.27 в качестве примера вверху приведена кривая ступенчатой формы. Коэффициенты МДКП, расположенные ниже этой кривой, не кодируются, поскольку лежат ниже относительного порога слышимости. В нижней части рис. 15.27 приведено число битов, которое требуется выделить для кодирования мантисс каждого из тех коэффициентов МДКП, которые необходимо передать в декодер.
Предусмотрено «грубое» и «плавное» смещение кривой глобального порога маскировки соответственно CSNR и FSNR. При этом шаг смещения кривой FSNR установлен равным 3/16 дБ, а кривой CSNR — 3 дБ. Суммарная величина смещения глобального порога маскировки относительно ее исходного положения определяется формулой:
SNROFFSET = 4 · [16 · (CSNR − 15) + FSNR]. |
(15.71) |
15.8. Предыскажения звуковых сигналов при цифровом кодировании
При ИКМ1преобразовании звукового сигнала с малым шагом квантования спектр шума имеет равномерный характер вплоть до половины частоты дискретизации fпд/2, в то время как уровень спектральных составляющих сигнала уменьшается при увеличении их частоты. По этой причине для уменьшения влияния шумов квантования применяются частотные предыскажения на стороне кодера и восстановление сигнала при его декодировании (см. рис. 15.28).
Рис. 15.28. Характеристики цепей предыскажений
В соответствии с Рекомендацией 651 МККР [6.57] при линейном кодировании с 14-битовым разрешением, а также при нелинейном кодировании с почти мгновенным компандированием для уменьшения разрядности с 14 до 10 битов на отсчет звуковых сигналов с полосой спектра до 15 кГц предыскажения должны соответствовать Рекомендации J.17 МККТТ [6.58] с вносимым затуханием 6,5 дБ на частоте 0,8 кГц — рис. 15.28, кривая 1, соотношение (15.72), или характеристике 50/15 мкс — рис. 15.28, кривая 2, соотношение (15.73).
|
1 |
2 |
|
|
|
|
|
K(f ) = 10 lg |
+ (2πf /3000) |
, |
(15.72) |
||||
|
2 |
||||||
|
75 + (2πf /3000) |
|
|
|
|
||
|
1 |
2 |
|
|
|
||
K(f ) = 10 lg |
+ (0, 05 · 2πf ) |
|
, |
(15.73) |
|||
|
2 |
||||||
1 + (0, 015 · 2πf ) |
|||||||
|
|
|
|
|
|||
где f — частота в Гц.
В декодере эти частотные предыскажения компенсируются. Ввиду того что спектр шума квантования обрабатывается только восстанавливающей цепью, отношение сигнал/шум увеличивается примерно на 4 дБ.
Алгоритмы сжатия речи весьма гибки, используют различные методы обработки информации, что может привести к существенному различию в качестве декодируемой информации при одной и той же степени ее сжатия. Информация об основных стандартах кодирования речевой информации приведена в табл. 16.1.
Таблица 16.1. Основные параметры кодеков речи
Наименование |
|
Скорость передачи |
Оценка |
Год |
|
Тип кодека |
информации, |
||||
стандарта |
качества MOS |
публикации |
|||
|
кбитов/с |
||||
|
|
|
|
||
ITU-T G.711 |
ИКМ |
64 |
4,12 |
1972 |
|
ITU-T G.722 |
АДИКМ |
48; 56; 64 |
3,8–4,2 |
1993 |
|
ITU-T G.722.1 |
Siren7 |
16; 24; 32 |
3,8–4,2 |
1999 |
|
ITU-T G.722.2 |
AMR-WB |
6,6–23,85 |
3,8–4,2 |
2002 |
|
ITU-T G.723.1 |
MP–MLQ |
6,3 |
3,9 |
1996 |
|
ITU-T G.723.1 |
ACELP |
5,3 |
3,65 |
1996 |
|
ITU-T G.726 |
АДИКМ |
16–40 |
2–4,3 |
1984 |
|
ITU-T G.727 |
АДИКМ |
40; 32; 24; 16 |
2,2–4,3 |
1986 |
|
|
|
|
|
|
|
ITU-T G.728 |
LD-CELP |
16 |
3,61 |
1992 |
|
|
|
|
|
|
|
ITU-T G.729 |
CS-ACELP |
8 |
3,92 |
1997 |
|
(без VAD) |
|||||
|
|
|
|
||
|
|
|
|
|
|
ITU-T G.729 |
двукратное |
8 |
3,27 |
1997 |
|
кодирование |
|||||
|
|
|
|
||
|
|
|
|
|
|
ITU-T G.729 |
трехкратное |
8 |
2,67 |
1997 |
|
кодирование |
|||||
|
|
|
|
||
ITU-T G.729a |
CA-ACELP |
8 |
3,7 |
1999 |
|
ETSI GSM FR |
RPE-LTP / |
13 |
3,58 |
1992 |
|
MPE-LTP |
|||||
|
|
|
|
||
|
|
|
|
|
|
ETSI GSM |
RPE-LTP / |
12,2 |
3,8 |
1999 |
|
EFR |
MPE-LTP |
||||
|
|
|
|||
|
|
|
|
|
|
iLBC |
LPC-LSF-CD |
13,33 |
3,7 |
1998 |
|
|
|
|
|
|
|
iLBC |
LPC-LSF-CD |
15,2 |
3,9 |
1999 |
|
|
|
|
|
|
|
Speex NB |
CELP-VBR- |
2,15 — 24,6 |
2 — 4,4 |
2004 |
|
VAD |
|||||
|
|
|
|
||
Speex WB |
CELP-VBR- |
4 — 44,2 |
2,8 — 4,4 |
2004 |
|
VAD |
|||||
|
|
|
|
||
|
|
|
|
|
16.2. G.722 — кодирование речи со спектром до 7 кГц в цифровой поток 64 кбитов/c
G.711 — один из основных стандартов ITU-T для аудиокодеков. Он является частью более общих мультимедийных стандартов, используется в телефонии, определяет преобразование аудиосигнала с шириной полосы 3,4 кГц для передачи по информационным каналам со скоростью 64 кбитов/с.
Рекомендация предусматривает импульсно-кодовую модуляцию (ИКМ, Pulse Code Modulation — PCM) в диапазоне частот аналогового голосового сигнала [6.24]. Номинальная частота дискретизации сигнала — 8000 Гц, каждый отсчет представляется 8 битами.
Предлагаются два правила кодирования — A-law и μ-law, определяемые соотношениями (15.33 и 15.34) и заданные в Рекомендации таблично. По международным цифровым каналам связи между странами, в которых приняты различные правила кодирования, должны передаваться сигналы, закодированные в соответствии с правилом A-law. Если обе страны используют одно правило кодирования, то для передачи должно использоваться это правило кодирования. Все необходимые преобразования должны осуществляться странами, использующими правило μ-law. При последовательной передаче цифровых данных первым передается наиболее значимый бит.
Алгоритмы преобразования аудиосигнала стандарта G.711 рекомендованы для большинства систем цифровой передачи речи в качестве метода предварительного аналого-цифрового преобразования. Кодек поддерживается практически всеми устройствами IP-телефонии, не подлежит лицензированию, требует использования весьма скромных вычислительных ресурсов и обеспечивает хорошее качество, правда создавая при этом довольно высокую нагрузку на каналы передачи.
В2008 г. ITU-T был принят стандарт G.711.1 [6.25], являющийся расширением стандарта G.711 и совместимый с ним при скорости цифрового потока 64 кбитов/с. Кодер G.711.1 может преобразовывать аудиосигналы со спектром 50–7000 Гц при частоте дискретизации 16 кГц с формированием цифрового потока 80 или 96 кбитов/с [6.25].
В2009 г. ITU-T была принята рекомендация G.711.0 [6.26] безыскаженной дополнительной компрессии сигналов цифрового потока кодера G.711.
!
Рекомендация определяет характеристики системы кодирования звука (50 Гц– 7 кГц) с использованием адаптивной дифференциальной импульсно-кодовой модуляции (АДИКМ) при скорости выходного потока до 64 кбита/с. В методике обработки речевой информации (SB-ADPCM) частотная полоса делится на два поддиапазона (верхний и нижний), и сигнал в каждом поддиапазоне кодируется с помощью АДИКМ (ADPCM). Система имеет три основных режима работы, соответствующих скоростям выходного битового потока 64, 56 и 48 кбитов/с. По-
Глава 16. Основные стандарты кодирования речевой информации
следние два режима позволяют передавать в канале с пропускной способностью 64 кбита/с дополнительные данные 8 или 16 кбитов/с соответственно [6.27].
Всостав системы входит звуковая часть, которая преобразует звуковой сигнал
вравномерно квантованный цифровой 14-битный сигнал с частотой дискретизации 16 кГц, и SB-ADPCM кодер, который уменьшает цифровой поток до скорости 64 кбита/с. Для приложений, использующих дополнительный канал данных, требуется устройство ввода этих данных на передающей стороне, которое, при необходимости, вводит 1 или 2 бита на октет в зависимости от режима работы, и устройство извлечения данных на приемной стороне, извлекающее дополнительные данные. В Рекомендации описаны три варианта декодера SB-ADPCM, оптимизированных для трех различных режимов работы. Когда режим работы не указывается, необходимо использовать режим 64 кбита/с.
Несовпадение режимов работы кодера и декодера не приводит к неправильной работе декодера, однако для получения максимального качества звука необходимо минимизировать время несовпадения режимов работы. Для совместимости различных типов звуковых терминалов рекомендуется поддерживать как минимум режим 64 кбита/с.
В состав кодера SB-ADPCM входят нижеследующие элементы.
–Два квадратурно-зеркальных нерекурсивных фильтра (QFM) с линейной фазовой характеристикой, которые делят частотный диапазон 0–8000 Гц на два поддиапазона: нижний (0–4000 Гц) и верхний (4000–8000 Гц). Частота дискретизации сигнала fIN на входе QFM — 16 кГц, а на выходах фильтров fL и fH — 8 кГц.
–Кодер ADPCM нижнего поддиапазона, формирующий оценку SL входного сигнала XL, обеспечивает вычисление разностного сигнала EL. Адаптивный 60-уровневый нелинейный квантователь используется для формирования 6-битного сигнала IL с потоком 48 кбитов/с; в петле обратной связи два наименее значащих бита IL удаляются, что дает 4-битный сигнал ILt, который используется для адаптации квантователя и для получения квантованного дифференциального сигнала DLt, получаемого после 15-уровневого адаптивного обратного квантования. Оценка сигнала SL добавляется к этому сигналу, что дает восстановленное значение RLt входного сигнала нижнего поддиапазона. Работа с 4 битами вместо 6 в петле обратной связи как кодера, так и декодера ADPCM нижнего поддиапазона дает возможность введения дополнительных данных без нарушения работы декодера.
–Кодер ADPCM верхнего поддиапазона формирует оценку SH сигнала XH и вычисляет разностный сигнал EH . Адаптивный 4-уровневый нелинейный квантователь используется для формирования 2-битного сигнала IH с потоком 16 кбитов/с. Обратное адаптивное квантование создает дифференциальный сигнал DH . Оценка сигнала SH добавляется к этому дифференциальному сигналу, что дает восстановленное значение R входного сигнала верхнего поддиапазона.
–Мультиплексор, объединяющий сигналы IH и IL кодеров верхнего и нижнего поддиапазонов и формирующий полный сигнал I с потоком 64 кбита/с в виде октетов следующего формата:
16.2. G.722 — кодирование речи со спектром до 7 кГц в цифровой поток 64 кбитов/c
IH1 IH2IL1IL2IL3IL4IL5IL6.
В состав декодера SB-ADPCM входят нижеследующие элементы.
–Демультиплексор, разделяющий состоящий из октетов IR сигнал с потоком 64 кбита/с на два сигнала IL и IH , которые затем поступают на входы декодеров ADPCM нижнего и верхнего поддиапазонов.
–Декодер ADPCM нижнего поддиапазона, работающий в одном из трех режимов. Часть, определяющая оценку сигнала SL, включая адаптацию квантователя, аналогична петле обратной связи кодера ADPCM нижнего поддиапазона. Восстановленный сигнал RL получается при суммировании оценки сигнала с одним из трех квантованных разностных сигналов DL6, DL5 или DL4 в зависимости от режима работы.
–Декодер ADPCM верхнего поддиапазона, аналогичный петле обратной связи кодера ADPCM верхнего поддиапазона, формирует восстановленный сигнал RH .
–Квадратурные зеркальные нерекурсивные фильтры (QFM) с линейной фазовой характеристикой интерполируют сигналы RL и RH с частотами дискретизации 8 кГц до частоты 16 кГц и формируют выходной сигнал XOUT.
Более новая версия кодека G.722 — кодек G.722.1 (1999 г.) [6.28]. Он предназначен для сжатия широкополосного аудиосигнала и базируется на третьем поколении технологии сжатия Siren R компании Polycom. Этот стандарт обеспечивает передачу широкополосного аудиосигнала, близкого по качеству к FM-радио. G.722.1 определяет работу кодека на скоростях 24 и 32 кбитов/с при ширине спектра входного сигнала 50 Гц–7 кГц.
Кодек G.722.1 Annex C базируется на патентованной технологии Siren 14 R компании Polycom. Качество аудиосигнала приближено к CD. Этот алгоритм сжатия обеспечивает сверхширокополосный аудиосигнал 14 кГц при скоростях передачи 24, 32 и 48 кбитов/с.
Часто используемый вариант кодека — кодек G.722.2 (2002 г.), известный как «Адаптивный многоскоростной–широкополосный» (AMR-WB — Adaptive Multi Rate — WideBand). Он обеспечивает возможность быстрого изменения скорости сжатия при изменении пропускной способности сети передачи данных [6.29]. G.722.2 определяет 9 различных режимов скорости передачи от 6,6 кбитов/с до 23,85 кбитов/с, перечисленные ниже.
В обязательных многоскоростных конфигурациях:
–6,60 кбитов/с (используется в системах коммутации каналов в GSM- и UMTS-со- единениях; должен использоваться только временно в случае плохого радиосоединения и не считается предназначенным для передачи широкополосного речевого сигнала);
–8,85 кбитов/с (используется в системах коммутации каналов в GSM- и UMTS-со- единениях; должен использоваться только временно в случае плохого радиосоединения и не считается предназначенным для передачи широкополосного речевого сигнала; обеспечивает качество, равное G.722 при скорости передачи 48 кбитов/с для качественной речи);
Глава 16. Основные стандарты кодирования речевой информации
–12,65 кбитов/с (основная скорость; используется в системах коммутации каналов в GSM- и UMTS-соединениях; предлагает отличное качество аудиосигнала на этой и более высоких скоростях передачи; обеспечивает качество, равное G.722 при скорости передачи 56 кбитов/с для качественной речи).
Более высокие скорости для передачи речи в неблагоприятных условиях с повышенными шумами, для совместной передачи речи и музыки и для конференций со множеством участников:
–14,25 кбитов/с;
–15,85 кбитов/с;
–18,25 кбитов/с;
–19,85 кбитов/с;
–23,05 кбитов/с (не предназначен для полноскоростных GSM каналов);
–23,85 кбитов/с (обеспечивает качество, равное G.722 при скорости передачи
64 кбита/с для качественной речи; не предназначен для полноскоростных GSM каналов).
Рекомендация описывает кодирование речи или других звуковых компонент мультимедийных служб при низких скоростях передачи данных. Качество кодированного звука выше при скорости 6,3 кбитов/с. Возможно переключение между скоростями передачи на границе любого звукового кадра. Возможно дополнительное использование режимов передачи с паузами и заполнение шумом в интервалах отсутствия речевого сигнала [6.30].
Речь и другие звуковые сигналы обрабатываются кадрами, используется кодирование с линейным предсказанием, анализом и синтезом. Возбуждающий сигнал для высокоскоростного кодера — многоимпульсное квантование с максимумом правдоподобия (MP-MLQ), а для низкоскоростного — линейное предсказание с алгебраическим кодовым возбуждением (ACELP). Размер кадра равен 30 мс, также дополнительно учитывается последующий интервал 7,5 мс. Таким образом, общая задержка, вносимая алгоритмом, — 37,5 мс. Все дополнительные задержки кодера образуются из задержки при обработке (вычислениях), задержки системы передачи и задержки буферизации протоколов мультиплексирования.
Кодер предназначен для работы с цифровым сигналом, полученным после фильтрации в полосе речевого сигнала при дискретизации с частотой 8000 Гц и линейном квантовании с глубиной 16 битов на отсчет. Структурная схема кодера приведена на рис. 16.1.
В кодере, на который подаются отсчеты сигнала y[n], обрабатываются блоки (кадры), по 240 отсчетов каждый (30 мс при частоте дискретизации 8 кГц). Каждый блок s[n] сначала передается через фильтр высоких частот (ФВЧ) для устранения постоянной составляющей, а затем делится на четыре подкадра по 60 отсчетов x[n] каждый.
