(по цифровому вещанию) Dvorkovich_V_Cifrovye_videoinformacionnye_sistemy
.pdfГлава 17. Стандарты кодирования звуковой информации
образом: |
|
|
|
|
|
|
|
|
|
Fk,L.вост = Mk · |
qm |
Fk,R.вост = Mk · |
1 |
для всех k в субполосе m. |
|||||
|
, |
|
|||||||
1 + qm |
1 + qm |
||||||||
|
|
|
|
|
|
|
|
|
(17.13) |
Энергия всех восстановленных сигналов стереопары в субполосе m равна: |
|||||||||
|
ihighm |
|
|
|
ihighm |
|
|
||
|
m |
|
|
k= m |
|
|
|||
em,L = |
F 2 |
, |
em,R = |
F 2 |
. |
(17.14) |
|||
|
|
|
k,L.восст |
|
|
|
k,R.восст |
|
|
|
k=ilow |
|
|
|
|
ilow |
|
|
|
-
" #
Этот стандарт расширяет использование стандарта MPEG-1 Audio на совокупность следующих форматов [6.49]:
–3/2 — L, R, C (соответственно левый, правый и центральный фронтальные сигналы); LS и RS (левый и правый пространственные сигналы), а также канал сверхнизких частот СНЧ;
–3/0 — L, R, C плюс 2/0 — L2, R2 (дополнительные вторые левый и правый сигналы);
–3/1 — L, R, C и S (S — сигнал «окружения» — Surround);
–2/0 — L, R плюс 2/0 — L2, R2;
–3/0 — L, R, C;
–2/1 — L, R, S;
–2/0 — L, R (стандартное стереовещание);
–1/0 — M (моновещание).
Предполагается, что сигналы L и R занимают полную полосу частот от 20 Гц до 20 кГц, полоса частот сигнала C ограничена сверху частотой 9 кГц, а частоты LS и RS имеют полосу частот от 100 Гц до 7 кГц. В стандарте MPEG-2 увеличено количество используемых частот дискретизации — возможно применение частот 32, 44,1, 48 кГц, а также 16, 22,05 и 24 кГц. Исходным является пятиканальный режим — L, R, C, LS и RS (см. рис. 17.10а).
С помощью матрицы M 1 эти сигналы преобразуются определенным образом. Два сигнала T 1 и T 2 являются сигналами обычной двухканальной стереофонии, причем их сумма должна обеспечить реализацию монофонического сигнала,
т. е. T 1 + T 2 = M . Соотношения определяются следующим образом:
T 1 |
= α(L + βC + γLS); T 2 = α(R + βC + γRS); |
T 3 |
(17.15) |
= αβC; T 4 = αγLS; T 5 = αγRS, |
где α, β, γ — коэффициенты, значения которых определяют 4 режима работы:
|
|
√ |
|
|
|
|
√ |
|
|
|
|
√ |
|
|
– режим 0 |
с параметрами α = 1/(1 + |
|
2), β = 1/ |
|
2, γ = 1/ 2; |
|||||||||
|
|
|
|
√ |
|
|
|
|
|
√ |
|
|
||
– режим 1 |
с параметрами α = 1/(1, 5 + 0, 5 2), β = 1/ |
|
2, γ = 0, 5; |
|||||||||||
17.2. MPEG-2 Audio — стандарт кодирования аудиоинформации
Рис. 17.10. Структурная схема кодека аудиосигналов стандарта MPEG-2
√ |
|
√ |
|
|
√ |
|
|
– режим 2 с параметрами α = 1/(1 + |
2), β = 1/ 2, γ = 1/ |
|
2, при этом |
||||
должен быть сформирован сигнал S = (LS + RS)/2 и в противофазе сложен |
|||||||
с сигналами L и R; |
|
|
|
|
|
|
|
– режим 3 с параметрами α = β = γ = 1. |
|
|
|
|
|
|
|
После матрицирования сигналы кодируются, причем для кодирования составляющих T 1 и T 2 применяются алгоритмы стандарта MPEG-1 Audio, а составляющие T 3, T 4, T 5 кодируются отдельно кодером многоканального расширения MPEG-2.
При любом сочетании каналов возможна передача сигналов СНЧ, при котором используется частота дискретизации fд/96, ширина полосы 125 Гц и разрешение больше 20 бит/отсчет.
В декодере передаваемые сигналы демультиплексируются, соответствующим образом декодируются и с применением матрицы M 2 преобразуются в требуемые сигналы.
При кодировании сигналов многоканального расширения используется относительно простая методика, поскольку при многоканальной стереофонии в каждый текущий момент времени передача всей информации не требуется. Для максимально возможной компрессии аудиоданных T 3, T 4 и T 5 учитывается степень взаимной корреляции между основными и дополнительными сигналами. При большой корреляции между ними достаточно передавать только различие сигналов. Для еще большей компрессии данных применяется также процеду-
Глава 17. Стандарты кодирования звуковой информации
Рис. 17.11. Структура данных аудиофрейма стандарта MPEG-2, совместимая со стандартом MPEG-1 Audio Layer-2
ра динамического изменения переходного затухания между дополнительными сигналами, когда изменяются во времени лишь соотношения между уровнями воспроизводимых сигналов.
Психоакустическая модель кодера MPEG-2 соответствует стандарту MPEG-2 (рис. 17.10б). Два формата аудиофрейма, предусмотренные стандартом MPEG-2 Audio, приведены на рис. 17.11 и 17.12.
Первый формат совместим с форматом аудиофрейма стандарта MPEG-1 Audio. Здесь структура аудиоданных T 1 и T 2 соответствует формату аудиоданных MPEG-2 Audio, а информация о аудиоданных T 3, T 4 и T 5 располагается в части аудиофрейма, относящейся к передаче дополнительных данных. В этой части также имеется своя преамбула (MC-Header), биты для помехоустойчивого кодирования (MC-CRC), часть для передачи аудиоданных T 3, T 4 и T 5, а также часть для передачи дополнительной информации.
Структура аудиофрейма MPEG-2 Audiо c дополнительным расширением приведена на рис. 17.12. Данные начинаются с преамбулы (Header) и битов помехоустойчивого кодирования (CRC). Далее следует информация о кодировании распределения битов по субполосам (BAL), распределении масштабных коэффициентов (SCFSI), величинах масштабных коэффициентов (SCF) и отсчетов субполосных составляющих, соответствующих по структуре формату данных MPEG-1 Audio Layer-3 для основной пары сигналов L и R.
Затем следуют дополнительные данные многоканального расширения (MC), включая преамбулу (MC-Header), данные помехоустойчивого кодирования (MC-
17.3. MPEG-2 AAC — стандарт усовершенствованного аудиокодирования
Рис. 17.12. Структура данных аудиофрейма стандарта MPEG-2 с дополнительным расширением
CRC), распределения бит по субполосам (MC-BAL), распределения масштабных коэффициентов (MC-SCFSI), величины масштабных коэффициентов (MC-SCF). Далее следуют аудиоданные: MC-предсказание, MC-данные групп частотных полос и возможные дополнительные данные, например многоязычные передачи. Формат дополнительных данных начинается с синхронизации части расширения (ext. Sync), помехоустойчивого кодирования (ext. CRC), указание о длине расширения (ext. Length), собственно аудиоданные расширения (MC-дополнительные данные-2).
-
Алгоритм компрессии AAC (Advanced Audio Coding) [6.50] базируется на стандартах MPEG-1 Layer-3 и MPEG-2 Layer-3, поддерживает все известные аудиоформаты: от монофонического звука до многоканального формата 5.1. При этом используется широкий набор частот дискретизации — 8; 11,025; 16; 22,05; 24; 32; 44,1; 48; 64; 88,2; 96 кГц.
Изменены форма и длины базисных функций — применяются окна Кайзе- ра–Бесселя, длинное, включающее 2048 отсчетов, и короткое на 256 отсчетов аудиосигнала, реализованные с 50% перекрытием, что обеспечивает высокое разрешение по частоте.
Кодированию подвергаются коэффициенты МДКП, однако несколько изменена форма кривой компрессии при неравномерном квантовании, применены другие книги кодов Хаффмана, управление величиной искажений квантования,
Глава 17. Стандарты кодирования звуковой информации
Рис. 17.13. Структурные схемы кодека MPEG-2 AAC |
как и в стандарте MPEG-2 Layer-3, осуществляется двумя циклами — внутренним и внешним (рис. 17.13).
Для повышения качества компрессии применены специальные процедуры:
–управление микроструктурой искажений квантования внутри каждой из субполос (Temporal Noise Shaping — TNS);
–объединение субполосных сигналов при их кодировании (Coupling);
–возможность M/S-кодирования, при котором обработке подвергаются√не
исходные сигналы стереопары, а их сумма и разность — M = (L + R)/ 2,
√
S = (L − R)/ 2;
–при линейном предсказании учитывается не только корреляция между отсчетами многоканального сигнала, но также форма спектра шумов квантования и ее изменение во времени;
–модифицированы дополнительные процедуры при расчете глобального порога маскировки в психоакустической модели кодера, основой которой все же являются алгоритмы психоакустической модели-2 (см. раздел 15.7.2).
В зависимости от области применения и вычислительной сложности стандарт MPEG-2 AAC предусматривает три возможные конфигурации.
Основная конфигурация (Main profile) используется, когда вычислительная сложность не является сдерживающим фактором, не используется банк PQMF-
17.4. MPEG-4 Audio — стандарт аудиокодера для мультимедийных приложений
фильтров, вся последовательность 2048 временных отсчетов непосредственно передается на блок ортогонального преобразования с 50%-и перекрытием. Порядок предсказания TNS составляет 20.
В конфигурации пониженной сложности (Low Complexity profile) также не используется банк PQMF-фильтров, не применяется блок линейного предсказания и порядок TNS сокращен до 12.
При адаптивной конфигурации кодер AAC использует банк PQMF-фильтров, блок линейного предсказания не применяется, а порядок TNS равен 12. Кроме того, не всегда требуется передача аудиосигнала с полной полосой спектра от 20 Гц до 20 кГц. Поэтому стандарт предусматривает возможность кодирования сигнала, например, со спектром, занимающем полосы от 20 Гц до 6 кГц, до 12 кГц, до 18 кГц.
Тестовая оценка показывает, что алгоритм компрессии AAC обеспечивает так называемое прозрачное кодирование при скорости цифрового потока 64 кбитов/с на канал.
При аудиоформате 5.1 искажения, вызванные компрессией, лежат ниже порогов их слуховой заметности при суммарной скорости цифрового потока 320– 384 кбитов/с (при раздельном кодировании каналов).
-
Вданном кодере впервые при компрессии цифровых данных высококачественных аудиосигналов предлагается использовать параметрическое кодирование, когда реальный звуковой сигнал представляется в виде модели, содержащей совокупность тональных и шумоподобных сигналов (рис. 17.14). В стандарте MPEG-4 Audio [6.51] приводятся две психоакустические модели, которые могут быть использованы в любом слое кодирования.
Вслучае применения алгоритма параметрического кодирования (рис. 17.15) исходный сигнал выборки X(n) в блоке анализа/синтеза разделяется на тональные и шумоподобные составляющие. Затем оцениваются значения текущих частот, амплитуд и фаз тональных сигналов и уровней шумоподобных составляющих в определенных полосах частот. Значения указанных параметров квантуются и кодируются минимально возможным количеством битов, требуемое количество которых определяется психоакустической моделью.
Параметрическое кодирование, обладая очень сложными процедурами оценки параметров и требуя при реализации больших вычислительных затрат, позволяет получить скорость цифрового потока 16–24 кбитов/с при достаточно хорошем качестве воспроизведения аудиоинформации.
Вторым альтернативным алгоритмом, обеспечивающим более высокое качество, однако при большем цифровом потоке, является алгоритм кодера AAC, также включенный в стандарт MPEG-4 Audio.
Алгоритм «Joint-Stereo» стандарта MPEG-4 AAC очень похож на процедуру кодирования по стандарту MPEG-1 Audio Layer-3.
Глава 17. Стандарты кодирования звуковой информации
Рис. 17.14. Алгоритмы компрессии аудиоинформации в кодере MPEG-4 Audio
Рис. 17.15. Упрощенная структурная схема кодера MPEG-4 Audio, использующая метод параметрического кодирования
Для каждой полосы кодирования m путем суммирования квадратов амплитуд коэффициентов МДКП вычисляются энергии левого, правого и суммарного сигналов em.L, em.R, em.M , а затем рассчитываются значения координатного множителя Ψm и амплитуда каждого k-го коэффициента МДКП объединенного сигнала Mk.
Коэффициенты МДКП объединенного сигнала передаются вместо соответствующих компонент левого канала, а компоненты правого канала приравниваются к нулю. Далее выполняются стандартные процедуры квантования и кодирования коэффициентов МДКП объединенного канала с применением ДИКМ, т. е. кодируются разности текущих значений МДКП. При передаче объединенного
17.5. Dolby AC3 — стандарт аудиокодера для телевидения и других применений
сигнала в правом канале используются специальные кодовые таблицы Хаффмана (INTENSITY_HCB и INTENSITY_HCB2), при этом их применение в левом канале запрещено. Указанные таблицы применяются при кодировании соответственно синфазных и противофазных составляющих объединяемых сигналов стереопары.
Информацию о соотношении фаз коэффициентов МДКП в режиме объединения субполосных сигналов можно получить посредством использовния флага ms_usedm. Первоначальное соотношение фаз, идентифицированное кодовыми таблицами Хаффмана, меняется из синфазного на противоположное и наоборот, если соответствующий бит флага установлен для данной субполосы.
При декодировании используются два соображения:
–в системе AAC координатный множитель кодируется так же, как и масштабные коэффициенты, т. е. кодами Хаффмана с применением дифференциальных величин с двумя разностными значениями; если первое значение отсутствует, то оно считается равным нулю;
–дифференциальное декодирование происходит отдельно для масштабных коэффициентов и координатных множителей; для кодирования масштабных коэффициентов и координатных множителей используются одни и те же кодовые таблицы.
При декодировании объединенных каналов используются две функции:
|
|
|
если для субполоc правого канала используется |
|
|
− |
|
таблица INTENCSITY_HCB; |
|
|
+1, |
|||
|
|
|
|
|
hm = |
|
1, |
если для субполоc правого канала используется |
|
|
|
|
таблица INTENCSITY_HCB2; |
|
|
|
|
||
|
|
− |
· |
m |
λm = |
1 |
|||
|
|
|
— в противном случае; |
|
|
1 |
|
2 |
ms_used , если флаг ms_mask_present = 1; |
|
+1 |
|
— в противном случае; |
|
где флаг ms_usedm принимает значение, равное 1 или 0, а двухбитный флаг ms_mask_present показывает присутствие маски MS.
Декодирование объединенных сигналов происходит следующим образом:
–сигнал левого канала принимается равным объединенному сигналу Fk.L = Mk;
–сигнал правого канала получается путем умножения сигнала левого канала на масштабный коэффициент scalem:
Fk.R = scalem · Fk.L, где scalem = hm · λm · 0, 5Ψm/4.
Врежиме многоканального стереофонического вещания стандарт Dolby AC3 предусматривает передачу в едином цифровом потоке фронтальных сигналов левого (Left), правого (Right) и центрального (Center) каналов, тыловых пространственных сигналов левого (Left Surround) и правого (Right Surround) ка-
Глава 17. Стандарты кодирования звуковой информации
Рис. 17.16. Структурная схема кодера системы Dolby AC-3
налов, а также дополнительного сигнала канала сверхнизких частот СНЧ (Low Frequency). Возможно использование также форматов 2/0 (обычное стерео), 3/1 (Dolby-Stereo, Dolby-Surround) и 3/2 (Dolby-Pro-Logic).
Цифровой поток на выходе кодирующего устройства представляет собой последовательность аудиофреймов (Pack AC-3 Frame), содержащих информацию, которую можно разделить на две части; основную (Main information) и дополнительную (Side Information) [6.52] (рис. 17.16).
Аудиофрейм кодера содержит 6 блоков, в каждом из которых содержится информация о 512 отсчетах каждого из кодируемых сигналов (Audio 1, . . . , Audio n). Вследствие 50% временного перекрытия в блок для каждого из сигналов включается 256 отсчетов предыдущего блока и 256 новых отсчетов. В шести блоках аудиофрейма передается 512·6=3072 обрабатываемых отсчета аудиосигнала, а если в аудиофрейм вводится информация о пяти кодируемых звуковых сигналах (формат 3/2), то общее число передаваемых отсчетов равно 3072·6=15360.
После сегментации по времени с 50%-м перекрытием отсчеты выборки сигнала преобразуются в частотную область с использованием МДКП в блоке частотного преобразования (Frequency Domain Transform). Перед ортогональным преобразованием отсчеты выборки подвергаются взвешиванию с помощью оконной функции, заданной таблично в стандарте AC-3 (рис. 17.17).
Расчет коэффициентов МДКП проводится с использованием соотношения (15.65), приведенного в описании психоакустической модели-3 (см. раздел 15.7.2). Флаг управления длиной обработки информации (Block Switch Flag — Blksw) переключает режим с длинного преобразования, при котором обеспечивается лучшее разрешение по частоте, на короткое — преобразование, реализующее лучшее разрешение по времени. При малых скоростях передачи цифровых данных предусмотрено использование процедуры объединения канальных сигналов (Coupling), позволяющей сократить количество битов, используемых при их кодировании.
В соответствии со стандартом Dolby AC-3 каждый k-й коэффициент МДКП представляется в формате с плавающей запятой двумя значениями: порядком
17.5. Dolby AC3 — стандарт аудиокодера для телевидения и других применений
Рис. 17.17. Форма оконной функции стандарта Dolby AC-3
(экспонентой) — B[k] и мантиссой – A[k] (см. раздел 15.7.2, психоакустическая модель-3).
Порядок равен числу нулей перед первой единицей двоичного представления коэффициента МДКП – это и есть его масштабный коэффициент, или нормирующий множитель.
Например, пусть значение коэффициента МДКП FD[k]=0,158 и его двоичное представление имеет вид 0,001010000110. Тогда значение порядка B[k]=2, а его
мантисса в двоичном представлении равна 0,1010000110 или в десятичном виде A[k]=0,6308, т. е. FD[k] = A[k] · 2−B[k] = 0,6308·2−2 = 0,158. Мантиссы нормиру-
ются, квантуются и кодируются, значения порядков также кодируются. В блоке распределения битов учитывается эффект маскировки.
Порядок коэффициентов МДКП в кодере Dolby AC-3 может изменяться от 0 до 24, поэтому кодовое число должно было бы использовать пять разрядов. Однако в данном случае используется метод ДИКМ, при котором кодируется разность между порядками соседних коэффициентов МДКП, используется 4-битовое кодовое слово и дискретность значений разностей ограничена значениями: −2, −1, 0, 1, 2. Максимальное значение изменений порядков соседних коэффициентов МДКП составляет ±2, что соответствует изменениям в ±12 дБ. Дифференциальные значения порядков коэффициентов МДКП объединяются в группы, определяемые тремя возможными стратегиями, обозначенными D15, D25 и D45. В стратегии D15 кодируется одним числом M [k] каждое дифференциальное значение порядков коэффициентов МДКП независимо, при D25 кодируется одним числом каждая пара, а при D45 — каждая четверка указанных дифференциальных значений порядков коэффициентов МДКП. Выбор этих стратегий зависит от различий порядков: при резком их изменении применяется стратегия D15, а при плавном изменении — стратегия D45.
При всех режимах работы кодера наборы трех чисел M [k], M [k+1], M [k+2]
группируются и кодируются как одно 7-битовое число по правилу: |
|
M [k, k + 1, k + 2] = 25 · M [k] + 5 · M [k + 1] + M [k + 2]. |
(17.16) |
