(по цифровому вещанию) Dvorkovich_V_Cifrovye_videoinformacionnye_sistemy
.pdf
Глава 15. Основные характеристики звуковой информации
Рис. 15.18. Обработка сигналов при дельта-модуляции |
устройства отсчетов сигнала изменяется шаг квантования. Наиболее простой способ изменения шага квантования поясняется следующим примером.
На начальном этапе преобразования в качестве исходного шага квантования принимаются значение поправки Q[e(0)] = 1 и величина шага квантования
Δ(0) = .
Последующее изменение шага квантования осуществляется, например, в со-
ответствии с формулой:
Δ(n) = |
Δ(n − 1) + |
/2, |
если Q[e(n)] = Q[e(n − 1)]; |
(15.29) |
|
Δ(n − 1) − |
/2, |
если Q[e(n)] = Q[e(n − 1)]. |
|
На рис. 15.19 приводится пример преобразования сигнала с применением АДМ, иллюстрирующий более эффективное кодирование быстро изменяющегося сигнала и частично компенсирующий нежелательный эффект перегрузки крутизны. Гранулярный шум также компенсируется за счет автоматического уменьшения шага квантования на каждом новом этапе преобразования.
Еще большая эффективность кодирования аудиоинформации может быть получена при квантователе, использующем предсказание более высокого порядка и реализуемом адаптивной относительной импульсно-кодовой модуляции АОИКМ [6.17].
Шаг квантования Δ(n) зависит от результата кодирования на предыдущем шаге: Δ(n) = M · Δ(n − 1), а функция квантования Q[e(n)] зависит от величины Δ(n) и передается на декодер тремя битами.
Значение коэффициента M , увеличивающего или уменьшающего шаг квантования, определяется следующим соотношением:
Глава 15. Основные характеристики звуковой информации
Рис. 15.20. Структурная схема сигма-дельта-модулятора
следующим образом:
–вычитатель, включенный на входе устройства, обеспечивает формирование разности отсчетов входного сигнала u(n) и выходного сигнала квантователя
Q(n) − v1(n) = u(n) − Q(n);
–отсчеты разностного сигнала v1(n) подаются на сумматор, с выхода которого отсчеты сигнала v2(n) поступают параллельно на входы квантователя и блока памяти БП1;
–с выхода блока БП1 с задержкой на такт отсчеты сигнала подаются на вход блока памяти БП2, на выходе которого выделяются отсчеты сигнала предыдущего такта v2(n−1), которые поступают на второй вход сумматора;
–таким образом, на вход квантователя подается сигнал v2(n) = v1(n) + v2(n − 1).
Формирователь кода, включенный на выходе квантователя, создает цифро-
вую последовательность в соответствии с соотношением:
N (n) = |
1, |
если |
Q(n) = 1; |
(15.32) |
|
0, |
если |
Q(n) = −1. |
|||
|
|
На рис. 15.21 представлен процесс кодирования синусоидального сигнала, для наглядности шаг дискретизации выбран достаточно большим. Работа схемы поясняется табл. 15.5, в которой величины отсчетов синусоидального сигнала округлены до двух знаков после запятой.
Таблица 15.5. Пояснение работы сигма-дельта-модулятора
|
|
На выходе |
|
На выходах |
|
||
|
|
|
слагателя |
На выходе |
|||
|
Входной |
вычитателя |
На входе БП2 |
||||
№ такта |
и БП1 |
|
квантователя |
||||
сигнал u(n) |
v1(n)u(n) − |
v2(n − 1) |
|
||||
|
v2(n)v1(n) + |
Q(n) |
|||||
|
|
− Q(n) |
|
+ v2(n |
− |
1) |
|
|
|
|
|
|
|
|
|
0 |
0,00 |
0,00 |
0,00 |
0,00 |
|
1 |
|
|
|
|
|
|
|
|
|
1 |
0,25 |
−0,75 |
0,00 |
−0,75 |
|
−1 |
|
2 |
0,48 |
1,48 |
−0,75 |
0,73 |
|
1 |
|
3 |
0,68 |
−0,32 |
0,73 |
0,41 |
|
1 |
|
4 |
0,84 |
−0,16 |
0,41 |
0,25 |
|
1 |
|
15.6. Аналого-цифровое и цифро-аналоговое преобразование звуковых сигналов
Таблица 15.5 (окончание)
5 |
0,95 |
−0,05 |
0,25 |
0,20 |
1 |
6 |
1,00 |
0,00 |
0,20 |
0,20 |
1 |
7 |
0,98 |
−0,02 |
0,20 |
0,18 |
1 |
8 |
0,90 |
−0,10 |
0,18 |
0,08 |
1 |
9 |
0,77 |
−0,23 |
0,08 |
−0,15 |
−1 |
10 |
0,59 |
1,59 |
−0,15 |
1,44 |
1 |
11 |
0,37 |
−0,63 |
1,44 |
0,81 |
1 |
12 |
0,13 |
−0,87 |
0,81 |
−0,06 |
−1 |
13 |
−0,13 |
0,87 |
−0,06 |
0,81 |
1 |
14 |
−0,37 |
−1,37 |
0,81 |
−0,56 |
−1 |
15 |
−0,59 |
0,41 |
−0,56 |
−0,15 |
−1 |
16 |
−0,77 |
0,23 |
−0,15 |
0,08 |
1 |
17 |
−0,90 |
−1,90 |
0,08 |
−1,82 |
−1 |
18 |
−0,98 |
0,02 |
−1,82 |
−1,80 |
−1 |
19 |
−1,00 |
0 |
−1,80 |
−1,80 |
−1 |
20 |
−0,95 |
0,05 |
−1,80 |
−1,75 |
−1 |
21 |
−0,84 |
0,16 |
−1,75 |
−1,59 |
−1 |
22 |
−0,68 |
0,32 |
−1,59 |
−1,27 |
−1 |
23 |
−0,48 |
0,52 |
−1,27 |
−0,75 |
−1 |
24 |
−0,25 |
0,75 |
−0,75 |
0,00 |
1 |
25 |
0,00 |
−1,00 |
0,00 |
−1,00 |
−1 |
26 |
0,25 |
1,25 |
−1,00 |
0,25 |
1 |
27 |
0,48 |
−0,52 |
0,25 |
−0,27 |
−1 |
Рис. 15.21. Процесс СДМ-кодирования синусоидального сигнала |
Глава 15. Основные характеристики звуковой информации
СДМ обычно применяется при весьма высоких частотах дискретизации, и шум квантования распространяется на значительно более широкую полосу частот, чем при применении ИКМ. По этой причине на область слышимых частот в диапазоне до 20 кГц приходится весьма малая часть энергии шума. Следует также заметить, что формат СДМ легко может быть преобразован в формат ИКМ [6.2].
Оцифрованный аудиосигнал в форме одной из вариаций ИКМ является практически точной копией, но не компактной формой записи исходного аналогового сигнала. Поэтому преобразование относительно больших объемов аудиоданных, гарантирующих необходимое качество воспроизведения различных видов звуковой информации, требует применения различных методов кодирования, позволяющих существенно уменьшить избыточность информации для ее хранения или передачи по каналам связи.
Принципы кодирования речевой информации, основным требованием к которой является разборчивость воспроизводимого сигнала, и звуковой информации, гарантирующей достаточно хорошее качество звучания музыкальных и голосовых передач, существенно отличаются друг от друга.
15.7.1.Принципы кодирования речевой информации
Вкачестве международного стандарта для передачи речи принято использование полосы частот от 300 до 3400 Гц, достаточной для воспроизведения передаваемой информации. Решающими в выборе такой полосы были в основном экономические соображения. Правда, в цифровой телефонии существует принципиальная возможность использовать спектр речи за пределами полосы 300–3400 Гц и тем самым повысить качество, но эти методы не реализуются, так как они вычислительно более сложны. На основе этого стандарта построена всемирная сеть телефонной связи. В этом случае для описания формы сигнала его дискретизацию следует проводить с частотой порядка 8 кГц, а для получения нормального качества воспроизведения речи при равномерной шкале квантования необходимо использовать 13/14-разрядный квантователь.
Врезультате для передачи такой информации с помощью последовательности
двоичных импульсов необходимо транслировать цифровой поток 8 · 13(14) = = 104(112) кбитов/с.
Указанное линейное квантование оказывается необходимым потому, что уровни аналоговых речевых сигналов могут изменяться в диапазоне 60 дБ. Но так как восприятие сигналов органами слуха человека пропорционально логарифму уровня сигнала, то сигналы высокого уровня целесообразно квантовать более грубо, а низкого уровня — более точно. Применяя нелинейное квантование с использованием логарифмического закона, можно обойтись восемью разрядами на отсчет, сохранив почти такое же качество передачи.
При этом используются соответствующие этой шкале соотношения A-Law и μ-Law [6.21]. Принятое в Европе соотношение A-Law обеспечивает преобразова-
15.7. Принципы кодирования речевой и звуковой информации
ние 13-разрядной линейной шкалы градаций сигнала (от −212 до +212) в 8-раз- рядную шкалу в соответствии с соотношением:
|
|
A |
|
|
|
m |
, |
|
|
|
|
при |
|
|
m |
|
|
1 |
; |
|
|
1+ln A |
|
|
|
|
|
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|||||||||||
YA(m) = round 27 |
|
sign(m) mf |
|
m |
|
|
|
1mf |
|
m A |
, (15.33) |
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
· |
1+ln A |
|
|
1 + ln A |
|
|
|
, |
при |
< |
|
|
|
1 |
|||||
|
|
|
|
mf |
|
A |
|
mf |
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
где A = 87,6; m и mf = 212 — текущее и максимальное значение шкалы оцифрованного сигнала.
Соотношение μ-Law используется в Северной Америке и в Японии, и для преобразования линейной 14-разрядной шкалы в логарифмическую применяется
формула: |
227 · |
|
|
1 + μ |
|
|
3 |
|
|
Yμ(m) = round |
sign(m) |
|
m |
, |
(15.34) |
||||
ln(1 + μ) ln |
mp |
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
где μ = 255, m и mp = 213 — текущее и максимальное значение шкалы оцифрованного сигнала.
Соотношения μ-Law и A-Law позволяют исходные многоразрядные цифровые сигналы преобразовывать в восьмиразрядные данные, что обеспечивает сжатие информации более чем на 30%. В результате скорость передачи двоичных разрядов окажется равной 64 кбитов/с. По сравнению с более эффективными методами сжатия речевой информации приведенное кодирование максимально нечувствительно к ошибкам в канале при достаточно высоком качестве восстановления. Поэтому данный алгоритм рекомендован для большинства систем цифровой передачи речи в качестве метода предварительного аналого-цифрового преобразования.
Дальнейшим усовершенствованием системы кодирования речи является применение адаптивного дифференциального метода импульсно-кодовой модуляции (АДИКМ). Преобразование и передача лишь разницы между реальным и предсказанным значениями сигнала позволяет уменьшить формируемый цифровой поток до 16–32 кбитов/с и заметно снизить требования к широкополосности канала. Следует иметь в виду, что метод не лишен серьезных недостатков: уровень шумов, связанный с квантованием сигнала, выше, а при резких изменениях уровня сигнала, превышающих диапазон АЦП, возможны серьезные искажения.
После того как аналоговый сигнал преобразован в цифровую форму, к нему можно применять различные способы обработки, которые обеспечивают сжатие речевой информации для достижения определенных целей — нужных скоростей битового потока, качества сигнала, задержки и сложности.
Для обеспечения эффективного кодирования используют разделение речевой информации на сигнальные фрагменты:
–так называемую частоту основного тона (ОТ) — периодическую подпитку энергией голосового тракта человека, который представляет собой объемный резонатор;
–формируемую голосовым трактом спектральную окраску речи, или ее формантную структуру, содержащую усиленные частотные области данного звука, позволяющие отличить его при слуховом восприятии от других звуков;
–переходные процессы при изменениях ОТ и формантных структур;
Глава 15. Основные характеристики звуковой информации
–паузы, средняя продолжительность которых составляет примерно 16% времени воспроизведения речи и порядка 50% времени при диалоге.
При передаче речи в цифровой форме каждый тип сигнала при одной и той же длительности и одинаковом качестве требует различного числа битов для кодирования и передачи. Следовательно, скорость передачи разных типов сигнала также может быть различной, что обуславливает применение кодеков с переменной скоростью. В основе кодека речи с переменной скоростью лежит классификатор входного сигнала, определяющий степень его информативности и, таким образом, задающий метод кодирования и скорость передачи речевых данных. Наиболее простым классификатором речевого сигнала является детектор активной речи (VAD — Voice Activity Detector), который выделяет во входном речевом сигнале активную речь и паузы. При этом фрагменты сигнала, классифицируемые как активная речь, кодируются каким-либо из известных алгоритмов (как правило, на базе метода АДИКМ) с базовой скоростью 4–8 кбитов/с. Фрагменты, классифицированные как паузы, кодируются и передаются с низкой скоростью порядка 0,1–0,2 кбита/с, либо не передаются вообще. Эта стратегия позволяет оптимизировать скорость кодирования до 2–4 кбита/с при достаточном качестве синтезируемой речи. При этом для особо критичных фрагментов речевого сигнала выделяется большая скорость передачи, для менее ответственных — меньшая. Вместе с тем необходимо отметить, что вокодер вносит дополнительную задержку, возникающую за счет использования буфера для накопления сигнала и учета статистики последующих отсчетов (алгоритмическая задержка) и выполнения алгоритмических преобразований речевого сигнала (вычислительная задержка).
В интервалы, когда в речи активного участника беседы наступает период молчания, терминалы слушающих могут просто отключить воспроизведение звука, но при этом в трубке может возникнуть «гробовая тишина», и слушающему кажется, что соединение по каким-то причинам нарушилось. Избежать такого неприятного эффекта позволяет применение генератора комфортного шума (CNG — Comfort Noise Generator), параметры которого могут передаваться во время пауз.
Для того чтобы синтезировать речь на приемном конце системы связи, нужны генератор звуковой частоты с богатым спектром, генератор белого шума, набор формантных фильтров (их число невелико, так как гласных звуков немного, а каждый из них достаточно хорошо определяется двумя формантами) и модулирующие схемы. Располагая таким комплектом аппаратуры на приемном конце, можно передавать по каналу связи не речевой сигнал, а лишь команды, управляющие процессом синтеза речи. Таким образом, практическая задача сводится к тому, чтобы найти способ генерирования нужных команд.
Скорости передачи речевой информации, которую предусматривают используемые сегодня узкополосные кодеки, лежат в пределах 1,2–64 кбитов/с. Естественно, что от этого параметра прямо зависит качество воспроизводимой речи. Существует множество подходов к проблеме определения качества. Для прослушивания экспертам предъявляются разные звуковые фрагменты. Искажения оценивают путем опроса разных групп людей по пятибалльной шкале единицами субъективной оценки MOS (Mean Opinion Score). Оценки интерпретируют следующим образом:
15.7. Принципы кодирования речевой и звуковой информации |
|
Рис. 15.22. Примерные характеристики кодеков речи |
|
–4–5 — высокое качество; аналогично качеству передачи речи в относительно широкополосных каналах связи;
–3,5–4 — достаточное качество; аналогично качеству речи, передаваемой с помощью кодека АДИКМ при скорости 32 кбитов/с; такое качество обычно обеспечивается в большинстве телефонных разговоров;
–3–3,5 — качество речи по-прежнему удовлетворительно, однако его ухудшение явно заметно на слух;
–2,5–3 — речь разборчива, однако требует концентрации внимания для понимания; такое качество обычно обеспечивается в системах связи специального применения (например, в вооруженных силах).
Врамках существующих технологий достаточно высокое качество воспроизведения речи невозможно обеспечить при скоростях менее 4 кбитов/с.
На рис. 15.22 приведены примерные характеристики различных видов кодеков речи, оцениваемые в единицах MOS.
15.7.2. Принципы кодирования звуковой информации
Несколько иные проблемы возникают при кодировании широкополосных звуковых сигналов, реализующих технологии для музыкального творчества.
При первичном кодировании в студийном тракте обычно реализуется равномерное квантование отсчетов аудиосигналов с разрешением от 16 до 24 (и даже 32) битов/отсчет при частотах дискретизации 44,1, 48, 96 (и даже 192) кГц.
Считается, что в кодеках, использующих 16-и битное линейное квантование отсчетов, при частоте дискретизации 48 кГц удается практически «идеально» преобразовывать аудиосигнал, обладающий спектром в полосе частот от 20 Гц до 20 кГц и динамическим диапазоном до 54 дБ. Скорость передачи одного такого сигнала составляет 48·16=768 кбитов/с. При стереоформате или звуковом формате 5.1 (или 3/2 плюс канал сверхнизких частот) цифровой поток может
Глава 15. Основные характеристики звуковой информации
составить соответственно 1,536 или 3,840 Мбит/с. Энтропийное кодирование такой информации позволяет сократить статиститческую избыточность цифрового потока. Однако даже при использовании достаточно сложных алгоритмов обработки информации уменьшение статистической избыточности аудиосигналов позволяет уменьшить цифровой поток лишь на 20–50% по сравнению с его исходным значением.
Тем не менее такой способ преобразования, использующий многоразрядное квантование дискретных отсчетов сигнала с интервалом дискретизации, превышающим интервал Котельникова–Найквиста, при применении энтропийного кодирования цифровой информации считается сжатием аудиосигналов без потерь (Lossless Coding), поскольку этот способ позволяет осуществлять стопроцентное восстановление исходных данных из сжатого потока. В данном случае под понятием «исходные данные» подразумевается исходный вид оцифрованных аудиоданных.
Кодирование аудиоинформации без потерь зачастую используется при ее хранении, но не способно обеспечить высокий уровень компрессии.
Как известно, органы слуха человека способны воспринимать информацию в объеме не более 100 бит/с и, следовательно, можно говорить о значительной избыточности закодированных без потерь звуковых цифровых сигналов. Существенная психоакустическая избыточность цифровых аудиосигналов дает возможность ее уменьшения.
Цель сжатия аудиоинформации с потерями (Lossy Coding) заключается в достижении максимально высокого коэффициента компрессии данных при сохранении качества их звучания на приемлемом уровне. Кодирование с потерями приводит к утрате некоторой части информации, и декодированный сигнал при воспроизведении звучит похоже на оригинальный, но фактически перестает быть ему идентичным.
В основе большинства методов кодирования с потерями лежит использование психоакустических свойств слуховой системы человека. В частности, наиболее перспективными с этой точки зрения являются алгоритмы, учитывающие такие свойства слуха, как различного рода маскировка, выявление различных деталей звучания, которыми можно пренебречь, эффективные алгоритмы переквантования и передискретизации и др.
При кодировании звуковых сигналов наибольшее распространение получили три психоакустические модели, использующие различные алгоритмы обработки ИКМ-аудиоинформации [6.22].
Психоакустическая модель 1
Эта модель содержит девять блоков обработки первичного ИКМ-сигнала. В блоке 1 производится расчет энергетического спектра звукового сигнала и его нормирование в соответствии с соотношениями:
F (k) = 20 · R · lg |
|
|
|
h(n) · X(n) · exp |
−2πjk |
|
|
дБ, |
(15.35) |
N |
n=0 |
N |
|||||||
|
|
1 |
|
|
n |
|
|
|
|
|
|
N −1 |
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
где X(n) — отсчеты сигнала; N — длина выборки БПФ (обычно 1024 или 512); k = 0, 1, . . . , N/2; h(n) = sin2 π Nn — окно Ханна, используемое для уменьшения ис-
