Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
3_MZKT_kon_101003_ru_Mescheryakov.doc
Скачиваний:
0
Добавлен:
01.04.2025
Размер:
533.5 Кб
Скачать

4.8.3 Сжатие аудиосигналов в соответствии со стандартами iso/mpeg '

Экспертная группа MPEG совместно с международной организацией стандартов ISO разработала серию стандартов для сжатия звука и изображений, обозначаемых MPEG-1, MPEG-2, MPEG-4,

Стандарт MPEG-1 поддерживает передачу цифрового видео со скоростью 1,2 Мбит/с (с качеством аналогового видеомагнитофона) и цифрового звука со скоростями 32-192 Кбит/с (моно режим) и 64-384 Кбит/с (стерео режим с качеством компакт-диска).

Стандарт MPEG-2 (IS 13818) в своей видео части поддерживает передачу высококачественного видео (включая телевидение высокой четкости) со скоростью от 3 до 15 Мбит/с, а в звуковой части - низкоскоростное кодирование многоканального звука со скоростью 64 Кбит/с и ниже. MPEG-2 поддерживает от 2-х до 5-ти широкополосных звуковых каналов.

Стандарт MPEG-4 предназначен для применения в области мультимедиа систем. MPEG-4 предусматривает широкий набор средств, позволяющих выполнять передачу звуковых и речевых сигналов с низкими скоростями от 2 до 64 Кбит/с. В звуковую часть стандарта включены следующие возможности: параметрическое низкоскоростное кодирование речи (2-10 Кбит/с); среднескоростное кодирование речи на основе схем анализ-синтез (6-16 Кбит/с); кодирование аудио и речевых сигналов с использованием гибридных банков фильтров и ортогональных преобразований (ниже 64 Кбит/с). Стандарт MPEG-4 обеспечивает высокую степень сжатия и охватывает широкий диапазон звуковых сигналов от HF стерео звука до кодирования речи, включая синтез речи. На основе этого стандарта обеспечивается сопряжение звуковых каналов различного качества. Стандарт предусматри­вает дополнительные функции, такие как временное масштабирование, управление частотой основного тона, доступ к базам данных.

Стандартом MPEG-1 предусматривается сжатие аудиосигналов с помощью систем трех уровней сложности. Системы сжатия верхних уровней сложности включают возможности систем нижних уровней. Структурная схема системы сжатия аудиосигналов, соответствующая первому и второму уровню сложности, показана на рис. 4.19. Система может функционировать с частотами дискретизации 48 кГц, 44,1 кГц, 32 кГц.

Входной аудиосигнал с помощью банка анализирующих фильтров разделяется на 32 полосовых сигнала. Фильтры обладают полифазной структурой [3] и их импульсная характеристика задается 512 коэффициентами. При частоте дискретизации 48 кГц полоса пропускания каждого фильтра равна 24000/32=750 Гц. Спектральный анализ, выполняемый с помощью такого набора фильтров, характеризуется недостаточным частотным разрешением а. области нижних частот, гак как полоса пропускания одного фильтра перекрывает несколько критических частотных полос (табл.4.1). Выходные сигналы фильтров децимируклся с коэффициентом 32, т.е. частота дискретизации понижается до критического значения, равного 1500 Гц. Импульсная характеристика h^[n] фильтра, пропускающего сигналы k -ой частотной полосы, получается путем умножения импульсной характеристики h[n] ФНЧ, выступающего в качестве фильтра-прототипа, на модулирующую функцию, которая обеспечивает требуемое смещение полосы пропускания ФНЧ:

где М=32; ^=1,2,...,32; n=l,2,...,512.

АЧХ низкочастотного фильтра прототипа характеризуется ослаблением 3 дБ в полосе пропускания и 96 дБ в полосе подавления. Переходные полосы фильтров существенно перекрываются. В результате этого возможно появление шумов наложения [33], которые исключаются соответствую­щим выбором фазового сдвига <p[k].

Выходные сигналы фильтров разбиваются на блоки по 12 отсчетов (уровень I) и 36 отсчетов (уровень II) в каждой полосе. Над каждым блоком выполняются операции нормализации и квантования. Нормализация выполняется таким образом, чтобы максимальный отсчет в каждом блоке имел единичное значение. В пределах блока сохраняется одно и то же распределение уровней квантования по частотным полосам.

Для целей психоакустического анализа и определения суммарного порога маскирования используется БПФ на 512 точек (уровень I) и на 1024 точки (уровень II). В каждом из указанных случаев входной сигнал взвешивается с помощью окна Ханна. В блоке психоакустического анализа для каждой маскирующей составляющей вычисляется индивидуальный порог маскирования. Суммарный порог маскирования получается путем сложения индивидуальных порогов и абсолютного порога слышимости. Отношение сигнал-маска определяется как разность между уровнем маскирующей составляющей в полосе и минимальным значением суммарного порога маскирования в этой же полосе.

Число уровней квантования для каждой полосы определяется в блоке динамического распределения разрядности, в котором используется итерационный алгоритм минимизирующий отношение шум-маска в каждой частотной полосе. Это обеспечивает получение минимально допустимой разрядности представления полосовых сигналов.

В кодере, относящемся к уровню I, квантованию подвергается блок из 12 отсчетов в каждой частотной полосе. При частоте дискретизации 48 кГц это соответствует 8мс аудиосигнала (384 отсчета). В кодере, относящемся к уровню II, квантованию подвергаются одновременно три блока по 12 отсчетов (т.е. 36 отсчетов), что соответствует 24 мс звукового сигнала. При этом для всех трех блоков используется одно и тоже распределение разрядности квантования по частотным полосам. Однако коэффициенты нормализации для каждого из блоков вычисляются индивидуально. В зависимости от изменчивости коэффициентов нормализации в канал могут передаваться 1,2 или 3 значения коэффициентов нормализации. Квантованные значения указанных блоков совместно с информацией о распределении разрядов по полосам передаются в цифровой канал. Когда уровни спектральных составляющих в частотной полосе оказываются меньше суммарного порога маскирования в данной полосе, отсчеты соответствующего полосового сигнала не передаются, т.е. для квантования сигнала данной полосы выделяется 0 бит.

В декодере выполняется восстановление выходных сигналов полосно-пропускающих фильтров и синтез исходного аудиосигнала. Для этого сначала выполняется приведение квантованных значений отсчетов в каждой полосе к исходной разрядности и их масштабирование. Выполняется это на основе имеющейся информации о распределении разрядности квантования по частотным полосам. Если в какой -либо частотной полосе разряды квантования не распределялись, то соответствующие отсчеты считаются нулевыми. Когда кодер и декодер реализуются в виде одного устройства, банк фильтров может быть общим для кодера и декодера.

В кодере и декодере звуковых сигналов, относящемся к уровню III, с целью повышения разрешающей способности по частоте и более полного учета особенностей слухового восприятия человека применяется гибридный банк фильтров. В этом случае предусматривается выполнение МДКП и адаптивное переключение длины анализируемых сегментов аудиосигнала для подавления предварительного эхо.

Высокое частотное разрешение достигается выполнением дополнительного спектрального анализа выходных сигналов полосовых фильтров. Такой анализ выполняется с помощью 6-ти или 18-ти точечного МДКП. Так как МДКП использует 50%-ое перекрытие анализируемых сегментов, то максимальное число спектральных компонент по всем полосам равно 32х18=576. Следовательно, разрешающая способность спектрального ана­лиза будет равна 24000/576=41,67 Гц. Короткое МДКП (6 точек) применяется в случае необходимости подавления предварительного эхо.

Результаты МДКП подвергаются неравномерному квантованию и кодированию Хаффмана. Чтобы шумы квантования были ниже суммарного порога маскирования, распределение разрядности по полосам выполняется на основе итерационной схемы анализ-синтез.

Рассмотренная схема сжатия звуковых сигналов позволяет снизить скорость передачи аудиосигнала до 14 Кбит/с.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]