
- •Глава 4 обработка речевых и аудиосиналов
- •4.1 Основные свойства речевых сигналов
- •4.2 Дискретизация и квантование речевых сигналов
- •4.3. Анализ речевых сигналов во временной области
- •4.4 Анализ речевых сигналов в частотной области
- •4.5 Гомоморфная обработка речи
- •4.6 Анализ речи на основе линейного предсказания
- •4.7 Сжатие речевых сигналов
- •4.8 Сжатие аудиосигналов
- •4.8.1 Психоакустическая модель восприятия звука
- •4.8.2 Перцептивное кодирование аудиосигналов
- •4.8.3 Сжатие аудиосигналов в соответствии со стандартами iso/mpeg '
4.8.3 Сжатие аудиосигналов в соответствии со стандартами iso/mpeg '
Экспертная группа MPEG совместно с международной организацией стандартов ISO разработала серию стандартов для сжатия звука и изображений, обозначаемых MPEG-1, MPEG-2, MPEG-4,
Стандарт MPEG-1 поддерживает передачу цифрового видео со скоростью 1,2 Мбит/с (с качеством аналогового видеомагнитофона) и цифрового звука со скоростями 32-192 Кбит/с (моно режим) и 64-384 Кбит/с (стерео режим с качеством компакт-диска).
Стандарт MPEG-2 (IS 13818) в своей видео части поддерживает передачу высококачественного видео (включая телевидение высокой четкости) со скоростью от 3 до 15 Мбит/с, а в звуковой части - низкоскоростное кодирование многоканального звука со скоростью 64 Кбит/с и ниже. MPEG-2 поддерживает от 2-х до 5-ти широкополосных звуковых каналов.
Стандарт MPEG-4 предназначен для применения в области мультимедиа систем. MPEG-4 предусматривает широкий набор средств, позволяющих выполнять передачу звуковых и речевых сигналов с низкими скоростями от 2 до 64 Кбит/с. В звуковую часть стандарта включены следующие возможности: параметрическое низкоскоростное кодирование речи (2-10 Кбит/с); среднескоростное кодирование речи на основе схем анализ-синтез (6-16 Кбит/с); кодирование аудио и речевых сигналов с использованием гибридных банков фильтров и ортогональных преобразований (ниже 64 Кбит/с). Стандарт MPEG-4 обеспечивает высокую степень сжатия и охватывает широкий диапазон звуковых сигналов от HF стерео звука до кодирования речи, включая синтез речи. На основе этого стандарта обеспечивается сопряжение звуковых каналов различного качества. Стандарт предусматривает дополнительные функции, такие как временное масштабирование, управление частотой основного тона, доступ к базам данных.
Стандартом MPEG-1 предусматривается сжатие аудиосигналов с помощью систем трех уровней сложности. Системы сжатия верхних уровней сложности включают возможности систем нижних уровней. Структурная схема системы сжатия аудиосигналов, соответствующая первому и второму уровню сложности, показана на рис. 4.19. Система может функционировать с частотами дискретизации 48 кГц, 44,1 кГц, 32 кГц.
Входной аудиосигнал с помощью банка анализирующих фильтров разделяется на 32 полосовых сигнала. Фильтры обладают полифазной структурой [3] и их импульсная характеристика задается 512 коэффициентами. При частоте дискретизации 48 кГц полоса пропускания каждого фильтра равна 24000/32=750 Гц. Спектральный анализ, выполняемый с помощью такого набора фильтров, характеризуется недостаточным частотным разрешением а. области нижних частот, гак как полоса пропускания одного фильтра перекрывает несколько критических частотных полос (табл.4.1). Выходные сигналы фильтров децимируклся с коэффициентом 32, т.е. частота дискретизации понижается до критического значения, равного 1500 Гц. Импульсная характеристика h^[n] фильтра, пропускающего сигналы k -ой частотной полосы, получается путем умножения импульсной характеристики h[n] ФНЧ, выступающего в качестве фильтра-прототипа, на модулирующую функцию, которая обеспечивает требуемое смещение полосы пропускания ФНЧ:
где М=32; ^=1,2,...,32; n=l,2,...,512.
АЧХ низкочастотного фильтра прототипа характеризуется ослаблением 3 дБ в полосе пропускания и 96 дБ в полосе подавления. Переходные полосы фильтров существенно перекрываются. В результате этого возможно появление шумов наложения [33], которые исключаются соответствующим выбором фазового сдвига <p[k].
Выходные сигналы фильтров разбиваются на блоки по 12 отсчетов (уровень I) и 36 отсчетов (уровень II) в каждой полосе. Над каждым блоком выполняются операции нормализации и квантования. Нормализация выполняется таким образом, чтобы максимальный отсчет в каждом блоке имел единичное значение. В пределах блока сохраняется одно и то же распределение уровней квантования по частотным полосам.
Для целей психоакустического анализа и определения суммарного порога маскирования используется БПФ на 512 точек (уровень I) и на 1024 точки (уровень II). В каждом из указанных случаев входной сигнал взвешивается с помощью окна Ханна. В блоке психоакустического анализа для каждой маскирующей составляющей вычисляется индивидуальный порог маскирования. Суммарный порог маскирования получается путем сложения индивидуальных порогов и абсолютного порога слышимости. Отношение сигнал-маска определяется как разность между уровнем маскирующей составляющей в полосе и минимальным значением суммарного порога маскирования в этой же полосе.
Число уровней квантования для каждой полосы определяется в блоке динамического распределения разрядности, в котором используется итерационный алгоритм минимизирующий отношение шум-маска в каждой частотной полосе. Это обеспечивает получение минимально допустимой разрядности представления полосовых сигналов.
В кодере, относящемся к уровню I, квантованию подвергается блок из 12 отсчетов в каждой частотной полосе. При частоте дискретизации 48 кГц это соответствует 8мс аудиосигнала (384 отсчета). В кодере, относящемся к уровню II, квантованию подвергаются одновременно три блока по 12 отсчетов (т.е. 36 отсчетов), что соответствует 24 мс звукового сигнала. При этом для всех трех блоков используется одно и тоже распределение разрядности квантования по частотным полосам. Однако коэффициенты нормализации для каждого из блоков вычисляются индивидуально. В зависимости от изменчивости коэффициентов нормализации в канал могут передаваться 1,2 или 3 значения коэффициентов нормализации. Квантованные значения указанных блоков совместно с информацией о распределении разрядов по полосам передаются в цифровой канал. Когда уровни спектральных составляющих в частотной полосе оказываются меньше суммарного порога маскирования в данной полосе, отсчеты соответствующего полосового сигнала не передаются, т.е. для квантования сигнала данной полосы выделяется 0 бит.
В декодере выполняется восстановление выходных сигналов полосно-пропускающих фильтров и синтез исходного аудиосигнала. Для этого сначала выполняется приведение квантованных значений отсчетов в каждой полосе к исходной разрядности и их масштабирование. Выполняется это на основе имеющейся информации о распределении разрядности квантования по частотным полосам. Если в какой -либо частотной полосе разряды квантования не распределялись, то соответствующие отсчеты считаются нулевыми. Когда кодер и декодер реализуются в виде одного устройства, банк фильтров может быть общим для кодера и декодера.
В кодере и декодере звуковых сигналов, относящемся к уровню III, с целью повышения разрешающей способности по частоте и более полного учета особенностей слухового восприятия человека применяется гибридный банк фильтров. В этом случае предусматривается выполнение МДКП и адаптивное переключение длины анализируемых сегментов аудиосигнала для подавления предварительного эхо.
Высокое частотное разрешение достигается выполнением дополнительного спектрального анализа выходных сигналов полосовых фильтров. Такой анализ выполняется с помощью 6-ти или 18-ти точечного МДКП. Так как МДКП использует 50%-ое перекрытие анализируемых сегментов, то максимальное число спектральных компонент по всем полосам равно 32х18=576. Следовательно, разрешающая способность спектрального анализа будет равна 24000/576=41,67 Гц. Короткое МДКП (6 точек) применяется в случае необходимости подавления предварительного эхо.
Результаты МДКП подвергаются неравномерному квантованию и кодированию Хаффмана. Чтобы шумы квантования были ниже суммарного порога маскирования, распределение разрядности по полосам выполняется на основе итерационной схемы анализ-синтез.
Рассмотренная схема сжатия звуковых сигналов позволяет снизить скорость передачи аудиосигнала до 14 Кбит/с.