Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
339
Добавлен:
19.03.2016
Размер:
241.66 Кб
Скачать

Психоакустическая модель

Блок психоакустической модели (ПАМ) управляет квантова­нием и кодированием, определяя параметры выполняемых при этом операций так, чтобы обеспечить наименьшую заметность ис­кажений, создаваемых квантованием (шумов квантования). В стан­дартах MPEG-1, MPEG-2 предусмотрены два варианта ПАМ, отли­чающиеся числовыми параметрами.

Одним из факторов, учитываемых в ПАМ, является различ­ная чувствительность слуха на разных частотах. Наибольшая чув­ствительность характерна для частот 2...4 кГц, поэтому для под­диапазонов, попадающих в эту область, необходимо выделять больше битов, чтобы обеспечить более точное квантование. Ближе к обоим концам диапазона слышимых частот чувствительность слуха уменьшается, поэтому для соответствующих частотных под­диапазонов можно выделять меньше битов, т. е. осуществлять бо­лее грубое квантование.

Кроме того, алгоритм работы ПАМ учитывает явление мас­кирования (или маскировки) одних звуков другими. Громкие звуки маскируют имеющиеся одновременно с ними более тихие звуки в других частотных поддиапазонах, причем чем дальше по частоте отстоит маскируемый тихий звук от маскирующего громкого звука, тем слабее сказывается эффект маскирования. Например, если мас­кирующий звук имеет частоту 1000 Гц, а маскируемый звук -1100 Гц, то последний не будет слышен, если разница в уровнях громкости составляет не менее 18 дБ. Если же маскируемый звук имеет частоту 2000 Гц, то для полной маскировки необходима раз­ница уровней громкости не менее 45 дБ. Помимо этого, громкий звук маскирует звуки, следующие за ним в интервале времени до 100 мс, и даже звуки, опережающие его на 4...5 мс.

Чтобы выполнить распределение битов в блоке ПАМ анали­зируется спектр исходного звукового сигнала (не разложенного на поддиапазоны). Для этого производится быстрое преобразование Фурье участков этого сигнала по 512 (Layer I) или по 1024 (Layer II и Layer III) отсчетов, после чего вычисляются спектр мощности звукового сигнала и величины звукового давления в каждом час­тотном поддиапазоне.

Затем анализируются тональные (синусоидальные) и нето­нальные составляющие звукового сигнала, определяются локаль­ные и глобальный пороги маскировки и вычисляются отношения сигнал/маскирующий сигнал для всех поддиапазонов, на основании которых производится распределение битов по поддиапазонам (Layer I и Layer II) или выбор параметров обработки коэффициен­тов МДКП (Layer III).

В тех поддиапазонах, в которых искажения звука, вызывае-мые-квантованием, менее заметны для слушателя или маскируются большим уровнем сигнала в других поддиапазонах, квантование делается более грубым, т. е. для этих поддиапазонов выделяется меньше битов. Для полностью маскируемых поддиапазонов битов совсем не выделяется. Благодаря этому удается существенно уменьшить количество передаваемой информации при сохранении достаточно высокого качества звука.

Как уже отмечалось, ширина поддиапазонов одинакова. На­пример, если частота дискретизации равна 44,1 кГц, то каждый поддиапазон имеет ширину 690 Гц. В то же время ширина диапа­зона частот, в котором маскирование сказывается одинаково (кри­тического диапазона - critical band) зависит от положения этого диапазона на оси частот. На частотах порядка 100 Гц ширина кри­тического диапазона около 50 Гц, а на частотах порядка 10 кГц -почти 1,5 кГц. Поэтому разделение сигнала на одинаковые частот­ные поддиапазоны неоптимально с точки зрения получения наи­лучшего качества звука, хотя и наиболее удобно для реализации.

На уровне Layer III сигнал каждого поддиапазона проходит МДКП, каждый коэффициент которого представляет частотную составляющую. Всего таких составляющих 18 в каждом поддиапа­зоне. Шаг по оси частот, таким образом, уменьшается в 18 раз, т. е. до примерно 38 Гц при частоте дискретизации 44,1 кГц. Это мень­ше ширины самого узкого критического диапазона. В пределах од­ного частотного поддиапазона блоки коэффициентов МДКП (scalefactor bands) могут квантоваться по-разному, что позволяет более точно учесть маскирование на разных частотах. Это позволя­ет говорить об увеличении разрешения по частоте в 18 раз, дости­гаемом на Layer III.

СТРУКТУРА ПОТОКА ДАННЫХ ЗВУКОВЫХ СИГНАЛОВ

Формирование потока данных осуществляется в блоке ФПД (рис. 4.8). Самой крупной структурной единицей потока данных явля­ется звуковая последовательность (Audio Sequence), которая состоит из произвольного числа кадров и не имеет собственного заголовка.

Кадр начинается с заголовка, структура которого одинакова для MPEG-1 и MPEG-2. Заголовок содержит синхрослово, данные об уровне кодирования, о частоте дискретизации кодируемых зву­ковых сигналов, о скорости передачи двоичных символов в потоке данных, о режиме кодирования (стерео, два независимых сигнала и т.д.) и другую информацию.

Далее в кадре следует область звуковых данных, в которой сначала следуют данные для контроля ошибок, затем данные о распределении бит, о масштабных множителях и, наконец, коди­рованные данные о сигналах по частотным поддиапазонам.

При использовании MPEG-2 далее может следовать расши­рение, содержащее данные дополнительных звуковых каналов.

ДЕКОДИРОВАНИЕ ЗВУКОВОЙ ИНФОРМАЦИИ

Структурная схема декодера приведена на рис. 4.9. Входные данные поступают на блок распаковки потока данных (РпПД), в кото­ром по синхрословам выделяются отдельные кадры, поступающие затем на блок декодирования и деквантования (КодГ1 и Кв."1).

Данные, содержащиеся в кадре, декодируются в соответст­вии с порядком их следования и таблицами кодов, которые содер­жатся в программе работы декодера. Декодированные данные о распределении битов и о масштабных множителях используются для декодирования и деквантования звуковых данных. После де­квантования на уровнях Layer I и Layer II отсчеты сигналов под­диапазонов умножаются на соответствующие масштабные множи­тели. На уровне Layer III выполняется обратное МДКП.

После декодирования и деквантования отсчеты сигналов всех поддиапазонов объединяются в выходной цифровой звуковой сиг­нал, или несколько сигналов, если звук многоканальный.

Аппаратные и программные реализации декодера значитель­но проще, чем реализации кодера, так как в декодере не требуется психоакустическая модель. Так декодирование стереофонического

звука, сжатого с применением уровня Layer III, производится в ре­альном времени программными средствами на обычном ПК, в то время как для выполнения соответствующего кодирования необхо­димо сначала записать звуковой сигнал в несжатом виде в файл, а затем осуществить сжатие, что занимает существенно большее время, чем воспроизведение.

КОДИРОВАНИЕ МНОГОКАНАЛЬНОГО ЗВУКОВОГО СОПРОВОЖДЕНИЯ

Стандарт MPEG-1 допускает четыре режима кодирования:

  • обычный (независимый) стереофонический режим (stereo), в котором сигналы двух каналов кодируются независимо друг от друга;

  • соединенный стереофонический режим (joint_stereo), B ко­тором для увеличения степени сжатия кодируются, например, не сами сигналы левого и правого каналов, а их сумма и разность;

два совершенно независимых звуковых сигнала (dual_channel);

- один звуковой сигнал (single_channel).

Особенности этих режимов здесь не рассматриваются.

Стандарт MPEG-2 дает возможность кодировать до пяти ка­налов звука: L - левый, R - правый, С - центральный, LS - левый тыловой и RS - правый тыловой. При этом возможны варианты, отличающиеся числом кодируемых каналов и расположением ис­точников звука в пространстве, например, два передних канала и два тыловых, три передних и один тыловой и т.д. Возможно также расширение для кодирование отдельного канала НЧ эффектов.

Возможны два варианта совместимости с MPEG-1. Как ука­зывалось выше, каждый кадр в потоке данных MPEG-2 состоит из основной части, которая может декодироваться декодерами MPEG-1, и расширений, которые декодерами MPEG-1 не воспринимаются. Обозначим 1<) и R0 сигналы, данные которых помещаются в основ­ные части кадров в потоке данных.

В соответствии с первым вариантом перед кодированием вы­полняются операции, называемые матрицированием

( 4.2)

где х, у, z - постоянные коэффициенты. При декодировании деко­дером MPEG-2 выполняются обратные операции (дематрицирова-ние). Такой вариант называется "совместимым назад" (backwards

compatibility). При использовании декодеров MPEG-1 этот вариант обеспечит в воспроизводимых сигналах левого и правого каналов наличие информации о центральном и тыловых каналах, т. е. зву­ковоспроизведение будет более полным. Однако операции матри­цирования и дематрицирования вносят дополнительные шумы.

В соответствии со вторым вариантом матрицирование и, ес­тественно, дематрицирование не выполняются. При этом Lo = L, Ro = R. Такой вариант называется "несовместимым назад" (nonbackward compatible - NBC), и обеспечивает несколько лучшее качество звука при использовании декодеров MPEG-2.

Для увеличения степени сжатия многоканального звука в MPEG-2 предусмотрено использование адаптивного кодирования с предсказанием сигналов каналов, данные о которых помещаются в расширения кадров, а также некоторые другие средства умень­шения межканальной избыточности звуковой информации.

ДОСТИЖИМОЕ СЖАТИЕ И КАЧЕСТВО ЗВУКА

Для MPEG-1 и для MPEG-2 в случае отсутствия расширений потоки сжатых звуковых данных имеют следующие диапазоны значений скорости передачи двоичных символов:

  • Layer I - 32...448 кбит/с (обычно 192 кбит/с на канал);

  • Layer II - 32...384 кбит/с (обычно 128 кбит/с на канал);

  • Layer III - 32...320 кбит/с (обычно 64 кбит/с на канал).

В случае кодирования по стандарту MPEG-2 звуковых сигна­лов с частотами дискретизации 16, 22,05 и 24 кГц минимальные и максимальные значения скорости передачи двоичных символов уменьшаются в два и более раз, причем самая минимальная ско­рость передачи равна 8 кбит/с. Если же кодируется многоканаль­ный звук, и выходной поток данных содержит соответствующие расширения, то максимальные значения скорости передачи двоич­ных символов в MPEG-2 увеличиваются до примерно 1000 кбит/с.

Кодер вносит задержку в распространение данных, так как во-первых при выполнении операций кодирования требуется иметь в ЗУ кодера определенное число последних отсчетов звукового сигнала, а во-вторых выполнение требуемых вычислительных опе­раций над этими отсчетами занимает некоторое время. Минималь­ные длительности задержек для Layer I-50 мс, для Layer II -100 мс, для Layer III - 150 мс, однако задержки в реальных кодерах могут быть значительно больше.При одной и той же скорости передачи двоичных символов в выходном потоке данных кодирование более высокого уровня обеспечивает более высокое качество воспроизводимого звука. Это обусловлено тем, что более точно учитываются свойства сжимае­мого сигнала, более гибко изменяются параметры квантования, а на уровне Layer III значительно повышается разрешающая спо­собность по частоте. Значения, указанные в скобках как обычные, соответствуют качеству звука, сопоставимому с качеством звуча­ния обычных (записанных без сжатия) компакт-дисков.

Уровень кодирования Layer III обеспечивает сжатие до 64 кбит/с на канал, т. е. примерно в 11-12 раз. Этот уровень ис­пользуется при записи получивших широкое распространение ком­пьютерных музыкальных дисков, обеспечивающих при воспроиз­ведении с помощью ПК 10... 11 часов высококачественного звука. Записанные файлы со сжатой звуковой информацией обычно име­ют расширение "трЗ", а на дисках или их упаковках часто написа­но "MPEG-3", что, как следует из изложенного, неправильно.

Системный уровень MPEG-2

Перейдем к рассмотрению системной части стандарта MPEG-2, которая описывает форматы мультиплексированных по­токов данных, объединяющих сжатые видеоданные и данные зву­кового сопровождения от одного или нескольких источников, а также включающих другие виды информации [5, 8].

Стандартом предусмотрено два вида таких мультиплексиро­ванных потоков: транспортный поток (Transport Stream - TS) и программный поток (Program Stream).

На рис. 4.10. показана структурная схема процесса формиро­вания транспортного потока. Видеосигналы, т. е. яркостный и цве-торазностные сигналы данной телевизионной программы, а также сигналы одного или нескольких каналов звукового сопровождения данной программы преобразуются в цифровую форму в АЦП и ко­дируются в соответствующих кодерах, как это было описано выше. Потоки данных на выходах кодеров называются элементарными потоками (ES - Elementary Stream).

В блоках, называемых пакетизаторами, данные разделяются на пакеты - блоки данных, начинающиеся с заголовков опреде­ленной структуры. Получающиеся потоки называются пакетизиро­ванными элементарными потоками (PES). В каждом пакете в PES объединены данные, относящиеся к структурной единице входного сигнала, например к телевизионному кадру или к кадру сжатого звукового сигнала. Размеры пакетов PES могут быть разными.

Пакетизированные элементарные потоки нескольких телеви­зионных программ, а также передаваемых дополнительных данных и сигналов управления объединяются в единый транспортный по­ток (TS - Transport Stream). При этом данные перераспределяются в пакеты TS, имеющие фиксированную длину 188 байт и определенную структуру заголовка (стартовой синхрогруппы пакета), занимающего 4 байта. Следует отметить, что транспортный поток может содержать и всего один элементарный поток, но фиксированная длина пакетов TS сохраняется. Далее транспортный поток проходит кодер канала (на рис. 4.10 не показан), в котором выполняется помехоустойчивое ко­дирование, и передается по каналу связи.

Каждый пакет TS начинается с идентификатора пакета (PID), который определяет его тип и принадлежность находящихся в нем данных к одному из передаваемых элементарных потоков. Каждый пакет может содержать данные только одного элементар­ного потока. Пакеты с данными разных элементарных потоков пе­редаются в транспортном потоке в произвольном порядке.

Специальные пакеты типов PAT (Program Association Table) и PMT (Program Map Table) несут информацию о том, какие значения идентификаторов соответствуют тому или иному элементарному потоку. В особых пакетах в среднем 10 раз в секунду передаются метки времени (PCR - Program Clock Reference), содержащие зна­чения моментов времени по часам в передающей части системы. По этим меткам в декодирующей аппаратуре восстанавливаются тактовые частоты каждого отдельного элементарного потока, кото­рые между собой, вообще говоря, не синхронизированы, хотя и имеют стандартное значение 27 МГц ± 1350 Гц.

Структурная схема приема и декодирования транспортного потока приведена на рис. 4.11. На вход поступает поток данных из канала связи, который преобразуется декодером канала в транс­портный поток TS. В блоке декодирования и демультиплексирова­ния (Декодер и ДМп TS) из транспортного потока извлекаются па­кеты PAT и РМТ, из которых получают идентификаторы пакетов, содержащих данные требуемых элементарных потоков. Далее па­кеты с такими идентификаторами извлекаются из транспортного потока, распаковываются, и из содержащихся в них данных фор­мируются элементарные потоки видео и звуковой информации, поступающие на соответствующие декодеры.

В блоке синхронизации (Синхр.) имеются генераторы такто­вых импульсов для видео и звукового декодеров. Подстройка час­тот этих генераторов производится по меткам времени PCR так, чтобы число тактовых импульсов, сформированных в декодере ме­жду двумя метками, соответствовало интервалу между моментами, зафиксированными в этих метках. Благодаря этому обеспечивают­ся правильные длительности интервалов времени в декодируемой телевизионной программе. Если одновременно должны декодиро-ваться несколько элементарных потоков с разными временными базами (несколько независимых телевизионных программ), то эти потоки приводятся к одной временной базе.

Программный поток MPEG-2 аналогичен системному уров­ню стандарта MPEG-1 и содержит элементарные потоки одной те­левизионной программы или нескольких программ, имеющих об­щую временную базу, т. е. взаимно синхронизированных. Длины пакетов программного потока могут быть различными. Структур­ные схемы формирования и приема программного потока похожи на приведенные выше схемы для транспортного потока. Про­граммный поток может быть преобразован в транспортный поток. Возможно и обратное преобразование.

Транспортный поток рекомендуется использовать при пере­даче по каналам связи с помехами, а программный поток - при от­сутствии помех.

Следует также отметить, что синтаксис транспортного и про­граммного потоков позволяет обеспечивать условный (ограниченный, по паролю) доступ к передаваемой информации, хотя непосредственно в стандарте MPEG-2 средства решения этой задачи не определены.

Сжатые по стандартам MPEG-1, MPEG-2 видео- и аудиодан­ные могут также записываться в файлы. Видеопрограммы, сжатые по MPEG-1, записываются на компьютерные видеодиски, а сжатые по MPEG-2 - на диски DVD.

Соседние файлы в папке Лекции ОТВ