
- •1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 I bbpbbpbbpbbpbbi вврв
- •Макроблоки
- •Поток видеоданных mpeg-2
- •Декодер видеоинформации
- •Масштабируемость
- •Уровни и профили mpeg-2
- •Отличия mpeg-1 и mpeg-2
- •Психоакустическая модель
- •Стандарт кодирования видео- и звуковой информации mpeg-4
- •Объекты и сцены
- •Кодирование видеообъектов
Отличия mpeg-1 и mpeg-2
Стандарт MPEG-2 является развитием и расширением стандарта MPEG-1. Поток видеоданных MPEG-2 содержит составляющие, которых нет в MPEG-1. По-видимому, наиболее важным отличием двух стандартов является наличие в MPEG-2 масштабируемости и всех связанных с ней особенностей.
В стандарте MPEG-1 нет принципиальных ограничений на размеры кодируемых изображений и на использование чересстрочной развертки по сравнению с MPEG-2. Тем не менее, MPEG-1 предназначен для сжатия движущихся изображений с прогрессивной разверткой, частотой кадров до 30 Гц, числом строк до 576 и числом элементов в строке до 720 в поток данных со скоростью передачи двоичных символов до 1856000 бит/с.
На практике же MPEG-1 обычно используется для сжатия движущихся изображений размером 360x240 элементов с прогрессивной разверткой (формат SIF). Такое сжатие позволяет записывать видеопрограммы с некоторой потерей четкости на компакт-диски и воспроизводить их на ПК, выполняя декодирование в реальном времени чисто программными средствами.
Группа MPEG начинала работу над стандартом MPEG-3, определяющим методы сжатия для телевидения высокой четкости (ТВЧ). Однако в процессе работ над стандартом MPEG-2 в него были включены уровни, соответствующие ТВЧ (см. табл.4.4), поэтому необходимость в стандарте MPEG-3 отпала (о неправильном использовании этого термина см. в конце раздела 4.2.2).
ИСКАЖЕНИЯ ИЗОБРАЖЕНИЙ ПРИ СЖАТИИ ПО СТАНДАРТАМ MPEG. ДОСТИЖИМЫЕ СТЕПЕНИ СЖАТИЯ
Далее приведен перечень характерных искажений изображений, возникающих в результате кодирования по стандартам MPEG-1 или MPEG-2 при достаточно больших степенях сжатия [17]. Автор рекомендует читателям самим посмотреть искажения при внутри-кадровом кодировании. Это можно сделать, например, с помощью популярной программы Adobe Photoshop, но диапазон сжатия с ее помощью невелик Хорошо заметные искажения при сжатии в 20-50 раз можно получить с помощью "древней" программы Alchemy.
Искажения, создаваемые внутрикадровым кодированием (см. последнюю страницу обложки).
1. Заметность границ блоков (блокинг-эффект).
Так как соседние блоки кодируются и декодируются независимо друг от друга, то при больших степенях сжатия после квантования и деквантования в них могут получаться заметно различающиеся коэффициенты ДКП, соответствующие постоянным и низкочастотным составляющим. В результате изображения в соседних блоках могут сильно отличаться друг от друга по яркости, цвету, характеру деталей и текстуры.
2. Размытие изображения.
Наблюдается при большом коэффициенте сжатия изображения. Обусловлено ограничением либо полным обнулением коэффициентов ДКП, соответствующих высоким пространственным частотам, в результате чего мелкие детали изображения становятся размытыми или полностью пропадают.
3. Появление окантовок на резких переходах яркости изо бражения.
Этот эффект обусловлен значительными искажениями либо полным подавлением высокочастотных составляющих пространственного спектра.
4. Размытие цветов.
Имеет ту же причину, что и эффект окантовки на границах, но проявляется на участках изображения с резкими скачками в сигнале яркости.
5. Эффект ступенек.
Возникает как результат неправильного восстановления или передачи краев изображений внутри блока. Эффект проявляется,
как правило, при восстановлении изображения в увеличенном масштабе.
Искажения, создаваемые межкадровым кодированием
1. Ложные границы.
Наблюдаются при компенсации движения. Этот эффект является прямым следствием межкадрового кодирования видеосигнала.
2. Эффект "комаров".
Проявляется как флуктуации яркости или цветности в блоке на границе между движущимся объектом и фоном. Эффект возникает вследствие различной степени квантования ошибок предсказания от кадра к кадру.
3. Зернистый шум в стационарной области.
Проявляется как медленно движущиеся мерцающие шумы низкой интенсивности в областях, в которых имеется лишь малое движение либо движение отсутствует полностью.
4. Появление неправильных цветов в макроблоке по отноше нию к его исходным цветам и к цветам окружающей области.
5. Появление следов за движущимися объектами, которые могут сохраняться сравнительно долго.
Какие же степени сжатия реально достижимы при использовании MPEG-2? За исходную скорость передачи двоичных символов возьмем 216 Мбит/с, что соответствует Рекомендации 601 при формате дискретизации 4:2:2. При переходе к формату 4:2:0, который используется для телевизионного вещания "Main Profile / Main Level", скорость передачи двоичных символов сокращается до величины 162 Мбит/с, относительно которой и будем определять степень сжатия.
В технических журналах отмечалось, что на практике для получения студийного качества принятого изображения можно сжимать видеоинформацию до скорости передачи 9 Мбит/с, т. е. в 18 раз. Для получения качества изображения, сравнимого с обычным изображением по системе PAL - до 4...5 Мбит/с, т. е. в 30-40 раз. Качество изображения, сопоставимое с получаемым при воспроизведении видеозаписей стандарта VHS, достигается при сжатии до уровня около 1,5 Мбит/с, т. е. более чем в 100 раз.
Вопрос №2
Кодирование и декодирование звукового сопровождения в стандартах MPEG-1 и MPEG-2
Определим скорости передачи двоичных символов для сигналов звукового сопровождения в системе цифрового телевидения. Диапазон частот воспринимаемых человеком звуков приблизительно от 20 Гц до 20 кГц, поэтому частота дискретизации для обеспечения высококачественного звуковоспроизведения должна быть не менее 40 кГц. Так, при записи музыки на компакт-диски применяется частота дискретизации 44,1 кГц.
Далее, диапазон громкости передаваемых звуков следует выбрать не менее 90 дБ, чтобы иметь возможность воспроизводить с высокой точностью звучание хорошей музыки, например, симфонического оркестра в концертном зале. Для передачи такого диапазона громкости число уровней квантования должно быть не менее 32*103 для одной полярности сигнала. Поэтому число двоичных разрядов АЦП для квантования двуполярного звукового сигнала берется равным не менее 16, что дает не менее 65536 уровней квантования.
Таким образом, скорость передачи двоичных символов для звукового сигнала одного канала приблизительно равна 0,7 Мбит/с, а для стереофонического звука - 1,4 Мбит/с. Эти числа показывают, что в системе цифрового телевидения звуковую информацию также необходимо сжимать во много раз.
Методы сжатия звука, используемые в стандартах MPEG-1 и MPEG-2, основаны на учете свойств человеческого слуха и относятся к методам сжатия с частичной потерей информации. При сжатии отбрасывается значительная часть информации, но качество воспроизводимого звука остается достаточно высоким. Следовательно, сжатие достигается в основном за счет уменьшения психофизиологической избыточности.
КОДИРУЕМЫЕ ЗВУКОВЫЕ СИГНАЛЫ. УРОВНИ (LAYERS)
В соответствии со стандартами MPEG-1 и MPEG-2 частота дискретизации входных звуковых сигналов может принимать значения 48,0, 44,1 и 32,0 кГц. В MPEG-2 дополнительно предусмотрены значения 24,0, 22,05 и 16 кГц [7, 10]. MPEG-1 позволяет кодировать два звуковых сигнала, что дает стереофонический звук, a MPEG-2 - пять звуковых сигналов (левый, центральный, правый, левый тыловой и правый тыловой), что обеспечивает объемное звучание (Surround). Указанные дополнительные возможности MPEG-2 достигаются введением дополнительных составляющих, называемых расширениями (extension) в поток данных на выходе кодера. Помимо указанных выше, MPEG-2 предусматривает расширение для дополнительного канала низких звуковых частот (subwoofer) и расширение для многоязычного звукового сопровождения (до семи каналов).
В MPEG-1 и в MPEG-2 есть три уровня кодирования звуковой информации (Layer I, Layer II и Layer III), которые имеют общую основу, но различаются между собой сложностью применяемых средств обработки и достигаемой степенью сжатия, причем оба эти показателя растут с ростом номера уровня. Декодер более высокого уровня может декодировать поток данных, созданный кодером более низкого уровня, но не наоборот.
ОПЕРАЦИИ, ВЫПОЛНЯЕМЫЕ ПРИ КОДИРОВАНИИ
На структурной схема кодера звуковой информации, приведенной на рис. 4.8, показаны блок разложения на частотные поддиапазоны (РПд), блок квантования и кодирования (Кв. и Код.), блок формирования потока данных (ФПД) и блок психоакустической модели (ПАМ).
Входной цифровой звуковой сигнал разделяется на кадры (frame), каждый из которых кодируется и декодируется независимо от других кадров (Layer I и Layer II) или с учетом некоторых данных из предыдущих кадров (Layer III). Размер кадра 384 отсчета для Layer I и 1152 отсчета для Layer II и Layer III.
В MPEG-1 и MPEG-2 используется кодирование звуковых сигналов с разложением на частотные поддиапазоны (общие све-дения о таком методе кодирования см. в § 3.3). Число частотных поддиапазонов равно 32. Все поддиапазоны имеют одинаковую ширину, которая зависит от частоты дискретизации входного сигнала. После разделения частота дискретизации уменьшается в 32 раза, так что число отсчетов в кадре в каждом поддиапазоне равно 12 для Layer I и 36 для Layer И и Layer III.
На всех уровнях разделение на поддиапазоны выполняется блоком цифровых фильтров. На уровне Layer III после фильтрации применяется модифицированное дискретное косинусное преобразование (МДКП). Отличия МДКП от обычного ДКП здесь не рассматриваются. Сочетание обычных фильтров и МДКП называется блоком гибридной фильтрации (hibrid filterbank). В результате МДКП в каждом поддиапазоне каждого кадра выделяются 18 частотных составляющих, представляемых коэффициентами МДКП, которые обрабатываются. Некоторые параметры выполнения МДКП и обработки получаемых коэффициентов могут изменяться . в зависимости от свойств сигнала. Это позволяет уменьшить искажения, возникающие при разложении на поддиапазоны и дискретизации.
Затем выполняется квантование данных. Предварительно определяются масштабные множители (scalefactor). Для уровней Layer I и Layer II масштабный множитель зависит от максимального значения сигнала. При этом для Layer I масштабный множитель определяется для каждого поддиапазона в кадре, т. е. для 12 отсчетов сигнала поддиапазона. Для Layer II масштабные множители определяются для групп по 12 отсчетов в каждом поддиапазоне, причем множитель может быть общим для двух или трех групп. Таким образом, для каждого поддиапазона в кадре определяется до трех масштабных множителей. Перед квантованием значения сигнала делятся на соответствующие масштабные множители.
Затем в блоке квантования и кодирования выполняется квантование данных. В основе сжатия звуковой информации на уровнях Layer I и Layer II лежит метод, называемый адаптивным распределением битов (adaptive bit allocation). Этот метод заключается в выполнении квантования с различным числом двоичных разрядов квантования для разных частотных поддиапазонов. При этом используется равномерное квантование. Полное число битов, выделяемых на все поддиапазоны в данном кадре, зависит от частоты дискретизации входного сигнала и от заданной выходной скоростипередачи двоичных символов, т. е. от требуемой степени сжатия звуковой информации. Распределение битов по поддиапазонам осуществляется блоком ПАМ (см. ниже).
На уровне Layer III данными, подлежащими квантованию, являются не отсчеты сигналов поддиапазонов, а коэффициенты МДКП. В каждом поддиапазоне эти коэффициенты разделяются на блоки (scalefactor bands), для каждого из которых определяется масштабный множитель, на который делятся коэффициенты данного блока. Далее производится квантование по неравномерному закону. Разделение коэффициентов на блоки, выбор множителей и параметров квантования осуществляется блоком ПАМ так, чтобы минимизировать заметность искажений звука, создаваемых квантованием. Подробнее о преимуществах, достигаемых на уровне Layer III, будет сказано ниже.
После квантования на уровнях Layer II и Layer III выполняется кодирование полученных данных (на уровне Layer I дополнительное кодирование результатов квантования не производится).
На уровне Layer II квантованные отсчеты сигнала в каждом поддиапазоне объединяются по три, и полученные последовательности битов кодируются с использованием таблиц кодов с переменной длиной. Кроме того, на этом уровне кодируются с помощью соответствующих таблиц данные о распределении битов по поддиапазонам и данные о масштабных множителях.
На уровне Layer III квантованные коэффициенты МДКП кодируются по Хаффмену с использованием одной из 18 предусмотренных в стандартах таблиц кодирования. Выбор таблицы осуществляется под управлением ПАМ. Значительное сжатие данных в результате кодирования основано на том, что после квантования многие коэффициенты МДКП становятся малыми величинами или нулями (это напоминает метод кодирования, использованный в JPEG).
Кроме того, на уровне Layer III кодируются с использованием соответствующих таблиц данные о масштабных множителях, о разделении частотных поддиапазонов на блоки и т.д.