Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
339
Добавлен:
19.03.2016
Размер:
241.66 Кб
Скачать

Отличия mpeg-1 и mpeg-2

Стандарт MPEG-2 является развитием и расширением стан­дарта MPEG-1. Поток видеоданных MPEG-2 содержит составляю­щие, которых нет в MPEG-1. По-видимому, наиболее важным от­личием двух стандартов является наличие в MPEG-2 масштаби­руемости и всех связанных с ней особенностей.

В стандарте MPEG-1 нет принципиальных ограничений на размеры кодируемых изображений и на использование чересстроч­ной развертки по сравнению с MPEG-2. Тем не менее, MPEG-1 предназначен для сжатия движущихся изображений с прогрессив­ной разверткой, частотой кадров до 30 Гц, числом строк до 576 и числом элементов в строке до 720 в поток данных со скоростью передачи двоичных символов до 1856000 бит/с.

На практике же MPEG-1 обычно используется для сжатия движущихся изображений размером 360x240 элементов с прогрес­сивной разверткой (формат SIF). Такое сжатие позволяет записы­вать видеопрограммы с некоторой потерей четкости на компакт-диски и воспроизводить их на ПК, выполняя декодирование в ре­альном времени чисто программными средствами.

Группа MPEG начинала работу над стандартом MPEG-3, оп­ределяющим методы сжатия для телевидения высокой четкости (ТВЧ). Однако в процессе работ над стандартом MPEG-2 в него были включены уровни, соответствующие ТВЧ (см. табл.4.4), по­этому необходимость в стандарте MPEG-3 отпала (о неправильном использовании этого термина см. в конце раздела 4.2.2).

ИСКАЖЕНИЯ ИЗОБРАЖЕНИЙ ПРИ СЖАТИИ ПО СТАНДАРТАМ MPEG. ДОСТИЖИМЫЕ СТЕПЕНИ СЖАТИЯ

Далее приведен перечень характерных искажений изображе­ний, возникающих в результате кодирования по стандартам MPEG-1 или MPEG-2 при достаточно больших степенях сжатия [17]. Автор рекомендует читателям самим посмотреть искажения при внутри-кадровом кодировании. Это можно сделать, например, с помощью популярной программы Adobe Photoshop, но диапазон сжатия с ее помощью невелик Хорошо заметные искажения при сжатии в 20-50 раз можно получить с помощью "древней" программы Alchemy.

Искажения, создаваемые внутрикадровым кодированием (см. последнюю страницу обложки).

1. Заметность границ блоков (блокинг-эффект).

Так как соседние блоки кодируются и декодируются незави­симо друг от друга, то при больших степенях сжатия после кванто­вания и деквантования в них могут получаться заметно различаю­щиеся коэффициенты ДКП, соответствующие постоянным и низ­кочастотным составляющим. В результате изображения в соседних блоках могут сильно отличаться друг от друга по яркости, цвету, характеру деталей и текстуры.

2. Размытие изображения.

Наблюдается при большом коэффициенте сжатия изображе­ния. Обусловлено ограничением либо полным обнулением коэф­фициентов ДКП, соответствующих высоким пространственным частотам, в результате чего мелкие детали изображения становятся размытыми или полностью пропадают.

3. Появление окантовок на резких переходах яркости изо­ бражения.

Этот эффект обусловлен значительными искажениями либо полным подавлением высокочастотных составляющих пространст­венного спектра.

4. Размытие цветов.

Имеет ту же причину, что и эффект окантовки на границах, но проявляется на участках изображения с резкими скачками в сиг­нале яркости.

5. Эффект ступенек.

Возникает как результат неправильного восстановления или передачи краев изображений внутри блока. Эффект проявляется,

как правило, при восстановлении изображения в увеличенном масштабе.

Искажения, создаваемые межкадровым кодированием

1. Ложные границы.

Наблюдаются при компенсации движения. Этот эффект яв­ляется прямым следствием межкадрового кодирования видеосиг­нала.

2. Эффект "комаров".

Проявляется как флуктуации яркости или цветности в блоке на границе между движущимся объектом и фоном. Эффект возни­кает вследствие различной степени квантования ошибок предска­зания от кадра к кадру.

3. Зернистый шум в стационарной области.

Проявляется как медленно движущиеся мерцающие шумы низкой интенсивности в областях, в которых имеется лишь малое движение либо движение отсутствует полностью.

4. Появление неправильных цветов в макроблоке по отноше­ нию к его исходным цветам и к цветам окружающей области.

5. Появление следов за движущимися объектами, которые могут сохраняться сравнительно долго.

Какие же степени сжатия реально достижимы при использо­вании MPEG-2? За исходную скорость передачи двоичных симво­лов возьмем 216 Мбит/с, что соответствует Рекомендации 601 при формате дискретизации 4:2:2. При переходе к формату 4:2:0, кото­рый используется для телевизионного вещания "Main Profile / Main Level", скорость передачи двоичных символов сокращается до ве­личины 162 Мбит/с, относительно которой и будем определять степень сжатия.

В технических журналах отмечалось, что на практике для по­лучения студийного качества принятого изображения можно сжи­мать видеоинформацию до скорости передачи 9 Мбит/с, т. е. в 18 раз. Для получения качества изображения, сравнимого с обычным изображением по системе PAL - до 4...5 Мбит/с, т. е. в 30-40 раз. Качество изображения, сопоставимое с получаемым при воспроиз­ведении видеозаписей стандарта VHS, достигается при сжатии до уровня около 1,5 Мбит/с, т. е. более чем в 100 раз.

Вопрос №2

Кодирование и декодирование звукового сопрово­ждения в стандартах MPEG-1 и MPEG-2

Определим скорости передачи двоичных символов для сиг­налов звукового сопровождения в системе цифрового телевидения. Диапазон частот воспринимаемых человеком звуков приблизи­тельно от 20 Гц до 20 кГц, поэтому частота дискретизации для обеспечения высококачественного звуковоспроизведения должна быть не менее 40 кГц. Так, при записи музыки на компакт-диски применяется частота дискретизации 44,1 кГц.

Далее, диапазон громкости передаваемых звуков следует вы­брать не менее 90 дБ, чтобы иметь возможность воспроизводить с высокой точностью звучание хорошей музыки, например, симфо­нического оркестра в концертном зале. Для передачи такого диапа­зона громкости число уровней квантования должно быть не менее 32*103 для одной полярности сигнала. Поэтому число двоичных разрядов АЦП для квантования двуполярного звукового сигнала берется равным не менее 16, что дает не менее 65536 уровней кван­тования.

Таким образом, скорость передачи двоичных символов для звукового сигнала одного канала приблизительно равна 0,7 Мбит/с, а для стереофонического звука - 1,4 Мбит/с. Эти числа показыва­ют, что в системе цифрового телевидения звуковую информацию также необходимо сжимать во много раз.

Методы сжатия звука, используемые в стандартах MPEG-1 и MPEG-2, основаны на учете свойств человеческого слуха и отно­сятся к методам сжатия с частичной потерей информации. При сжатии отбрасывается значительная часть информации, но качест­во воспроизводимого звука остается достаточно высоким. Следова­тельно, сжатие достигается в основном за счет уменьшения психо­физиологической избыточности.

КОДИРУЕМЫЕ ЗВУКОВЫЕ СИГНАЛЫ. УРОВНИ (LAYERS)

В соответствии со стандартами MPEG-1 и MPEG-2 частота дискретизации входных звуковых сигналов может принимать зна­чения 48,0, 44,1 и 32,0 кГц. В MPEG-2 дополнительно предусмот­рены значения 24,0, 22,05 и 16 кГц [7, 10]. MPEG-1 позволяет ко­дировать два звуковых сигнала, что дает стереофонический звук, a MPEG-2 - пять звуковых сигналов (левый, центральный, правый, левый тыловой и правый тыловой), что обеспечивает объемное звучание (Surround). Указанные дополнительные возможности MPEG-2 достигаются введением дополнительных составляющих, называемых расширениями (extension) в поток данных на выходе кодера. Помимо указанных выше, MPEG-2 предусматривает рас­ширение для дополнительного канала низких звуковых частот (subwoofer) и расширение для многоязычного звукового сопровож­дения (до семи каналов).

В MPEG-1 и в MPEG-2 есть три уровня кодирования звуковой информации (Layer I, Layer II и Layer III), которые имеют об­щую основу, но различаются между собой сложностью применяемых средств обработки и достигаемой степенью сжатия, причем оба эти показателя растут с ростом номера уровня. Декодер более высокого уровня может декодировать поток данных, созданный кодером более низкого уровня, но не наоборот.

ОПЕРАЦИИ, ВЫПОЛНЯЕМЫЕ ПРИ КОДИРОВАНИИ

На структурной схема кодера звуковой информации, приве­денной на рис. 4.8, показаны блок разложения на частотные под­диапазоны (РПд), блок квантования и кодирования (Кв. и Код.), блок формирования потока данных (ФПД) и блок психоакустиче­ской модели (ПАМ).

Входной цифровой звуковой сигнал разделяется на кадры (frame), каждый из которых кодируется и декодируется независимо от других кадров (Layer I и Layer II) или с учетом некоторых дан­ных из предыдущих кадров (Layer III). Размер кадра 384 отсчета для Layer I и 1152 отсчета для Layer II и Layer III.

В MPEG-1 и MPEG-2 используется кодирование звуковых сигналов с разложением на частотные поддиапазоны (общие све-дения о таком методе кодирования см. в § 3.3). Число частотных поддиапазонов равно 32. Все поддиапазоны имеют одинаковую ширину, которая зависит от частоты дискретизации входного сиг­нала. После разделения частота дискретизации уменьшается в 32 раза, так что число отсчетов в кадре в каждом поддиапазоне равно 12 для Layer I и 36 для Layer И и Layer III.

На всех уровнях разделение на поддиапазоны выполняется блоком цифровых фильтров. На уровне Layer III после фильтрации применяется модифицированное дискретное косинусное преобра­зование (МДКП). Отличия МДКП от обычного ДКП здесь не рас­сматриваются. Сочетание обычных фильтров и МДКП называется блоком гибридной фильтрации (hibrid filterbank). В результате МДКП в каждом поддиапазоне каждого кадра выделяются 18 час­тотных составляющих, представляемых коэффициентами МДКП, которые обрабатываются. Некоторые параметры выполнения МДКП и обработки получаемых коэффициентов могут изменяться . в зависимости от свойств сигнала. Это позволяет уменьшить иска­жения, возникающие при разложении на поддиапазоны и дискрети­зации.

Затем выполняется квантование данных. Предварительно определяются масштабные множители (scalefactor). Для уровней Layer I и Layer II масштабный множитель зависит от максимально­го значения сигнала. При этом для Layer I масштабный множитель определяется для каждого поддиапазона в кадре, т. е. для 12 отсче­тов сигнала поддиапазона. Для Layer II масштабные множители определяются для групп по 12 отсчетов в каждом поддиапазоне, причем множитель может быть общим для двух или трех групп. Таким образом, для каждого поддиапазона в кадре определяется до трех масштабных множителей. Перед квантованием значения сиг­нала делятся на соответствующие масштабные множители.

Затем в блоке квантования и кодирования выполняется кван­тование данных. В основе сжатия звуковой информации на уровнях Layer I и Layer II лежит метод, называемый адаптивным распреде­лением битов (adaptive bit allocation). Этот метод заключается в выполнении квантования с различным числом двоичных разрядов квантования для разных частотных поддиапазонов. При этом ис­пользуется равномерное квантование. Полное число битов, выде­ляемых на все поддиапазоны в данном кадре, зависит от частоты дискретизации входного сигнала и от заданной выходной скоростипередачи двоичных символов, т. е. от требуемой степени сжатия звуковой информации. Распределение битов по поддиапазонам осуществляется блоком ПАМ (см. ниже).

На уровне Layer III данными, подлежащими квантованию, являются не отсчеты сигналов поддиапазонов, а коэффициенты МДКП. В каждом поддиапазоне эти коэффициенты разделяются на блоки (scalefactor bands), для каждого из которых определяется масштабный множитель, на который делятся коэффициенты данно­го блока. Далее производится квантование по неравномерному за­кону. Разделение коэффициентов на блоки, выбор множителей и параметров квантования осуществляется блоком ПАМ так, чтобы минимизировать заметность искажений звука, создаваемых кванто­ванием. Подробнее о преимуществах, достигаемых на уровне Layer III, будет сказано ниже.

После квантования на уровнях Layer II и Layer III выполняет­ся кодирование полученных данных (на уровне Layer I дополни­тельное кодирование результатов квантования не производится).

На уровне Layer II квантованные отсчеты сигнала в каждом поддиапазоне объединяются по три, и полученные последователь­ности битов кодируются с использованием таблиц кодов с пере­менной длиной. Кроме того, на этом уровне кодируются с помо­щью соответствующих таблиц данные о распределении битов по поддиапазонам и данные о масштабных множителях.

На уровне Layer III квантованные коэффициенты МДКП ко­дируются по Хаффмену с использованием одной из 18 предусмот­ренных в стандартах таблиц кодирования. Выбор таблицы осуще­ствляется под управлением ПАМ. Значительное сжатие данных в результате кодирования основано на том, что после квантования многие коэффициенты МДКП становятся малыми величинами или нулями (это напоминает метод кодирования, использованный в JPEG).

Кроме того, на уровне Layer III кодируются с использовани­ем соответствующих таблиц данные о масштабных множителях, о разделении частотных поддиапазонов на блоки и т.д.

Соседние файлы в папке Лекции ОТВ