Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

839

.pdf
Скачиваний:
3
Добавлен:
13.02.2021
Размер:
2.09 Mб
Скачать

210

ражения и масштабирования. Алгоритм в явном виде ищет самоподобные области в нашем изображении. Поиск производится до тех пор, пока не будет найден аттрактор фрактала — неподвижная точка аффинных преобразований.

У фрактального метода очень высокая степень сжатия. Каждое преобразование кодируется буквально считанными байтами, в то время как изображение, построенное с их помощью, может занимать и несколько мегабайт.

Алгоритм имеет существенный недостаток — ему требуется очень (!) много времени. Даже в худшем случае (без применения сопутствующих оптимизирующих алгоритмов), потребуется перебор и сравнение всех возможных фрагментов изображения разного размера. Даже для небольших изображений при учете дискретности мы получим астрономическое число перебираемых вариантов.

Подавляющее большинство исследований в области фрактальной компрессии сейчас направлены на уменьшение времени архивации, необходимого для получения качественного изображения.

Сжатие видеоинформации

Видеоинформация представляется в виде видеороликов, т.е. наборов последовательно выводимых друг за другом взаимосвязанных изображений — кадров. Если скорость появления видеокадров превышает частоту слияния мельканий (порядка 25 кадров в секунду) то у пользователя создается впечатление непрерывного движения объектов (full-motion video — полнокадровое видео). Этот принцип был реализован в кино и в настоящее время остается основным при оцифровке видеоизображения.

Объем одной секунды видеоролика с частотой 30 кадров в секунду при разрешении 640х480 точек, представленных 8-раз- рядным кодом (256 цветов), составляет 9 Мбайт. При использовании 24-разрядной цветовой палитры (16 млн. цветов) и разрешения 1280х1024 эта цифра увеличится до 114 Мбайт.

Поэтому до сего времени ведутся интенсивные работы по разработки видеоформатов, хорошо сжимающих водеоизображения и позволяющих воспроизводить видеоинформацию в реальном времени без снижения качества изображений.

211

Методы, алгоритмы и устройства сжатия видеоданных объединяются под общим названием — codec (COmpressor-DEComp- ressor). Задача видеокодека заключается в максимально возможном сжатии видеоизображения с возможностью его последующего восстановления (декомпрессии) с высокой скоростью и минимальными искажениями информации. Как правило, методы сжатия видео информации основаны на поиске лишней, избыточной информации и удаления ее с целью уменьшения объема. При этом могут использоваться различные алгоритмы сжатия. Некоторые основаны на внутрикадровом сжатии, т.е. сжимается информация по каждому отдельному кадру, другие базируются на межкадровом сжатии, при котором фиксируется динамика изменения информации по кадрам. В этом случае последующие кадры формируются на основе информации об изменении предыдущего кадра.

Видеоинформация формата QuickTime хранится в файлах с расширением *.mov. В формате QuickTime кроме видеоинформации может храниться аудиоинформация звукового сопровождения видеоданных. При частоте дискретизации 22,05 Кгц, разрядности 8 бит, в режиме «моно» одна секунда аудиоинформации занимает примерно 20—30 Кбайт. Одна секунда видеоизображения с таким же звуком занимает 150—200 Кбайт (236х168 — 320х240, 15 кадров в секунду).

В системах Windows распространен видеостандарт AVI (Audio Video Interleaved). Файлы этого стандарта имеют расширение *.avi. В AVI-файле применяется межкадровое сжатие. Оно содержит один ключевой кадр, относительно которого формируются остальные кадры видеоизображения. Утверждается, что AVI-файлы могут воспроизводиться с частотой 24 кадра в секунду. Но в большинстве случаев они записываются с частотой 15—18, а иногда и 10 кадров в секунду, чтобы уменьшить занимаемый объем. AVI-файл длительностью 1 секунда занимает от нескольких десятков до нескольких сотен килобайт (обычно 50—

300Кбайт).

В1992 г. группа экспертов по движущимся изображениям (Moving Pictures Experts Group) разработала новый стандарт видеокомпрессии — MPEG. Международная организация стандартизации (ISO) приняла его как стандарт компрессии MPEG-1 (ISO

212

11172). Для передачи телепрограмм по каналам связи используется формат MPEG-1. Он обладает разрешением 352х288 точек для стандарта PAL; 352х240 точек для стандарта NTSC и кино.

Частота кадров: 25 (PAL), 29,97 (NTSC), 23,976 (кино). Скорость передачи данных: 384 Кбит/с — 5 Мбит/с.

Концепция сжатия видео в MPEG очень проста — определить, какая именно информация в потоке повторяется хотя бы в течение какого-то отрезка времени и принять меры к избежанию дублирования этой информации. Наиболее ценное достоинство MPEG кодирования, особенно удобное для передачи по различным сетям — возможность гибкой настройки качества изображения в зависимости от пропускной способности сети. Это и сделало MPEG-2 фактическим стандартом для приема/передачи цифрового телевидения по различным сетям.

К сожалению, не существует возможности однозначно оценить качество кодирования некими приборами и измерениями. Единственный критерий здесь — человек и как он воспримет сжатую информацию. Поэтому правила сжатия видеоданных при MPEG кодировании вырабатывались на основе модели восприятия человеком видеоизображений (HVS Human Visual Sense). Избыточность изображения согласно HVS определяется по трем основным критериям:

Невидимые человеческим глазом детали изображения — места гашения по вертикали и горизонтали. Удаление этой информации вообще никак не сказывается на изображении.

Статистическая избыточность. Подразделяется на пространственную и временную. Под пространственной избыточностью понимаются участки изображения, на которых смежные пиксели практически одинаковы. Под временной — не изменяемые во времени фрагменты изображения.

Избыточность по цвету и яркости — рассчитывается исходя из ограниченной чувствительности человека к небольшим изменениям цветов и яркости деталей изображения.

Как реализуется формат MPEG. Для удобства кодирова-

ния видеоданных весь видеопоток разбивается на группы изображений GOP (Group of Pictures). Такая группа строится, как показано на рис. 4.36

213

I B B P B B P B B P B B

Рис. 4.36 — Кадры формата MPEG

В группе изображений используются следующие кадры:

I Intra-кадры, которые обычно называются опорными

исодержат всю информацию об изображении. MPEG последовательности без этих кадров быть не может в принципе. При компрессии I-кадров происходит удаление только пространственной избыточности. Именно с этого кадра начинается декодирование изображения в последовательности;

Р Predictive кадры. «Предсказанные» кадры, при формировании которых используется метод предсказания изображения на следующем кадре с учетом компенсации движения от последнего I или Р-кадра перед формируемым. Р-кадр также служит для дальнейшего предсказания изображения. Р-кадр создается с помощью межкадровой компрессии, уменьшающей как пространственную, так и временную избыточность. Изображение Р-кадра вычитается из следующего изображения и эта разница кодируется и вместе с вектором движения добавляется к сжатым данным;

В Bi-directional, «двунаправленные» кадры. Они названы так потому, что хранят наиболее существенную информацию с окружающих их I и Р-кадров. В кадры имеют наивысшую степень компрессии, но требуют предыдущего и последующего изображения для компенсации движения объектов на изображении.

Такую структуру MPEG потока обычно описывают в виде дроби M/N, для которой М сообщает общее число кадров в GOP, a N — каким по счету будет очередной Р-кадр после предыдущего. Таким образом, GOP-последовательность, изображенная на рис. 4.36 выше, может быть записана как 12/3. Собственно поток данных MPEG состоит из 6 иерархических уровней:

214

Блок — данные по яркости и цветности для блоков 8x8 пикселей изображения. Блоки анализируются по значениям Y (яркость), СВ и CR (цветоразностные сигналы).

Макроблок — как следует из названия, состоит из 4 простых блоков в окне 16x16 пикселей соответственно. В формате 4:2:0 макроблок содержит 4 блока яркостных данных Y и по одному СВ и CR.

Слой — содержит несколько смежных макроблоков.

Кадр — состоит из группы слоев, содержащих изображение, которое, в свою очередь, может быть как I, так Р или В.

Группа изображений (она же GOP) — содержит последовательность кадров. Может включать до 15 кадров и должна обязательно начинаться с I кадра.

Видеопоследовательность — должна содержать мини-

мум одну GOP, а также заголовок в начале последовательности и код конца последовательности.

Уровни и профили MPEG. Под профилем MPEG понимается подмножество структуры битового потока сжатого видеоизображения. В пределах такого подмножества возможен широкий разброс параметров потока и, соответственно, кодеров и декодеров для них.

Под уровнем понимается ряд ограничений, применяемых к параметрам MPEG-потока, например, разрешение выходного изображения, частота кадров и т.п. Таблица 4.2 иллюстрирует максимальные значения ограничений, накладываемых на уровни

ипрофили MPEG.

Определяющую роль играют всего несколько наиболее важных параметров настройки MPEG-кодера (компрессора):

Bit Rate (Скорость потока) — измеряется в мегабитах (обратите внимание, в мегабитах, а не в мегабайтах) в секунду. Чем выше Bit Rate, тем выше качество изображения, но тем больше места занимает созданный кодером MPEG файл.

Constant Bit Rate (Постоянная скорость потока) — па-

раметр кодирования, указывающий на то, что скорость потока не должна зависеть от кодируемого изображения и быть постоянной величиной. Установка постоянной скорости позволяет точно определить размер итогового файла фильма, но не оказывает влияния на качество изображения только в случае одной и той же ди-

215

намики фильма на всем его протяжении. Например, в течение фильма непрерывно показываются автомобильные гонки или медленно и плавно картины в музее.

Таблица 4.2

 

Профиль/ уро-

 

 

Основной

 

 

I,P,B 4:2:0 (SNR

 

 

Высокий I,P,В

 

 

 

 

I, P, В 4:2:0

 

 

 

 

4:2:0 или 4:2:2

 

 

вень

 

 

 

 

Scalable Profile)

 

 

 

 

 

 

(Main profile)

 

(High Profile)

 

 

 

 

 

 

 

 

 

 

 

Самый высокий

 

1920x1152

_

 

 

1920x1152

 

(High Level)

 

80 Mbit/s

 

 

 

 

100 Mbit/s

 

Высокий (High

 

1440x1152

 

1440x1152

 

1440x1152

 

1440 Level)

 

60 Mbit/s

 

60 Mbit/s

 

80 Mbit/s

 

Основной

 

720x576

 

720x576

 

720x608

 

(Main Level)

 

15 Mbit/s

 

15 Mbit/s

 

20 Mbit/s

 

Низкий

 

352x288

 

352x288

_

 

 

(Low Level)

 

4 Mbit/s

 

4 Mbit/s

 

 

 

Variable Bit Rate (Переменная скорость потока) — параметр кодирования, указывающий на то, что скорость потока должна зависеть от динамики изображения — расти на динамичных сценах и уменьшаться на статичных. Variable Bit Rate применяется сейчас наиболее широко, так как позволяет в подавляющем большинстве случаев добиться лучшего качества видео по сравнению с Constant Bit Rate при том же размере файла результата.

Average Bit Rate (Средняя скорость потока) — параметр, совпадающий по значению с Constant Bit Rate при постоянной скорости потока и оговаривающий среднюю скорость потока с

Variable Bit Rate.

Методы разностного кодирования

К методам сжатия относят также методы разностного кодирования, поскольку разности амплитуд отсчетов представляются меньшим числом разрядов, чем сами амплитуды. Разностное кодирование реализовано в методах дельта-модуляции и ее разновидностях.

216

Предсказывающие (предиктивные) методы основаны на экстраполяции значений амплитуд отсчетов, и если выполнено условие

AR AP d,

то отсчет должен быть передан, иначе он является избыточным; здесь AR и AP — амплитуды реального и предсказанного отсчетов, d — допуск (допустимая погрешность представления амплитуд). Иллюстрация предсказывающего метода с линейной экстраполяцией представлена рис. 4.37.

t1

t2

t3

t4

t5

t6

t7

t8

t9

t10

Рис. 4.37 — Предиктивное кодирование

Здесь точками показаны предсказываемые значения сигнала. Если точка выходит за пределы коридора (допуска d), показанного пунктирными линиями, то происходит передача отсчета. На рисунке передаваемые отсчеты отмечены светлыми кружками в моменты времени t1, t2, t4, t7, t9, t10. Если передачи отсчета нет, то на приемном конце рассчитывается экстраполированное значение (обозначенное на рисунке темным кружком).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]