- •Степень сжатия
- •Потери при компрессии
- •Информационная избыточность
- •Методы кодирования
- •Классификация методов сжатия
- •Дискретное косинусное преобразование
- •Последовательность кадров при межкадровом сжатии видеоданных
- •Видеокодирование в гибридной модели дикм/дкп
- •Принцип формирования информационного пакета
- •Системные часы кодера
- •Стандарт кодирования видео- и звуковой информации mpeg-4
- •Объекты и сцены
- •Состав медийных объектов
- •Описание и синхронизация потоков данных для медийных объектов
- •Доставка потоков данных
- •Методы кодирования синтетических видеобъектов
- •Стандарты сжатия видео
- •Международный стандарт кодирования видео h.264/avc
- •Тенденции развития систем сжатия видеоинформации
- •Кодирование нескольких видов динамических изображений - Multiview Video Coding (mvc)
- •H.265/hevc - проект нового стандарта
- •Высокоэффективное кодирование видео hvc
- •Кодирование 3d-видео
- •Реконфигурируемое кодирование видео
Дискретное косинусное преобразование
Внутрикадровое сокращение избыточной информации основано на дискретном косинусном преобразовании (ДКП), который базируется на преобразовании, предложенном французским математиком Ж. Фурье. Согласно нему, любую периодическую последовательность импульсов можно представить в виде алгебраической суммы простейших синусоидальных колебаний с кратным частотами и убывающими амплитудами. Точное приближение к исходной форме импульса дает практически всегда бесконечный ряд частот, кратных основной.
Совокупность целого ряда убывающих колебаний разных частот образует спектр исходного (в данном случае прямоугольного) импульса.
Передать все составляющие его колебания не просто, так как для этого требуется очень широкая частотная полоса канала связи. И чем короче импульс, т. е. чем мельче деталь изображения, тем более широкой необходима частотная полоса. При недостаточной ширине полосы фазы колебаний с высшими частотами (гармоники) будут изменяться, и колебания будут ослабляться по амплитуде, что приведет к потере качества изображения.
Пиксель как сигнал можно анализировать, если перевести его из амплитудно-временного представления в амплитудно-частотное, т. е. получить его частотный спектр. В спектре наглядно видны колебания, расположенные в низкочастотной области, несущие основную энергию и формирующие амплитуду импульса-пикселя, а также колебания менее значимые, находящиеся в высокочастотной области спектра, формирующие крутизну фронта и спада, определяющие ширину частотной полосы, занимаемую пикселем (рис. 2).
В большинстве случаев колебания в крайне правой высокочастотной области спектра значительной роли для пикселя, как составляющего элемента видеосигнала, не имеют. То есть передаются только те коэффициенты, которые превышают пороговую величину, а остальные считаются нулевыми. Введение порога, строго говоря, приводит к потерям информации и, соответственно, к снижению качества изображения, однако при оптимальном выборе величины порога такое ухудшение окажется практически незаметным.
На рис. 2 выделены колебания с менее значимыми частотами и амплитудами, которые можно удалить, что приведет к некоторому снижению четкости и контрастности видеоизображения, с одной стороны, но с другой, даст возможность: значительно сузить частотную полосу, занимаемую видеосигналом и уменьшить необходимый объем памяти для запоминания значений оставшихся амплитуд и частот.
На этом построено уменьшение видеоинформации при внутрикадровом сжатии цифровых данных на основе ДКП.
Основная цель внутрикадрового сжатия цифровой информации на основе ДКП заключается в сужении частотной полосы, занимаемой видеосигналом, путем заранее определяемых амплитудно-частотных потерь некоторых высокочастотных колебаний его составляющих, но без заметных для глаза снижений четкости и контрастности изображения.
Сжатие в кодере MPEG 2
Сжатие в кодере MPEG 2 — сложный шестиуровневый процесс в виде иерархической структуры: блок - макроблок - слайс (вырезка) - кадр - группа кадров - последовательность кадров (рис. 4).
Рисунок 4 – Иерархическая структура кодирования MPEG 2
Сначала обрабатываются фрагменты изображения – блоки - размером 8x8 пикселов, несущие информацию о яркости или цветности. Блок (основной объект, к которому применяется ДКП) является базовой структурной единицей, над которой осуществляются все основные операции кодирования. Матрица блока состоит из 8x8 = 64 пикселей, т. е. имеет 64 отсчета. В телевизионном кадре по вертикали размещается 576/8 = 72 столбцов матрицы, а по горизонтали 704/8 = 88 строк матрицы. В итоге полное телевизионное изображение формируется из (72x88) = 6336 блоков, т. е. матриц яркостных данных, на которых возможно провести ДКП.
Яркостные блоки Y организуются в макроблоки (16x16 пикселов), состоящие из четырех блоков. Макроблок – это основной объект для предсказания с компенсацией движения.
Один или более смежных макроблоков группируются вместе и образуют вырезку (слайс), в которой по вертикали 16 пикселов, а по горизонтали 16n (где n — 1, 2, 3 и т.д.) пикселов.
Слайс является основным объектом для синхронизации и при восстановлении данных, формирующих изображение. Когда появляется ошибка в общем потоке цифровых данных, декодер обращается к началу следующего макроблока, входящего в слайс, что улучшает эффективность восстановления и качество изображения. Очередность обработки макроблоков в слайсе такая же, как и при обычном ходе строчной развертки, т. е. слева направо и сверху вниз.
В области поиска осуществляется поиск «своего» макроблока в текущем кадре, смежном с опорным. Область поиска включают в себя 64x64 пикселей, т. е. ограничена размерами в 4x4 макроблока.
Таким образом, кадр, состоящий из группы слайсов, является первичной кодированной единицей передаваемого изображения. Последовательность из 12...15 кадров составляет группу кадров (GoP — Group of Picture) трех типов (I, Р, В), из которых только один I-кадр (Interframe) с внутрикадровым кодированием является опорным для декодирования остальных кадров (Р и В) группы, три или четыре Р-кадра (Predictive — предсказанные) используют межкадровое кодирование с компенсацией движения по ближайшему предшествующему I-кадру и 8...10 В-кадров (Bidirectional — двунаправленные) с межкадровым кодированием и предсказанием по последующим и предыдущим I- и Р-кадрами.
Группа кадров GoP снабжается заголовком, и полученная структура данных называется элементарным потоком данных.
