Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
1.doc
Скачиваний:
24
Добавлен:
15.05.2015
Размер:
1.25 Mб
Скачать

10 Сжатие видеоданных

При записи изображения обычно используется по 8 бит (1 байт) для представления 256 уровней яркости красного, зеленого и синего цветов (RGB). Таким образом, для хранения одного элемента изображения (пиксела) требуется 3 байта памяти. Стандартный видеокадр формата 352х288 пикселов требует 304128 байтов, а изображение на экране монитора при разрешении 640х480 занимает почти целый мегабайт.

Использование классических алгоритмов сжатия "без потерь", таких как RLE (кодирование длин серий) или LZW (метод Зива - Лемпела - Велча), не решает проблемы, поскольку предельные для них коэффициенты сжатия (от 2 до 3 в случае черно-белых полутоновых или от 1,5 до 2 для RGB изображений) совершенно недостаточны для большинства приложений. Коэффициент сжатия, достигаемый при использовании любого метода, зависит от характера изображения. Например, одноцветный фон в любом случае сожмется лучше полного мелких деталей изображения. Большинство современных методов сжатия как неподвижных, так и видеоизображений, обеспечивающих сжатие в десятки, а иногда в сотни раз, предполагает некоторые потери, то есть восстановленное изображение не совпадает в точности с исходным. Потери эти связаны с отказом от передачи или некоторого "загрубления" тех компонентов изображения, чувствительность к точности воспроизведения которых у человеческого глаза невелика.

Как было сказано выше, при записи изображений традиционно используется RGB-представление, когда на каждую цветовую составляющую приходится по одному байту. Альтернативный подход состоит в переходе от RGB- к YCrCb-представлению. Чувствительность человеческого глаза к яркостному Y-компоненту и цветностным компонентам Cb и Cr неодинакова, поэтому вполне допустимым представляется выполнение этого преобразования с прореживанием Cb- и Cr-компонентов, когда для группы из четырех соседних пикселов (2Х2) вычисляются Y-компоненты, а Cb и Cr используются общие (схема 4:1:1).

В основе ставших уже классическими стандартов сжатия JPEG (для статических изображений) и MPEG (для видеоданных), так же как и в сравнительно новых методах сжатия на основе Wavelet-преобразования, лежит переход от пространственного представления изображения к спектральному. В случае JPEG/MPEG для такого перехода используется дискретное косинус-преобразование (ДКП) на блоках 8х8, в случае Wavelet - система фильтров, примененных к изображению. Достижение высоких степеней сжатия (порядка сотен) при использовании методов, основанных на ДПК, невозможно, поскольку минимальным кодируемым в них остается стандартный блок 8х8. Использование блоков большего размера возможно например на блоках 16х16, но практическая реализация таких схем сопряжена с серьезными вычислительными затратами. Гораздо более перспективным для получения больших коэффициентов сжатия представляется использование Wavelet-преобразования (wavelet - небольшая волна). Исходное изображение (естественно, после преобразования RGB - YCrCb) фильтруется с применением низкочастотного и высокочастотного фильтров по строкам и столбцам с последующим прореживанием, так что вместо одного изображения размером M X N пикселов после первого прохода синтезируется четыре, размером (M/2) X (N/2) каждое, причем наиболее информативным из них является [hh] – то, которое было получено с использованием низкочастотного фильтра как по строкам, так и по столбцам. Применение низкочастотного фильтра по строкам и высокочастотного по столбцам [hg] или высокочастотного по строкам и низкочастотного по столбцам [gh] дает значительно более "бедную" картинку, и совсем уж малоинформативным оказывается изображение [gg], полученное с использованием высокочастотного фильтра как по горизонтали, так и по вертикали. Дальнейшая судьба этих изображений (саббэндов) неодинакова. Саббэнды [hg] и [gh] обычно квантуются и после применения статистического кодирования попадают непосредственно в выходной поток. Саббэнд [gg] чаще всего просто игнорируется, а вот [hh] ждет та же судьба, что и исходное изображение. Для изображений "экранного" размера число уровней фильтрации составляет обычно от 4 до 6. Максимально достижимые коэффициенты сжатия при использовании Wavelet-преобразования зависят от размеров исходного изображения, и при приемлемых искажениях на экранном разрешении можно говорить о 50-70-кратном сжатии.

Стандарт сжатия видеоданных H.264 основывается на блочном кодировании видеоизображения блоками переменного размера (начиная от 16х16 пикселей до самого мелкого представления блоками по 4х4 пикселей). В нем используется двухуровневое иерархическое кодирование коэффициентов, новая схема внутрикадрового предсказания, включая предсказания по диагонали, а также новая схема межкадрового предсказания с выбором наилучшего предыдущего кадра, изменен основной алгоритм ДКП, внесены и некоторые другие изменения.

По данным различных исследований, при равном визуальном качестве Н.264 обеспечивает примерно на 40% большее сжатие по сравнению с MPEG-4. Принято считать, что в настоящее время Н.264 является самым эффективным алгоритмом сжатия видео (одновременно и самым сложным для реализации). Основные черты нового стандарта – низкий уровень шума и высокая четкость контуров при сверхвысокой степени сжатия. Эти качества делают данный стандарт особенно интересным для применения в системах охранного наблюдения (задача распознавания контуров). Названный стандарт пригоден также и для высо­кокачественного видео и для телевидения высокой четкости. Уже сейчас на рынке появились аппаратные кодеры Н.264 для передачи видео по IP-сетям в виде отдельных устройств, компьютерных плат и интегральных микросхем.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]