Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекция 4 Обработка видео изображений.doc
Скачиваний:
46
Добавлен:
01.05.2015
Размер:
131.58 Кб
Скачать

2.2. Типы кодеков обработки видеоизображений

Для обработки изображений применяются различные кодеки:

JPEG (Joint Photographic Expert Group) — метод сжатия неподвижных изображений, основанный на одновременной обработке информации матрицы пикселов (например, 8 х 8) в пространстве Y-U-V с приоритетом сохранения яркостной информации. Метод почти универсален: он позволяет обес­печивать и максимальную степень сжатия, правда, при этом информация восстанавливается с некоторыми потерями, и обеспечивать сжатие без потерь, но, конечно, в меньшей степени. Кроме того, возможен послойный прием изображения, когда сначала приходит грубое описание всей картинки, затем следуют постепенные уточнения (утончения) деталей. Такая передача представляет ценность при использовании каналов связи с ограниченной производительностью, например в Интернете: быстро получив общий вид, можно отказаться от приема полного описания изображения, если оно не заинтересовало получателя. Конечно, все достоинства JPEG не могут использоваться одновременно — чем-то приходится жертвовать. Степень сжатия зависит от характера изображения — лучше всего сжимается цветное изображение, несколько хуже — полутоновое серое. Черно-белое изображение для JPEG должно представляться в полутоновом формате, что, конечно, снижает эффективность его сжатия. M-JPEG (Motion JPEG) — метод сжатия движущихся изображений. Суть этого метода заключается в том, что каждый кадр обрабатывается как от­дельное статическое изображение, то есть выполняется только внутрикадровое сжатие. M-JPEG не получил широкого распространения из-за больших затрат времени на компрессию и декомпрессию. DVI (Digital Video Interactive) — система аппаратного сжатия движущихся видеоизображений с коэффициентом сжатия до 160:1 и записи звукового сопровождения по методу ADPCM.

Indeo (INtel viDEO) — одноступенчатый кодек на базе набора микросхем i82750, развитие системы DVI. Позволяет воспроизводить видеозаписи и с программным декодированием (необходим ПК не ниже 48,6SX-25, SVGA 256 цветов и звуковая карта с ADPCM для звукового сопровождения).

Cinepak — программный кодек для воспроизведения «живого» видео в окне 320 х 240 пикселов.

MPEG - ряд кодеков (MPEG-1, MPEG-2, MPEG-4, MPEG-7...) для передачи аудио-видеоинформации, каждый из которых соответствует определенному этапу развития цифровых технологий. Эти кодеки стали общепринятыми и заслуживают более подробного описания.

Видеосигнал в сжатом формате может быть сохранен на вполне рядовом носителе информации (винчестер, CD) и воспроизведен с него на мониторе компьютера. С этой цифровой записью могут выполняться любые операции нелинейного монтажа (монтажа с произвольным доступом к кадрам). Возможности такого монтажа определяются программным обеспечением и, по сути, безграничны.

  1. Стандарты кодеков изображений mpeg.

Наибольшее распространение получили ряд кодеков типа MPEG.

Разработкой кодеков, предназначенных для работы в реальном масштабе времени, занимается MPEG (Motion Picture Expert Group — группа экспертов в области движущихся изображений). Поскольку видео без звука «живым» представить трудно, MPEG занимается и аудиокодеками.

Кодеки MPEG работают в пространстве Y-U-V, причем яркостная информация обрабатывается с большим разрешением, чем цветовая. В сжатом потоке данных присутствуют кадры нескольких типов:

I (intra)-кадры — ключевые кадры, кодированные без ссылок на другие (то есть содержащие полное описание статического изображения). Р (predicted) — кадры, содержат описание различий текущего кадра с пре­дыдущим.

В (bi-directional) — кадры являются двунаправленными: они ссылаются и на кадр вперед, и на кадр назад.

Наличие двунаправленных кадров подразумевает, что декодер должен иметь буфер, по крайней мере, на три принятых кадра, а изображение будет выводиться с некоторым отставанием от входного потока. Для того чтобы кодек мог быстро включиться в работу с любого места потока, I-кадры должны включаться в поток регулярно (в MPEG-1 — не реже, чем через 0,4 с).

MPEG-1 — стандарт ISO/IEC 11172, принятый в 1992 году. Полное название — «Coding of Moving Pictures and Associated Audio for Digital Storage Media at up to about 1,5 MBit/s» — раскрывает его суть: кодек предназначен для записи и воспроизведения движущихся изображений и связанного с ними аудиосопровождения на цифровом носителе с потоком данных до 1,5 Мбит/с. При этом обес­печивается качество изображения на уровне кассетного видеомагнитофона VHS (Video Home System) со стереофоническим звуковым сопровождением.

Стандарт состоит из 5 частей, описывающих систему, видео, аудио, методику тестирования на соответствие и программы кодера и декодера на языке С. Для получения столь низкой скорости потока из исходного видеопотока берется лишь одно поле (полукадр), а в каждой строке — только половина пикселов, что дает формат кадра 352x240 пикселов с прогрессивной разверткой, 30 кадров в секунду. Поток этих кадров и подлежит сжатию. Увеличение размера декодированного изображения до полного экрана особого смысла не имеет, поскольку может выполняться только масштабированием (размножением пикселов), правда, в более сложных реализациях декодера можно улучшить качество изображения, применяя методы интерполяции. Аудиопоток по сравнению с РСМ сжимается примерно в 6 раз (типовая скорость 256 Кбит/с). Декодер MPEG-1 содержит де-мультиплексор, разделяющий аудио- и видеопотоки, и раздельные декодеры для них. Скорость потока данных позволяет использовать в качестве носителя видеоинформации обыкновенный CD-ROM, поэтому MPEG-1 применяется в дисках CD-i и VideoCD (VCD). Однако декомпрессия требовала большой (по тем временам) мощности процессора (Pentium 133), из-за чего диски CD-i и VCD без специальной платы аппаратного декодера маломощные компьютеры воспро­изводить не могли.

MPEG-2 (ISO/IEC 13818) — кодек для высококачественной передачи изображений, аудиоинформации и данных при потоке 2-80 Мбит/с, обеспечиваю­щий несколько уровней качества. Основной уровень (720 х 480, 30 кадров/с) обеспечивает качество на уровне телевещания, высокие уровни используются в профессиональной видеозаписи. Стандарт предусматривает одновременную передачу множества TV-каналов с возможностью шифрования для ограничения доступа к информации и защиты прав собственности на содержимое потоков. Первые 5 частей стандарта аналогичны MPEG-1, но с новым наполнением. Аудиокодек MPEG-2 представляет собой многоканальное расширение аудиокодека MPEG-1, что обеспечивает их совместимость по первым двум каналам. В аудиокодеке MPEG-2 имеются 2 стереоканала (фронт и тыл), обес­печивающих объемное звучание (Surround), и один низкочастотный с полосой до 100 Гц. Кроме совместимого с MPEG-1, в MPEG-2 входит и «продвинутый» аудиокодек AAC (Advanced Audio Codec), используемый в профессиональной аудиотехнике. Аудеокодек MPEG-1/MPEG-2 стал жить самостоятельной жизнью под именем МРЗ (MPEG-1 Layer 3, см. п. 11.1.2), иногда ошибочно называ­емый MPEG-3 (такого стандарта нет). То, что должно было стать MPEG-3, вылилось в высший уровень MPEG-2. Этот уровень обеспечивает качество телевидения высокой четкости ТВЧ (HDTV — High Definition TV). Таблица 8.1. Уровни качества MPEG-2

Уровень

Размер изображения

Максимальный поток данных, Мбит/с при частоте 30 кадров/с

Low (низкий)

352 х 240

4

Main (основной)

720 х 480

15

High-1440 (высокий)

1440x1152

60

High (высокий)

1920 х 1080

80

Модель взаимодействия компонентов воспроизводящих систем MPEG-1 и MPEG-2 довольно проста — данные от источника через средства доставки поступают на вход демультиплексора, где разделяются на видео и аудиопотоки, обрабатываемые своими декодерами. Информационный поток MPEG-1 сугубо однонаправленный; в MPEG-2 добавляется двунаправленный канал взаимодействия получателя информации с источником данных (сервером вещания) через средства доставки, что обеспечивает интерактивность в смысле выбора передаваемых программ, а также адаптацию передаваемого потока к качеству канала передачи.

MPEG-4 — стандарт, ориентированный на интерактивное использование мультимедиа и сетевых коммуникаций. По сравнению с предыдущими, MPEG-4 устроен гораздо сложнее — аудио-видеоинформация, представляемая конечному потребителю, собирается из различных аудиовизуальных объектов (AVO - Audio-Visual Objects). Эти объекты отображаются на сцене, представляемой конечному потребителю (наблюдателю-слушателю). Сцена представляется дисплеем и многоканальной аудиосистемой. Исходная композиция (расположение объектов на сцене), заданная создателем воспроизводимого произведения, может в широких пределах изменяться пользователем. Объекты, представляемые на сцене, могут быть как естественными, так и синтетическими. Между объектами устанавливаются определенные связи. Интерактивность позволяет управлять как представлением сцены (например, менять ракурс), так и композицией («сборкой», содержанием и поведением объектов на сцене) и, как и в MPEG-2, взаимодействовать с источником данных через средства доставки.

Естественные аудиообъекты — это каналы передаваемого аудиосигнала, сжатого в зависимости от потребностей в качестве и доступной полосы пропускания канала передачи. Уровень качества может быть от телефонного до высокого (каналы с виртуальной скоростью 2-64 Кбит/с). Для каждого уровня качества и занимаемой полосы используется свой метод компрессии/декомпрессии.

Синтетические аудиообъекты образуются из структурированных потоков входных данных. Декодер TTS (Text to Speech) синтезирует речь по потоку текстовых данных, формируя управляющие данные для анимации движения губ. Декодер имеет многонациональную языковую поддержку. Он позволяет управлять тембром и громкостью, делать паузы, «проматывать» вперед и назад. Музыкальным аналогом TTS является интерфейс MIDI, но в MPEG-4 может использоваться и более мощный и точный метод синтеза музыки Score Driven Syntesis. Поток для синтеза музыки содержит команды, описывающие звуковые примитивы, генерируемые с помощью сигнальных процессоров. Таким образом, передаются потоки для всех инструментов оркестра и может быть синтезировано их совместное звучание, которое может оживляться такими деталями, как шум шагов в зале или звук открываемой двери. К аудиообъектам могут быть приложены различные эффекты; аудиообъекты могут привязываться к визуальным объектам и позиционироваться в любой точке сцены (объемной).

Визуальные естественные объекты могут быть текстурами, изображениями и видео. Текстуры предназначены для наложения на каркасные модели, 2D или 3D. Изображения могут просто помещаться в любое место сцены. Видео подразумевает «живое» изображение, но оно может быть и не полноэкранным и не прямоугольным (например, движущийся человек на прозрачном фоне). Визуальные синтетические объекты представляют собой элементы компьютерной графики, получаемые разными способами в векторном или растровом виде. Это могут быть и 2D или 3D каркасные модели, на которые могут быть наложены текстуры (естественные и синтетические). Для повышения качества моделирования живых объектов в MPEG-4 разработана специальная система параметризованного описания человеческой головы, способной изображать различные эмоции, а также воспроизводить движение губ при разговоре. Движение губ может быть связано с воспроизводимым аудиосигналом, привязанным к этому объекту (голове). На модель головы может быть наложена текстура, полученная из изображения лица конкретного человека. Разрабатывается также и специализированная модель человеческого тела.

Для иллюстрации можно представить, к примеру, такую сцену. В синтетичес­кой комнате (трехмерная модель) расположен синтетический диктор (модель), лицо которого является текстурой, сделанной из портрета известного человека. Этот диктор «читает» текст (подсунутый ему пользователем или хакером через сеть), ходит по комнате, по «просьбе» пользователя может остановиться и помолчать или же повторить сказанное. Вся эта синтетика в сочетании с интерактивностью ограничивается малым объемом передаваемых данных — достаточно раз передать описание сцены, диктора и текстуру его лица, после чего требуется передача лишь текста и информации, управляющей движением моделей на сцене.

Визуальная часть MPEG-4 предоставляет инструменты и алгоритмы для эффективной компрессии видео и изображений, текстур для наложения на 2D- и ЗD-сетки (каркасы), самих сеток, потоков геометрических данных, «оживляющих» сетки. Также имеются средства для произвольного доступа ко всем типам объектов, манипулирования изображениями и видеопотоками. Способы кодирования и масштабирования изображений, текстур и видео зависят от типа содержимого. Ядром средств кодирования визуальных объектов является VLBV (Very Low Bit-rate Video) — видео с очень низкой скоростью потока (5-64 Кбит/с), позволяющей передавать маленькие кадры (176x144 пиксела) с темпом 10-15 кадров/с, устойчиво по отношению к ошибкам передачи. Вокруг этого ядра строится интерфейс с высокой скоростью передачи и расширения функци­ональности, позволяющих индивидуально кодировать объекты сцены, что и обеспечивает интерактивность. Полноэкранное изображение приемлемого качества требует скорости порядка 600 Кбит/с. Для программного декодирования (в ре­альном времени) требуется как минимум Pentium II-300. Компрессия в реальном времени может быть реализована, например, на двухпроцессорном компью­тере Pentium II-400. В некоторые современные видеокарты встраивают аппаратные средства декомпрессии MPEG-4; средства синтеза визуальных объектов основаны на вполне уже обычных функциях 2D- и ЗD-акселераторов.

Широкое распространение MPEG-4 во все мультимедийные отрасли может сильно изменить взгляды на способы создания и использования мультимедийной продукции., В MPEG-4 предусматриваются средства контроля за соблюдением прав собственности на произведения, направленные на обеспечение возможности платного распространения, защиту авторских прав и т. п. При необходимости возможности изменения содержимого при воспроизведении тоже должны быть ограничены, чтобы избежать искажения смысла произведения.

MPEG-7 — стандарт описания мультимедийных объектов, обеспечивающий их эффективный поиск.

В персональном компьютере могут присутствовать специальные компоненты для работы с MPEG:

MPEG-плейер — декодер MPEG-1, обеспечивающий воспроизведение с ком­пакт-дисков форматов MPEG-1 (CD-I, VideoCD). Аппаратный декодер является широко распространенным дополнением графического адаптера. В отличие от программных MPEG-декомпрессоров, он обеспечивает высокое качество воспро­изведения с невысокой загрузкой процессора. В состав MPEG-плейера должен входить и аудиодекодер, при этом на графической плате с аппаратным декоде­ром появляется немного неожиданный дополнительный разъем аудиовыхода.

DVD-плейер — декодер MPEG-2, аппаратный или программный, позволяющий воспроизводить видеозаписи с DVD-Video и Super VideoCD. Для программного декодирования требуется как минимум компьютер с процессором Pentium II-266, для аппаратного достаточно Pentium-133.

13