
- •Глава 6. Системы технического зрения
- •6.1. Основные понятия
- •6.2. Основы формирования и передачи изображений
- •6.2.1. Понятие о видеосигнале
- •6.2.2. Принципы кодирования цвета
- •6.3. Датчики изображений
- •6.3.1. Видикон
- •6.3.2. Телекамеры на основе приборов с зарядовой связью
- •6.3.3. Фотодиодные матрицы
- •6.4. Устройства ввода и хранения изображений
- •6.4.1. Принципы хранения изображений
- •6.4.2. Кодирование видеосигнала
- •Форматы хранения изображений в стз
- •6.5.1. Структура графического файла
- •6.5.2. Сжатие изображений
- •6.5.2.1. Сжатие графических файлов
- •Ааааааааааааааа
- •6.5.2.2. Сжатие видеоизображений
- •6.6. Базовые алгоритмы обработки изображений
- •6.6.1. Предварительная обработка изображений
- •6.6.2. Сегментация
- •6.6.3. Кодирование изображений
- •6.6.4. Описание изображений
- •6.7. Распознавание изображений
- •6.7.1. Пример алгоритма распознавания
- •6.7.2. Особенности получения трехмерных изображений
- •Вопросы для самостоятельной подготовки
6.5.2.2. Сжатие видеоизображений
Как известно, видеосигнал состоит из нескольких различных сигналов, объединенных в единое целое. Эта комбинация, называемая композитным видеосигналом редко используется в компьютерном видео. Чаще всего композитный (составной) видеосигнал перед оцифровкой разделяется на базовые компоненты. В «живом» видео применяются цветовые модели YUV, YIQ и YCbCr, позволяющие существенно уменьшить объем данных без ущерба для качества изображения. При анализе подвижных изображений оперируют кадрами или фреймами. Один фрейм видеоданных обычно имеет значительный размер, так, для разрешения 512482 он будет содержать 246784 пикселя. Если каждый пиксель кодируется 3 байтами, то для хранения этого фрейма потребуется 740352 байта памяти. Следовательно, объем памяти, необходимый для хранения 10-секундной видеопоследовательности при скорости воспроизведения 30 фреймов в секунду составит более 220 Мбайт. Для обеспечения эффективной работы с такими массивами изображений в реальном масштабе времени были созданы программные кодеки и спецификация MPEG (динамический или Motion JPEG - Motion Picture Expert Group). Данная спецификация, разработанная экспертной группой ISO (официальное название - ISO/IEC JTC1 SC29 WG11), предназначена для формирования стандартов кодирования и сжатия видео- и аудио-данных. На сегодняшний день известны:
MPEG-1, созданный для записи изображений (обычно в формате SIF, 288358) и звукового сопровождения на CD-ROM с учетом максимальной скорости считывания 1,5 Мбит/с. Качественные параметры видеоданных в этом формате во многом аналогичны стандарту VHS-видео.
MPEG-2, предназначенный для обработки видеоизображений телевизионного качества при пропускной способности канала передачи данных 3 … 15 и до 50 Мбит/с. Технология MPEG-2 применяется в телевещании, спутниковом телевидении и т.д. Благодаря специальной процедуре сжатия полоса частот для передачи одного канала сокращается на 90%, что позволяет, например, по кабельной сети передавать в 10 раз больше программ.
MPEG-3, разработанный для телевизионных систем высокой четкости (high-defenition television, HDTV) со скоростью потока данных 20 … 40 Мбит/с. Позже он стал частью стандарта MPEG-2 и отдельно теперь не упоминается. (Известный формат MP3 - MPEG-Audio Layer-3, не имеющий отношения к MPEG-3, предназначен только для сжатия аудиоинформации).
MPEG-4, задающий общие правила работы с цифровыми видео- и аудиоданными для интерактивного мультимедиа, графических приложений и цифрового телевидения.
Принцип действия MPEG систем основан на сжатии изображений методами субдискретизации и ДКП. Так, рассматривая тот же пример с фреймом 512482 и используя процедуру субдискретизаци 4:1:1, получим поток данных размером 5124823010/8 байт = 9,25 Мбайт/с. Обычно, степень сжатия при подобном внутрифреймовом кодировании колеблется в пределах от 20:1 до 40:1, что зависит от содержимого фрейма. Однако если рассматривать не отдельно взятый фрейм (неподвижное изображение), а совокупность таких фреймов, то можно достичь и более высокой степени сжатия. Действительно, в обычной видеопоследовательности различия между фреймами весьма незначительны. Если же кодировать только те пиксели, которые отличают один фрейм от другого, то объем данных, необходимых для хранения каждого фрейма значительно уменьшится. Этот тип сжатия получил название межфреймового или дельта-сжатия. Так, типичные схемы компенсации движения могут обеспечить степень сжатия 200:1 и выше. Один из подобных способов компрессии, называемый GOP (Groupe of Picture) используется в стандарте MPEG-2. В соответствие с алгоритмом GOP видеосигнал разбивается на три группы кадров:
I-кадр, Intra frame - начальный (исходный) кадр группы, содержащий полную нескомпенсированную информацию о всех деталях изображения. Эти кадры кодируются только с применением внутрикадрового сжатия по алгоритмам, аналогичным JPEG;
P-кадр, Predictive frame - вычисленный (предсказуемый) кадр, содержащий только информацию об изменениях, по сравнению с предыдущими кадрами. Обработка таких кадров производится с использованием предсказания вперед: кадр разбивается на макроблоки 1616 пикселей, каждому макроблоку ставится в соответствие наиболее похожий участок изображения из опорного кадра. Это наиболее скомпенсированный кадр, степень сжатия которого превышает возможную для I-кадров в 3 раза.
B-кадр, Bi-directional frame - кадр, использующий для своего восстановления при воспроизведении информацию как предыдущего, так и последующего кадров. Он кодируются одним из четырех способов: предсказанием вперед; обратным предсказанием, двунаправленным и внутрикадровым предсказанием.
Видеоинформация кодируется последовательностью из 15 кадров, которая имеет следующий вид: I-B-B-P-B-B-P-B-B-P-B-B-P-B-B-I. В этой последовательности I-кадр, начинающий каждую новую группу, является ключевым, поскольку содержит полную информацию об изображении. B и P кадры получаются в предположении, что различия между I-кадрами не слишком велико. Подобное представление весьма эффективно для большинства видеосюжетов. Однако на практике встречаются динамичные сцены, которые приходится кодировать более короткими группами. Кроме того, сюжет может быть насыщен фрагментами, кодирование которых возможно лишь с ухудшением качества. К ним относятся бури, молнии, мелкие детали и т.п.
Решение этой проблемы двояко. Можно временно увеличить поток информации или же применить специальную обработку этих кадров. Оба этих подхода предусмотрены стандартом MPEG-2. (При длительности фильма свыше 120 мин в большинстве случаев применяют кодирование с переменной скоростью). Во всех случаях в процессе кодирования и обработки велико влияние «человеческого фактора».