Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ИТ.doc
Скачиваний:
15
Добавлен:
18.09.2019
Размер:
5.68 Mб
Скачать

3.5. Цифровое видео

Основные принципы

Известны три формы кодирования сигнала телевидения:

  • система PAL (использует большинство стран Европы);

  • Франция, Россия и некоторые восточно-европейские стра­ны используют SECAM. который отличается от системы PAL только в тонкостях, однако этого достаточно, чтобы они были несовместимыми:

  • США и Япония используют систему NTSC.

В системе PAL (Phase-Alternation-Line, чередование строк) каждый законченный кадр заполняется построчно, сверху до­низу.

В Европе используется переменный электрический ток с частотой 50 Гц, и система PAL связана с этим — здесь выполня­ется 50 проходов экрана каждую секунду. Требуется два прохода, чтобы нарисовать полный кадр, так что частота кадров равна 25 кадров/с. Нечетные строки выводятся при первом проходе, четные — на втором. Этот метод называется чересстрочная развертка (interlaced), в противоположность чему изобра­жение на компьютерном мониторе, создаваемое за один проход, известно как без чередования строк (progressive).

Компьютеры, наоборот, имеют дело с информацией в циф­ровой форме. Чтобы хранить визуатьную информацию в цифро­вой форме, аналоговый видеосигнал должен быть переведен в цифровой эквивалент с использованием аналого-цифро­вого и р е о б р аз о в ате л я - ко н в е р те р a (ADC. или АЦП). Процесс преобразования известен как осуществление оцифров­ки, или видеозахват. Так как компьютеры имеют дело с цифровой графической информацией, никакая другая специаль­ная обработка данных не требуется, чтобы в дальнейшем выво­дить это цифровое видео на компьютерный монитор. Однако чтобы отобразить цифровое видео на обычном телевизоре, об­ратный конвертер — цифроаналотовый (DAC или ЦАП), должен преобразовать двоичную информацию в аналоговый сиг­нал. Кроме того, источником видеоинформации в цифровой форме являются цифровые видеокамеры.

Цифровые видеокамеры

Начиная с введения Sony в 1995 г. формата DV и последую­щего почти повсеместного принятия интерфейса IEEE 1394, цифровые видеокамеры стали почти столь же свойственным ПЭВМ атрибутом, как мышь. Массовый пользователь получил доступ к технологии, которая позволила создавать в цифровом формате видеоматериал, качество которого далеко превосходило возможности аналоговых средств, доступных в то время — напо­добие Hi-8 и S-VHS — и превращать его в профессионально вы­глядящее домашнее кино на настольном ПК.

Запись и сохранение видео и аудио в цифровой форме устра­няют возможности для целого диапазона ошибок в изображении и звуке почти тем же образом, как музыкальные компакт-диски изменили к лучшему записи на виниловых дисках (LP). Кассеты цифрового видео не могут быть прочитаны на видеомагнитофо­нах, однако любая цифровая видеокамера имеет обычные, ана­логовые AV-гнезда выхода, что позволяет записанный материал передать на видеомагнитофон либо на телевизор. Поскольку ин­терфейс IEEE 1394 стат вездесущим в области видео потребите­ля, он позволяет передавать видеосигнал от одной цифровой ка­меры к другой, к цифровому видеомагнитофону или на ПЭВМ. В процессе своего развития цифровые видеокамеры все чаще снабжаются аналоговыми звуковыми и видеовходами, позволяя копирование старых записей в анатоговых форматах VHS или 8 мм в формат цифрового видео, и таким образом обеспечивая как архивирование без потерь, так и доступ к мощным средствам редактирования цифрового видео.

Светочувствительная матрица (прибор с заря­довой связью — ПЗС) цифровой видеокамеры — обычно размером в '/4" — собирает и обрабатывает свет, приходящий от объектива, и преобразует его в электрический сигнал. В то время как видеокамеры среднего качества оборудованы единственной ПЗС, модели более высокого ряда используют три матрицы. В этом случае объектив содержит призму, которая расщепляет поступающий свет на три основных цвета, причем каждый по­ступает на отдельную матрицу. Результатом является высокока­чественные цветопередача и качество изображения, заметно луч­шие чем для моделей с единственной ПЗС, хотя и при сущест­венной дополнительной стоимости.

Число пикселей, которые составляют матрицу, может изме­няться от одной модели к другой, однако большее число пиксе­лей не обязательно означает лучшее качество изображения. Мат­рицы в цифровых видеокамерах Canon, например, обычно име­ют намного более низкое число пикселей, чем в моделях JVC или Panasonic, но все же способны к достижению превосходных результатов.

Современные камеры имеют мощные способности «наезда» (трансфокатор), реализованные как путем оптического измене­ния масштаба изображения (обычно 10-х или более), так и циф­рового (до 200-х). Конечно, в этих случаях изображения стано­вятся высокозернистыми и их стабильность становится сущест­венной проблемой. Используются два варианта видоискателя: традиционный окуляр и выдвижной цветовой жидкокристалли­ческий экран, который дополнительно может быть сенсорным, срабатывающим от прикосновения и позволяющим осуществ­лять цифровое увеличение объекта, указанного прикосновением на экране.

Большинство потребительских цифровых камер продаются как единые решения для видео, фото и даже МРЗ и электрон­ной почты. Большинство из них, однако, может захватить фото только с разрешением, характерным для цифрового видео (720 х 576 пикселей, что не дотягивает даже до 1 мегапикселя), которое приходится уменьшать до 640 х 480, чтобы сохранить правильное отношение размеров экрана (3 : 4). Некоторые ви­деокамеры обладают более высоким разрешением для фото, но часто при этом используется интерполяция, чтобы достигнуть указанного разрешения. Видеокамеры на 1,5 мегапикселей по­зволят получить разрешение в 1360 х 1020 для фото. Способ­ность делать запись фотоснимков — также все более популяр­ная особенность профессиональных цифровых видеокамер, не­которые из которых даже способны к настройке датчиков изображения к удобному для компьютера формату сборки кар­тины, что оптимизировано для записи фотоизображения.

Цифровые камеры обеспечивают цифровую или оптическую стабилизацию изображения, чтобы уменьшить колебание, кото­рое неизбежно сопровождает ручную съемку. Цифровая стаби­лизация изображения (Digital image stabilisation — DIS) очень эффективна, но имеет тенденцию уменьшать разрешение карти­ны. поскольку активно используется для записи образа меньший

Число пикселей, которые составляют матрицу, может изме­няться от одной модели к другой, однако большее число пиксе­лей не обязательно означает лучшее качество изображения. Мат­рицы в цифровых видеокамерах Canon, например, обычно име­ют намного более низкое число пикселей, чем в моделях JVC пли Panasonic, но все же способны к достижению превосходных результатов.

Современные камеры имеют мощные способности «наезда» (трансфокатор), реализованные как путем оптического измене­ния масштаба изображения (обычно 10-х или более), так и циф­рового (до 200-х). Конечно, в этих случаях изображения стано­вятся высокозернистыми и их стабильность становится сущест­венной проблемой. Используются два варианта видоискателя: традиционный окуляр и выдвижной цветовой жидкокристалли­ческий экран, который дополнительно может быть сенсорным, срабатывающим от прикосновения и позволяющим осуществ­лять цифровое увеличение объекта, указанного прикосновением на экране.

Большинство потребительских цифровых камер продаются как единые решения для видео, фото и даже МРЗ и электрон­ной почты. Большинство из них, однако, может захватить фото только с разрешением, характерным дтя цифрового видео (720 х 576 пикселей, что не дотягивает даже до 1 мегапикселя), которое приходится уменьшать до 640 х 480, чтобы сохранить правильное отношение размеров экрана (3 : 4). Некоторые ви­деокамеры обладают более высоким разрешением для фото, но часто при этом используется интерполяция, чтобы достигнуть указанного разрешения. Видеокамеры на 1.5 мегапикселей по­зволят получить разрешение в 1360 x 1020 для фото. Способ­ность делать запись фотоснимков — также все более популяр­ная особенность профессиональных цифровых видеокамер, не­которые из которых даже способны к настройке датчиков изображения к удобному для компьютера формату сборки кар­тины, что оптимизировано для записи фотоизображения.

Цифровые камеры обеспечивают цифровую или оптическую стабилизацию изображения, чтобы уменьшить колебание, кото­рое неизбежно сопровождает ручную съемку. Цифровая стаби­лизация изображения (Digital image stabilisation — DIS) очень эффективна, но имеет тенденцию уменьшать разрешение карти­ны. поскольку активно используется для записи образа меньший процент датчиков (остальные заняты стабилизационной обра­боткой). Оптическая стабилизация изображения (Optical image stabilisation — OIS) использует призму, которая компенсирует колебания регулировкой пути светового луча, проходящего через систему линз камеры. Оба метода достигают примерно одной и той же степени видимой стабильности, но OIS, возможно, луч­ше, так как не уменьшает разрешение.

Форматы цифрового видео

VCD. Формат VideoCD был создан, чтобы обеспечить диало­говую среду, которая была бы недорога для копирования, под­держивала полный экран и видео полного движения и функцио­нировала бы в широком диапазоне различных платформ ПЭВМ, телевидения, игровых приставок или мультимедийного оборудо­вания.

В середине 1993 г. Philips. Sony, Matsushita и JVC согласова­ли спецификации VideoCD, позже получившие известность как «Белая Книга». Стандарт использует определения, описанные в стандартах «красной» (CD-DA) и «желтой» (CD-ROM) книг и вводит дополнительную гибкость, чтобы учесть защиту автор­ского права, вставки библиографической информации, абстракт­ных данных, компьютерных программ, обеспечить диалоговый контроль в течение воспроизведения.

Формат стал чрезвычайно популярным в Азии, и начиная с середины 1990-х гг. почти все гонконгские фильмы были дос­тупны на VCD, а по сделанной в конце тысячелетия оценке, только в Китае ежегодно производились более чем 2 млн плейе­ров VCD. Формат никогда не завоевыват популярность на запа­де и остается малоизвестным в Северной Америке и Европе.

VCD использует CD-ROM ХА Mode 2, чтобы делать запись первой дорожки диска (Track 1). который содержит файловую структуру ISO 9660 и информационную область. Файловая сис­тема ISO может также включать расширения Joliet, чтобы под­держивать длинные имена файлов Windows.

VCD 1.1 поддерживает понятие выбираемых треков, но толь­ко в VCD 2.0 версии (1995 г.) поддерживалась полная интерак­тивность через дистанционное управление. VCD 2.0 позволяет организовать до 98 треков, каждый из которых может быть ин­дексирован в 99 сценах. Каждый трек может содержать и вое- производить сцены, которые могут быть видео, звуковыми или фотоизображениями. В основном этот формат можно трактовать как Audio CD с дополнением видео или фотофрагментами и средствами навигации по содержанию.

Стандарт поддерживает обратную совместимость, так что версия 1.1 VCD работает в плейерах версии 2.0. VCD имеет вме­стимость до 74/80 минут (на носителе 650/700 Мбайт соответст­венно) видео полного движения, сопровождаемого стереозвуком. Используется технология сжатия MPEG-1 для обеспечения ка­чества видео, эквивалентного пленке VHS или аудио CD-DA. Таблица 3.3 содержит ключевые характеристики вариантов VCD-стандарта.

Таблица 3.3. Характеристики различных вариантов формата Video CD

Параметры

Стандарт

PAL

NTSC

NTSC Film

Разрешение

352 х 288

352 х 240

352 х 240

Частота кадров, 1 /с

25

29,97

23,976

Скорость передачи видео, кбит/с

1150 MPEG-1

1150 MPEG-1

1150 MPEG-1

Звук

44,1 кГц стерео, кодирован в MPEG-1 Level 2 формат, скорость - 224 кбит/с

Общая скорость передачи

1394,40 кбит/с

SVCD. Выпушенный в 1998 г. консорциумом, который вклю­чал Philips, Sony, Matsushita и JVC, формат «VCD Высшего каче­ства» (SuperVCD) — впоследствии стандартизированный как ISO IEC 62107 — является естественным развитием стандарта VCD. Основное различие в том. что для видеопотока используется ко­дирование MPEG-2 (вместо MPEG-1), которое обеспечивает бо­лее высокое разрешение и скорость, а также поддерживает суб­титры и переменную скорость видеопотока. Как последствие, SVCD способен к показу в 2 раза более четких видеоизображе­ний, чем его предшественник, за счет уменьшенной вместимо­сти (35 и 80 мин на диск в зависимости от средней используемой битовой скорости).

Формат имеет обширную поддержку субтитров и режима ка­раоке. Видеопоток SVCD может содержать до четырех независи­мых каналов субтитров для различных языков, которые накла­дываются на видеоизображения в процессе воспроизведения и могут подключаться или удаляться по желанию. Так как субтит­ры сохранены как битовая графика, они не привязаны к како­му-то специфическому набору символов. Наконец, SVCD стан­дарт поддерживает гиперсвязи типа HTML, позволяет подклю­чать фотографии, автоматическое проигрывание слайдов и музыкальных фрагментов, поддерживает многоуровневые иерар­хические меню и оглавления (индексацию). Характеристики формата приведены в табл. 3.4.

Таблица 3.4. Характеристики SVCD

Видеосигнал

Стандарт

MPEG-2

Скорость передачи

Переменная до 2,6 Мбит/с

Разрешение NTSC

480 х 480 с перекрытием, 29,97 Гц

Разрешение PAL

480 х 576 с перекрытием, 25 Гц

Фотография

Стандарт

MPEG-2 ,1 Frame

Разрешение NTSC

480 х 480, 704 х 480

Разрешение PAL

480 х 576, 704 х 576

Звуковой сигнал

Стандарт

MPEG-1, layer II

Частота оцифровки

44,1 кГц

Скорость передачи

От 32 до 384 кбит/с

Число каналов

До 2 стерео или 4 моно

Звуковое окружение

MPEG-2 (5.1)

XVCD и XSVCD (extended VCD и extended SVCD - расши­рения соответственно) являются неофициальными вариантами стандартов VCD и SVCD, предназначенными, чтобы достигнуть улучшенного качества изображения, например, увеличивая бито­вую скорость (битрейт) в соответствии с более быстрой способно­стью передачи данных современными накопителями CD-ROM. XSVCD работает на принципах, обычных для уровня DVD, что обеспечивает скорость, близкую к DVD-Video (до 9,8 Мбит/с — поддерживает полное разрешение DVD в дополнение к обычному для SVCD 480 X 576/480 х 480).

DivX. Формат DivX базируется на видеотехнологии MPEG-4 с дополнением звукового потока МРЗ. Поскольку сжатый в форма­те DivX кинофильм составляет от 10 до 20 % размера оригинала DVD (обычно 5 Гбайт). 80—90 минутное DVD-кпно занимает приблизительно 650 Мбайт в разрешении 640 х 480 — фильм Гол­ливуда может вообще поместиться на единственном CD-ROM. Единственным весомым недостатком является то. что не преду­смотрено возможности развернуть изображение формата 16 : 9 до 4 : 3. Просмотр осуществляется на широко распространенном Windows Media Player (Microsoft) с НебИвших® Добавлениями.

К концу 2001 г. появилась новая версия DivX — проект с от­крытыми исходными программами кодека, известный как «Project Мауо» или как «OpenDivX» или «DivX для Win- dows/Linux/Мас». В отличие от оригинала DivX. OpenDivX не имеет ничего общего с Microsoft. Однако, подобно его предше­ственнику, он также базируется на формате сжатия MPEG-4.

Формат DV. Panasonic и Sony были первыми, кто использо­вал стандарт цифрового видео на своих видеокамерах, и хотя он и не был первоначально предназначен для профессионального использования, обе компании впоследствии объявили их собст­венные расширения для стандарта — Panasonic DVCPRO в 1995 г., a Sony — DVCAM в 1996 г. Однако оба изготовителя придерживались формата MiniDV для производимого цифрового оборудования.

Формат DV использует пленку с металло оксидным напыле­нием ширины '/4" (6,35 мм), способную к записи до 3 часов ви­део в стандартном режиме (standard play, SP) на кассете, которая имеет размеры 125 х 78 х 14,6 мм.

Технически DV использует дискретное косинус-преобразова­ние, используя процесс с тремя стадиями. Первая стадия ис­пользует DCT-сжатие, удаляющую информацию, которая не мо­жет быть замечена человеческим глазом. При этом в каждом пикселе отделяют цветовую и яркостную информацию, что со­кращает данные на одну треть. Затем сигнал RGB преобразуется в YUV — Y для яркости и U и V для цвета, по формуле YUV 4:2:2. Затем цифровой видеокодек оптимизирует формулу к YUV 4:2:0, связывая цветовую информацию от смежных пик­селей в блоки 4x4. Датее, система аппаратного сжатия, разме­ренная на камере, сжимает видео с использование алгоритма, подобного M-JPEG.

Система DV отличается способностью записи различных час­тей каждого кадра с различной степенью сжатия. Так, синее небо в фоне изображения может быть сжато, скажем, к 25 : 1, в то вре­мя как лес на переднем плане, который нуждается в большем ко­личестве деталей, только до 7 : 1. Этим способом цифровое видео может оптимизировать видеоструктуру потока кадров. Наоборот, M-JPEG должен иметь установленную норму сжатия для видео в целом и не может разумно регулировать сжатие каждого изобра­жения. Кроме того, также используется техника, известная как адаптивное межстрочное сжатие, которое заключается в том, что перекрывающиеся строки кадра (как в PAL. например) соединя­ются в одну, если различие между ними невелико. В теории это означает, что сцены с меньшим количеством движения обраба­тываются лучше, чем быстрые сцены. Номинальный поток дан­ных DV — 25 Мбит/с, который увеличивается до 36 Мбит/с с учетом аудио и различных средств управления данными и кор­рекции ошибок.

Mini-DV (мини-цифровое видео). Главное преимущество формата MiniDV состоит в том, что лента, являющаяся '/12 от размера стандартной пленки VHS. позволяет сделать запись 1 часа в формате SP или до 90 мин более низкого качества выхода в «долгоиграющем режиме» (long play, LP) при горизонтальном разрешении до 500 линий. Видеокамеры этого формата являются часто достаточно маленькими, чтобы удобно размешаться в ла­дони руки.

Digital8. Введенный в начале 1999 г., формат видеокамеры Sony Digital8 может рассматриваться как шаг между 8 мм или Hi-8 и MiniDV. Запись здесь производится почти в том же са­мом качестве как для MiniDV, но на ленты 8 мм и Hi-8, которые имеют размер '/4 размера VHS и вместимость до 1 часа. Фор­мат — хороший выбор для тех, кто переходит к.цифровой видео­камере, так как видеокамера Digital8 может также воспроизво­дить старые записи аналоговых видео на 8 мм и Hi-8;

MICROMV. В 2001 г. Sony объявила ряд цифровых видеока­мер MICROMV, использующих формат сжатия MPEG-2 при за­писи сигналов качества DV на ленты, размер которых составляет 70% от кассет MiniDV. При скорости в 12 Мбит/с ультраком­пактный формат MICROMV имеет битовую скорость, вполовину меньшую, чем для miniDV, что делает редактирование видео на ПЭВМ намного менее ресурсопоглощающей задачей.

Форматы DVD

Фирма Hitachi объявила первую цифровую видеокамеру, способную к записи на носитель DVD (в данном случае это был DVD-RAM) летом 2000 г.. что было очередным шагом в движе­нии видеоприложений к области ПЭВМ. Важное преимущество формата DVD — способность к прямой выборке видео и непо­средственному переходу к определенным сценам видеозаписи, экономя время и ресурсы, затрачиваемые на запись/редактиро­вание.

DVD видео. Видео DVD обычно кодируются в формате MPEG-2. MPEG-2 предлагает более высокую степень сжатия, чем MPEG-1, и приводит к намного более четкому и чистому изображению (табл. 3.5). Раскодированный из MPEG-2 видео­сигнал обычно использует 480 горизонтальных строк в кадре (или 720 х 480 пикселей) по сравнению с 425 строками для CD-видео и 250—270 строками для VHS-видео.

Таблица 3.5. Параметры кодирования видеосигналов для DVD video

Параметры

MPEG-2

MPEG-1

720 х 576

Разрешение PAL/' SECAM

704 х 576 352 х 576 352 х 288

352 х 576 352 х 288

720 х 480

Разрешение NTSC

704 х 480 352 х 480 352 х 240

352 х 480 351 х 240

Переменная битовая скорость (VBR), постоянная битовая скорость (CBR)

VBR или CBR

CBR

Частота кадров PALySECAM, 1/с

25

Частота кадров NTSC, 1/с

24 или 30

Переменная битовая скорость (VBR) позволяет достичь бо­лее высокого качества изображения и более низкой средней ско­рости передачи информации в битах, при этом используется больше данных для кодирования тех частей видеопоследователь­ности, которые более сложны и плохо сжимаются. При исполь­зовании постоянной битовой! скорости (CBR) скорость передачи данных должна быть достаточно высокой, чтобы одинаково хо­рошо кодировать все сцены видео.

Ранние диски DVD-ROM использовали два метода для запи­си MPEG-2 видео:

  • аналоговый оверлей (наложение видеоизображений или просто оверлей);

  • метод встраивания VGA. иногда упоминаемый как Videolnlay.

Оба метода отображают видео в окне или полном экране, но они реализуют различные подходы. Videolnlay использует графи­ческий адаптер PC. чтобы масштабировать видео и вывести его на монитор. Оверлейные платы обеспечивают масштабирование собственными аппаратными средствами и выводят видео само­стоятельно, встраивая его в графический выводом, который при­ходит от платы VGA. При использовании этих плат дополни­тельный кабель соединяет выход адаптера VGA с вводом на пла­те декодера.

Главный недостаток подхода Videolnlay — нагрузка на систе­му. При проходе сцен, закодированных с высокой скоростью пе­редачи информации, метод Videolnlay может перегрузить инфор­мацией старые, более медленные адаптеры дисплея, что может потребовать сокращения горизонтальной разрешающей способ­ности для получения приемлемого изображения.

Требуя немного большего количества усилий по установке и конфигурированию, платы наложения видеоизображений требу­ют меньше системных ресурсов и допускают более широкое раз­нообразие аппаратных средств. В то время как видеовывод мо­жет быть менее четким, чем в случае встраивания VGA, наложе­ние видеоизображений имеет то преимущество, что может дать приличное качество фактически с любыми видеоплатами.

Односторонний (DVD 5) диск может вместить ти­пичный кинофильм, длительность которого составляет в сред­нем 133 минуты. MPEG-2 кодирование использует сжатие с по­терями. которое удаляет избыточную информацию (например, неизменяющиеся области изображения) и информацию, кото­рая не воспринимается человеческим глазом. Выходной видео­сигнал, особенно когда он сложен или содержит быстрые изме­нения, может иногда включать визуальные недостатки в зависи­мости от качества обработки и коэффициента сжатия. При использовании сжатия MPEG-2 полномасштабное изображение требует минимальную скорость передачи данных 3500 кбит/с. Звуковое окружение — центральный, левые, правые, лево-тыло­вые и право-тыловые каналы, плюс ненаправленный басовый громкоговоритель — требует дополнительно еще 384 кбит/с. Если учесть добавочную память для фонограмм дублирования на различных языках и титров, необходимо увеличение скоро­сти до 4,692 кбит/с (минимум 4 Мбит/с. требуемых для высоко­качественных результатов). Окончательный итог — требование размера памяти в 4,68 Гбайт.

Более высокие скорости передачи данных могут привести к повышению качества, почти неотличимому от оригинала, при скоростях более чем 6 Мбит/'с. С развитием MPEG-технологий сжатия лучшее качество достигается при более низких скоро­стях. Кроме того, DVD-видео обычно поддерживают множест­венные коэффициенты сжатия, позволяя при просмотре выбрать по меньшей мере из пары широкоэкранных форматов (например 16:9 или более обычного 4 : 3). Кроме того, DVD-видео также обычно позволяет выбрать один из восьми языков и предостав­ляет 32 различных набора субтитров.

Для двухслойного (DVD 9) диска вместимость увели­чивается до 240 мин. Двусторонний однослойный д и с к (D V D 10) будет вмешать немного больше (около 266 ми­нут), но он должен быть перевернут, чтобы была доступна вторая сторона. Многие производители видео DVD используют двусто­ронние диски, помещая версию, отформатированную для нор­мального телевидения или монитора с экраном 4 : 3 на одной стороне и широкоэкранную версию, отформатированную для эк­рана 16 : 9 — на другой.

Существуют два способа записи двухслойных DVD — па­раллельный проход дорожки (Parallel track path — РТР) и противоположный проход дорожки (Opposite track path — OTP). В дисках РТР оба слоя считываются от внутренней части диска к внешней, тогда как в диске OTP сначала считывается внешний слой от внутренней части к внешней, а затем — внут­ренний слой обратным ходом. Это позволяет дисководу читать оба слоя почти непрерывно, с коротким перерывом, чтобы пере­фокусировать линзу лазера.

В 1998 г. Цифровой Видео Экспресс (DVE) — партнерство между одним из крупнейших американских розничных продав­цов электроники, Circuit City, и видной Лос-анджелесской юри­дической фирмой — объявил альтернативный формат DVD-ви- део, использующий подход «оплата за использование» при про­смотре фильмов, и быстро получил поддержку таких ведущих студий, как Disney, Paramount. Universal и MGM.

Региональное кодирование

Поскольку обычно выход фильма на экраны не является од­новременным (фильм может выйти на видео в США, когда толь­ко выходит на экраны в Европе), киностудии хотят контролиро­вать выпуск видеокопий в различных странах. Поэтому потребо­валось, чтобы стандарт DVD включал коды, которые могут предотвратить воспроизведение некоторых дисков в определен­ных географических областях (регионах). Каждый видеопроиг­рыватель получает код для региона, в котором он продан. Это означает, что диски, купленные в одной стране, не могут считы- ваться на плейерах, купленных в другой стране.

Региональные коды являются дополнительными для изгото­вителя диска и отсутствие кода означает отсутствие региональ­ных ограничений. Это — не система кодирования, а только ин­формационный байт, обозначающий восемь различных регио­нов, который проверяется при проигрывании диска (табл. 3.6).

Таблица 3.6. Региональное кодирование DVD

Номер региона

Регион

1 США, Канада, американские территории

2

Япония, Европа, Южная Африка и Ближний Восток (включая Египет)

3

Юго-восточная Азия и Восточная Азия (включая Гонконг)

4

Австралия, Новая Зеландия, Тихоокеанские острова, Центральная Америка, Мексика, Южная Америка и Карибское море

5

Восточная Европа (прежний Советский Союз), индийский субконтинент, Африка, Се­верная Корея и Монголия

6

Китай

7

Зарезервирован

8 Специальные международные места встречи (самолеты, круизные суда и т. д.)

В сводной табл. 3.7 приводятся основные технические харак­теристики цифровых видеоформатов, перечисленных выше.

Таблица 3. 7. Характеристики основных видеоформатов

Формат

парами фы

VCD

SVCD

X(S)VCD

DivX

DV

DVD

Формат стандартен?

Да

Да

Нет

Нет

Да

Да

Разрешение

NTSC

PAL

352 х 240 352 х 288

480 х 480 480 х 456

720 х 480 720 х 576 или меньше

640 х 480 или меньше

720 х 480 720 х 576

720 х 480 720 х 576

Видеосжатие

MPEG-1

MPEG-2

MPEG-1 или MPEG-2

MPEG-4

DV

MPEG-2

Аудиосжатие

MPEG-1

MPEG-1

MPEG-1

МРЗ WMA

DV

MPEG-2 АС-3

Скорость, Мбайт/мин

10

10-20

5-20

1-10

216

30-70

Совместимость DVD-плейеров

Очень хорошая

Хорошая

Хорошая

Нет

Нет

Отличная

Интенсивность загрузки ЦП

Низкая

Высокая

Высокая

Очень высокая

Высокая

Очень высокая

Качество

Хорошее

Очень хорошее

Очень хорошее

Очень хорошее

Отличное

Отличное

Видеоредактирование

Известны два типа видеоредактирования. Первый заключа­ется в редактировании при переписывании одной ленты на дру­гую и называется линейным редактированием. Второй требует, чтобы редактируемые видеопоследовательности были вначале помещены на жесткий диск, затем отредактированы и возвраще­ны на пленку. Этот метод известен как нелинейное редактирова­ние (HJIP, NLE). Для нелинейного редактирования видеопереда­чи карты захвата переводят видео в цифровую форму на жесткий диск ПЭВМ и при этом функция редактирования выполняется полностью на ПЭВМ, почти так же, как редактируется документ в текстовом редакторе. Носители могут быть дублированы и многократно использоваться по мере необходимости, сцены мо­гут быть перестроены, добавлены или удалены в любое время в течение процесса редактирования (рис. 3.12, 3.13).

Широкое распространение НЛР началось в начале 1990-х гг., что связано с появлением все более вместительных, быстрых и дешевых НЖМД, с разработкой все более мощного программно-

JSjxj

;35пгск: Xi Z' Jl ^' J> j У■ ■ - \ I... j 5П!Т_03_МШ... j Pinnacle St...

Рис. 3.13. Установка параметров программного средства Pinnacle Studio 9, предназначенного для видеозахвата, редактирования (НЛР) и вывода в файл

видеопотока

го обеспечения редактирования видео, получило мощную под­держку в 1995 г. с появлением формата DV Sony.

НЖМД Цифровой

видеомагнитофон

Рис. 3.12. Цифровое видеоредактирование

ПЭВМ

Хотя видеоформат MPEG-2 уже нашел широкое использова­ние в распространении информации, проблемы возникли в про­изводстве и при редактировании видео. Если необходимо сделать вырезку из потока данных, то может оказаться, что В-кадры или Р-кадры (см. ниже, п. 3.6) будут отделены от структур, к которым они относятся, и их соответствие нарушится. В результате видео в формате MPEG-2 необходимо восстанавливать в несжатую (ис­

ходную) форму перед редактированием, или же редактирование видео приходится производить в несжатой форме и откладывать MPEG-кодирование на самый последний момент. Так, в частно­сти строится работа с программным продуктом Pinnacle Studio 9 (рис. 3.13. 3.14). Здесь последовательно осуществляется видеозах­ват (рис. 3.13), разбиение на сцены (материал сохраняется в сла­босжатой форме формата AVI — при качестве DV — 3,8 Мбайт/с, при качестве MPEG — 0,76 Мбайт/с), затем происходит форми­рование выходного видеопотока, который выводится в файл MPEG-1, MPEG-2 или какого-либо другого формата.

аВ'1у«| Zl£'A% * Ир ; Ag-JSIS.Jj' j^wniKle •- Щ^.гтмг-Паг j ч '-SO- !-м

Рис. 3.14. Экран Pinnacle Studio 9 редактирования (НИР) и вывода в файл

видеопотока:

/ — сцены входной записи; 2 — просмотр текущей сцены; J сцены, включен­ные в выходной видеопоток

Некоторые изготовители пытались разработать системы MPEG-2, допускающие редактирование без ограничений. Напри­мер, компания Sony предложила специальный формат под назва­нием SX для профессиональных цифровых видеокамер и видео­магнитофонов, который использует очень короткие GOP, или группы кадров (четыре или меньше кадров), включающие только I- и Р-кадры (см. ниже, п. 3.6). При этом скорость передачи со­ставляет 18 Мбит/с, что эквивалентно сжатию 10 : 1, но качество

изображения сопоставимо с M-JPEG при 5:1. Позже фирма Pinnacle разработала методы редактирования коротких GOP, IP-кадров MPEG-2 с использованием своей карты видеозахвата DC 1000 в системе Adobe Premier. Pinnacle утверждает, что ее карта требует только половину полосы пропускания эквивалентного M-JPEG видео, позволяя одновременно обрабатывать два видео­потока на дешевой платформе с небольшим объемом памяти.

Сталкиваясь с проблемой редактирования MPEG-2, изгото­вители видеопродукции, входящие в комитет ProMPEG, предло­жили профессиональную версию, известную как MPEG-2 4:2:2 Profile@Main Level (см. ниже, табл. 3.8). Здесь используются только I-кадры, что дает более высокие скорости передачи дан­ных — до 50 Мбит/с. Формат был одобрен Европейским радиове­щательным союзом (European Broadcasting Union) и его амери­канским партнером — Обществом инженеров телевидения и ки­нематографии (Society of Motion Picture Television Engineers — SMPTE), для широкого диапазона применений в производстве видеопродукции. Хотя здесь и нет никакого преимущества в ши­рине полосы пропускания перед M-JPEG, а преобразование по­токов к другим форматам MPEG-2 и обратно требует перекоди­рования, эта версия MPEG-2 (только I-кадры) — согласованный стандарт, позволяющий передавать материал между различными системами. По контрасту NLE-системы, которые используют M-JPEG, имеют тенденцию использовать немного различающие­ся форматы файлов, что делает их несовместимыми.

Несмотря на все их преимущества, файлы в сжатых форма­тах остаются все еще довольно большими и поэтому нуждаются в быстром интерфейсе для их передачи между видеокамерой и ПЭВМ. К счастью, решение этой проблемы существовало уже в течение ряда лет. Технология интерфейса FireWire была первоначально предложена Apple Computer, но затем утверждена как международный стандарт IEEE 1394.

Когда этот интерфейс был разработан, цифровое видео было в младенческом состоянии и еще не существовало массовой по­требности в такой быстрой технологии интерфейса, поэтому в течение нескольких лет интерфейс FireWire был решением про­блемы, которая еще не возникла. Первоначально представляя сектор высоких технологий цифрового видеорынка, системы ре­дактирования IEEE 1394 постепенно следовали за цифровыми видеокамерами в сферу потребителя. Так как FireWire передает видеоданные в сжатом цифровом состоянии, копии, сделанные в этом методе, теоретически должны быть точными клонами оригинала. В большинстве случаев это верно. Однако, поскольку процесс копирования осуществляет эффективную маскировку ошибок, он не использует никаких методов их исправления. Следовательно, есть вероятность возникновения провалов (де­фектов) для видео и звуковых данных приблизительно после полдюжины поколений копирования. Поэтому предпочтитель­ная практика состоит в том. чтобы везде, где это возможно, из­бегать делать копии с копий.

К концу 1998 г. системы редактирования, основанные на IEEE 1394, оставались дорогими и ориентировались в основном на профессиональный сектор рынка. Однако с увеличением мас­штаба работ с аудио, видео и другими, более общими типами дан­ных, производители ПЭВМ в сотрудничестве с такими потребите­лями, как Sony, стати включать интерфейсы IEEE 1394 в системы ПЭВМ, чтобы обеспечить связь, управление и обмен цифровыми, звуковыми и видеоданными.'Пока еще не вездесущий, интерфейс стал намного более обычным к начату 2000-х гг., не в последнюю очередь благодаря усилиям специалистов Creative, которые фак­тически обеспечили «свободный» адаптер FireWire для линейки звуковых карт Audigy, введенных в конце 2001 г.

3.6. Элементы технологии алгоритмов MPEG

Стандарт MPEG-2

Рассмотрим в качестве примера стандарт MPEG-2, который состоит из трех основных частей: системной, видео и звуковой.

Системная часть описывает форматы кодирования для мультиплексирования звуковой, видео- и другой информации, рассматривает вопросы комбинирования одного или более пото­ков данных в один или множество потоков, пригодных для хра­нения или передачи.

Системное кодирование в соответствии с синтаксическими и семантическими правилами, налагаемыми данным стандартом, обеспечивает необходимую и достаточную информацию, чтобы синхронизировать декодирование без переполнения или «недо­полнения» буферов декодера при различных условиях приема или восстановления потоков.

Таким образом, системный уровень выполняет пять основ­ных функций:

  • синхронизацию нескольких сжатых потоков при воспроиз­ведении;

  • объединение нескольких сжатых потоков в единый поток;

  • инициализацию для начала воспроизведения;

  • обслуживание буфера;

  • определение временной шкалы.

Видео часть стандарта описывает кодированный би­товый поток для высококачественного цифрового видео. MPEG-2 является совместимым расширением MPEG-1, он под­держивает чересстрочный видеоформат и содержит средства для поддержки ТВЧ (телевидение высокой четкости).

Стандарт MPEG-2 определяется в терминах расширяемых профилей, каждый из которых, являясь частным случаем стан­дарта, имеет черты, необходимые всем классам приложений.

Иерархические масштабируемые профили могут поддержи­вать такие приложения, как совместимое наземное многопро­граммное ТВ (ТВЧ), пакетные сетевые видеосистемы, обратную совместимость с другими стандартами (MPEG-1 и Н.261) и при­ложениями, использующими многоуровневое кодирование.

Звуковая часть стандарта MPEG-2 определяет кодиро­вание многоканального звука. MPEG-2 поддерживает до пяти полных широкополосных каналов плюс дополнительный низко­частотный канат и (или) до семи многоязычных комментатор­ских каналов. Он также расширяет возможности кодирования моно-и стереозвуковых сигнатов в MPEG-1 за счет использова­ния половинных частот дискретизации (16; 22,05 и 24 кГц) для улучшения качества при скоростях передачи 64 кбит/с и ниже.

JPEG-форматы (M-JPEG CinePack) основаны на сжатии каж­дого кадра из видеопоследовательности. Этот подход получил на­звание intraframe compression (внутрикадровое сжатие). Стандарт MPEG использует как intraframe. так и interframe compression (межкадровое сжатие). При межкадровом сжатии задаются опор­ные кадры, а последующие и предыдущие вычисляются на их ос­нове. Поэтому межкадровая схема позволяет достичь большего сжатия — не надо хранить каждый кадр, запоминаются только различия между кадрами.

Стандарт MPEG-2 не регламентирует методы сжатия видео­сигнала, а только определяет, как должен выглядеть битовый по­ток кодированного вилеосигната, поэтому конкретные алгорит­мы являются коммерческой тайной фирм—производителей обо­рудования. Однако существуют общие принципы, и процесс сжатия цифрового видеосигнала может быть разбит на ряд по­следовательных операций (рис. 3.15):

  • преобразование анатогового сигнала в цифровую форму;

  • предварительная обработка;

  • дискретное косинусное преобразование:

  • квантование;

  • кодирование.

После аналого-цифрового преобразователя (АЦП) произво­дится предварительная обработка сигнала, которая включает в себя следующие преобразования.

  1. Удаление избыточной информации. Например, если фон изображения состоит из идентичных символов (пикселей), то совершенно не обязательно их все передавать. Достаточно опи­сать один пиксель и послать его с сообщением о том, как часто и где он повторяется в изображении.

  2. Если исходное изображение передается в виде чересстроч­ных полей, то они преобразуются в кадры с прогрессивной раз­верткой.

  3. Сигналы цветности (RGB) преобразуются в цветоразност- ные сигначы U и V и сигнал яркости Y.

  4. Изображение достраивается до кратного 16 количества пикселей по строкам и столбцам, чтобы обеспечить разбиение изображения на целое число макроблоков.

Сжатые данные

Рис. 3.15. Блок-схема оборудования сжатия видеоизображения

5. Производится преобразование из формата цветности 4 : 4 : 4 в формат 4:2:2 (горизонтальная передискретизация цве- торазностных компонентов) или 4:2:0 (горизонтальная и вер­тикальная передискретизация цветоразностных компонентов).

Квантование. Изображение разбивается на последова­тельность макроблоков, каждый из которых состоит из шести блоков по 8 х 8 пикселей:

  • четыре образуют матрицу 16 х 16 и несут информацию о яркости;

  • по одному — определяют цветоразностные компоненты U и V, которые соответствуют области изображения, покры­ваемой матрицей 16x16 пикселей.

Стандарт предусматривает два формата цветности, каждому из которых соответствует свой порядок блоков в макроблоке (рис. 3.16):

  • 4:2:0 — макроблок состоит из шести блоков — четыре блока яркости YD и два блока цветности CR И Св;

  • 4:4:4 — макроблок состоит из двенадцати блоков. Он со­держит четыре блока YD, четыре CR и четыре Св.

Производится разбиение потока кадров изображения по ти­пам, для них находятся векторы движения, которые необходимы для повышения предсказуемости величин элементов изображе­ния. Векторы движения обеспечивают компенсацию пере-

yd

Формат 4:2:0

Рис. 3.16. Разбивка изображения на блоки в MPEG-2

мещений в прошедших и последующих кадрах. Компенсация движения применяется при предсказании текущего кадра на ос­нове предыдущих и интерполяционного предсказания на основе прошедших и последующих изображений. Векторы движения определяются для каждой зоны изображения с размерами 16 х 16 пикселей, т. е. для макроблоков. В большинстве случаев видеопоследовательности содержат избыточность в двух направ­лениях — временном и пространственном. Главное статистиче­ское свойство, на котором основана аппаратура сжатия, — меж­элементная корреляция, включающая предположение о корре­лированное™ последовательных кадров видеоданных. Таким образом, значения отдельных пикселей изображения могут быть предсказаны либо по значениям ближайших пикселей внутри одного кадра (внутрикадровое кодирование), либо по значениям пикселей, расположенных в ближайших кадрах (межкадровое кодирование и компенсация перемещения).

Кодирование. В некоторых случаях, например, при сме­не видеосцены в видеопоследовательности, временная корреля­ция между ближайшими кадрами очень низка. В таких случаях решающую роль в достижении эффективного сжатия видеоин­формации играет внутрикадровая корреляция, т. е. пространст­венная корреляция пикселей изображения. Однако, если корре­ляция между последовательными кадрами видеоданных высока, то в случае, когда два последовательных кадра имеют схожее или одинаковое содержание, желательно применение межкадровой корреляции пикселей с временным предсказанием. На практике для достижения высокого коэффициента сжатия видеоинформа­ции используется комбинация из двух подходов.

Стандарт MPEG-2 определяет три типа кадров, для каждого из которых предусмотрен свой вид кодирования:

  • опорные кадры, так называемые 1-кадры (Intra Frames), ко­торые являются основными и кодируются без обращения к другим кадрам, т. е. с использованием информации только этого кадра. Вид кодирования — внутрикадровый, обеспе­чивающий умеренное сжатие. Все остальные кадры анали­зируются процессором, который сравнивает их с опорны­ми, а также между собой;

  • Р-кадры (Predicted) — закодированные относительно пре­дыдущих I- или Р-кадров. Кодирование Р-кадров выполня­ют с использованием алгоритмов компенсации движения и предсказанием «вперед» по предшествующим I- и Р-кад- рам. Они сжаты в 3 раза сильнее, чем I-кадры, и служат опорными для последующих Р- и В-кадров. Компенсация движения, применяемая к макроблокам Р-кадров, выраба­тывает два вида информации: векторы движения (разница между базовыми и кодированными макроблоками) и зна­чения ошибок (разница между предсказанными величина­ми и действительными результатами). Если макроблок в Р-кадре не может быть описан с использованием компен­сации движения, что случается при появлении некоторого неизвестного объекта, то он кодируется тем же способом, что и макроблок в 1-кадре;

• В-кадры (Bidirectionally Predicted) — закодированные отно­сительно предыдущих и последующих кадров, т. е. с двуна­правленным предсказанием и компенсацией движения. В-кадры имеют наибольшее сжатие.

Таким образом, в стандарте MPEG-2 используются три вида кодирования: внутрикадровое. межкадровое «вперед» с компен­сацией движения, межкадровое двунаправленное, также с ком­пенсацией движения.

Полученные кадры объединяются в группы последова­тельных кадров (GOP — group of pictures). Каждая последо­вательность начинается с I-кадра и состоит из переменного числа Р- и В-кадров. В описаниях алгоритмов кодирования MPEG и его реализаций не содержится никакой информации относительно методов выделения I-, Р- и В-кадров в видеопоследовательности.

В начале сцены должен стоять I-кадр, в конце — Р-кадр. Увеличивать долю В-кадров можно только в рамках одной сце­ны, иначе возникнут большие ошибки предсказания и компен­сации движения. Поскольку типичная длительность группы кад­ров (во временном представлении — примерно 0,5 с) значитель­но меньше характерного расстояния между границами сцен, то в большинстве случаев жесткое задание структуры группы кадров не приводит к существенным визуальным ошибкам из-за того, что смена сцен попадает внутрь группы кадров.

На рис. 3.17 изображен порядок кодирования I-, Р- и В-кад­ров. Верхний ряд кадров демонстрирует исходную последова­тельность на входе кодера, нижний — после кодирования. Ос­новными параметрами GOP являются длина последовательности N и порядок чередования Р-кадров. Например, в последователь­ности кадров, представленной на рис. 3.17, N= 7, М = 3, т. е. ка­ждый третий кадр в последовательности — типа Р.

Из применявшихся до сих пор форматов групп для частоты полей 30 Гц типичной была последовательность IBBPBBPBBPBBP/BBTBBP... с N= 13 (для первой группы) и М= 3, в которой группу составляют 1,5 кадров, начинающихся с двух В-кадров и одного I-кадра, и каждые два В-кадра переме­жаются с Р-кадром. Для частоты 25 Гц типичной является такая же последовательность, но с N= 12 и Л/ = 3. Такой выбор сделан для того, чтобы обеспечить одновременное выполнение требова­ний максимального сжатия и произвольного доступа к любому из кадров последовательности. Между тем именно В-кадры обеспечивают максимальное сжатие, и если бы удалось поднять долю В-кадров в группе, а I-кадрами обозначить границы сцен, то эффективность сжатия была бы увеличена.

Для блоков с использованием компенсации движения нахо­дятся разностные ошибки предсказания движения.

Рис. 3.17. Порядок кодирования I- Р- и В-кадров по стандарту MPEG-2: а — последовательность кадров на входе кодера; б — последовательность кадров

после кодирования

Следует упомянуть еще две возможности MPEG-алгоритмов. Это Motion Estimation (ME, в свободном переводе — оценка пе­ремещений) и Spatial Redundancy (SR — пространственная избы­точность). ME — метод, по которому реализуется вычисление Р- и В- кадров по опорным кадрам. Первым шагом в ME является

разбиение кадров на блоки 16 х 16 пикселей. Далее блоки одного кадра сравниваются с соответствующими блоками другого кадра и, если они изменяют положение от кадра к кадру, их перемеще­ние описывается векторами движения, которые и записываются в MPEG-поток.

На следующем этапе кодирования применяется метод про­странственной избыточности, позволяющий еще более сократить объем данных, описывая разность между соответствующими бло­ками. Используя дискретное косинус-преобразова­ние, блоки подразделяются на подблоки 8 \ 8 для отслеживания изменения цвета и яркости.

Очевидно, что чем больше коэффициент сжатия, тем хуже качество. Коэффициент сжатия — это численное выражение со­отношения между объемом сжатого и исходного видеоматериала. Для MPEG сейчас стандартом считается соотношение 200:1, при этом сохраняется неплохое качество видео. Различные вари­анты Motion-JPEG работают с коэффициентами от 5:1 до 100 : 1, хотя даже при уровне в 20 : 1 уже трудно добиться нор­мального качества изображения. Кроме того, качество видео за­висит не только от алгоритма сжатия (MPEG или Motion-JPEG), но и от параметров цифровой видеоплаты, конфигурации ком­пьютера, а также от программного обеспечения.

Профили MPEG

Как уже отмечалось выше, в стандарте применяется концеп­ция профилей и уровней (табл. 3.8).

Стандарт предусматривает пять профилей:

  • простой (simple) — для реализации видеопотока без В-кадров;

  • главный (main) — для реализации всех уровней, но без масштабируемости:

  • масштабируемый по отношению сигнал/шум (SNR scalable);

  • пространственно масштабируемый (spatiallvscalable);

  • профессиональный (professional 4:2:2). пространственно масштабируемый и масштабируемый по отношению сиг­нал/шум.

Каждый из этих профилей можно подразделить на четыре уровня:

  • низкий (LL);

  • главный (ML):

Профиль; тип кадра; формат (дискретизация сигнала цветности)

Уровень

Параметр Число отсчетов в строке

Простой;

1 иР; 4:2:0

Главный (MP @ ML); I; РиВ; 4:2:0

1920

Масштабируемый

по отношению сигнал/шум I; Р и В 4:2:0

Пространственно мас­штабируемый I; Р и В 4:2:0

Профессиональ­ный I; Р и В;

4:2:0 или 4 : 2 : 2

1920

Высокий

Число строк в кадре Число кадров в секунду Макс, поток, Мбит/с

Не предусмотрен

1152 60 80

Не предусмотрен

Не предусмотрен

1152 60 100

Число отсчетов в строке

1440

1440

1440

Высокий 1440

Число строк в кадре Число кадров в секунду Макс, поток, Мбит/с

Не предусмотрен

1152 60 80

Не предусмотрен

1152

60 80

1152 60 80

Число отсчетов в строке

720

720

720

720

Главный

Число строк в кадре Число кадров в секунду

576 30

576 30

576 30

Не предусмотрен

576 30

Макс, поток, Мбит/с

15

15

15

20

Число отсчетов в строке

352

352

Низкий

Число строк в кадре Число кадров в секунду Макс, поток, Мбит/с

Не предусмотрен

288 30 4

288 30 4

Не предусмотрен

Не предусмотрен

Таблица 3.<X. Уроним и профили спецификации MPEG


-2



. высокий 1440 (HI440);

• высокий (HL).

Каждому профилю соответствуют определенные наборы опе­раций по сжатию данных.

В профиле простой используется наименьшее число опе­раций: компенсация движения и гибридное дискретное косинус­ное преобразование (ДКП. DCT).

Профиль главный содержит дополнительную опера­цию — предсказание по двум направлениям, что улучшает каче­ство изображения.

Профиль масштабируемый по отношению сиг­нал/шум предусматривает повышение устойчивости системы при снижении отношения сигнал/шум. Поток видеоданных раз­деляют на две части: базовый поток и расширенный поток. Пер­вый несет наиболее значимую информацию, второй — дополни­тельную.

Профиль пространственно масштабируемый со­держит все операции предыдущего профиля и новую — разделе­ние потока видеоданных по критерию четкости телевизионного изображения. Этот профиль обеспечивает переходы между ныне действующим стандартом и ТВЧ.

В рассмотренных четырех профилях при кодировании сигна­лов яркости и цветности используют формат представления ви­деоданных 4:2:0, где число отсчетов сигналов цветности по сравнению с сигналом яркости снижено в 2 раза по горизонталь­ному и вертикальному направлениям.

В профиле профессиональный используют формат 4 : 2 : 2, т. е. число отсчетов сигналов цветности в вертикальном направлении такое же, как и в яркостном сигнале. Кроме этого, предусматривается возможность масштабирования — простран­ственного и по отношению сигнал/шум.

Уровню низкий соответствует недавно введенный класс качества телевизионного изображения — ТВ ограниченной чет­кости. Уровню главный соответствует ТВ обычной четкости. Уровни высокий 144 0 и высокий предусмотрены для ТВЧ, где использовано разложение на 1152 активные строки.

Каждый из этих профилей и уровней определяет предельные значения основных параметров битового потока, как это показа­но в табл. 3.8.

Сочетание профиля и уровня образует некоторое подмноже­ство общего стандарта MPEG-2 применительно к различным за­дачам, для решения которых он предназначен. Такое сочетание принято обозначать аббревиатурой. Например, MP@ML означа­ет главный профиль и главный уровень. Профессиональный профиль в сочетании с главным уровнем (422P@ML) послужил основой принятого в 1996 г. подмножества стандарта MPEG-2 для цифрового телевешания.

Описательный мультимедиа-стандарт MPEG-7

Спецификация разработана на пути использования методов и достижений интеллектуальных информационных систем в мультимедийных приложениях. Попытки решения данной зада­чи известны уже давно — ситуационное моделирование (Ю. И. Клыков, 1974 г.). RX-коды (1969 г.), проект PIPS (Pattern information processing system), программная среда и язык распо­знавания и генерации сцен NALIG — Native language interprator of graphics (Япония, 1980 г.) и др.

MPEG-7 формально называется «Мультимедиа-интерфейс для описания содержимого» (Multimedia Content Description Interface), он имеет целью стандартизовать описание мультиме­дийного материала, поддерживающего некоторый уровень ин­терпретации смысла информации, которая может быть передана для обработки ЭВМ. Стандарт MPEG-7 не ориентирован на ка­кое-то конкретное приложение, он стандартизует некоторые элементы, которые рассчитаны на поддержку как можно более широкого круга приложений. Следовательно, средства MPEG-7 позволят формировать описания (т. е. наборы схем описания и соответствующих дескрипторов по желанию пользователя) мате­риала, который может содержать:

  • информацию, описывающую процессы создания и произ­водства материала (указатель, заголовок, короткометраж­ный игровой фильм);

  • информацию, относящуюся к использованию материала (указатели авторского права, история использования, рас­писание вешания);

  • информацию о характеристиках записи материала (формат записи, кодирование);

  • структурную информацию о пространственных, временных или пространственно-временных компонентах материала

(разрезы сцены, сегментация областей, отслеживание пере­мещения областей):

  • информацию о характеристиках материала нижнего уровня (цвета, текстуры, тембры звука, описание мелодии);

  • концептуальную информацию о реальном содержании ма­териала (объекты и события, взаимодействие объектов);

  • информацию о том. как эффективно просматривать мате­риал (конспекты, вариации, пространственные и частотные субдиапазоны и пр.);

  • информацию о собрании объектов;

  • информацию о взаимодействии пользователя с материалом (предпочтения пользователя, история использования).

MPEG-7 сконструирован так. чтобы учесть все подходы, учитывающие требования основных стандартов, таких, как SMPTE Metadata Dictionary. Dublin Силис. EBU P/Meta и TV Anytime. Эти стандарты ориентированы на специфические приложения и области применения, в то время как MPEG-7 пы­тается быть как можно более универсальным. MPEG-7 исполь­зует также схему XML в качестве языка выбора текстуального представления описания материала. Главными элементами стан­дарта MPEG-7 являются (рис. 3.18):

  • дескрипторы (D) — представление характеристик, ко­торые определяют синтаксис и семантику представления каждой из характеристик;

  • схемы описания DS (description scheme), которые спе­цифицируют структуру и семантику взаимодействия между компонентами. Эти компоненты могут быть дескриптора­ми и схемами описания;

  • язык описания определений DDL (description definition language), позволяющий создавать новые схемы описания и, возможно, дескрипторы, и обеспечивающий расширение и модификацию существующих схем описания;

  • системные средства служат для поддержки мультип­лексирования описаний, синхронизации описаний и мате­риала, механизмов передачи, кодовых представлений (как текстуальных, так и двоичных форматов) для эффективной записи и передачи, управления и защиты интеллектуальной собственности в описаниях MPEG-7.

Все области применения, базирующиеся на мультимедиа, выиграют от использования MPEG-7. Ниже предлагается список

Рис. 3.18. Абстрактное представление возможных приложении на основе MPEG-7

возможных приложений MPEG-7. которые любой из читателей без труда сможет дополнить:

  • архитектура, недвижимость и интерьерный дизайн (напри­мер, поиск идей):

  • выбор широковещательного медийного канала (например, радио. TV);

  • услуги в сфере культуры (исторические музеи, картинные галереи и т. д.):

  • цифровые библиотеки (например, каталоги изображений, музыкальные словари, биомедицинские кататоги изобра­жений. фильмы, видео- и радиоархивы);

  • е-коммерция (например, целевая реклама, каталоги реаль­ного времени, каталоги электронных магазинов);

  • образование (например, депозитарии мультимедийных кур­сов, мультимедийный поиск дополнительных материалов);

  • домашние развлечения (например, системы управления личной мультимедийной коллекцией, включая манипуля­цию содержимым, например, редактирование домашнего видео, поиск игр. караоке);

  • исследовательские услуги (например, распознавание чело­веческих особенностей, экспертизы);

  • журнатизм (например, поиск речей определенного полити­ка, используя его имя. его голос или его лицо);

  • мультимедийные службы каталогов (например, желтые страницы, туристская информация, географические ин­формационные системы):

  • мультимедийное редактирование (например, персональная электронная служба новостей, персональная медийная сре­да для творческой деятельности):

  • удаленное опознавание (например, картография, экология, управление природными ресурсами);

  • осуществление покупок (например, поиск одежды, которая вам нравится):

  • надзор (например, управление движением, транспортом, неразрушаюший контроль в агрессивной среде).

В принципе, любой тип аудиовизуального материала может быть получен с помощью любой разновидности материала в за­просе. Это означает, например, что видеоматериал может быть запрошен с помощью видео, музыки, голоса и т. д. Ниже приве­дены примеры запросов:

•проиграйте несколько нот на клавиатуре, и вы получите список музыкальных отрывков, сходных с проигранной мелодией, или изображений, соответствую­щих некоторым образом нотам, например, в эмоциональ­ном плане;

•нарисуйте несколько линий на экране, ивы найдете набор изображений, содержащих похожие графи­ческие образы, логотипы, идеограммы;

•определите объекты, включая цветовые пят­на или текстуры, и вы получите образцы, среди кото­рых сможете выбрать интересующие вас объекты;

  • опишите действия и получите список сценариев, со­держащих эти действия;

  • используя фрагмент голоса Паваротти, полу­чите список его записей, видеоклипов, где Паваротти поет, и графический материал, имеющий отношение к этому певцу.

Рассмотрим пример описания визуального материала (рис. 3.19, а) графовыми представлениями (рис. 3.19, б).

Этот пример демонстрирует момент футбольного матча. Оп­ределены два видеосегмента, одна стационарная область и три движущиеся области. Граф. описывающий структуру материала, показан на рис. 3.19.

Щ

НЕДНиИНМ

Щ SVV1; i

; 1

Video Segment & Kitk

SISI ■■■

Ms

4 г:

Ыж-Мы

вбй!


Video Segmm! ■

а

Рис. 3.19. Пример видеосегмента и областей ситуации (а); соответствующий граф (о)

б

Видеосегмент Dribble&Kick (Обводка и удар) включает в себя мяч, вратаря и игрока. Мяч остается рядом с игроком, движущимся к вратарю. Игрок появляется справа от вратаря.

Видеосегмент гол включает в себя те же подвижные области плюс стационарную область ворота. В этой части последователь­ности игрок находится слева от вратаря, а мяч движется к воротам.

Этот простой пример иллюстрирует гибкость данного вида представления. Заметим, что это описание в основном представ­ляется структурным, так как отношения, специфицированные ребрами графа, являются чисто физическими, а узлы представ­ляют объекты, которые описываются данными о создании, ин­формацией об использовании и медиаданными, а также деск­рипторами низкого уровня, такими, как цвет, форма, движение. В семантически явном виде доступна только информация из текстовой аннотации (где могут быть специфицированы ключе­вые слова мяч, игрок или вратарь).

Контрольные вопросы

  1. Каковы характеристики аналогово-цифрового и цифро-аналогового преобразований аудиоданных?

  2. Перечислите методы синтеза звука.

  3. Какие характеристики имеют аудиоадаптеры?

  4. Что такое ЧМ и WaveTable?

  5. Перечислите возможности карты SoundBlaster.

  6. Что такое LivelDrive?

  7. Охарактеризуйте MIDI-интерфейс.

  8. Перечислите основные характеристики форматов аудиосигнала.

  9. Какие основные функции реализует программное обеспечение обра­ботки аудиосигналов?

  10. Охарактеризуйте методы оптической интерполяции.

  11. Перечислите основные характеристики цифровых видеокамер (ЦВК).

  12. Что такое схемы цветообразования?

  13. Охарактеризуйте форматы графических файлов.

  14. Что такое видеозахват?

  15. Что такое цветоразностные компоненты?

  16. Перечислите форматы записи цифрового видео.

  17. В чем заключается сущность M-JPEG сжатия видеоданных?

  18. Перечислите основные особенности алгоритмов MPEG-1—4.

  19. Что такое GOP?

  20. Что такое профили MPEG?

  21. В чем сущность стандарта MPEG-7?