
- •5 Введение
- •Глава 1
- •1.1. Информатика — состав и структура
- •1.2. Соотношение понятий «информация», «данные», «знания»
- •1.3. Структуризация взаимосвязи информатики с предметной областью применения
- •1.4. Уровни информационных процессов
- •Глава 2
- •2.1. Текстовая информация. Модель документа
- •2.2. Языки разметки документов
- •2.3. Технологии xml
- •2.4. Текстовый редактор Word
- •Глава 1 5
- •5.3. Физическая организация данных в системах управления данными 296
- •Глава 3
- •3.2. Форматы записи-воспроизведения аудиосигналов
- •3.3. Технологии статических изображений
- •3.4. Программные средства обработки изображений
- •3.5. Цифровое видео
- •Глава 4
- •4.1. Оптическое распознавание символов (ocr)
- •Глава 1 5
- •5.3. Физическая организация данных в системах управления данными 296
- •Глава 5
- •5.2. Базы данных и субд
- •Логический файл
- •Логический файл
- •Очереди
- •Время установки головок чтения-записи
- •5.4. Анализ информации и хранилища данных
- •Глава 6
- •Глава 1 5
- •5.3. Физическая организация данных в системах управления данными 296
- •Глава 7
- •Глава 8
- •Глава 1 5
- •5.3. Физическая организация данных в системах управления данными 296
3.5. Цифровое видео
Основные принципы
Известны три формы кодирования сигнала телевидения:
система PAL (использует большинство стран Европы);
Франция, Россия и некоторые восточно-европейские страны используют SECAM. который отличается от системы PAL только в тонкостях, однако этого достаточно, чтобы они были несовместимыми:
США и Япония используют систему NTSC.
В системе PAL (Phase-Alternation-Line, чередование строк) каждый законченный кадр заполняется построчно, сверху донизу.
В Европе используется переменный электрический ток с частотой 50 Гц, и система PAL связана с этим — здесь выполняется 50 проходов экрана каждую секунду. Требуется два прохода, чтобы нарисовать полный кадр, так что частота кадров равна 25 кадров/с. Нечетные строки выводятся при первом проходе, четные — на втором. Этот метод называется чересстрочная развертка (interlaced), в противоположность чему изображение на компьютерном мониторе, создаваемое за один проход, известно как без чередования строк (progressive).
Компьютеры, наоборот, имеют дело с информацией в цифровой форме. Чтобы хранить визуатьную информацию в цифровой форме, аналоговый видеосигнал должен быть переведен в цифровой эквивалент с использованием аналого-цифрового и р е о б р аз о в ате л я - ко н в е р те р a (ADC. или АЦП). Процесс преобразования известен как осуществление оцифровки, или видеозахват. Так как компьютеры имеют дело с цифровой графической информацией, никакая другая специальная обработка данных не требуется, чтобы в дальнейшем выводить это цифровое видео на компьютерный монитор. Однако чтобы отобразить цифровое видео на обычном телевизоре, обратный конвертер — цифроаналотовый (DAC или ЦАП), должен преобразовать двоичную информацию в аналоговый сигнал. Кроме того, источником видеоинформации в цифровой форме являются цифровые видеокамеры.
Цифровые видеокамеры
Начиная с введения Sony в 1995 г. формата DV и последующего почти повсеместного принятия интерфейса IEEE 1394, цифровые видеокамеры стали почти столь же свойственным ПЭВМ атрибутом, как мышь. Массовый пользователь получил доступ к технологии, которая позволила создавать в цифровом формате видеоматериал, качество которого далеко превосходило возможности аналоговых средств, доступных в то время — наподобие Hi-8 и S-VHS — и превращать его в профессионально выглядящее домашнее кино на настольном ПК.
Запись и сохранение видео и аудио в цифровой форме устраняют возможности для целого диапазона ошибок в изображении и звуке почти тем же образом, как музыкальные компакт-диски изменили к лучшему записи на виниловых дисках (LP). Кассеты цифрового видео не могут быть прочитаны на видеомагнитофонах, однако любая цифровая видеокамера имеет обычные, аналоговые AV-гнезда выхода, что позволяет записанный материал передать на видеомагнитофон либо на телевизор. Поскольку интерфейс IEEE 1394 стат вездесущим в области видео потребителя, он позволяет передавать видеосигнал от одной цифровой камеры к другой, к цифровому видеомагнитофону или на ПЭВМ. В процессе своего развития цифровые видеокамеры все чаще снабжаются аналоговыми звуковыми и видеовходами, позволяя копирование старых записей в анатоговых форматах VHS или 8 мм в формат цифрового видео, и таким образом обеспечивая как архивирование без потерь, так и доступ к мощным средствам редактирования цифрового видео.
Светочувствительная матрица (прибор с зарядовой связью — ПЗС) цифровой видеокамеры — обычно размером в '/4" — собирает и обрабатывает свет, приходящий от объектива, и преобразует его в электрический сигнал. В то время как видеокамеры среднего качества оборудованы единственной ПЗС, модели более высокого ряда используют три матрицы. В этом случае объектив содержит призму, которая расщепляет поступающий свет на три основных цвета, причем каждый поступает на отдельную матрицу. Результатом является высококачественные цветопередача и качество изображения, заметно лучшие чем для моделей с единственной ПЗС, хотя и при существенной дополнительной стоимости.
Число пикселей, которые составляют матрицу, может изменяться от одной модели к другой, однако большее число пикселей не обязательно означает лучшее качество изображения. Матрицы в цифровых видеокамерах Canon, например, обычно имеют намного более низкое число пикселей, чем в моделях JVC или Panasonic, но все же способны к достижению превосходных результатов.
Современные камеры имеют мощные способности «наезда» (трансфокатор), реализованные как путем оптического изменения масштаба изображения (обычно 10-х или более), так и цифрового (до 200-х). Конечно, в этих случаях изображения становятся высокозернистыми и их стабильность становится существенной проблемой. Используются два варианта видоискателя: традиционный окуляр и выдвижной цветовой жидкокристаллический экран, который дополнительно может быть сенсорным, срабатывающим от прикосновения и позволяющим осуществлять цифровое увеличение объекта, указанного прикосновением на экране.
Большинство потребительских цифровых камер продаются как единые решения для видео, фото и даже МРЗ и электронной почты. Большинство из них, однако, может захватить фото только с разрешением, характерным для цифрового видео (720 х 576 пикселей, что не дотягивает даже до 1 мегапикселя), которое приходится уменьшать до 640 х 480, чтобы сохранить правильное отношение размеров экрана (3 : 4). Некоторые видеокамеры обладают более высоким разрешением для фото, но часто при этом используется интерполяция, чтобы достигнуть указанного разрешения. Видеокамеры на 1,5 мегапикселей позволят получить разрешение в 1360 х 1020 для фото. Способность делать запись фотоснимков — также все более популярная особенность профессиональных цифровых видеокамер, некоторые из которых даже способны к настройке датчиков изображения к удобному для компьютера формату сборки картины, что оптимизировано для записи фотоизображения.
Цифровые камеры обеспечивают цифровую или оптическую стабилизацию изображения, чтобы уменьшить колебание, которое неизбежно сопровождает ручную съемку. Цифровая стабилизация изображения (Digital image stabilisation — DIS) очень эффективна, но имеет тенденцию уменьшать разрешение картины. поскольку активно используется для записи образа меньший
Число пикселей, которые составляют матрицу, может изменяться от одной модели к другой, однако большее число пикселей не обязательно означает лучшее качество изображения. Матрицы в цифровых видеокамерах Canon, например, обычно имеют намного более низкое число пикселей, чем в моделях JVC пли Panasonic, но все же способны к достижению превосходных результатов.
Современные камеры имеют мощные способности «наезда» (трансфокатор), реализованные как путем оптического изменения масштаба изображения (обычно 10-х или более), так и цифрового (до 200-х). Конечно, в этих случаях изображения становятся высокозернистыми и их стабильность становится существенной проблемой. Используются два варианта видоискателя: традиционный окуляр и выдвижной цветовой жидкокристаллический экран, который дополнительно может быть сенсорным, срабатывающим от прикосновения и позволяющим осуществлять цифровое увеличение объекта, указанного прикосновением на экране.
Большинство потребительских цифровых камер продаются как единые решения для видео, фото и даже МРЗ и электронной почты. Большинство из них, однако, может захватить фото только с разрешением, характерным дтя цифрового видео (720 х 576 пикселей, что не дотягивает даже до 1 мегапикселя), которое приходится уменьшать до 640 х 480, чтобы сохранить правильное отношение размеров экрана (3 : 4). Некоторые видеокамеры обладают более высоким разрешением для фото, но часто при этом используется интерполяция, чтобы достигнуть указанного разрешения. Видеокамеры на 1.5 мегапикселей позволят получить разрешение в 1360 x 1020 для фото. Способность делать запись фотоснимков — также все более популярная особенность профессиональных цифровых видеокамер, некоторые из которых даже способны к настройке датчиков изображения к удобному для компьютера формату сборки картины, что оптимизировано для записи фотоизображения.
Цифровые камеры обеспечивают цифровую или оптическую стабилизацию изображения, чтобы уменьшить колебание, которое неизбежно сопровождает ручную съемку. Цифровая стабилизация изображения (Digital image stabilisation — DIS) очень эффективна, но имеет тенденцию уменьшать разрешение картины. поскольку активно используется для записи образа меньший процент датчиков (остальные заняты стабилизационной обработкой). Оптическая стабилизация изображения (Optical image stabilisation — OIS) использует призму, которая компенсирует колебания регулировкой пути светового луча, проходящего через систему линз камеры. Оба метода достигают примерно одной и той же степени видимой стабильности, но OIS, возможно, лучше, так как не уменьшает разрешение.
Форматы цифрового видео
VCD. Формат VideoCD был создан, чтобы обеспечить диалоговую среду, которая была бы недорога для копирования, поддерживала полный экран и видео полного движения и функционировала бы в широком диапазоне различных платформ ПЭВМ, телевидения, игровых приставок или мультимедийного оборудования.
В середине 1993 г. Philips. Sony, Matsushita и JVC согласовали спецификации VideoCD, позже получившие известность как «Белая Книга». Стандарт использует определения, описанные в стандартах «красной» (CD-DA) и «желтой» (CD-ROM) книг и вводит дополнительную гибкость, чтобы учесть защиту авторского права, вставки библиографической информации, абстрактных данных, компьютерных программ, обеспечить диалоговый контроль в течение воспроизведения.
Формат стал чрезвычайно популярным в Азии, и начиная с середины 1990-х гг. почти все гонконгские фильмы были доступны на VCD, а по сделанной в конце тысячелетия оценке, только в Китае ежегодно производились более чем 2 млн плейеров VCD. Формат никогда не завоевыват популярность на западе и остается малоизвестным в Северной Америке и Европе.
VCD использует CD-ROM ХА Mode 2, чтобы делать запись первой дорожки диска (Track 1). который содержит файловую структуру ISO 9660 и информационную область. Файловая система ISO может также включать расширения Joliet, чтобы поддерживать длинные имена файлов Windows.
VCD 1.1 поддерживает понятие выбираемых треков, но только в VCD 2.0 версии (1995 г.) поддерживалась полная интерактивность через дистанционное управление. VCD 2.0 позволяет организовать до 98 треков, каждый из которых может быть индексирован в 99 сценах. Каждый трек может содержать и вое- производить сцены, которые могут быть видео, звуковыми или фотоизображениями. В основном этот формат можно трактовать как Audio CD с дополнением видео или фотофрагментами и средствами навигации по содержанию.
Стандарт поддерживает обратную совместимость, так что версия 1.1 VCD работает в плейерах версии 2.0. VCD имеет вместимость до 74/80 минут (на носителе 650/700 Мбайт соответственно) видео полного движения, сопровождаемого стереозвуком. Используется технология сжатия MPEG-1 для обеспечения качества видео, эквивалентного пленке VHS или аудио CD-DA. Таблица 3.3 содержит ключевые характеристики вариантов VCD-стандарта.
Таблица
3.3.
Характеристики различных вариантов
формата Video
CD
Параметры
Стандарт
PAL
NTSC
NTSC
Film
Разрешение
352
х
288
352
х
240
352
х
240
Частота
кадров, 1 /с
25
29,97
23,976
Скорость
передачи видео, кбит/с
1150
MPEG-1
1150
MPEG-1
1150
MPEG-1
Звук
44,1
кГц стерео, кодирован в MPEG-1
Level 2
формат, скорость - 224 кбит/с
Общая
скорость передачи
1394,40
кбит/с
SVCD. Выпушенный в 1998 г. консорциумом, который включал Philips, Sony, Matsushita и JVC, формат «VCD Высшего качества» (SuperVCD) — впоследствии стандартизированный как ISO IEC 62107 — является естественным развитием стандарта VCD. Основное различие в том. что для видеопотока используется кодирование MPEG-2 (вместо MPEG-1), которое обеспечивает более высокое разрешение и скорость, а также поддерживает субтитры и переменную скорость видеопотока. Как последствие, SVCD способен к показу в 2 раза более четких видеоизображений, чем его предшественник, за счет уменьшенной вместимости (35 и 80 мин на диск в зависимости от средней используемой битовой скорости).
Формат имеет обширную поддержку субтитров и режима караоке. Видеопоток SVCD может содержать до четырех независимых каналов субтитров для различных языков, которые накладываются на видеоизображения в процессе воспроизведения и могут подключаться или удаляться по желанию. Так как субтитры сохранены как битовая графика, они не привязаны к какому-то специфическому набору символов. Наконец, SVCD стандарт поддерживает гиперсвязи типа HTML, позволяет подключать фотографии, автоматическое проигрывание слайдов и музыкальных фрагментов, поддерживает многоуровневые иерархические меню и оглавления (индексацию). Характеристики формата приведены в табл. 3.4.
Таблица
3.4.
Характеристики SVCD
Видеосигнал
Стандарт
MPEG-2
Скорость
передачи
Переменная
до 2,6 Мбит/с
Разрешение
NTSC
480
х 480 с перекрытием, 29,97 Гц
Разрешение
PAL
480
х
576 с перекрытием, 25 Гц
Фотография
Стандарт
MPEG-2
,1
Frame
Разрешение
NTSC
480
х
480, 704
х
480
Разрешение
PAL
480
х
576, 704
х
576
Звуковой
сигнал
Стандарт
MPEG-1,
layer
II
Частота
оцифровки
44,1
кГц
Скорость
передачи
От
32 до 384 кбит/с
Число
каналов
До
2 стерео или 4 моно
Звуковое
окружение
MPEG-2
(5.1)
XVCD и XSVCD (extended VCD и extended SVCD - расширения соответственно) являются неофициальными вариантами стандартов VCD и SVCD, предназначенными, чтобы достигнуть улучшенного качества изображения, например, увеличивая битовую скорость (битрейт) в соответствии с более быстрой способностью передачи данных современными накопителями CD-ROM. XSVCD работает на принципах, обычных для уровня DVD, что обеспечивает скорость, близкую к DVD-Video (до 9,8 Мбит/с — поддерживает полное разрешение DVD в дополнение к обычному для SVCD 480 X 576/480 х 480).
DivX. Формат DivX базируется на видеотехнологии MPEG-4 с дополнением звукового потока МРЗ. Поскольку сжатый в формате DivX кинофильм составляет от 10 до 20 % размера оригинала DVD (обычно 5 Гбайт). 80—90 минутное DVD-кпно занимает приблизительно 650 Мбайт в разрешении 640 х 480 — фильм Голливуда может вообще поместиться на единственном CD-ROM. Единственным весомым недостатком является то. что не предусмотрено возможности развернуть изображение формата 16 : 9 до 4 : 3. Просмотр осуществляется на широко распространенном Windows Media Player (Microsoft) с НебИвших® Добавлениями.
К концу 2001 г. появилась новая версия DivX — проект с открытыми исходными программами кодека, известный как «Project Мауо» или как «OpenDivX» или «DivX для Win- dows/Linux/Мас». В отличие от оригинала DivX. OpenDivX не имеет ничего общего с Microsoft. Однако, подобно его предшественнику, он также базируется на формате сжатия MPEG-4.
Формат DV. Panasonic и Sony были первыми, кто использовал стандарт цифрового видео на своих видеокамерах, и хотя он и не был первоначально предназначен для профессионального использования, обе компании впоследствии объявили их собственные расширения для стандарта — Panasonic DVCPRO в 1995 г., a Sony — DVCAM в 1996 г. Однако оба изготовителя придерживались формата MiniDV для производимого цифрового оборудования.
Формат DV использует пленку с металло оксидным напылением ширины '/4" (6,35 мм), способную к записи до 3 часов видео в стандартном режиме (standard play, SP) на кассете, которая имеет размеры 125 х 78 х 14,6 мм.
Технически DV использует дискретное косинус-преобразование, используя процесс с тремя стадиями. Первая стадия использует DCT-сжатие, удаляющую информацию, которая не может быть замечена человеческим глазом. При этом в каждом пикселе отделяют цветовую и яркостную информацию, что сокращает данные на одну треть. Затем сигнал RGB преобразуется в YUV — Y для яркости и U и V для цвета, по формуле YUV 4:2:2. Затем цифровой видеокодек оптимизирует формулу к YUV 4:2:0, связывая цветовую информацию от смежных пикселей в блоки 4x4. Датее, система аппаратного сжатия, размеренная на камере, сжимает видео с использование алгоритма, подобного M-JPEG.
Система DV отличается способностью записи различных частей каждого кадра с различной степенью сжатия. Так, синее небо в фоне изображения может быть сжато, скажем, к 25 : 1, в то время как лес на переднем плане, который нуждается в большем количестве деталей, только до 7 : 1. Этим способом цифровое видео может оптимизировать видеоструктуру потока кадров. Наоборот, M-JPEG должен иметь установленную норму сжатия для видео в целом и не может разумно регулировать сжатие каждого изображения. Кроме того, также используется техника, известная как адаптивное межстрочное сжатие, которое заключается в том, что перекрывающиеся строки кадра (как в PAL. например) соединяются в одну, если различие между ними невелико. В теории это означает, что сцены с меньшим количеством движения обрабатываются лучше, чем быстрые сцены. Номинальный поток данных DV — 25 Мбит/с, который увеличивается до 36 Мбит/с с учетом аудио и различных средств управления данными и коррекции ошибок.
Mini-DV (мини-цифровое видео). Главное преимущество формата MiniDV состоит в том, что лента, являющаяся '/12 от размера стандартной пленки VHS. позволяет сделать запись 1 часа в формате SP или до 90 мин более низкого качества выхода в «долгоиграющем режиме» (long play, LP) при горизонтальном разрешении до 500 линий. Видеокамеры этого формата являются часто достаточно маленькими, чтобы удобно размешаться в ладони руки.
Digital8. Введенный в начале 1999 г., формат видеокамеры Sony Digital8 может рассматриваться как шаг между 8 мм или Hi-8 и MiniDV. Запись здесь производится почти в том же самом качестве как для MiniDV, но на ленты 8 мм и Hi-8, которые имеют размер '/4 размера VHS и вместимость до 1 часа. Формат — хороший выбор для тех, кто переходит к.цифровой видеокамере, так как видеокамера Digital8 может также воспроизводить старые записи аналоговых видео на 8 мм и Hi-8;
MICROMV. В 2001 г. Sony объявила ряд цифровых видеокамер MICROMV, использующих формат сжатия MPEG-2 при записи сигналов качества DV на ленты, размер которых составляет 70% от кассет MiniDV. При скорости в 12 Мбит/с ультракомпактный формат MICROMV имеет битовую скорость, вполовину меньшую, чем для miniDV, что делает редактирование видео на ПЭВМ намного менее ресурсопоглощающей задачей.
Форматы DVD
Фирма Hitachi объявила первую цифровую видеокамеру, способную к записи на носитель DVD (в данном случае это был DVD-RAM) летом 2000 г.. что было очередным шагом в движении видеоприложений к области ПЭВМ. Важное преимущество формата DVD — способность к прямой выборке видео и непосредственному переходу к определенным сценам видеозаписи, экономя время и ресурсы, затрачиваемые на запись/редактирование.
DVD видео. Видео DVD обычно кодируются в формате MPEG-2. MPEG-2 предлагает более высокую степень сжатия, чем MPEG-1, и приводит к намного более четкому и чистому изображению (табл. 3.5). Раскодированный из MPEG-2 видеосигнал обычно использует 480 горизонтальных строк в кадре (или 720 х 480 пикселей) по сравнению с 425 строками для CD-видео и 250—270 строками для VHS-видео.
Таблица
3.5.
Параметры кодирования видеосигналов
для DVD
video
Параметры
MPEG-2
MPEG-1
720
х
576
Разрешение
PAL/'
SECAM
704
х
576 352
х
576 352
х
288
352
х
576 352
х
288
720
х
480
Разрешение
NTSC
704
х
480 352
х
480 352
х
240
352
х
480 351
х
240
Переменная
битовая скорость (VBR),
постоянная
битовая скорость (CBR)
VBR
или
CBR
CBR
Частота
кадров PALySECAM,
1/с
25
Частота
кадров NTSC,
1/с
24
или 30
Переменная битовая скорость (VBR) позволяет достичь более высокого качества изображения и более низкой средней скорости передачи информации в битах, при этом используется больше данных для кодирования тех частей видеопоследовательности, которые более сложны и плохо сжимаются. При использовании постоянной битовой! скорости (CBR) скорость передачи данных должна быть достаточно высокой, чтобы одинаково хорошо кодировать все сцены видео.
Ранние диски DVD-ROM использовали два метода для записи MPEG-2 видео:
аналоговый оверлей (наложение видеоизображений или просто оверлей);
метод встраивания VGA. иногда упоминаемый как Videolnlay.
Оба метода отображают видео в окне или полном экране, но они реализуют различные подходы. Videolnlay использует графический адаптер PC. чтобы масштабировать видео и вывести его на монитор. Оверлейные платы обеспечивают масштабирование собственными аппаратными средствами и выводят видео самостоятельно, встраивая его в графический выводом, который приходит от платы VGA. При использовании этих плат дополнительный кабель соединяет выход адаптера VGA с вводом на плате декодера.
Главный недостаток подхода Videolnlay — нагрузка на систему. При проходе сцен, закодированных с высокой скоростью передачи информации, метод Videolnlay может перегрузить информацией старые, более медленные адаптеры дисплея, что может потребовать сокращения горизонтальной разрешающей способности для получения приемлемого изображения.
Требуя немного большего количества усилий по установке и конфигурированию, платы наложения видеоизображений требуют меньше системных ресурсов и допускают более широкое разнообразие аппаратных средств. В то время как видеовывод может быть менее четким, чем в случае встраивания VGA, наложение видеоизображений имеет то преимущество, что может дать приличное качество фактически с любыми видеоплатами.
Односторонний (DVD 5) диск может вместить типичный кинофильм, длительность которого составляет в среднем 133 минуты. MPEG-2 кодирование использует сжатие с потерями. которое удаляет избыточную информацию (например, неизменяющиеся области изображения) и информацию, которая не воспринимается человеческим глазом. Выходной видеосигнал, особенно когда он сложен или содержит быстрые изменения, может иногда включать визуальные недостатки в зависимости от качества обработки и коэффициента сжатия. При использовании сжатия MPEG-2 полномасштабное изображение требует минимальную скорость передачи данных 3500 кбит/с. Звуковое окружение — центральный, левые, правые, лево-тыловые и право-тыловые каналы, плюс ненаправленный басовый громкоговоритель — требует дополнительно еще 384 кбит/с. Если учесть добавочную память для фонограмм дублирования на различных языках и титров, необходимо увеличение скорости до 4,692 кбит/с (минимум 4 Мбит/с. требуемых для высококачественных результатов). Окончательный итог — требование размера памяти в 4,68 Гбайт.
Более высокие скорости передачи данных могут привести к повышению качества, почти неотличимому от оригинала, при скоростях более чем 6 Мбит/'с. С развитием MPEG-технологий сжатия лучшее качество достигается при более низких скоростях. Кроме того, DVD-видео обычно поддерживают множественные коэффициенты сжатия, позволяя при просмотре выбрать по меньшей мере из пары широкоэкранных форматов (например 16:9 или более обычного 4 : 3). Кроме того, DVD-видео также обычно позволяет выбрать один из восьми языков и предоставляет 32 различных набора субтитров.
Для двухслойного (DVD 9) диска вместимость увеличивается до 240 мин. Двусторонний однослойный д и с к (D V D 10) будет вмешать немного больше (около 266 минут), но он должен быть перевернут, чтобы была доступна вторая сторона. Многие производители видео DVD используют двусторонние диски, помещая версию, отформатированную для нормального телевидения или монитора с экраном 4 : 3 на одной стороне и широкоэкранную версию, отформатированную для экрана 16 : 9 — на другой.
Существуют два способа записи двухслойных DVD — параллельный проход дорожки (Parallel track path — РТР) и противоположный проход дорожки (Opposite track path — OTP). В дисках РТР оба слоя считываются от внутренней части диска к внешней, тогда как в диске OTP сначала считывается внешний слой от внутренней части к внешней, а затем — внутренний слой обратным ходом. Это позволяет дисководу читать оба слоя почти непрерывно, с коротким перерывом, чтобы перефокусировать линзу лазера.
В 1998 г. Цифровой Видео Экспресс (DVE) — партнерство между одним из крупнейших американских розничных продавцов электроники, Circuit City, и видной Лос-анджелесской юридической фирмой — объявил альтернативный формат DVD-ви- део, использующий подход «оплата за использование» при просмотре фильмов, и быстро получил поддержку таких ведущих студий, как Disney, Paramount. Universal и MGM.
Региональное кодирование
Поскольку обычно выход фильма на экраны не является одновременным (фильм может выйти на видео в США, когда только выходит на экраны в Европе), киностудии хотят контролировать выпуск видеокопий в различных странах. Поэтому потребовалось, чтобы стандарт DVD включал коды, которые могут предотвратить воспроизведение некоторых дисков в определенных географических областях (регионах). Каждый видеопроигрыватель получает код для региона, в котором он продан. Это означает, что диски, купленные в одной стране, не могут считы- ваться на плейерах, купленных в другой стране.
Региональные коды являются дополнительными для изготовителя диска и отсутствие кода означает отсутствие региональных ограничений. Это — не система кодирования, а только информационный байт, обозначающий восемь различных регионов, который проверяется при проигрывании диска (табл. 3.6).
Таблица
3.6.
Региональное кодирование DVD
Номер
региона
Регион
1
США, Канада, американские территории
2
Япония,
Европа, Южная Африка и Ближний Восток
(включая Египет)
3
Юго-восточная
Азия и Восточная Азия (включая Гонконг)
4
Австралия,
Новая Зеландия, Тихоокеанские острова,
Центральная Америка, Мексика, Южная
Америка и Карибское море
5
Восточная
Европа (прежний Советский Союз),
индийский субконтинент, Африка,
Северная Корея и Монголия
6
Китай
7
Зарезервирован
8
Специальные международные места
встречи (самолеты, круизные суда и
т. д.)
В сводной табл. 3.7 приводятся основные технические характеристики цифровых видеоформатов, перечисленных выше.
Таблица
3.
7.
Характеристики основных видеоформатов
Формат
парами
фы
VCD
SVCD
X(S)VCD
DivX
DV
DVD
Формат
стандартен?
Да
Да
Нет
Нет
Да
Да
Разрешение
NTSC
PAL
352
х
240 352
х
288
480
х
480 480
х
456
720
х
480 720
х
576 или меньше
640
х
480 или меньше
720
х
480 720
х
576
720
х
480 720
х
576
Видеосжатие
MPEG-1
MPEG-2
MPEG-1
или
MPEG-2
MPEG-4
DV
MPEG-2
Аудиосжатие
MPEG-1
MPEG-1
MPEG-1
МРЗ
WMA
DV
MPEG-2
АС-3
Скорость,
Мбайт/мин
10
10-20
5-20
1-10
216
30-70
Совместимость
DVD-плейеров
Очень
хорошая
Хорошая
Хорошая
Нет
Нет
Отличная
Интенсивность
загрузки ЦП
Низкая
Высокая
Высокая
Очень
высокая
Высокая
Очень
высокая
Качество
Хорошее
Очень
хорошее
Очень
хорошее
Очень
хорошее
Отличное
Отличное
Видеоредактирование
Известны два типа видеоредактирования. Первый заключается в редактировании при переписывании одной ленты на другую и называется линейным редактированием. Второй требует, чтобы редактируемые видеопоследовательности были вначале помещены на жесткий диск, затем отредактированы и возвращены на пленку. Этот метод известен как нелинейное редактирование (HJIP, NLE). Для нелинейного редактирования видеопередачи карты захвата переводят видео в цифровую форму на жесткий диск ПЭВМ и при этом функция редактирования выполняется полностью на ПЭВМ, почти так же, как редактируется документ в текстовом редакторе. Носители могут быть дублированы и многократно использоваться по мере необходимости, сцены могут быть перестроены, добавлены или удалены в любое время в течение процесса редактирования (рис. 3.12, 3.13).
Широкое распространение НЛР началось в начале 1990-х гг., что связано с появлением все более вместительных, быстрых и дешевых НЖМД, с разработкой все более мощного программно-
JSjxj
;35пгск:
Xi
Z' Jl ^' J>
j У■
■ - \ I...
j
5П!Т_03_МШ...
j Pinnacle
St...
Рис.
3.13. Установка параметров программного
средства Pinnacle
Studio 9,
предназначенного для видеозахвата,
редактирования (НЛР) и вывода в файл
видеопотока
го обеспечения редактирования видео, получило мощную поддержку в 1995 г. с появлением формата DV Sony.
НЖМД Цифровой
видеомагнитофон
Рис.
3.12. Цифровое видеоредактирование
□
ПЭВМ
ходную) форму перед редактированием, или же редактирование видео приходится производить в несжатой форме и откладывать MPEG-кодирование на самый последний момент. Так, в частности строится работа с программным продуктом Pinnacle Studio 9 (рис. 3.13. 3.14). Здесь последовательно осуществляется видеозахват (рис. 3.13), разбиение на сцены (материал сохраняется в слабосжатой форме формата AVI — при качестве DV — 3,8 Мбайт/с, при качестве MPEG — 0,76 Мбайт/с), затем происходит формирование выходного видеопотока, который выводится в файл MPEG-1, MPEG-2 или какого-либо другого формата.
аВ'1у«|
Zl£'A%
*
Ир
; Ag-JSIS.Jj'
j^wniKle
•-
Щ^.гтмг-Паг j
ч '-SO-
!-м
Рис.
3.14. Экран Pinnacle
Studio 9
редактирования (НИР) и вывода в файл
видеопотока:
/
— сцены входной записи;
2
— просмотр текущей сцены;
J
—
сцены, включенные в выходной видеопоток
Некоторые изготовители пытались разработать системы MPEG-2, допускающие редактирование без ограничений. Например, компания Sony предложила специальный формат под названием SX для профессиональных цифровых видеокамер и видеомагнитофонов, который использует очень короткие GOP, или группы кадров (четыре или меньше кадров), включающие только I- и Р-кадры (см. ниже, п. 3.6). При этом скорость передачи составляет 18 Мбит/с, что эквивалентно сжатию 10 : 1, но качество
изображения сопоставимо с M-JPEG при 5:1. Позже фирма Pinnacle разработала методы редактирования коротких GOP, IP-кадров MPEG-2 с использованием своей карты видеозахвата DC 1000 в системе Adobe Premier. Pinnacle утверждает, что ее карта требует только половину полосы пропускания эквивалентного M-JPEG видео, позволяя одновременно обрабатывать два видеопотока на дешевой платформе с небольшим объемом памяти.
Сталкиваясь с проблемой редактирования MPEG-2, изготовители видеопродукции, входящие в комитет ProMPEG, предложили профессиональную версию, известную как MPEG-2 4:2:2 Profile@Main Level (см. ниже, табл. 3.8). Здесь используются только I-кадры, что дает более высокие скорости передачи данных — до 50 Мбит/с. Формат был одобрен Европейским радиовещательным союзом (European Broadcasting Union) и его американским партнером — Обществом инженеров телевидения и кинематографии (Society of Motion Picture Television Engineers — SMPTE), для широкого диапазона применений в производстве видеопродукции. Хотя здесь и нет никакого преимущества в ширине полосы пропускания перед M-JPEG, а преобразование потоков к другим форматам MPEG-2 и обратно требует перекодирования, эта версия MPEG-2 (только I-кадры) — согласованный стандарт, позволяющий передавать материал между различными системами. По контрасту NLE-системы, которые используют M-JPEG, имеют тенденцию использовать немного различающиеся форматы файлов, что делает их несовместимыми.
Несмотря на все их преимущества, файлы в сжатых форматах остаются все еще довольно большими и поэтому нуждаются в быстром интерфейсе для их передачи между видеокамерой и ПЭВМ. К счастью, решение этой проблемы существовало уже в течение ряда лет. Технология интерфейса FireWire была первоначально предложена Apple Computer, но затем утверждена как международный стандарт IEEE 1394.
Когда этот интерфейс был разработан, цифровое видео было в младенческом состоянии и еще не существовало массовой потребности в такой быстрой технологии интерфейса, поэтому в течение нескольких лет интерфейс FireWire был решением проблемы, которая еще не возникла. Первоначально представляя сектор высоких технологий цифрового видеорынка, системы редактирования IEEE 1394 постепенно следовали за цифровыми видеокамерами в сферу потребителя. Так как FireWire передает видеоданные в сжатом цифровом состоянии, копии, сделанные в этом методе, теоретически должны быть точными клонами оригинала. В большинстве случаев это верно. Однако, поскольку процесс копирования осуществляет эффективную маскировку ошибок, он не использует никаких методов их исправления. Следовательно, есть вероятность возникновения провалов (дефектов) для видео и звуковых данных приблизительно после полдюжины поколений копирования. Поэтому предпочтительная практика состоит в том. чтобы везде, где это возможно, избегать делать копии с копий.
К концу 1998 г. системы редактирования, основанные на IEEE 1394, оставались дорогими и ориентировались в основном на профессиональный сектор рынка. Однако с увеличением масштаба работ с аудио, видео и другими, более общими типами данных, производители ПЭВМ в сотрудничестве с такими потребителями, как Sony, стати включать интерфейсы IEEE 1394 в системы ПЭВМ, чтобы обеспечить связь, управление и обмен цифровыми, звуковыми и видеоданными.'Пока еще не вездесущий, интерфейс стал намного более обычным к начату 2000-х гг., не в последнюю очередь благодаря усилиям специалистов Creative, которые фактически обеспечили «свободный» адаптер FireWire для линейки звуковых карт Audigy, введенных в конце 2001 г.
3.6. Элементы технологии алгоритмов MPEG
Стандарт MPEG-2
Рассмотрим в качестве примера стандарт MPEG-2, который состоит из трех основных частей: системной, видео и звуковой.
Системная часть описывает форматы кодирования для мультиплексирования звуковой, видео- и другой информации, рассматривает вопросы комбинирования одного или более потоков данных в один или множество потоков, пригодных для хранения или передачи.
Системное кодирование в соответствии с синтаксическими и семантическими правилами, налагаемыми данным стандартом, обеспечивает необходимую и достаточную информацию, чтобы синхронизировать декодирование без переполнения или «недополнения» буферов декодера при различных условиях приема или восстановления потоков.
Таким образом, системный уровень выполняет пять основных функций:
синхронизацию нескольких сжатых потоков при воспроизведении;
объединение нескольких сжатых потоков в единый поток;
инициализацию для начала воспроизведения;
обслуживание буфера;
определение временной шкалы.
Видео часть стандарта описывает кодированный битовый поток для высококачественного цифрового видео. MPEG-2 является совместимым расширением MPEG-1, он поддерживает чересстрочный видеоформат и содержит средства для поддержки ТВЧ (телевидение высокой четкости).
Стандарт MPEG-2 определяется в терминах расширяемых профилей, каждый из которых, являясь частным случаем стандарта, имеет черты, необходимые всем классам приложений.
Иерархические масштабируемые профили могут поддерживать такие приложения, как совместимое наземное многопрограммное ТВ (ТВЧ), пакетные сетевые видеосистемы, обратную совместимость с другими стандартами (MPEG-1 и Н.261) и приложениями, использующими многоуровневое кодирование.
Звуковая часть стандарта MPEG-2 определяет кодирование многоканального звука. MPEG-2 поддерживает до пяти полных широкополосных каналов плюс дополнительный низкочастотный канат и (или) до семи многоязычных комментаторских каналов. Он также расширяет возможности кодирования моно-и стереозвуковых сигнатов в MPEG-1 за счет использования половинных частот дискретизации (16; 22,05 и 24 кГц) для улучшения качества при скоростях передачи 64 кбит/с и ниже.
JPEG-форматы (M-JPEG CinePack) основаны на сжатии каждого кадра из видеопоследовательности. Этот подход получил название intraframe compression (внутрикадровое сжатие). Стандарт MPEG использует как intraframe. так и interframe compression (межкадровое сжатие). При межкадровом сжатии задаются опорные кадры, а последующие и предыдущие вычисляются на их основе. Поэтому межкадровая схема позволяет достичь большего сжатия — не надо хранить каждый кадр, запоминаются только различия между кадрами.
Стандарт MPEG-2 не регламентирует методы сжатия видеосигнала, а только определяет, как должен выглядеть битовый поток кодированного вилеосигната, поэтому конкретные алгоритмы являются коммерческой тайной фирм—производителей оборудования. Однако существуют общие принципы, и процесс сжатия цифрового видеосигнала может быть разбит на ряд последовательных операций (рис. 3.15):
преобразование анатогового сигнала в цифровую форму;
предварительная обработка;
дискретное косинусное преобразование:
квантование;
кодирование.
После аналого-цифрового преобразователя (АЦП) производится предварительная обработка сигнала, которая включает в себя следующие преобразования.
Удаление избыточной информации. Например, если фон изображения состоит из идентичных символов (пикселей), то совершенно не обязательно их все передавать. Достаточно описать один пиксель и послать его с сообщением о том, как часто и где он повторяется в изображении.
Если исходное изображение передается в виде чересстрочных полей, то они преобразуются в кадры с прогрессивной разверткой.
Сигналы цветности (RGB) преобразуются в цветоразност- ные сигначы U и V и сигнал яркости Y.
Изображение достраивается до кратного 16 количества пикселей по строкам и столбцам, чтобы обеспечить разбиение изображения на целое число макроблоков.
Сжатые
данные
Рис.
3.15. Блок-схема оборудования сжатия
видеоизображения
5. Производится преобразование из формата цветности 4 : 4 : 4 в формат 4:2:2 (горизонтальная передискретизация цве- торазностных компонентов) или 4:2:0 (горизонтальная и вертикальная передискретизация цветоразностных компонентов).
Квантование. Изображение разбивается на последовательность макроблоков, каждый из которых состоит из шести блоков по 8 х 8 пикселей:
четыре образуют матрицу 16 х 16 и несут информацию о яркости;
по одному — определяют цветоразностные компоненты U и V, которые соответствуют области изображения, покрываемой матрицей 16x16 пикселей.
Стандарт предусматривает два формата цветности, каждому из которых соответствует свой порядок блоков в макроблоке (рис. 3.16):
4:2:0 — макроблок состоит из шести блоков — четыре блока яркости YD и два блока цветности CR И Св;
4:4:4 — макроблок состоит из двенадцати блоков. Он содержит четыре блока YD, четыре CR и четыре Св.
Производится разбиение потока кадров изображения по типам, для них находятся векторы движения, которые необходимы для повышения предсказуемости величин элементов изображения. Векторы движения обеспечивают компенсацию пере-
yd
Формат
4:2:0
Рис.
3.16. Разбивка изображения на блоки в
MPEG-2
мещений в прошедших и последующих кадрах. Компенсация движения применяется при предсказании текущего кадра на основе предыдущих и интерполяционного предсказания на основе прошедших и последующих изображений. Векторы движения определяются для каждой зоны изображения с размерами 16 х 16 пикселей, т. е. для макроблоков. В большинстве случаев видеопоследовательности содержат избыточность в двух направлениях — временном и пространственном. Главное статистическое свойство, на котором основана аппаратура сжатия, — межэлементная корреляция, включающая предположение о коррелированное™ последовательных кадров видеоданных. Таким образом, значения отдельных пикселей изображения могут быть предсказаны либо по значениям ближайших пикселей внутри одного кадра (внутрикадровое кодирование), либо по значениям пикселей, расположенных в ближайших кадрах (межкадровое кодирование и компенсация перемещения).
Кодирование. В некоторых случаях, например, при смене видеосцены в видеопоследовательности, временная корреляция между ближайшими кадрами очень низка. В таких случаях решающую роль в достижении эффективного сжатия видеоинформации играет внутрикадровая корреляция, т. е. пространственная корреляция пикселей изображения. Однако, если корреляция между последовательными кадрами видеоданных высока, то в случае, когда два последовательных кадра имеют схожее или одинаковое содержание, желательно применение межкадровой корреляции пикселей с временным предсказанием. На практике для достижения высокого коэффициента сжатия видеоинформации используется комбинация из двух подходов.
Стандарт MPEG-2 определяет три типа кадров, для каждого из которых предусмотрен свой вид кодирования:
опорные кадры, так называемые 1-кадры (Intra Frames), которые являются основными и кодируются без обращения к другим кадрам, т. е. с использованием информации только этого кадра. Вид кодирования — внутрикадровый, обеспечивающий умеренное сжатие. Все остальные кадры анализируются процессором, который сравнивает их с опорными, а также между собой;
Р-кадры (Predicted) — закодированные относительно предыдущих I- или Р-кадров. Кодирование Р-кадров выполняют с использованием алгоритмов компенсации движения и предсказанием «вперед» по предшествующим I- и Р-кад- рам. Они сжаты в 3 раза сильнее, чем I-кадры, и служат опорными для последующих Р- и В-кадров. Компенсация движения, применяемая к макроблокам Р-кадров, вырабатывает два вида информации: векторы движения (разница между базовыми и кодированными макроблоками) и значения ошибок (разница между предсказанными величинами и действительными результатами). Если макроблок в Р-кадре не может быть описан с использованием компенсации движения, что случается при появлении некоторого неизвестного объекта, то он кодируется тем же способом, что и макроблок в 1-кадре;
• В-кадры (Bidirectionally Predicted) — закодированные относительно предыдущих и последующих кадров, т. е. с двунаправленным предсказанием и компенсацией движения. В-кадры имеют наибольшее сжатие.
Таким образом, в стандарте MPEG-2 используются три вида кодирования: внутрикадровое. межкадровое «вперед» с компенсацией движения, межкадровое двунаправленное, также с компенсацией движения.
Полученные кадры объединяются в группы последовательных кадров (GOP — group of pictures). Каждая последовательность начинается с I-кадра и состоит из переменного числа Р- и В-кадров. В описаниях алгоритмов кодирования MPEG и его реализаций не содержится никакой информации относительно методов выделения I-, Р- и В-кадров в видеопоследовательности.
В начале сцены должен стоять I-кадр, в конце — Р-кадр. Увеличивать долю В-кадров можно только в рамках одной сцены, иначе возникнут большие ошибки предсказания и компенсации движения. Поскольку типичная длительность группы кадров (во временном представлении — примерно 0,5 с) значительно меньше характерного расстояния между границами сцен, то в большинстве случаев жесткое задание структуры группы кадров не приводит к существенным визуальным ошибкам из-за того, что смена сцен попадает внутрь группы кадров.
На рис. 3.17 изображен порядок кодирования I-, Р- и В-кадров. Верхний ряд кадров демонстрирует исходную последовательность на входе кодера, нижний — после кодирования. Основными параметрами GOP являются длина последовательности N и порядок чередования Р-кадров. Например, в последовательности кадров, представленной на рис. 3.17, N= 7, М = 3, т. е. каждый третий кадр в последовательности — типа Р.
Из применявшихся до сих пор форматов групп для частоты полей 30 Гц типичной была последовательность IBBPBBPBBPBBP/BBTBBP... с N= 13 (для первой группы) и М= 3, в которой группу составляют 1,5 кадров, начинающихся с двух В-кадров и одного I-кадра, и каждые два В-кадра перемежаются с Р-кадром. Для частоты 25 Гц типичной является такая же последовательность, но с N= 12 и Л/ = 3. Такой выбор сделан для того, чтобы обеспечить одновременное выполнение требований максимального сжатия и произвольного доступа к любому из кадров последовательности. Между тем именно В-кадры обеспечивают максимальное сжатие, и если бы удалось поднять долю В-кадров в группе, а I-кадрами обозначить границы сцен, то эффективность сжатия была бы увеличена.
Для блоков с использованием компенсации движения находятся разностные ошибки предсказания движения.
Рис.
3.17. Порядок кодирования I-
Р-
и В-кадров по стандарту MPEG-2:
а
— последовательность
кадров
на входе кодера; б — последовательность
кадров
после
кодирования
разбиение кадров на блоки 16 х 16 пикселей. Далее блоки одного кадра сравниваются с соответствующими блоками другого кадра и, если они изменяют положение от кадра к кадру, их перемещение описывается векторами движения, которые и записываются в MPEG-поток.
На следующем этапе кодирования применяется метод пространственной избыточности, позволяющий еще более сократить объем данных, описывая разность между соответствующими блоками. Используя дискретное косинус-преобразование, блоки подразделяются на подблоки 8 \ 8 для отслеживания изменения цвета и яркости.
Очевидно, что чем больше коэффициент сжатия, тем хуже качество. Коэффициент сжатия — это численное выражение соотношения между объемом сжатого и исходного видеоматериала. Для MPEG сейчас стандартом считается соотношение 200:1, при этом сохраняется неплохое качество видео. Различные варианты Motion-JPEG работают с коэффициентами от 5:1 до 100 : 1, хотя даже при уровне в 20 : 1 уже трудно добиться нормального качества изображения. Кроме того, качество видео зависит не только от алгоритма сжатия (MPEG или Motion-JPEG), но и от параметров цифровой видеоплаты, конфигурации компьютера, а также от программного обеспечения.
Профили MPEG
Как уже отмечалось выше, в стандарте применяется концепция профилей и уровней (табл. 3.8).
Стандарт предусматривает пять профилей:
простой (simple) — для реализации видеопотока без В-кадров;
главный (main) — для реализации всех уровней, но без масштабируемости:
масштабируемый по отношению сигнал/шум (SNR scalable);
пространственно масштабируемый (spatiallvscalable);
профессиональный (professional 4:2:2). пространственно масштабируемый и масштабируемый по отношению сигнал/шум.
Каждый из этих профилей можно подразделить на четыре уровня:
низкий (LL);
главный (ML):
|
|
Профиль; тип кадра; формат (дискретизация сигнала цветности) |
||||
Уровень |
Параметр Число отсчетов в строке |
Простой; 1 иР; 4:2:0 |
Главный (MP @ ML); I; РиВ; 4:2:0 1920 |
Масштабируемый по отношению сигнал/шум I; Р и В 4:2:0 |
Пространственно масштабируемый I; Р и В 4:2:0 |
Профессиональный I; Р и В; 4:2:0 или 4 : 2 : 2 1920 |
Высокий |
Число строк в кадре Число кадров в секунду Макс, поток, Мбит/с |
Не предусмотрен |
1152 60 80 |
Не предусмотрен |
Не предусмотрен |
1152 60 100 |
|
Число отсчетов в строке |
|
1440 |
|
1440 |
1440 |
Высокий 1440 |
Число строк в кадре Число кадров в секунду Макс, поток, Мбит/с |
Не предусмотрен |
1152 60 80 |
Не предусмотрен |
1152 60 80 |
1152 60 80 |
|
Число отсчетов в строке |
720 |
720 |
720 |
|
720 |
Главный |
Число строк в кадре Число кадров в секунду |
576 30 |
576 30 |
576 30 |
Не предусмотрен |
576 30 |
|
Макс, поток, Мбит/с |
15 |
15 |
15 |
|
20 |
|
Число отсчетов в строке |
|
352 |
352 |
|
|
Низкий |
Число строк в кадре Число кадров в секунду Макс, поток, Мбит/с |
Не предусмотрен |
288 30 4 |
288 30 4 |
Не предусмотрен |
Не предусмотрен |
Таблица 3.<X. Уроним и профили спецификации MPEG
-2
. высокий 1440 (HI440);
• высокий (HL).
Каждому профилю соответствуют определенные наборы операций по сжатию данных.
В профиле простой используется наименьшее число операций: компенсация движения и гибридное дискретное косинусное преобразование (ДКП. DCT).
Профиль главный содержит дополнительную операцию — предсказание по двум направлениям, что улучшает качество изображения.
Профиль масштабируемый по отношению сигнал/шум предусматривает повышение устойчивости системы при снижении отношения сигнал/шум. Поток видеоданных разделяют на две части: базовый поток и расширенный поток. Первый несет наиболее значимую информацию, второй — дополнительную.
Профиль пространственно масштабируемый содержит все операции предыдущего профиля и новую — разделение потока видеоданных по критерию четкости телевизионного изображения. Этот профиль обеспечивает переходы между ныне действующим стандартом и ТВЧ.
В рассмотренных четырех профилях при кодировании сигналов яркости и цветности используют формат представления видеоданных 4:2:0, где число отсчетов сигналов цветности по сравнению с сигналом яркости снижено в 2 раза по горизонтальному и вертикальному направлениям.
В профиле профессиональный используют формат 4 : 2 : 2, т. е. число отсчетов сигналов цветности в вертикальном направлении такое же, как и в яркостном сигнале. Кроме этого, предусматривается возможность масштабирования — пространственного и по отношению сигнал/шум.
Уровню низкий соответствует недавно введенный класс качества телевизионного изображения — ТВ ограниченной четкости. Уровню главный соответствует ТВ обычной четкости. Уровни высокий 144 0 и высокий предусмотрены для ТВЧ, где использовано разложение на 1152 активные строки.
Каждый из этих профилей и уровней определяет предельные значения основных параметров битового потока, как это показано в табл. 3.8.
Сочетание профиля и уровня образует некоторое подмножество общего стандарта MPEG-2 применительно к различным задачам, для решения которых он предназначен. Такое сочетание принято обозначать аббревиатурой. Например, MP@ML означает главный профиль и главный уровень. Профессиональный профиль в сочетании с главным уровнем (422P@ML) послужил основой принятого в 1996 г. подмножества стандарта MPEG-2 для цифрового телевешания.
Описательный мультимедиа-стандарт MPEG-7
Спецификация разработана на пути использования методов и достижений интеллектуальных информационных систем в мультимедийных приложениях. Попытки решения данной задачи известны уже давно — ситуационное моделирование (Ю. И. Клыков, 1974 г.). RX-коды (1969 г.), проект PIPS (Pattern information processing system), программная среда и язык распознавания и генерации сцен NALIG — Native language interprator of graphics (Япония, 1980 г.) и др.
MPEG-7 формально называется «Мультимедиа-интерфейс для описания содержимого» (Multimedia Content Description Interface), он имеет целью стандартизовать описание мультимедийного материала, поддерживающего некоторый уровень интерпретации смысла информации, которая может быть передана для обработки ЭВМ. Стандарт MPEG-7 не ориентирован на какое-то конкретное приложение, он стандартизует некоторые элементы, которые рассчитаны на поддержку как можно более широкого круга приложений. Следовательно, средства MPEG-7 позволят формировать описания (т. е. наборы схем описания и соответствующих дескрипторов по желанию пользователя) материала, который может содержать:
информацию, описывающую процессы создания и производства материала (указатель, заголовок, короткометражный игровой фильм);
информацию, относящуюся к использованию материала (указатели авторского права, история использования, расписание вешания);
информацию о характеристиках записи материала (формат записи, кодирование);
структурную информацию о пространственных, временных или пространственно-временных компонентах материала
(разрезы сцены, сегментация областей, отслеживание перемещения областей):
информацию о характеристиках материала нижнего уровня (цвета, текстуры, тембры звука, описание мелодии);
концептуальную информацию о реальном содержании материала (объекты и события, взаимодействие объектов);
информацию о том. как эффективно просматривать материал (конспекты, вариации, пространственные и частотные субдиапазоны и пр.);
информацию о собрании объектов;
информацию о взаимодействии пользователя с материалом (предпочтения пользователя, история использования).
MPEG-7 сконструирован так. чтобы учесть все подходы, учитывающие требования основных стандартов, таких, как SMPTE Metadata Dictionary. Dublin Силис. EBU P/Meta и TV Anytime. Эти стандарты ориентированы на специфические приложения и области применения, в то время как MPEG-7 пытается быть как можно более универсальным. MPEG-7 использует также схему XML в качестве языка выбора текстуального представления описания материала. Главными элементами стандарта MPEG-7 являются (рис. 3.18):
дескрипторы (D) — представление характеристик, которые определяют синтаксис и семантику представления каждой из характеристик;
схемы описания DS (description scheme), которые специфицируют структуру и семантику взаимодействия между компонентами. Эти компоненты могут быть дескрипторами и схемами описания;
язык описания определений DDL (description definition language), позволяющий создавать новые схемы описания и, возможно, дескрипторы, и обеспечивающий расширение и модификацию существующих схем описания;
системные средства служат для поддержки мультиплексирования описаний, синхронизации описаний и материала, механизмов передачи, кодовых представлений (как текстуальных, так и двоичных форматов) для эффективной записи и передачи, управления и защиты интеллектуальной собственности в описаниях MPEG-7.
Все области применения, базирующиеся на мультимедиа, выиграют от использования MPEG-7. Ниже предлагается список
Рис.
3.18.
Абстрактное представление возможных
приложении на основе MPEG-7
возможных приложений MPEG-7. которые любой из читателей без труда сможет дополнить:
архитектура, недвижимость и интерьерный дизайн (например, поиск идей):
выбор широковещательного медийного канала (например, радио. TV);
услуги в сфере культуры (исторические музеи, картинные галереи и т. д.):
цифровые библиотеки (например, каталоги изображений, музыкальные словари, биомедицинские кататоги изображений. фильмы, видео- и радиоархивы);
е-коммерция (например, целевая реклама, каталоги реального времени, каталоги электронных магазинов);
образование (например, депозитарии мультимедийных курсов, мультимедийный поиск дополнительных материалов);
домашние развлечения (например, системы управления личной мультимедийной коллекцией, включая манипуляцию содержимым, например, редактирование домашнего видео, поиск игр. караоке);
исследовательские услуги (например, распознавание человеческих особенностей, экспертизы);
журнатизм (например, поиск речей определенного политика, используя его имя. его голос или его лицо);
мультимедийные службы каталогов (например, желтые страницы, туристская информация, географические информационные системы):
мультимедийное редактирование (например, персональная электронная служба новостей, персональная медийная среда для творческой деятельности):
удаленное опознавание (например, картография, экология, управление природными ресурсами);
осуществление покупок (например, поиск одежды, которая вам нравится):
надзор (например, управление движением, транспортом, неразрушаюший контроль в агрессивной среде).
В принципе, любой тип аудиовизуального материала может быть получен с помощью любой разновидности материала в запросе. Это означает, например, что видеоматериал может быть запрошен с помощью видео, музыки, голоса и т. д. Ниже приведены примеры запросов:
•проиграйте несколько нот на клавиатуре, и вы получите список музыкальных отрывков, сходных с проигранной мелодией, или изображений, соответствующих некоторым образом нотам, например, в эмоциональном плане;
•нарисуйте несколько линий на экране, ивы найдете набор изображений, содержащих похожие графические образы, логотипы, идеограммы;
•определите объекты, включая цветовые пятна или текстуры, и вы получите образцы, среди которых сможете выбрать интересующие вас объекты;
опишите действия и получите список сценариев, содержащих эти действия;
используя фрагмент голоса Паваротти, получите список его записей, видеоклипов, где Паваротти поет, и графический материал, имеющий отношение к этому певцу.
Рассмотрим пример описания визуального материала (рис. 3.19, а) графовыми представлениями (рис. 3.19, б).
Этот пример демонстрирует момент футбольного матча. Определены два видеосегмента, одна стационарная область и три движущиеся области. Граф. описывающий структуру материала, показан на рис. 3.19.
|
|
Щ НЕДНиИНМ |
|
|
Щ SVV1; i |
; 1 |
|
|
|
|
|
|
|||
|
Video Segment & Kitk |
|
|
|
|
|
|
|
|
SISI ■■■ |
|
Ms |
|
4 г: |
|
|
Ыж-Мы |
|
|
|
|
|
вбй! |
Video Segmm! ■
а
Рис.
3.19. Пример видеосегмента и областей
ситуации
(а); соответствующий
граф (о)
б
Видеосегмент Dribble&Kick (Обводка и удар) включает в себя мяч, вратаря и игрока. Мяч остается рядом с игроком, движущимся к вратарю. Игрок появляется справа от вратаря.
Видеосегмент гол включает в себя те же подвижные области плюс стационарную область ворота. В этой части последовательности игрок находится слева от вратаря, а мяч движется к воротам.
Этот простой пример иллюстрирует гибкость данного вида представления. Заметим, что это описание в основном представляется структурным, так как отношения, специфицированные ребрами графа, являются чисто физическими, а узлы представляют объекты, которые описываются данными о создании, информацией об использовании и медиаданными, а также дескрипторами низкого уровня, такими, как цвет, форма, движение. В семантически явном виде доступна только информация из текстовой аннотации (где могут быть специфицированы ключевые слова мяч, игрок или вратарь).
Контрольные вопросы
Каковы характеристики аналогово-цифрового и цифро-аналогового преобразований аудиоданных?
Перечислите методы синтеза звука.
Какие характеристики имеют аудиоадаптеры?
Что такое ЧМ и WaveTable?
Перечислите возможности карты SoundBlaster.
Что такое LivelDrive?
Охарактеризуйте MIDI-интерфейс.
Перечислите основные характеристики форматов аудиосигнала.
Какие основные функции реализует программное обеспечение обработки аудиосигналов?
Охарактеризуйте методы оптической интерполяции.
Перечислите основные характеристики цифровых видеокамер (ЦВК).
Что такое схемы цветообразования?
Охарактеризуйте форматы графических файлов.
Что такое видеозахват?
Что такое цветоразностные компоненты?
Перечислите форматы записи цифрового видео.
В чем заключается сущность M-JPEG сжатия видеоданных?
Перечислите основные особенности алгоритмов MPEG-1—4.
Что такое GOP?
Что такое профили MPEG?
В чем сущность стандарта MPEG-7?