- •3. Практическое использование видеокомпрессии в телевидении
- •3.1. Задача сжатия информации и пути ее решения
- •3.2. Международный стандарт кодирования с информационным сжатием mpeg-2
- •3.2.1. Профили и уровни стандарта кодирования mpeg-2
- •Профили, уровни, согласованные точки стандарта mpeg-2
- •3.2.2. Компрессия видеоданных
- •3.2.3. Кодируемые кадры
- •3.2.4. Компенсация движения
- •3.2.5. Использование дкп в стандарте кодирования mpeg-2
- •Матрица квантования яркостного сигнала для блоков изображений I-кадров
- •Матрица квантования цветоразностных сигналов для блоков изображений I-кадров
- •3.2.6. Сжатие звукоданных Эффект маскирования и психоакустическая модель слуха
- •П Рис. 3.10.Проявление временнóго маскированияолосное кодирование и блок фильтров
- •Квантование и распределение бит
- •Уровни обработки звукоданных
- •3.2.7. Алгоритмы сжатия звукоданных кодерами различных уровней Особенности работы кодера первого уровня
- •Принципы функционирования кодера второго уровня
- •Алгоритм сжатия звукоданных кодерами третьего уровня
- •3.2.8. Реализация цифрового многоканального звука, поддерживаемая стандартом mpeg-2
- •Иерархия многоканальных звуковых систем согласно Рекомендации bs.775
- •Система улучшенного кодирования звука аас
- •3.2.9. Формирование транспортного потока данных в устройствах кодирования mpeg-2 Структура транспортного потока
- •Значения идентификаторов piDдля потока информацииSi
- •3.2.10. Качество телевизионных изображений при кодировании по стандарту mpeg-2
- •3.3. Стандарт представления медиа-объектов mpeg-4
- •3.3.1. Описание сцены в стандарте mpeg-4
- •3.3.2. Принципы доставки потоков данных
- •3.3.3. Кодирование визуальных объектов
- •3.3.4. Кодирование звуковых объектов
- •3.3.5. Профили и уровни стандарта mpeg-4
- •Профили и типы объектов mpeg-4 видео
- •Параметры потока для некоторых профилей mpeg-4 видео
- •Параметры предлагаемого студийного профиля стандарта mpeg-4
- •Требования к декодеру звука масштабируемого профиля
- •Профили и типы объектов mpeGаудио
- •Профили графических средств и описаний сцены в mpeg-4
- •3.3.6. Идентификация и защита интеллектуальной собственности
- •3.4. Стандарт кодированного представления визуальной информации н.264/avCилиMpeg-4Part10
- •3.4.1. Структура стандарта видеокомпрессии н.264 Основные механизмы кодирования, используемые в стандарте н.264
- •Формирование закодированных снимков
- •Моды слоев стандарта н.264
- •Синтаксис элементов макроблока
- •Используемые типы карт распределения макроблоков по группам слоев
- •Профили, используемые стандартом н.264
- •Формат закодированных данных
- •3.4.2. Базовый профиль Особенности кодирования, обусловленные базовым профилем
- •Использование ссылочных снимков
- •Мгновенная очистка буфера декодера
- •Лишний кодированный снимок
- •Произвольный порядок слоев
- •Прогнозирование макроблоков
- •Древовидная структура компенсации движения
- •Предсказание векторов движения
- •Прогноз в моде intra
- •Деблочный фильтр
- •Условия фильтрации
- •Преобразование и квантование
- •3.4.3. Основной профиль Особенности кодирования в основном профиле
- •Ссылочные снимки
- •Опции прогноза
- •Опции прогнозов для макроблоков в-слоев
- •Двунаправленный прогноз
- •Прямой прогноз
- •Чересстрочная развертка
- •Контекстно-адаптивное арифметическое кодирование (савас)
- •Экспоненциальные коды Голомба
- •Процесс кодирования
- •Контекстные модели для первого бита
- •Контекстные модели
- •Контекстные модели
- •Модуль арифметического кодирования
- •3.4.4. Расширенный профиль
- •Слои sPиSi
- •Слои деления данных
- •3.4.5. Транспортный механизм стандарта н.264 Структура кодированной видеопоследовательности
- •Элементы rbsp
- •Параметрические множества
- •Передача и хранение единиц nal
- •3.4.6. Кодек стандарта н.264
- •3.5. Стандарт описания мультимедийной информации mpeg-7
- •3.5.1. Общие сведения о стандарте mpeg-7
- •3.5.2. Основные части стандарта mpeg-7
- •3.5.3. Описание главных функций стандарта mpeg-7 Системы стандарта mpeg-7
- •Язык описания определений mpeg-7
- •Аудио mpeg-7
- •Визуальный mpeg-7
- •Основные объекты и схемы описания мультимедиа mpeg-7
- •Эталонные программы mpeg-7: модель экспериментов (eXperimentationModel)
- •3.5.4. Области применения стандарта mpeg-7
- •Контрольные вопросы
3.3.4. Кодирование звуковых объектов
Широкие возможности представляет стандарт MPEG-4 для кодирования звука. Впервые используются раздельные алгоритмы для кодирования звуков музыкального происхождения и речи, введены мощные средства создания и обработки синтезированного звука [14].
Н
Рис. 3.31.Схема
реализации режимаPNS:
а) кодер;б)
декодер
Еще одно усовершенствование связано с введением алгоритма BSAC(Bit-SlicedArithmeticCoding–арифметическое кодирование с побитовым расщеплением). Чтобы получить масштабируемый поток,BSACиспользует альтернативный по отношению к ААС модуль кодирования квантованных коэффициентов с точным управлением скоростью потока в пределах от 16 до 64 кбит/с с шагом 1 кбит/с.
Существенный выигрыш в скорости потока для стационарных гармонических и квазигармонических сигналов позволяет получить метод долговременного предсказания LTP(LongTermPrediction). В технике кодирования речи этот метод широко используется во временнóй области. В стандартеMPEG-4 он интегрирован в схему универсального кодера (рис. 3.32), где операции квантования и кодирования осуществляются над спектральными представлениями входного сигнала. Для работы схемыLTPкодированный сигнал предыдущего кадра переводится обратно во временнýю область с помощью инверсного преобразованияTNSи синтезирующего БФ, в блокеLTPон сравнивается с приходящим сигналом, а полученная разность опять переводится в спектральную область. Специальный переключательFSS(FrequencySelectiveSwitch–переключатель с частотной избирательностью) выбирает исходный или разностный сигнал в зависимости от того, какая альтернатива в данный момент предпочтительнее. По сравнению с предсказанием изMPEG-2 ААС данный метод предсказания требует вдвое меньших ресурсов памяти и производительности процессора.

Рис. 3.32.Схема универсального кодера сLTP

Рис. 3.33.АлгоритмTwinVQвекторного квантования спектральных компонентов
Для увеличения эффективности кодирования музыкальных сигналов на низких скоростях разработан новый алгоритм TwinVQ(Transform-domainWeightedInterleaveVQ–взвешивающее векторное квантование с перемежением и преобразованием областей). Основная идея – заменить обычное кодирование спектральных компонентов в ААС перемежающим векторным квантованием, приложенным к нормализованному спектру. Квантование спектральных коэффициентов осуществляется в два шага: на первом они нормализуются к некоторому пределу, на втором – квантуются с использованием векторного квантования. Процесс нормализации включает оценку спектра по шкале Барка, извлечение периодических компонентов и оценку мощности спектральных составляющих. В результате нормализации спектральные коэффициенты выравниваются и нормализуются вдоль частотной оси. Затем нормализованные коэффициенты описываются как многомерный вектор, чередуются в субвекторы, как показано на рис. 3.33, и квантуются с использованием векторного квантования. Остальная часть алгоритма ААС остается неизменной.
TwinVQдает хорошие результаты в области скоростей от 6 до 24 кбит/с и используется в основном в универсальных кодекахMPEG-4 с масштабированием для формирования базового слоя.
Для кодирования речи применяются два основных алгоритма: параметрический HVXC(HarmonicVectoreXcitationCoding—кодирование с помощью гармонических векторов) иCELP(CodeExcitedLinearPredictioncoding–кодирование с линейным предсказанием). Первый алгоритм обеспечивает более высокое сжатие, он применяется в интервале скоростей потока 2…4 кбит/с (при переменной скорости – даже до 1,2 кбит/с), работает с частотой дискретизации 8 кГц в полосе стандартного телефонного канала 300…3400 Гц. Второй алгоритм имеет несколько разновидностей, работает в двух режимах – полосы частот 300…3400 Гц с дискретизацией 8 кГц и 50…7000 Гц с дискретизацией 16 кГц, и обеспечивает скорость потока от 4 до 24 кбит/с. Оба алгоритма базируются на моделировании речи с линейным предсказанием. Поступающий речевой сигнал сравнивается с сигналом, предсказанным моделью речевого тракта, параметры модели изменяются таким образом, чтобы минимизировать разность двух сигналов, и передаются декодеру. В декодере имеется такая же модель, которая по полученным значениям параметров синтезирует речевой сигнал. ВHVXCболее высокая степень сжатия объясняется более грубым анализом по огибающей спектра и изменениям высоты тона.CELPиспользует более точный спектральный анализ с долговременным предсказанием, обеспечивая более высокое качество передачи речи.
О
Рис. 3.34.Масштабируемость речевого кодекаCELP

На рис. 3.35 наглядно показаны области применения различных алгоритмов кодирования звука, применяемых вMPEG-4.
Если при кодировании натуральных звуков используется перцептуальное сжатие исходного звукового сигнала, то кодирование синтезированного звука производится путем создания егоописания. Это описание передается декодеру и по нему синтезируется звук, аналогичный исходному. В стандартеMPEG-4 этот процесс реализуется в рамках формата «Структурированное аудио», допускающего передачу по каналу синтезированных звуков и музыки со скоростями 0,01…10 кбит/с. Для описания музыкальных звуков различных инструментов разработанспециальный структурированный оркестровый язык(SAOL–StructuredAudioOrchestraLanguage), он оперирует загружаемыми в поток «инструментами». Инструмент представляет собой небольшой программный или аппаратный модуль генерации и обработки простейших сигналов, который может воспроизводить определенные звуки, в том числе и схожие со звуками музыкальных инструментов.MPEG-4 не стандартизует метод синтеза, скорее он дает способ описания методов синтеза, пригодный для всех существующих и перспективных алгоритмов.
В
Рис. 3.35.Области
применения различных алгоритмов
кодирования звука

Стандартом поддерживается механизм привязки звука к расположению объекта в пространстве сцены и его изменения при перемещении объекта, введены механизмы изменения звука в зависимости от акустических свойств пространства сцены [14].
Одно из новшеств стандарта MPEG-4 – алгоритм преобразования текста в речьTTSI(Text-to-SpeechInterface). По каналу передается текст со скоростью от 200 бит/с до 1,2 кбит/с, а декодер преобразует его в речь. В отличие от обычных синтезаторов речи, извлекающих из базы данныхфонемы (единицы речи) и соединяющих эти фонемы в связную, но совершенно лишенную эмоций речь,TTSIдополняет речь характеристиками живого голоса – тембром, интонацией, акцентом, просодией (так называется система произношения ударных и неударных, долгих и кратких звуков). Поддерживаются и другие функции: синхронизация речи с синтезированным лицом говорящего, включая выражение лица и движения губ; возможность для пользователя изменить ритм, тон, громкость, пол, возраст говорящего; сменить язык; изменение характеристик речи при перемещении говорящего в пространстве сцены; возможность остановки, ускоренного воспроизведения вперед и назад без нарушения просодии и т.д. Возможные области примененияTTSI– искусственный рассказчик (по запросу); синтез речи, синхронной с анимацией; синтез речи для виртуальной реальности; говорящая газета; средство дублирования для анимационных картинок; голосовой Интернет и многие другие.
В
Рис. 3.36.Масштабирующий универсальный кодерMPEG-4

Во второй версии масштабируемость кодера Универсального звука сделана более детальной (шаги 2 кбит/с вместо 16 кбит/с). Масштабируемость достигается благодаря кодированию потока звукоданных несколькими кодерами, первый из которых обрабатывает прореженный исходный поток, а каждый из последующих компрессирует разность между входным и декодированным сигналами предыдущей ступени (рис. 3.36). Для работы на очень низких скоростях введеналгоритм параметрического кодированияHILN(HarmonicandIndividualLinesplusNoise– гармоники и одиночные линии плюс шум), базирующийся на представлении звукового сигнала как набора синусоид, гармоник и шумов и передаче по каналу параметров этих первичных сигналов. Частоты и амплитуды первичных сигналов квантуются с разрешением, соответствующим градации «различие едва заметно». Спектральная огибающая шума и гармонические компоненты описываются на основе техники линейного предсказания, при этом используется корреляция между параметрами в кадре и между последовательными кадрами. Этим методом можно кодировать звуковые сигналы, начиная со скорости 4 кбит/с. Упомянем также специальныйформат транспортного потока для звуковых применений с малой избыточностьюLOAS(LowOverheadAudioStream), возможность организации обратного канала от пользователя к источнику контента для поддержки интерактивных приложений, более устойчивую к ошибкам версиюHVXC.
