(по цифровому вещанию) Dvorkovich_V_Cifrovye_videoinformacionnye_sistemy
.pdfГлава 12. Методы анализа и компенсации движения
При кодировании сигнала цветности необходимо учитывать ту модель цветности, которая используется в данном приложении. Например, при использовании распространенной модели 4:2:0 пространственное разрешение цветоразностных сигналов Cr и Cb в 4 раза меньше пространственного разрешения сигнала яркости. В этом случае передискретизация сигналов цветности производится с половинными значениями векторов движения, найденными выше, например (см. рис. 12.20):
|
(1) |
|
x1 |
|
|
x2 |
|
|
|
YCr (ΔV ) ≈ YCr |
= YCr0 + |
2 |
(YCr1 − YCr0) + |
2 |
|
(YCr2 − YCr0), |
(12.32) |
||
|
(1) |
|
x1 |
|
x2 |
|
|
||
YCb(ΔV ) ≈ YCb |
= YCb0 + |
2 |
(YCb1 − YCb0) + |
2 |
|
(YCb2 − YCb0). |
(12.33) |
||
Результаты экспериментов
Тестирование рассмотренного алгоритма осуществлялось на модели программного кодера МРЕG-2. Для сравнения результатов выбирались постоянные значения коэффициентов квантования для всех макроблоков в кадре. Выбор типа макроблока в В-кадре осуществлялся после процедуры пространственной передискретизации. Для этого пространственная передискретизация проводилась независимо для трех значений Xx,y, соответствующих типу кодирования макроблоков с предсказанием по времени вперед, назад либо в обе стороны. Решение от выборе типа
кодирования осуществлялось по минимальному значению мощности сигнала по- |
|||||||
сле компенсации движения: |
|
|
|
|
|
||
|
|
|
C2 . |
|
|
(12.34) |
|
|
|
|
f = |
|
|
||
|
|
|
|
i,k |
|
|
|
|
|
|
i,k |
|
|
|
|
Макроблок кодировался без компенсации движения, если f > g, |
|
||||||
|
|
|
2 |
|
1 |
|
|
g = |
|
(Yi,k − < Yi,k >) , |
< Yi,k >= |
|
Yi,k . |
(12.35) |
|
i,k |
256 |
||||||
|
|
|
|
|
i,k |
|
|
При кодировании каждый 15-й кадр являлся опорным, на каждый Р-кадр приходилось два В-кадра. Результаты вычислений приведены в табл. 12.16 и 12.17 для различных тестовых последовательностей. Выбирались такие последовательности или их участки, в которых отсутствует смена сюжета.
Таблица 12.16. Последовительность «Футбол», разрешение 352 × 240 пикселов, формат цветности 4 : 2 : 0, 105 кадров, 25 кадров/с
|
Коэффициент квантования |
Размер файла (байты) |
Выигрыш по сжатию [%] |
|||||
|
|
|
|
|
|
|
|
|
|
|
p = 0 |
p = 0,25 |
p = 0,5 |
p = 0 |
p = 0,25 |
p = 0, 5 |
|
|
|
|
|
|
|
|
|
|
|
4 |
4 717 155 |
4 539 104 |
4 433 831 |
0 |
|
3,9 |
6,4 |
|
|
|
|
|
|
|
|
|
|
8 |
2 665 627 |
2 575 045 |
2 508 722 |
0 |
|
3,5 |
6,2 |
|
|
|
|
|
|
|
|
|
|
16 |
1 365 542 |
1 337 365 |
1 313 466 |
0 |
|
2,1 |
3,9 |
Таблица 12.17. Последовательность «Теннис», разрешение 352 × 240 пикселов, |
||||||||
|
формат цветности 4 : 2 : 0, 60 кадров, 25 кадров/с |
|
|
|||||
|
Коэффициент квантования |
Размер файла (байты) |
Выигрыш по сжатию [%] |
|||||
|
|
|
|
|||||
|
|
p = 0 |
p = 0,25 |
p = 0,5 |
p = 0 |
p = 0,25 |
p = 0,5 |
|
|
|
|
|
|
|
|
|
|
|
4 |
1 555 862 |
1 499 434 |
1 456 107 |
0 |
|
3,8 |
6,8 |
|
8 |
830 824 |
798 822 |
773 192 |
0 |
|
4,0 |
7,5 |
|
|
|
|
|
|
|
|
|
|
16 |
413 488 |
403 713 |
396 726 |
0 |
|
2,4 |
4,2 |
|
|
|
|
|
|
|
|
|
12.4. Анализ смены сюжета в динамических изображениях
Рис. 12.21. Восстановленный кадр последовательности «Футбол» при различном значении максимального вектора смещения при передискретизации
Для рассмотренных видеопоследовательностей эффект дополнительного сжатия составляет порядка 4–7% и зависит от максимально допустимого значения p вектора смещения, увеличиваясь с увеличением p. Визуальный анализ закодированных последовательностей показывает, что при p = 0,25 искажения сигнала незаметны для глаза.
При p = 0,5 становятся заметными небольшие искажения, которые проявляются как слабое дрожание элементов изображения с частотой, равной частоте смены кадров.
На рис. 12.21 показаны восстановленные кадры последовательности «Футбол» при различных значениях p. Из этого рисунка видно, что статические изображения без применения и с применением нового алгоритма практически не отличаются друг от друга.
Таким образом, метод передискретизации приводит к дополнительному эффекту сжатия порядка 4–7% и возрастает с увеличением максимального значения допустимого вектора смещения. С другой стороны, при больших значениях вектора смещения (p 0,5) становятся заметными мелкомасштабное дрожание элементов изображения. Поэтому практически приходится ограничиваться значением p = 0,25, при котором эффект дополнительного сжатия составляет около 4%.
Смена сюжета в видеопоследовательности — это резкое изменение содержание сцены в соседних кадрах [4.45]. Смена сюжета происходит при переключении источника видео (камеры), при соединении фрагментов видео (редактирование) и т. д.
При кодировании видеопоследовательностей с использованием предсказания движения по соседним кадрам следует учитывать смену сюжета по ряду причин:
–предсказание на основе кадров другого сюжета неэффективно (возможны только случайные совпадения), но на предсказание тратятся вычислительные ресурсы;
–учет смены сюжета позволяет повысить качество декодируемого видео при регулировании скорости выходного потока кодирования;
Глава 12. Методы анализа и компенсации движения
–использование опорных кадров при смене сюжета повышает качество и удобство работы при последующем редактировании закодированного видеоматериала.
Анализ смены сюжета можно проводить по результатам блочного анализа движения: если предсказывается небольшая часть блоков, то произошла смена сюжета.
Этот алгоритм легко встраивается в процедуру кодирования, уже содержащую блочный анализ движения, но имеет некоторые недостатки. При этом алгоритме за смену сюжета будет также приниматься быстрое панорамирование, масштабирование, изменение освещенности и пр. Кроме того, на анализ движения (впоследствии ненужный из-за смены сюжета) расходуются вычислительные ресурсы.
В результате проведения исследований был разработан и предложен быстрый, эффективный и вычислительно простой метод поиска смены сюжета. Он основан на анализе изменения гистограммы распределения яркости в соседних кадрах.
Метод состоит из нескольких шагов, описанных ниже.
Изображение разбивается на несколько областей. Области могут быть как перекрывающимися, так и неперекрывающимися; они могут в совокупности охватывать либо кадр целиком, либо большую часть кадра. В приведенном ниже примере кадр разбит на восемь прямоугольных неперекрывающихся областей Ri, i = 0, . . . , N − 1, N = 8, охватывающих все изображение, как показано на рис. 12.22.
Для каждой области j кадра i подсчитывается гистограмма распределения яркостей пикселов Hi,j = {hi,j,k}, j = 0, . . . , (N − 1), k = 0, . . . , (256/S − 1). Шаг вычисле-
ния гистограммы S больше единицы (в приведенном примере шаг гистограммы S = 8). Яркости пикселов распределены в диапазоне от 0 до 255, hi,j,k — процентная доля пикселов области Rj кадра i, имеющих яркость в диапазоне
[k · S, (k + 1) · S).
Для каждой области подсчитывается сумма квадратов разностей значений гистограмм текущего и предшествующего кадров: Di,j = !(hi,j,k − hi−1,j,k)2.
k
Определяется количество областей, в которых Di,j > T , где T — пороговое значение (в примере используется T = 500).
Если количество областей, в которых порог превышен, не менее половины, то детектируется смена сюжета.
Ниже приводятся примеры, иллюстрирующие эффективность работы этого алгоритма. В примерах рассмотрены различные сюжеты телевизионного качества. При обработке изображений существенно меньшего разрешения или меньшей частоты кадров нужно изменять пороговое значения T определения смены сюжета.
На рис. 12.23 приведены два последовательных кадра со значительным движением фона и гистограммы яркости участков изображений и значения Di,j . Смена сюжета не зафиксирована (порог не превышен ни на одном из участков). На графике гистограммы по горизонтали отложен номер группы суммирования
12.4. Анализ смены сюжета в динамических изображениях
На рис. 12.27 представлены два последовательных кадра со сменой сюжета и соответствующие графики. Смена сюжета зафиксирована (порог превышен на четырех из восьми участков).
Таким образом, представленные иллюстрации показывают, что принцип анализа смены сюжета в последовательности кадров, основанный на разбиении кадров на несколько областей и сравнении гистограмм в каждой области, весьма прост в реализации и его использование обеспечит повышение эффективности кодирования динамических изображений.
Рис. 12.27. Последовательность кадров со сменой сюжета — а и гистограммы яркости участков кадров с соответствующими им значениями сумм квадратов разностей — б
4.1.Цифровая обработка телевизионных и компьютерных изображений. 2-е изд., перераб. и доп. / Под ред. Ю.Б. Зубарева и В.П. Дворковича. М.: НАТ, 1997.
4.2.ITU-T Recommendation T.81 / Information Technology — Digital Compression and Coding of Continuous-Tone Still Images: Requirements and Guidelines, 1994.
4.3.ITU-T Recommendation T.84 / Information Technology — Digital Compression and Coding of Continuous-Tone Still Images: Extensions, 1997.
4.4.Andelson E.H., Simonselli E. Orthogonal Pyramid Transforms for Image Coding// SPIE. 1987. V.45.
4.5.Baaziz N. Labit C. Pyramid Transform for Digital Images// IRISA, Campus de Beaulieu. — 1990. № 526.
4.6.Burt P., Andelson E. The Laplasian Pyramid as a Compact Image Code// IEEE Trans. Commun. — 1983. V.31. № 4.
4.7.Antonini M., Darlaud M., Mathieu P., Daubechies I. Image Coding Wavelet Transform// IEEE Trans. Image Proc. 1992. Vol. 1. № 2.
4.8.Mallat S. A theory for multiresolution signal decomposition: the wavelet representation// IEEE Pattern Anal. аnd Machine Intel. July, 1989. Vol. 11. № 7.
4.9.Добеши И. Десять лекций по вейвлетам/ Пер. с англ. Е.В. Мищенко; под ред. А.П. Петухова. М.: РХД, 2001.
4.10.Госалес Р., Вудс Р. Цифровая обработка изображений/ Пер. с англ. П.А. Чочиа. М.: Техносфера, 2005.
4.11.Воробьев В.И., Грибулин В.Г. Теория и практика вейвлет-преобразований. СПб.: Военный университет связи, 1999.
4.12.Петухов А.П. Введение в теорию базисов всплесков. СПб.: Издательство СПбГТУ, 1999.
4.13.Дворкович В.П., Мохин Г.Н., Нечепаев В.В., Дворкович А.В. Способ покадрового сжатия изображений // Патент РФ № 2122295, 20.11.1998.
4.14.Дворкович А.В., Дворкович В.П., Мохин Г.Н., Соколов А.Ю. Способ цифровой обработки динамических изображений// Патент РФ № 2182746, 20.05.2002.
4.15.Joint Video Team of ITU-T and ISO/IEC JTC 1, «Draft ITU-T Recommendation and Final Draft International Standard of Joint Video Specification (ITU-T Rec. H.264 | ISO/IEC 14496-10 AVC),» Joint Video Team (JVT) of ISO/IEC MPEG and ITU-T VCEG, JVT-G050, March, 2003.
4.16.Wiegand Thomas, Sullivan Gary J. Gisle Bjontegaard, and Ajay Luthra. Overview of the H.264/ AVC Video Coding Standard // IEEE Transactions on Circuits and Systems for Video Technology. July, 2003.
4.17.Richardson Iain E. G. H.264 and MPEG-4 Video Compression. Video Coding for Next-generation Multimedia. The Robert Gordon University. Aberdeen, UK, 2003.
Литература к части IV
4.18.List P., Joch A., Lainema J., Bj G.øntegaard, M. Karczewicz. Adaptive Deblocking Filter// IEEE Transactions on Circuits and Systems for Video Technology. Vol. 13. № 7. July, 2003.
4.19.Дворкович В.П., Дворкович А.В. Расчет банков фильтров дискретного вей- влет-преобразования и анализ их характеристик// Цифровая обработка сигналов. 2006. № 2.
4.20.Дворкович В.П., Гильманшин А.В. Новый подход к использованию двумерных вейвлет-фильтров при обработке изображений: Доклад на 10-й Международной конференции «Цифровая обработка сигналов и ее применение». Москва, март 2008.
4.21.Дворкович В.П., Гильманшин А.В. Использование трехполосных фильтров вейвлет-фильтров для обработки изображений: Доклад на 10-й Международной конференции «Цифровая обработка сигналов и ее применение», Москва, март 2008.
4.22.Дворкович В.П., Гильманшин А.В. Новый подход к использованию двумерных вейвлет-фильтров при обработке изображений// Доклад на 10-й Международной конференции «Цифровая обработка сигналов и ее применение», Москва, март 2008.
4.23.Max J. Quantizing for Minimum Distortion// IEEE Trans. V. JT-6. 1960. № 3.
4.24.Rao K.R., Hwang J.J. Techniques and Standards for Image, Video and Audio Coding. Prentice Hall PTR, NJ, 1996.
4.25.Jain J.R., Jain A.K. Displacement measurement and its application in interframe image coding// IEEE Trans. Commun. 1981. V.COM-29, pp. 1799–1808.
4.26.Chen M.J., Chen L.G., Chieuh T.D. One dimensional full-search motion estimation algorithm for video coding// IEEE Trans. Circuits and Systems for Video Technol. 1994. V.4, pp. 504–509.
4.27.Koga T. et. al. Motion compensation interframe coding for video conferencing, NTC ’81, National Telecomm. Conf. 1981, pp. G5.3.1–G5.3.5.
4.28.Vos L.D. VLSI —– architecture for the hierarchical block matching algorithm for HDTV Applications // SPIE/VCIP. Vol.1360, pp.398–409. Cambridge, MA, Nov, 1990.
4.29.Ландау Л.Д., Лифшиц Е.М. Теоретическая физика: Учебное пособие: В 10 т. Т. VI. Гидродинамика. 3-е изд., перераб. М.: Наука, 1986. С.15.
4.30.Tekalp M. Digital Video Processing. Prentice Hall PTR. Prentice-Hall, Inc, USA, 1995.
4.31.Kim S., Kuo C.-C.J. Fast motion vector estimation with a Markov model for MPEG. Proc. of The Int. Society for Optical Engineering. Digital Video Compression: Algorithms and Technologies. 1995. 7–10 Feb.,1995. San Jose, California, Vol. 2419. Р. 210.
4.32.Koga T. et al. Motion compensated interframe coding for video conferencing. NTC 1981: National Telecom. Conf. Р. G.5.3.1–G.5.3.5. New Orleans, LA, Nov.- Dec., 1981.
Литература к части IV
4.33.Schuster G.M., Katsaggelos A.K. A Theory of Optimal Bit Allocation Between Displacement Vector Field and Displaced Frame Difference// IEEE Journal On Selected Areas in Communication. Vol.15. Num.9. Dec., 1997. Р. 1739.
4.34.Дворкович В.П., Нечепаев В.В. Компенсация движения с использованием преобразования Фурье: Материалы 1-й межд. конф. «Цифровая обработка сигналов и ее применения», 30 июня — 30 июля 1998 г., Россия, Москва, МЦНТИ. Т. III. С. 149.
4.35.Watkinson J. Textbook for Engineers on Motion Compensation, Snell & Wilcox Ltd, 1994.
4.36.Дворкович В.П., Нечепаев В.В., Соколов А.Ю. Предварительная обработка изображения для анализа движения методом фазовой корреляции: Материалы 1-й межд. конф. «Цифровая обработка сигналов и ее применения», 30 июня —30 июля 1998 г., Россия, Москва, МЦНТИ. Т. III. С. 143.
4.37.Janusz Konrad, Dufaux Frederic. Digital Equipment Corp., Improved Global Motion Estimation for N3, ISO/IEC JTC1/SC29/WG11, MPEG97/M3096. San Jose. February, 1998.
4.38.Wei Qi, Yuzhuo Zhong, Shiqiang Yang. A New Robust Global Motion Estimation Approach. Seoul Meeting of ISO/IEC JTC1/SC29/WG11, MPEG99/M4423. Seoul. March, 1999.
4.39.Wei Qi, Yuzhuo Zhong, Shiqiang Yang. Improved Method for Global Motion Estimation. Vancouver Meeting of ISO/IEC JTC1/SC29/WG11, MPEG99/M4687. Vancouver. July, 1999.
4.40.ISO/IEC WG11. MPEG Video Group, Encoder Optimization Core Experiment Descriptions, ISO/IEC/JTC1/SC29/WG11, No.MPEG00/N3523. Beijing. July, 2000.
4.41.ISO/IEC WG11. Optimization Model. Version 3.0. — ISO/IEC/JTC1/SC29/ WG11, № 3675.- ISO. Sidney. July, 2001. 17 p.
4.42.ITU-T — Coding of Moving Pictures and Audio — MPEG-4 Video Optimization Model OM 2.0, 2000.
4.43.Дворкович А.В., Дворкович В.П., Зубарев Ю.Б, Соколов А.Ю. Способ анализа векторов движения деталей в динамических изображениях// Патент РФ № 2137194, 10.09.1999.
4.44.Дворкович А.В., Дворкович В.П., Соколов А.Ю. Способ поиска векторов движения деталей в динамических изображениях// Патент РФ № 2182727, 20.07.2000.
4.45.Дворкович А.В. Разработка и исследование высокоэффективных систем цифровой обработки динамических изображений и оценки ее качества: Дисс: на соискание ученой степени доктора технических наук. М.: МГТУ им. Н.Э. Баумана, 2007.
Разработки стандартов эффективного цифрового кодирования статических и динамических изображений ориентированы на решение проблем сокращения объема данных, требуемого для обработки, запоминания, хранения и передачи видеоинформации. Основой такого кодирования является удаление статистической
ивизуальной избыточности. С математической точки зрения это равнозначно преобразованию некоторого двумерного или многомерного массива данных в статистически некоррелированный массив, принимая во внимание способность визуального восприятия малозаметных изменений структуры восстанавливаемых изображений или некоторых их приближений.
Создание в последние 15–20 лет ключевых международных стандартов сжатия статических и динамических изображений наглядно продемонстрировало возможности эффективного практического применения теоретических разработок в данной области цифровой обработки информации.
Настоящий раздел посвящен изложению основных методов сжатия видеоинформации, на базе которых разработаны стандарты кодирования статических
идинамических изображений. Для хранения видеоинформации могут использоваться методы сжатия без потерь, использующие устранение только статистической избыточности изображений.
Кодирование изображений с потерями применяется, например, в видеотелефонии, видеоконференцсвязи, телевизионном вещании, при цифровой реализации которых некоторое изменение изображений является приемлемым компромиссом, обеспечивающим повышение степени сжатия информации.
