Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

(по цифровому вещанию) Dvorkovich_V_Cifrovye_videoinformacionnye_sistemy

.pdf
Скачиваний:
301
Добавлен:
15.03.2016
Размер:
23.26 Mб
Скачать

Литература к части V

5.43.ITU-T. Recommendations: H Series : H.263v.2–Information technology — Video coding for low bit rate communication (H.263+), 1998.

ITU-T. Recommendations: H Series: H.263v.3-Information technology — Implementors Guide for H.263: «Video coding for low bit rate communication» (H.263++ or H.263 2000), 2000.

5.44.ISO/IEC 14496-1:Information technology — Coding of audio-visual objects — Part 1: Systems, AMENDMENT 4: Usage of LASeR in MPEG-4 systems and Registration Authority for MPEG-4 descriptors/ JTC1/SC29/WG11, 2004.

5.45.ISO/IEC 14496-2: Information technology — MPEG-4/Coding of audio-visual objects — Part 2: Visual, Advanced Simple Profile (ASP)/ JTC1/SC29/WG11, 2004.

5.46.ISO/IEC 14496-3: Information technology — Coding of audio-visual objects — Part 3: Audio, AMENDMENT 1: HD-AAC profile and MPEG Surround signaling/ JTC1/SC29/WG11, 2004.

5.47.ISO/IEC 14496-4: Information technology — Coding of audio-visual objects — Part 4: Conformance testing, AMENDMENT 37: Additional file format conformance, JTC1/SC29/WG11, 2004.

5.48.ISO/IEC 14496-10: Advanced Video Coding: A codec for video signals which is also called AVC and is technically identical to the ITU-T H.264 standard/JTC1/ SC29/WG11, 2005.

5.49.ITU-T. Recommendations: H Series: H.264-Information technology — Advanced video coding for generic audiovisual services, 2004.

5.50.ITU-T. Recommendations: H Series: H.320-Narrow-band visual telephone systems and terminal equipment, 1990.

5.51.Rao K.R., Hwang J.J. Techniques and Standards for Image, Video and Audio Coding, Prentice Hall PTR, NJ, 1996.

5.52.CCITT SG XV WP/1/Q4 Specialist Group on Coding for Visual Telephony, Description of Ref. Model 6 (RM6). Document 396. Oct., 1988.

5.53.Pang K.K., Tan T.K. «Optimum loop filter in Hybrid coders»// IEEE Trans CSVT. 1994. V.4, 4. Р.158-167.

5.54.Prof. Tsuhan Chen. Multimedia Communications: Coding, Systems, and Networking./ H.263, H.263v2, and H.26L./ http://www.ece.cmu.edu/ ece796/h263.PDF

5.55.MPEG-1/http://en.wikipedia.org/wiki/MPEG-1

5.56.MPEG: Вопросы и ответы./http://www.elecard.com/mpeg/faq/index.php

5.57.Семейство форматов MPEG. Часть первая. MPEG-1/ http://www.videoton.ru/Articles/mpeg1.html

5.58.Семейство форматов MPEG. Часть вторая. MPEG-2/ http://www.3dnews.ru/multimedia/mpeg2.html

5.59.Short MPEG-2 description/ http://www.chiariglione.org/mpeg/standards/mpeg-2/mpeg-2.htm

Литература к части V

5.60.Rao K.R., Hwang J.J. Techniques and Standards for Image, Video and Audio Coding, Prentice Hall PTR, NJ. 1996.

5.61.ITU-R Recommendation BT.709-5 Parameter values for the HDTV standards for production and international programme exchange. 2002.

5.62.ITU-R Report BT.624-4 Characteristics of television systems. 1990.

5.63.SMPTE 170M — Television — Composite Analog Video Signal — NTSC for Studio Applications. 2004.

5.64.SMPTE 240M — Television — 1125-Line High-Definition Production Systems — Signal Parameters. 1999 (2004).

5.65.Семенов Ю.А. Стандарт MPEG-4. Ч. 1; Ч. 2./ http://directshow. Wonderu.cjm/mpeg-4; mpeg-4-2

5.66.Levels for MPEG-4 Visual Profiles./ http://www.m4if.org/resources/profiles/index.php

5.67.Ричардсон Ян. Видеокодирование. H.264 и MPEG-4 — стандарты нового поколения / Пер. с англ. В.В. Чепыжева. М.: Техносфера, 2005.

5.68.Гук И. Особенности сжатия видеоданных по рекомендации H.264/MPEG-4, Part 10./«Компоненты и технологии», № 2, 2006, http://www.kit-e.ru/articles/dsp/2006_2_20.php

5.69.H.264/MPEG-4 AVC is a Standart vor Videj Compression./ http://en.wikipedia.org/wiki/H.264/MPEG-4_AVC

5.70.Стандарт сжатия видеоизображения H.264. Новые возможности в области охранного видеонаблюдения http://articles.security-bridge.com/articles/10/12198

5.71.Дворкович А.В. Новые технологии видеокодирования в стандарте H.264// 7-я Международная конференция «Цифровая обработка сигналов и ее применение», 16-18 марта 2005. Москва. Доклады, т. 2.

5.72.Дворкович А.В. Эффективное кодирование видеоинформации в новом стандарте H.264/AVC// Труды НИИР, 2005.

5.73.Дворкович А.В., Мингазов И.Д. Методика построения промежуточных кадров видеопоследовательности // 6-я Международная конференция «Цифровая обработка сигналов и ее применение», 31 марта — 2 апреля 2004. Москва. Доклады, т. 2.

5.74.Дворкович В.П., Дворкович А.В., Мохин Г.Н., Соколов А.Ю. Компьютерный масштабируемый видеокодек для узкополосных каналов связи// Электросвязь. 1999. № 10.

5.75.Lee Hung-Ju, Chiang Tihao, Zhang Ya-Qin. Scalable rate control for MPEG-4 video// IEEE Transactions on circuits and systems for video technology. Vol. 10. № 6. September, 2000.

5.76.Maeda J. «Method for Extracting Camera Operations in Order to Describe SuB-Scenes in Video Sequences», in Digital Video Compression on Personal Computers.Algorithms and Technologies / Arturo A. Rodriguez Ed. Proc. SPIE 2187, 1994.

Литература к части V

5.77.Cherfaoui M., Bertin C. «Temporal Segmentation of Videos: a New Approach», in Digital Video Compression: Algorithms and Technologies 1995/ Arturo A. Rodriguez Ed., Proc. SPIE 2419, 1995.

5.78.Nagasaka A. and Tanaka Y. «Automatic Video Indexing and Full-Video Search for Object Appearances», in Proc. of IFIP 2nd Working Conf. on Video Database Systems / E. Knuth and L.M.Wegner, eds. Elsevier Science Publ., 1992.

5.79.Дворкович А.В., Быстров С.В. Методика контроля потока при сжатии динамических изображений// 5-я Международная конференция «Цифровая обработка сигналов и ее применение», 12–14 апреля 2003. Москва. Доклады, т. 1.

5.80.Дворкович А.В., Быстров С.В. Методика регулировки потока при сжатии динамических видеоизображений// ЦОС. 2003. № 2.

5.81.Гулевич А.Е., Дворкович А.В., Кочарян А.Э., Мингазов И.Д. Реализация многофункционального кодера H.264// Международная конференция «Цифровая обработка сигналов и ее применение», 25–27 марта 2009. Москва. Доклады, т. 2.

5.82.Дворкович А.В. Особенности построения программного телевизионного кодера MPEG-2// ЦОС. 2002. № 1.

5.83.Дворкович А.В., Мингазов И.Д. Особенности программной реализации цифрового телевизионного кодера MPEG-2// 5-я Международная конференция «Цифровая обработка сигналов и ее применение», 12–14 апреля 2003. Москва. Доклады, т. 1.

5.84.Schreer Oliver, Kau Peter, Sikora Thomas. 3D Videocommunication — Algorithms, concepts and real-time systems in human centred communication. МЕСТО 2005.

5.85.Дворкович В.П., Гулевич А.Е. Визуализация параметров кодирования видеоинформации// 12-я Международная конференция «Цифровая обработка сигналов и ее применение», март–апрель 2010. Москва. Доклады, т. 1.

Процесс цифровой обработки речевой и звуковой информации охватил различные виды приложений и существенно расширил их спектр: кроме широко распространенных систем телефонии, традиционного телерадиовещания и различных разновидностей систем специального назначения появились и повсеместно внедряются самые различные приложения — видеотелефония и конференцсвязь, интернет-вещание и мобильные мультимедийные приложения, телевидение высокой четкости и цифровое кино.

Цифровые системы кодирования речи и звука, их передачи и приема позволяют достичь невиданного доселе уровня качества и предоставляют пользователю массу новых возможностей и новых видов услуг.

В настоящей части пособия рассматриваются специфические особенности преобразования аналоговых и цифровых речевых и звуковых сигналов, форматы их представления при формировании, записи, передаче и воспроизведении. Конкретные виды аппаратной и программной реализации систем цифровой обработки речевой и звуковой информации определяются их исходными характеристиками, особенностями слухового восприятия и требованиями к качеству воспроизведения.

Речевая информация, образующая свойственные используемому языку фонетические комбинации и формирующая те или иные смысловые элементы, по своим физическим параметрам принципиально отличается от звуковой информации, содержащей сочетание голосовых данных с музыкальным сопровождением

Введение

иобладающей различными форматами (от моно- и стереодо многоканальных систем). Особенности и отличия друг от друга речевой и звуковой информации используются при их цифровой обработке и сжатии.

Известно, что основную информацию о звуковых колебаниях мозг человека получает в области частот примерно до 4 кГц и именно эти частоты «ответственны» за разборчивость и ясность аудиоинформации.

Спектральный состав речи занимает полосу частот примерно от 50 до 7000– 10 000 Гц. Но еще в аналоговой телефонии было принято использовать полосу частот 0,3–3,4 кГц, что ухудшило восприятие ряда звуков (например, шипящих, существенная часть энергии которых сосредоточена в верхней части речевого спектра), но практически не отразилось на разборчивости передаваемой информации. В цифровых системах к влиянию ограничения спектра добавляются еще шумы дискретизации, квантования и обработки, дополнительно зашумляющие речь. Для совместимости по полосе с распространенными аналоговыми сетями в цифровой телефонии отсчеты аналоговой речи приходится брать согласно теореме Котельникова с частотой 8 кГц. Однако в цифровых системах возможно использовать спектр речи за пределами полосы 0,3–3,4 кГц и тем самым повысить качество. Например, при полосе исходного сигнала 6–7 кГц и тактовой частоте отсчетов около 16 кГц сжатый цифровой сигнал требует для передачи канал с пропускной способностью около 12 кбитов/с.

Что касается разрядности аналого-цифрового преобразования речевой информации, то очевидно, что при очень большой разрядности АЦП в кодере восстановленная речь в декодере будет практически точно соответствовать оригиналу. На практике приходится выбирать разрядность кодека и мириться с некоторой погрешностью квантования. Для всех типов кодеков справедливо правило: чем меньше плотность цифрового потока, тем больше восстановленный сигнал отличается от оригинала.

Идея преобразовывать в цифровой вид не сам речевой сигнал, а его параметры (количество переходов через ноль, спектральные характеристики и др.), чтобы затем по этим параметрам выбирать модель голосового тракта и синтезировать исходный сигнал, лежит в основе синтезирующих кодеков или вокодеров.

Принцип работы гибридных кодеков основан на модели кодирования с использованием линейного предсказания с возбуждением по алгебраической кодовой книге. При этом производится анализ речевого сигнала и выделяются параметры модели (коэффициенты системы линейного предсказания, индексы и коэффициенты усиления в адаптивной и фиксированной кодовых книгах). Далее эти параметры кодируются и передаются в канал. В декодере битовая посылка используется для восстановления параметров сигнала возбуждения и коэффициентов синтезирующей системы. Восстановленный таким образом сигнал обладает вполне высокими характеристиками — восстанавливается тембр речевого сигнала, его динамические характеристики, другими словами, его «узнаваемость»

и«распознаваемость».

Впрактическом приложении при вокодерной обработке возникает задержка воспроизведения речевых сигналов, определяемая временем, затрачиваемым на: процессы кодирования и декодирования; передачу по каналу; мультиплексирование при комбинировании аудиоданных с другими видами данных.

Иные проблемы возникают при кодировании звуковой информации, содержащей дикторскую речь, актерское пение, музыкальное сопровождение и др.

14.8. Визуализация параметров видеокодирования

При цифровой обработке звуковой информации, как и при кодировании речи, необходимо обеспечить существенное сжатие информации при минимизации задержки воспроизведения звуковых сигналов. Однако в этом случае исходный сигнал обладает существенно иными параметрами, поскольку слуховой аппарат человека различает частотные составляющие звука приблизительно в пределах от 20–30 Гц до 20 кГц (так называемый слышимый звук). Верхняя граница может несколько отличаться от указанной величины в зависимости от возраста человека, условий воспроизведения информации и др.

Несмотря на то что основную информацию несут составляющие звука с частотами до 4 кГц, более высокие частоты отвечают за субъективное качество его воспроизведения.

Частоты несколько ниже 20–30 Гц (инфразвук) также могут восприниматься человеком, но не ухом, а как вибрации всем телом. Считается, что частоты, превышающие верхний порог в 20 кГц (ультразвук) также могут восприниматься человеком на подсознательном уровне, непосредственно мозгом.

В связи с этим при кодировании звуковой информации в различных кодеках используются частоты дискретизации 44,1 кГц, 48 кГц и даже 96 кГц, а применяемые шкалы линейного квантования составляют 16 битов или 24 бита. При этом цифровой поток продискретизированного сигнала может изменяться от 44,1 × 16 = 705,6 кбитов/с до 96 × 24 = 2304 кбитов/с. Разумеется, с увеличением исходного цифрового потока качество воспроизводимого звучания будет повышаться, однако зачастую использование значительного цифрового потока нерационально, и современные кодеки нередко динамически изменяют величину цифрового потока в зависимости от сложности и насыщенности участка композиции.

Для существенного сокращения избыточности аудиоинформации применяются различные методы линейной и нелинейной обработки звуковых сигналов, которые приводят к сжатию с потерями, уменьшающими размер кодированной последовательности файлов по сравнению с оригинальным за счет удаления информации, невоспринимаемой человеком. Технология сжатия с потерями недостаток человеческого слуха превращает в преимущество, отбрасывая «ненужную» информацию. Компромисс между малым цифровым потоком и качеством воспроизводимого аудиосигнала достигается путем изменения количества отбрасываемой информации.

Дополнительные проблемы в кодировании аудиоинформации возникают при обработке различных форматов — от стереофонического сигнала до объемного многоканального (5.1, 7.1 и др.) звукового сигнала. Естественно, что в этих случаях для значительного сокращения избыточности многоканальных сигналов используются существенные корреляционные связи между ними.

Цифровая технология обработки звуковой информации находит все большее количество применений — от звукового сопровождения различных видов видеоинформации и радиовещания до компьютерной записи/воспроизведения и музыкальных компакт-дисков. Хотя цифровая технология позволяет точно воспроизвести закодированную звуковую информацию, специалисты-акустики считают, что такому звуку не хватает характерной колоритности, которой аналоговый звук обязан исключительно аналоговой схемотехнике. Правильно настроенное профессиональное оборудование теоретически способно обеспечить более широкий

Введение

частотный диапазон звукозаписи, чем стандартные записи, например на музыкальных компакт-дисках. Но цифровая система обработки звуковой информации лучше защищена от шумов и помех, чем аналоговая. С каждым перекопированнием аналоговые звукозаписи деградируют по качеству, а в цифровых системах такой проблемы не возникает.

Цифровой звук обладает существенными достоинствами: разработано множество систем кодирования, записи и передачи звуковой информации, которые можно реализовать только на базе цифровой технологии.

Аналоговое представление звуковых сигналов основано на подобии форм и основных характеристик соответствующих им электрических сигналов [6.1–6.8]. В терминах теории информации количество информации в таком электрическом сигнале в точности равно количеству информации в сигнале исходном, и электрическое представление не содержит избыточности, которая могла бы защитить переносимый сигнал от искажений при хранении, передаче и усилении.

Прежде чем перейти к анализу характеристик и параметров электрических эквивалентов звуковых сигналов, необходимо дать несколько определений, присущих распространению звуковых волн в пространстве.

К наиболее важным понятиям относятся:

интерференция — усиление колебаний звука в одних точках пространства и ослабление колебаний в других точках в результате наложения двух или нескольких звуковых волн;

рефракция — преломление, изменение направления движения звуковой волны от границы раздела с иной средой, поглощение или переход в другую среду;

реверберация — отражения звуковых колебаний в замкнутом пространстве, вызывающие специфический гул, изменяя тембральную окраску, насыщенность, глубину воспринимаемого звука;

дифракция — способность звуковых волн огибать препятствия;

эхо — возникновение сдвинутых во времени и различаемых раздельно повторов кратковременных звуковых колебаний;

эффект резонанса — способность звуковой волны, создаваемой некоторым колеблющимся телом, переносить энергию колебаний другому телу, которое, поглощая эту энергию, само становится источником звука;

индекс диффузности — фактор изотропности и однородности звукового поля;

звуковое давление — характеристика громкости звука, непосредственно воспринимаемого ухом человека;

эффект Допплера — изменение длины звуковых волн при изменении скорости движения слушателя относительно источника звука.

Эти и другие явления используются в различных приложениях, например в акустике, обработке звуковой информации, радиолокации и др. Задачей преобразования звука в электронный вид является повторение всех его волновых характеристик.

Глава 15. Основные характеристики звуковой информации

Звуковой сигнал или его электрический эквивалент u(t) (рис. 15.1 и 15.2) обычно считают случайным процессом с распределением мгновенных значений, которое характеризуется некоторой плотностью вероятностей W (u).

Рис. 15.1. Сигналограмма фрагмента музыкальной аудиозаписи

Рис. 15.2. Сигналограмма фрагмента аудиозаписи речи

На рис. 15.3 приведены графики относительных плотностей вероятности мгновенных значений сигналов, соответствующих наиболее распространенных звуковых программ [6.5].

При этом воспроизведение звучания больших симфонических оркестров, хоров, оркестров с хором соответствует нормальному распределению плотности

вероятностей:

2

;

(15.1)

W (u) = σexp

1

 

 

u2

 

 

 

 

 

 

 

 

 

звучание отдельных музыкальных инструментов, легкой музыки — распределе-

нию Лапласа:

| |σ

,

(15.2)

W (u) = σexp

 

 

 

 

 

 

 

 

1

 

 

u

2

 

 

 

 

 

 

 

 

 

 

 

15.1. Статистика мгновенных значений и уровней звуковых сигналов

 

а речи — усредненному эмпирическому закону:

σ| |3 .

(15.3)

W (u) = σ

2exp −3, σ| | + 0,18 exp −

1

 

31 u

0,91 u

 

В соотношениях (15.1)–(15.3) величина σ соответствует среднеквадратичному значению сигналов.

Рис. 15.3. Относительные плотности вероятностей мгновенных значений звуковых сигналов W (u/σ)/W (0): 1 — симфонический оркестр, 2 — легкая музыка, 3 — речь

Уровень электрического эквивалента звукового сигнала обычно характеризуют напряжением, формируемым на выходе квазипикового детектора с малой величиной постоянной времени заряда (порядка 5–10 мс) и значительной величиной τ постоянной времени разряда (1–2 с) [6.9]. Отношение усредненной величины выпрямленных мгновенных значений сигнала U (t, τ ) на выходе квазипикового детектора (или выделяемой на нагрузке мощности P (t, τ ) сигнала) к некоторой

условной величине U0 (или P0) определяют формулой:

 

N (t, τ ) = 20 lg

U (t.τ )

= 10 log

P (t, τ )

дБ,

(15.4)

 

 

 

U0

P0

 

где U0 — принятая за начало отсчета среднеквадратическая величина электрического сигнала с эффективным напряжением 0,775 В на нагрузке 600 Ом (выделяемая мощность P0 = 1 мВт); выраженная в децибелах, эта величина определяет значение уровня, равное 0 дБ.

Временная зависимость величины N (t, τ ) — уровнеграмма сигнала u(t) —

вкачестве примера приведена на рис. 15.4. Она характеризует изменение эффективного напряжения электрического эквивалента звукового сигнала.

Закон распределения уровней W (N ) при больших значениях постоянной времени τ практически мало зависит от характера звуковой программы и чаще всего соответствует нормальному распределению.

Интенсивность звука или звуковое давление оценивают либо в Паскалях, либо

вдецибелах относительно некоторого порога, величина которого принята равной p0 = 2 · 10−5 Па = 20 мкПа и соответствует порогу слышимости здорового молодого человека в диапазоне звуковых частот 1–4 кГц.

Для характеристики уровней звукового давления (SPL — Sound pressure level) используется уравнение:

SP L = 20 lg

Pk

,

(15.5)

 

 

P0

 

где p0 и pk — звуковое давление, выраженное, например, в Паскалях.