Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

(по цифровому вещанию) Dvorkovich_V_Cifrovye_videoinformacionnye_sistemy

.pdf
Скачиваний:
258
Добавлен:
15.03.2016
Размер:
23.26 Mб
Скачать

Глава 18. Подавление акустического эха в системах телеконференцсвязи

реход обратно во временную область будет осуществляться методом сложения с перекрытием. Это позволит существенно уменьшить длину векторов и, следовательно, общее количество вычислений. Поскольку частотные полосы полагаются независимыми, ниже индекс, соответствующий номеру частотной полосы, указываться не будет.

Пусть коэффициенты адаптивного фильтра в одной частотной полосе задаются вектором W(k) с длиной L, равной соотношению длины моделируемого эхопути к шагу алгоритма сложения с перекрытием.

Будем рассматривать коэффициенты адаптивного фильтра W(k) как искомое состояние, а изменение коэффициентов как случайный гауссовский процесс с нулевым средним и известной ковариационной матрицей:

W(k + 1) = W(k) + W(k),

(18.33)

где W(k) — вектор шума процесса с нулевым средним, описывающий случайные вариации эхопути.

Переоценка ковариационной матрицы производится во время работы алгоритма, начальная оценка — диагональная матрица с одинаковыми коэффициентами на главной диагонали. Начальное значение влияет только на первые доли секунды выходного сигнала.

В уравнениях процесса и наблюдения сделаем подстановки в соответствии с принятыми нами обозначениями:

xk → W(k); Fk → 1;

Bk → 0;

Hk → X(k);

vk → S(k) + V (k) — ближний сигнал (полезный + шум); zk → S(k) + V (k) + Y (k) — микрофонный сигнал.

Используя решение задачи оценки состояния можно записать:

E(k) = Z(k) − X(k)W(k − 1);

ΨEE (k) = α · ΨEE (k − 1) + (1 − α) · |E(k)2|;

K(k) = P(k − 1) · XH (k) · [X(k) · P(k − 1) · XH (k) + ΨEE (k)]−1; W(k) = E(k) · K(k);

Ψ (k) = β · Ψ (k) + (1 − β) · W(k);

W(k) = W(k − 1) + W(k);

P(k) = P(k − 1) − K(k) · X(k) · P(k − 1) + diagΨ (k)},

где Z(k) — спектр микрофонного сигнала; X(k) — вектор-строка, состоящая из L последних значений спектра удаленного сигнала X(k); W(k) — искомый вектор-столбец весов адаптивного фильтра; E(k) — спектр ошибки, он же является спектром выходного сигнала для эхокомпенсации.

Принципиальное отличие подхода, основанного на фильтре Калмана, от описанных ранее состоит в изначальном учете наличия ближнего сигнала. (N)LMS строится на предположении, что S(k) = 0 и V (k) = 0 в любой момент времени, и при несоблюдении этого условия адаптивный фильтр расходится. Здесь же

18.6. Особые случаи

допущение значительно более слабое. Полагается, что шум оценки (ближний сигнал) является случайным процессом, имеет нулевое среднее и диагональную ковариационную матрицу (в данном случае она вырождается в скаляр ΨEE (k)). Это допущение достаточно грубое и для речевого сигнала в общем случае неверное, но при работе в одной независимой частотной полосе дает удовлетворительные результаты.

Если для обратного БПФ берется напрямую сигнал ошибки E(k), то мы получаем схему эхокомпенсации, если для модификации входного сигнала Z(k) используется спектральное вычитание, то реализуется схема эхоподавления.

Стереоэхоподавление

В случае когда удаленный сигнал является одноканальным, наличие двух или более динамиков в системе воспроизведения никак не влияет на задачу эхоподавления. При удаленном стереосигнале xL(n), xR(n) можно использовать один набор коэффициентов адаптивного фильтра. Для каждого канала должна быть своя версия адаптивного фильтра. Проблема такого подхода заключается в том, что каналы в стереозвуке, как правило, сильно коррелированы между собой. То есть все допущения о диагональности корреляционных матриц приращений весов являются неприменимыми.

Одним из способов решения этой проблемы является декорреляция каналов перед системой эхоподавления, которая также может быть проведена с помощью адаптивного фильтра. Одна из возможных схем построения такой системы приведена на рис. 18.5.

Рис. 18.5. Схема эхоподавления в системе стереоконференции

Нелинейная постфильтрация

Независимо от того, насколько хорошо работает эхоподавитель, эхо никогда не будет подавлено полностью, и некоторая ослабленная часть эха, так называемое остаточное эхо, еще будет присутствовать в выходном сигнале. Причинами

Глава 18. Подавление акустического эха в системах телеконференцсвязи

возникновения остаточного эха, как правило, являются нелинейности в эхопути и ограниченность длины моделирующего фильтра.

Одним из наиболее простых методов подавления остаточного эха является центральное клиппирование выходного сигнала. Принцип метода предельно прост: каждый сэмпл выходного сигнала, чей модуль не превышает определенного фиксированного порога, приравнивается к нулю. В случаях когда остаточное эхо обычно имеет довольно низкий уровень, метод работает весьма эффективно. Порог часто делают адаптивным в зависимости от уровня фонового шума.

Рекомендации МСЭ [6.65, 6.66] не определяют конкретные требования к архитектуре эхокомпенсаторов и эхоподавителей. Они содержат минимальные требования по скорости сходимости, уровню подавления и описания соответствующих тестов. Поскольку эти рекомендации ориентированы в первую очередь на подавление эха в телефонных линиях, то для создания подавителей акустического эха они особого интереса не представляют. Но эти стандарты определяют основные термины для количественного описания работы систем эхоподавления.

Уровень подавления эха

Критерием эффективности подавления акустического эха служит величина дополнительного подавления эха системой, измеряемая в дБ (Echo Return Loss Enhancement или ERLE):

ERLE = 10 · lg[E{z2(k)}] − 10 · lg[E{e2(k)}],

(18.34)

где E{z2(k)} — оценка энергии микрофонного сигнала; E{e2(k)} — оценка энергии выхода системы эхоподавления.

В случае когда алгоритм содержит параметры, позволяющие регулировать уровень подавления эха, необходимо иметь средства контроля за качеством выходного полезного сигнала, поскольку увеличение уровня подавления эха неизбежно приведет к увеличению искажений ближней речи. Для оценки качества речи при наличии записи эталонного (неискаженного) сигнала может использоваться рекомендация МСЭ [6.67].

Скорость сходимости

Время сходимости адаптивного фильтра можно определить как время, достаточное для достижения коэффициентами фильтра стационарного состояния, т. е. время, после которого градиент изменения коэффициентов будет описываться случайным процессом с нулевым средним.

К сожалению, время сходимости зависит не только от типа и параметров адаптивного алгоритма, но и от входного сигнала. Обычно время сходимости измеряют при отсутствии ближнего сигнала, поскольку при наличии двойного разговора алгоритм LMS и производные от него расходятся, алгоритм, основанный на калмановском фильтре, существенно снижает скорость сходимости.

Рис. 18.6. График надежности работы детектора двойного разговора

18.7. Метрологические требования к подавлению акустического эха

Типичное время сходимости для рассмотренных выше адаптивных алгоритмов при отсутствии ближнего сигнала — от 0,5 до 5 секунд.

Оценка надежности детектора двойного разговора

Некорректная работа детектора двойного разговора приводит к некорректной работе системы в целом. Ошибки детектора двойного разговора можно разделить на два вида:

ложная тревога (когда дальняя речь при отсутствии ближней детектируется как двойной разговор),

пропуск двойного разговора (когда фрейм, содержащий двойной разговор, детектируется как не содержащий ближней речи).

Ошибки первого типа приводят к замедлению сходимости адаптивного алгоритма,

поскольку в моменты, когда алгоритм мог корректно модифицировать коэффициенты фильтра адаптация была заморожена.

Ошибки второго типа имеют еще более неприятные последствия, поскольку при этом происходит разбегание коэффициентов адаптивного фильтра, и, как следствие, увеличение уровня остаточного эха.

Регулированием порога срабатывания детектора двойного разговора можно найти оптимальное соотношение между этими двумя ошибками. Если построить график зависимости вероятности ошибки первого типа от ошибки второго типа для всех допусти-

мых значений порога, то получится график, аналогичный представленному на рис. 18.6. Чем меньше площадь под кривой, тем более надежным можно считать детектор.

6.1.Алдошина И.А. Основы психоакустики. — http://aldan-theatre.my1.ru/ project-studio/Psychoacoustics-Aldoshina.pdf, http://inform-hifi.narod.ru/3.htm.

6.2.Радзишевский А.Ю. Основы аналогового и цифрового звука. М.-СПб-Киев: Изд. дом «Вильямс», 2006.

6.3.Попов О.Б., Рихтер С.Г. Цифровая обработка сигналов в трактах звукового вещания. М.: Горячая линия-Телеком, 2007.

6.4.Вемян Г.В. Передача речи по сетям электросвязи. М.: Радио и связь, 1985.

6.5.Радиовещание и электроакустика /Под ред. Ю.А. Ковалгина. М.: Радио и связь, 1999.

6.6.Кирн П. Реальный мир. Цифровой звук. М.-СПб-Киев: Изд. дом «Вильямс», 2008.

6.7.Музыченко Е. FAQ(Часто задаваемые вопросы) по электронному созданию и обработке звука. — http://websound.ru/articles/theory/soundfaq.htm.

6.8.Музыченко Е. FAQ (Часто задаваемые вопросы) по цифровому представлению звуковых сигналов. — http://websound.ru/articles/theory/dgaudfaq.htm.

6.9.ГОСТ 21185-75. Измерители уровня квазипиковые. Типы и основные параметры. Методы испытаний. М.: Изд. стандартов, 1976.

6.10.Vigovsky A. Громкость — теоретические сведения. — http://ac3filter.net/, 2006.

6.11.Дэвис Г., Джонс Р. Звук: теория, устройства, практические рекомендации// Цифровое видео. № 4–6, 2002; № 1–4, № 6, 2003. — www.digitalvideo.ru.

6.12.Общие данные о звуке и шуме. — http://www.hvacinfo.ru/toolbox/ac.php.

6.13.Бинауральный эффект звука. Звукозапись. История развития. — http://covers.by.ru/theory/x4.htm.

6.14.Балабан А. Многоканальный окружающий звук. — http://www.muzoborudovanie.ru/articles/sur/surround.php.

6.15.Закаменный В. Три измерения звука. — http://www.technofresh.ru/technology/poligon/3d-sound-technologies.html.

6.16.Технология создания позиционируемого 3D звука./ iXBT — http://www.ixbt.com/multimedia/3dsound-tech.html

6.17.Cummiskey P., Jayant N.S., Flanagan J.L. Adaptive Quantization in Differential PSM Coding jf Speech// Bell Syst. TECH Jour. Vol. 52. Sept., 1973.

6.18.Application Note AN-283: Sigma-Delta ADCs and DACs. — Applications Reference Manual., Analog Devices, 1993.

6.19.Хоровиц П., Хилл У. Искусство схемотехники. Т. 2 / Пер. с англ. М.: Мир, 1983.

6.20.Голуб В.С. Цифровая обработка сигналов: Сигма-дельта АЦП// Электроника: Наука. Технология. Бизнес. 2002. № 4.

Литература к части VI

6.21.Методы и стандарты передачи речи по трактам связи, применяемые в современном оборудовании (7 кГц). — http://www.communications.su/equipment/stand_pered_rechi.html.

6.22.Ковалгин Ю.А., Вологдин Э.И. Цифровое кодирование звуковых сигналов. СПб.: КОРОНА принт, 2004.

6.23.Fastl H., Zwicher E. Psycho-Akoustiks// Springer-Verlag. Berlin, Heidelberg, 1990, 1999, 2007.

6.24.ITU-T. Recommendation G.711. Pulse Code Modulation (PCM) of Voice Frequencies. (1972), 1988, 1993.

6.25.ITU-T. Recommendation G.711.1. Wideband embedded extension for G.711 pulse code modulation. 03/2008.

6.26.ITU-T. Recommendation G.711.0. Lossless compression of G.711 pulse code modulation. 09/2009.

6.27.ITU-T. Recommendation G.722. 7 kHz Audio-Coding within 64 kbit/c. 1988, 1993.

6.28.ITU-T. Recommendation G.722.1. Low complexity coding at 24 and 32 kbit/s for hands-free operation in systems with low frame loss. 05/2005.

6.29.ITU-T. Recommendation G.722.2. Wideband coding of speech at around 16 kbit/s using Adaptive Multi-Rate Wideband (AMR-WB). 03/2004.

6.30.ITU-T. Recommendation G.723.1. Dual rate speech coder for multimedia communications transmitting at 5.3 and 6.3 kbit/s. 05/2006.

6.31.ITU-T. Recommendation G.726. 40, 32, 24, 16 kbit/s Adaptive Di erential Pulse Code Modulation (ADPCM), 1990.

6.32.ITU-T. Recommendation G.727. 5-, 4-, 3- and 2-bits Sample Embedded Adaptive Di erential Pulse Code Modulation (ADPCM). 1990.

6.33.ITU-T. Recommendation G.728. Coding of Speech 16 kbit/s using Low-Delay Code Excited Linear Prediction. 09/1992.

6.34.ITU-T. Recommendation G.729. Coding of Speech at 8 kbit/s Using ConjugateStructure Algebraic-Code-Exited Linear Prediction (CS-ACELP). 03/1996.

6.35.ITU-T. Recommendation G.729. Annecs A. Reduced Complexity 8 kbit/s CSACELP Speech Codec. 11/1996.

6.36.ITU-T. Recommendation G.729. Annecs B. A silence compression scheme for G.729 optimized for terminals conforming to Recommendation. V.70. 02/1998.

6.37.ITU-T. Recommendation G.729.1. G.729-based embedded variable bit-rate coder: An 8–32 kbit/s scalable wideband coder bitstream interoperable with G.729. 05/2006.

6.38.ETSI EN 300 726 V8.01. Digital Ctlular Telecommunicftions System(Phase 2+) (GSM); Enhanced Full Rate (EFR) Speech Transcoding (GSM 06/60 version 8/01 Release 1999). 11/2000.

6.39.Кодирование речи. — http://study.ustu.ru/view/aid/2/1/DOTS_DSP_SC.html.

Литература к части VI

6.40.Vary P. GSM Speech Codec// Conference Proceedings DCRC, 12–14 October, 1988. Hagen FRG.

6.41.IETF Rес. 3951 on Internet Low Bit Rate Codec (iLBC). 12/2004.

6.42.IETF Rес. 3952. Real-time Transport Protocol (RTP) Payload Format for internet Low Bit Rate Codec (iLBC) Speech. 12.2004.

6.43.Рекурсия Левинсона. Академические словари и энциклопедии — http://perevod.yandex.ru/en/?url=http%3A%2F%2Fdic.academic.ru%2Fdic. nsf%2Fenwiki%2F141007.

6.44.Valin, J.M. The Speex Codec Manual [Electronic resource]// Speex documentation. 2008.— Mode of access: http://www.speex.org/docs/, 31.07.2008.

6.45.Speex: A Free Codec For Free Speech. — http://www.speex.org/.

6.46.Speex: A free codec for free speech. — http://www.speex.org/comparison/.

6.47.ISO/IEC 11172-3. Information Technology - Coding of Moving Pictures and Associated Audio for Digital Storage Media at up to about 1.5 Mbit/s. Part 3: Audio./ Ed.1, JTS 1/ SC 29, 1993.

6.48.Theile G., Stoll G. MUSICAM Surround: A Universal Multi-channel Coding System Compatible with ISO 11172-3//Preprints AES 93RD Cjnvention tht Moscone Cjnvention Center. San-Francisco, Cflifornia, USA, 1992. October, 1– 4 (N 3403).

6.49.ISO/IEC 13818-3. Information Technology . Generic Coding of Moving Pictures and Associated Audio Information. Part 3: Audio / Ed.1, JTS 1/ SC 29, 1994.

6.50.ISO/IEC 13818-7. Information Technology - Generic Coding of Moving Pictures and Associated Audio Information. Part 7: Advanced Audio Coding (AAC)./ Ed.1, JTS 1/ SC 29, 1997.

6.51.ISO/IEC 14496-3: Information technology — Coding of audio-visual objects — Part 3: Audio, AMENDMENT 1: HD-AAC profile and MPEG Surround signaling/ JTC1/SC29/WG11, 2005.

6.52.ATSC Digital Television Standard.//Doc. A/53., 1995.

6.53.Радзишевский А.Ю. Cтандарты MPEG и их история.— http://websound.ru/faq.htm; http://audiophilesoft.ucoz.ua/publ/theory/mpeg/6-1-0-30.

6.54.MPEG-2/4 Кодирующее устройство AAC-LC и Декодер MPEG-2/4 AACLC Encoder and Decoder.— http://perevod.yandex.ru/en/?url=http%3A%2F%2Fwww.adaptivedigital.com% 2Fproduct%2Faudio%2Faac_lc64x_encdec.htm.

6.55.О стандартах MPEG и об их истории. Обзор форматов сжатия аудио. — http://3-51.ru/blog_post.php?blogid=8565&p=210263.

6.56.Иртюга В.А. ААС — прогрессивный метод цифрового кодирования звука. «Цифровая обработка сигналов». 2007. № 3.

6.57.Rес. ITU-R ВО.651 Digital PCM coding for the emission of high-quality sound signals in satellite broadcasting (15 kHz nominal bandwidth). 07/86.

18.7. Метрологические требования к подавлению акустического эха

6.58.Rec. CCITT J.17 Pre-emphasis used on sound-programme circuits/ Blue Book Fascicle III.6. 11/88.

6.59.Проектирование и инсталяция радиостудий. ПИРС. — http://www.radiopirs.ru/optcodpc_p3.htm.

6.60.Формат сжатия звука aacPlus. Stereo&Video 1/2005. — http://www.stereo.ru/whatiswhat.php?article_id=258.

6.61.Enzner Gerald, Vary Peter. Frequency domain adaptive Kalman filter for acoustic echo control in hands-free telephones. Signal Processing 86, 2006.

6.62.Malik S. and Enzner G.: «Model-based vs. Traditional Frequency-Domain Adaptive Filtering in the Presence of Continuous Double-Talk and Acoustic Echo Path Variability», Proc. of Intl. Workshop on Acoustic Echo and Noise Control (IWAENC), Seattle (Washington). Sept. 2008.

6.63.Ephraim Y. and Malah D. «Speech enhancement using minimum mean square error log-spectral amplitude estimator»// IEEE Trans. Vol.ASSP-33. № 2, p. 443– 445. April, 1985.

6.64.Cohen I. and Berdugo B. »Speech enhancement for non-stationary noise environments»// Signal Processing. Vol.81. № 11, p. 2403–2418. Nov., 2001.

6.65.Rес. ITU-T G.164 (11/88). Echo suppressors. Doc. E 7071, 1990-03-08.

6.66.Rес. ITU-T G.165 (03/93). Echo cancellers. Doc. E 4246, 1994-03-09.

6.67.Rec. ITU-T P.862 (02/01): Perceptual Evaluation of Speech Quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs. Doc. E 22134, 2004-06-07.

Широкое внедрение цифровых систем связи и вещания обусловлено несколькими причинами. В частности, только цифровые системы обеспечивают передачу требуемого или максимального количества информации за заданное время, с требуемым качеством (достоверностью), при минимальных энергетических затратах.

Многие источники информации являются цифровыми (информация в ПК, аудио- и видеоносители и др.), цифровые способы хранения данных обеспечивают возможность долгосрочного сохранения информации без потерь, реализуют более высокие характеристики. Используемые принципы цифровой обработки сигналов позволяют достаточно просто применять такие алгоритмы обработки, которые нереализуемы или практически недостижимы с использованием аналоговых устройств (например, специальные характеристики фильтров).

Цифровые методы позволяют существенно повысить характеристики при- емно-передающей аппаратуры. Ввиду этого достигается значительно большая функциональность цифровых систем по сравнению с аналоговыми, так как смена выполняемых функций, стандарта связи, вида модуляции, обновление алгоритмов обработки до более современной версии осуществляется простой перезагрузкой программы.

Создание единого мирового информационного пространства неразрывно связано с широким использованием преобразования различных видов информации

18.7. Метрологические требования к подавлению акустического эха

в цифровую форму, ее хранением и передачей по проводным и беспроводным каналам связи.

Реализация цифровых методов обработки, передачи, приема и восстановления различных видов информации позволяет устранить многие недостатки аналоговых систем, в том числе искажения сигналов, накапливающиеся при увеличении числа преобразований.

Круг задач, решаемых в системах преобразования информации от ее источника до потребителя, поясняется с помощью представленной на рис. VI.1 структурной схемы, в которой не показаны преобразователь непрерывного сигнала на входе источника дискретной информации и преобразователь дискретного сигнала в аналоговую информацию у потребителя [7.1]. Конечно, реальная система передачи/приема дискретной информации содержит большое число функциональных элементов, не отраженных на рис. VI.1, к которым необходимо отнести задающие генераторы, системы управления, блоки синхронизации, усилители мощности, радиоприемники и др. Без этих «вспомогательных» элементов реализация действующей системы невозможна.

Рис. VI.1. Структурная схема передачи/приема дискретной информации

Цифровой источник сигналов генерирует цифровой сигнал — последовательность битов (символов) дискретной информации. Цифровым источником может быть, к примеру, персональный компьютер, цифровой носитель аудиоили видеоинформации.

Цифровая последовательность поступает на кодер источника сигнала, основной задачей которого является сжатие информации — чем меньше объем информации, который необходимо передавать через радиоканал в единицу времени, тем меньше ошибок возникнет при приеме информации, меньше требуемая полоса частот и энергия, которую необходимо затратить на передачу.

Кодер канала используется практически во всех современных системах цифровой связи и предназначен для повышения достоверности информации на приемной стороне.

Однако увеличение достоверности передачи информации происходит не безвозмездно, а путем добавления избыточности к передаваемой информации, что приводит к некоторому снижению скорости передачи.

Процесс добавления избыточности к исходной информации с целью повышения достоверности передачи выполняет функцию помехоустойчивого кодирования.

Достоверность передачи информации в цифровых системах характеризуется статистической величиной — вероятностью ошибочного приема при передаче