Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Автоматическая телефонная связь на железнодорож...doc
Скачиваний:
53
Добавлен:
08.05.2019
Размер:
1.4 Mб
Скачать

4.6. Принципы передачи речи в сети ip-телефонии

В устройствах IP-телефонии для подготовки речи к перед аче в виде пакетов выполняются следующие основные функции: преобразова­ние речи в цифровую форму, кодирование речевого сигнала, эхопо- давление и обнаружение речевой активности. После приема речевых пакетов производится адаптация воспроизведения, декодирование речевого сигнала, преобразование цифрового сигнала в речь, запол­нение пауз комфортным шумом.

На рис. 4.16 показана упрощенная функциональная схема моду­ля пакетирования речи для шлюза, включенного в TDM-сеть циф­ровым каналом Е1.

Передача в сторону IP-сети. Преобразование речи в цифровую фор­му происходит в TDM-сети. И КМ-сигнал со скоростью 64 кбит/с с выхода ИКМ-интерфейса проходит устройство эхокомпенсации и поступает на детектор активности речи. Здесь полученный сигнал про­веряется на наличие в нем речи. Если в течение заданного времениречевая активность не обнаружена, то передача речевых пакетов пре­кращается. Эго позволяет значительно снизить трафик, поступающий в IP-сеть, так как речевые паузы составляют примерно 60 % от време­ни разговора. При наличии речевого сигнала он попадает в кодирую­щее устройство вокодера — кодер, в котором происходит сжатие ре­чевого сигнала. В результате скорость речевого потока на выходе ко­дера снижается. Теперь под управлением протокола пакетной переда­чи битовые блоки, соответствующие элементам речи длительностью 10—40 мс, с помощью сборщика вставляются в пакеты. Далее пакеты в буфере передачи ждут своей очереди, чтобы быть переданными в канал IP-сети.

Прием со стороны IP-сети. Пакеты, поступающие в модуль из сети, попадают в буфер, образуя очередь. Затем в разборщике пакетов ре­чевые битовые блоки извлекаются из пакетов и поступают в модуль адаптации воспроизведения. Адаптация воспроизведения заключа­ется в буферизации речевых блоков с целью сглаживания вариации их задержки — джитгера. Для этого буфер организуется по правилу FIFO (Fist In Fist Out — первый пришел, первый вышел). Далее для речевых блоков, находящихся в очереди, измеряется джиттер. Это позволяет извлекать речевые блоки из буфера с управляемой задер­жкой, снижающей действие джитгера Теперь битовые блоки, несу­щие в себе элементы речи, декодируются. На входе декодера ско­рость цифрового потока такая же, как на выходе кодера. При деко­дировании происходит декомпрессия и на вход ИКМ-интерфейса поступают ИКМ-сигналы со скоростью 64 кбит/с. Во время рече­вых пауз обнаруживается отсутствие речевых пакетов и к выходу де­кодера подключается цифровой генератор комфортного шума. Это делается для того, чтобы у слушающего абонента во время речевых пауз не создавалось ощущения прерывания связи, так как при от­сутствии комфортного шума в телефоне была бы полная тишина

Модуль пакетирования речи также обеспечивает детектирование и генерацию сигналов DTMF и передачу данных от факсимильных аппаратов и ог аналоговых модемов.

Рассмотрим основные вопросы, связанные с преобразованием речи.

В IP-телефонии находят применение следующие устройства пре­образования речи: кодеры формы речевой волны, вокодеры и гиб­ридные кодеры. Такие устройства различаются скоростью передачи цифрового потока, качеством передачи речи, задержкой речи в про­цессе преобразования и требованием к производительности процес­соров, обрабатывающих речевые сигналы.

Кодеры формы речевой волны имеют широкое применение в сис­темах с коммутацией каналов. Прежде всего — это импульсно-кодо- вая модуляция (ИКМ или PCM — Pulse Code Modulation), соответ­ствующая рекомендации МСЭ-Т G.711. В этом методе предусмот­рено цифровое сжатие, что позволяет амплитуду каждой выборки речевого сигнала преобразовать в 8-битовое слово (при линейном кодировании потребовалось бы 12-битовое слово). Скорость пере­дачи равна 64 кбит/с. Другой метод кодирования — адаптивная диф­ференциальная ИКМ (ДДИКМ или ADPCM — Adaptive Differential Pulse Code Modulation), рекомендация МСЭ-Т G.721 для скорости передачи 32 кбит/с. В этом методе кодируется не сама амплитуда сиг­нала, а ее изменение по сравнению с предыдущей выборкой. Обра­ботка сигнала происходит с применением предсказания и адаптив­ного квантования. В обоих методах преобразования, ИКМ и АДИКМ, задержка речи при преобразовании минимальна и состав­ляет 125 мкс. Оба метода обеспечивают высокое качество передачи речи и характеризуются относительно невысокими требованиями к процессорам обработки сигналов.

Вокодеры используют кодеры речи, основанные на параметри­ческом компандировании (сжатии). В вокодерах осуществляется линейное предсказание речи (LPC), являющееся эффективным ме­тодом анализа речи. Этот метод позволяет определить основные па­раметры речевых сигналов: основной тон, форманты, частотный спектр. При кодировании выявляются периодические процессы в речевом сигнале, определяются их параметры, а затем устраняют из речевого сигнала избыточность, исключая найденные периодич­ности. В итоге получается остаточный речевой сигнал, который после аппроксимации передается вместе с параметрами периодических процессов речи на выход кодера. В декодере по принятому остаточ­ному сигналу и по параметрам периодических процессов речи вос­станавливают речевой сигнал, выполняя синтез речи.

Вокодеры предъявляют высокие требования к процессорам об­работки сигналов и вносят заметные задержки преобразования. Увеличение задержки объясняется тем, что кодирование приме­няется не к отдельным значениям речевого сигнала, а к некото­рому их набору, который перед преобразованием следует накопить. При применении вокодеров скорость передачи находится в преде­лах 1,2—4,8 кбит/с. Вокодеры обеспечивают относительно высо­кую разборчивость речи, однако теряется натуральность звучания.

Гибридные кодеры используют еще более сложную схему коди­рования, в которой сочетаются линейное предсказание и элементы кодирования формы речевой волны. В этом случае используется ал­горитм с обратной связью. Закодировав речевой сигнал, процессор пытается восстановить его форму и для этого сравнивает результат кодирования с исходным сигналом. При этом процессор меняет параметры кодирования, добиваясь наилучшего совпадения. До­бившись этого, соответствующее кодовое слово передается на выход кодека. В пункте приема речевых пакетов элементы речи восстанавливаются в декодере.

В гибридных кодерах наибольшее применение нашли методы ко­дирования LD-CELP, MP-MLQ и ACELP, а также CS-ACELP.

Метод LD-CELP (Low-Delay Code Excited Linear Prediction — ли­нейное предсказание с кодовым возбуждением и низкой задержкой) обеспечивает кодирование со скоростью передачи 16 кбит/с и соот­ветствует рекомендации МСЭ-Т G.728. Этот метод позволяет полу­чить удовлетворительное качество передачи речи с относительно не­высокой задержкой преобразования.

Методы MP-MLQ (Multi-pulse Multy Level Quantization — мно­жественная импульсная многоуровневая квантизация) и ACELP (Algebraic Code Excited linear Prediction — алгебраическое линейное предсказание с кодовым возбуждением) позволяют добиться значи­тельного сжатия речи, однако при преобразовании появляется боль­шая задержка речи. Несмотря на низкую скорость передачи 5,3 или 6,3 кбит/с обеспечивается хорошее качество передачи речи. Эти ме­тоды кодирования соответствуют рекомендации МСЭ-Т G.723.1.

Кодирование CS-ACELP (Conjugate Structure — Algebraic Code Exited Linear Prediction — сопряженная структура с управляемым ал­гебраическим кодом и линейным предсказанием) приводит к отно­сительно небольшой задержке со скоростью передачи 8 кбит/с. Ал­горитм кодирования описан в рекомендации МСЭ-Т G.729. Этот метод кодирования в первую очередь предназначен для технологий пакетной передачи Frame Relay и ATM (Asynchronous Transfer Mode — асинхронный режим передачи).

В табл. 4.2 приведены основные характеристики кодеков, кото­рые получили название по наименованию рекомендации МСЭ-Т. К одному из параметров относится производительность цифрового сигнального процессора (DSP), реализующего соответствующий ал­горитм кодирования в вокодерах и в гибридных кодерах (произво­дительность оценивается в миллионах команд в секунду). Наиболее высокие требования к DSP предъявляет кодек G.728, однако он обес­печивает и небольшую задержку преобразования. По сравнению с другими кодек G.711 практически не вносит задержки при преобра­зовании речевых сигналов.

Для оценки качества преобразования речевых сигналов часто ис­пользуют метод MOS (Mean Opinion Scores — средняя экспертная оценка), определенный в рекомендациях МСЭ-Т для телефонных сетей. Шкала оценок MOS для речевой полосы 200—3400 Гц при­ведена в табл. 4.3, а значения MOS для кодеков в табл. 4.2. Оче-

видно, что самое высокое качество преобразования обеспечивает ко­дек G.711. Качество преобразования ниже всею у кодека G.728. При­менение в сетях IP-телефонии находят все рассмотренные кодеки, по­скольку каждый из них позволяет передавать речь с хорошим или близ­ким к хорошему качеством. Конечно, с точки зрения качества пере­дачи речи лучше всего применять кодеки G.711, но в этом случае от IP-сети потребуется значительно большая пропускная способность.

Полученные на выходе битовые речевые блоки вставляются в па­кеты. Чтобы эффективнее использовать ресурсы IP-сети целесооб­разно вставлять в пакеты как можно более длинные речевые блоки, но, с другой стороны это приводит к увеличению задержек речи и, как следствие, к ухудшению качества передачи речи. Обычно в па­кет вставляется речевой блок, соответствующий речевому элемен­ту продолжительностью от 10 до 40 мс. Следовательно, прежде чем сформировать речевой пакет, необход имо накопить речевую инфор­мацию, что приведет к появлению задержки накопления. Эха задерж­ка жестко связана с задержкой преобразования. Например, если взять кодек G.723.1, то задержка преобразования (30 мс) входит в указан­ный диапазон значений накопления. В этом случае один битовый ре­чевой блок, полученный на выходе кодека будет вставлен в один па­кет. Длина речевого блока равна 20 (ACELP) или 24 (MP-MLQ) бай­там. В данном примере задержка преобразования равна задержке накопления. Если использовать кодек G.711, то задержка преоб­разования составляет только 0,125 мс, а длина речевого блока — 1 байт. Чтобы получить задержку накопления, равную 10 мс, надо произвести 80 шагов преобразования (80 х 0,125= 10). Тогда накопит­ся речевой блок длиной 80 байтов, который будет вставлен в пакет.

Рассмотрим, что собой представляет речевой пакет.

Для передачи речи в технологии TCP/IP на прикладном уровне применяется протокол RTP, позволяющий передавать речевую ин­формацию через IP-сети в реальном масштабе времени. Этот же про­токол позволяет передавать видеоинформацию. В каждом пакете протокола RTP вместе с элементом речи передается временная мет­ка, указывающая на положение этого элемента на временной шка­ле, а также порядковый номер пакета. Этих данных достаточно для того, чтобы в пункте приема протокол RTP восстановил принятые пакеты в исходной последовательности и расставил их в требуемые временные позиции. Таким образом, обеспечивается синхронизация

между узлам и сети отправления и получения пакетов. Протокол RTP работает совместно с протоколом RTCP (Real Time Control Protocol — jiUporoKon управления в реальном масштабе времени). f. Пакет RTP состоит из 12 байтов (рис. 4.17), включающих в себя следующие поля.

Рис. 4.17. Формат пакета RTP


V— версия протокола RTP (2 бита). В настоящее время исполь­зуется вторая версия.

, Р — флаг заполнения (1 бит), указывающий на то, что за полез­ным полем следует поле заполнения (Р= 1). Применяется в тех слу­чаях, когда необходимо, чтобы длина пакета была бы кратна, напри­мер, 32 байтам.

. X— бит расширения (1 бит). Если Х= 1, то за основным заголовком следует дополнительный заголовок определенного формата.

СС- число CSRC (CSRC count) (4 бита). CSRC (Contributing . Source Identifier) — это идентификатор, определяющий один из ис­точников речевой информации. Всего может быть до 15 источников. При СС = 0 имеется только один источник. Если СС > 1, то имеется источников более одного и каждому присваивается отдельный иден­тификатор CSRC длиной 32 бита. Поля идентификаторов CSRC сле­дуют за заголовком RTP. Эти идентификаторы используются при организации конференц-связи. В этом случае в поля CSRC вставля­ются значения идентификаторов соответствующих источников син­хронизации SSRC. В одной конференции может быть больше 15 уча­стников, однако в речевом пакете будут переноситься идентифика­торы CSRC только для 15 первых участников.

М— маркер (1 бит), отмечает некоторые события. Чаще всего от­мечается некоторая граница в потоке пакетов. Например, при пере­даче речи отмечается начало активности в передаче речевой инфор­мации. Когда передается видеоинформация, маркер указывает на окончание видеокадра./T(Payload type) — тип полезного поля (7 битов). Задает формат полезного поля, следующего за заголовком, и определяет тип пере­даваемою трафика: речевой или видео. Здесь также передаются па­раметры сжатия речи или видео. Обычно в процессе одного сеанса связи отправитель пакетов задает только один тип трафика. При из­менении условий передачи в сети отдельные параметры, например коэффициент сжатия, могут меняться.

Порядковый номер (16 битов) служит для контроля над следовани­ем передаваемых пакетов. Содержимое этого поля увеличивается на единицу при передаче очередного пакета. Номер первого передава­емого пакета устанавливается произвольно. В узле получателя по номерам пакетов обнаруживаются потерянные пакеты.

Временная метка (32 бита) представляет собой число, указываю­щее на относительный момент времени, в который был создан пер­вый байт данных полезной нагрузки (например, первый байт рече­вого блока на выходе кодера). Это число формируется в соответствии с состоянием таймера узла отправителя.

SSRC (Synchronization Source Identifier) — идентификатор источ­ника синхронизации, который соответствует только одному источ­нику речи или видео. Значение идентификатора является случайным числом и оно генерируется самим источником полезного трафика. Это позволяет свести до минимума вероятность того, что два или более источника, участвующие в одной сессии RTP (например, при конференц-связи) имеют одинаковые идентификаторы. В протоко­ле RTP существует также дополнительный механизм д ля снижения указанной вероятности.

Основная задача протокола RTCP заключается в обеспечении об­ратной связи для контроля качества передачи при рассылке пользо­вательской информации. Пакеты RTCP переносят управляющую информацию, к которой, в частности, относятся отчеты отправите­ля (передаются от отправителя к получателю речевых/видеопакетов) и получателя (от получателя к отправителю).

В отчетах отправителя и получателя содержится одинаковый на­бор статистических данных: количество посланных пакетов и бай­тов полезного трафика, накопленное количество потерянных паке­тов с начала сессии, значения джиттера и задержки, а также другие данные. По результатам анализа полученных данных, отправитель может изменить параметры передачи, например, уменьшить коэф­фициент сжатия речи при обнаружении ухудшения качества пере­дачи. Анализ данных, проведенный получателем, может сделать вы­вод о месте возникновения проблемы: в местной, региональной или глобальной сети.

Пакеты RTCP имеют формат, похожий на пакет RTP. Хотя паке­ты RTCP передаются только при наличии сессии RTP, протокол RTCP имеет собственный адрес порта. Чтобы не перегружать сеть управляющей информацией, пакеты RTCP передаются значитель­но реже, чем пакеты RTP.

Как было отмечено выше, протокол RTP, а также протокол RTCP, на транспортном уровне используют протокол UDP. В соответствии с рис. 4.4 речевые пакеты, посылаемые через сеть Ethernet, будут иметь четыре заголовка, что обычно записывается следующим об­разом: RTP/UDP/IP/Ethernet. Суммарная длина всех заголовков равна 66 байтов (RTP — 12 байтов, UDP — 8 байтов, IP — 24 байта, Ethernet — 22 байта). Интересно заметить, что суммарная длина за­головков сопоставима с длиной полезного поля пакета RTP. В при­мере, приведенном выше для кодека G.711 и длительности переда­ваемого элемента речи 10 мс, было показано, что в полезное поле вставляется речевой блок длиной 80 байтов. Это доказывает, что при передаче через IP-сеть трафика в реальном масштабе времени, доля полезной информации относительно невелика