4.6. Принципы передачи речи в сети ip-телефонии

В устройствах IP-телефонии для подготовки речи к перед аче в виде пакетов выполняются следующие основные функции: преобразование речи в цифровую форму, кодирование речевого сигнала, эхопо- давление и обнаружение речевой активности. После приема речевых пакетов производится адаптация воспроизведения, декодирование речевого сигнала, преобразование цифрового сигнала в речь, заполнение пауз комфортным шумом.

На рис. 4.16 показана упрощенная функциональная схема модуля пакетирования речи для шлюза, включенного в TDM-сеть цифровым каналом Е1.

Передача в сторону IP-сети. Преобразование речи в цифровую форму происходит в TDM-сети. И КМ-сигнал со скоростью 64 кбит/с с выхода ИКМ-интерфейса проходит устройство эхокомпенсации и поступает на детектор активности речи. Здесь полученный сигнал проверяется на наличие в нем речи. Если в течение заданного времениречевая активность не обнаружена, то передача речевых пакетов прекращается. Эго позволяет значительно снизить трафик, поступающий в IP-сеть, так как речевые паузы составляют примерно 60 % от времени разговора. При наличии речевого сигнала он попадает в кодирующее устройство вокодера — кодер, в котором происходит сжатие речевого сигнала. В результате скорость речевого потока на выходе кодера снижается. Теперь под управлением протокола пакетной передачи битовые блоки, соответствующие элементам речи длительностью 10—40 мс, с помощью сборщика вставляются в пакеты. Далее пакеты в буфере передачи ждут своей очереди, чтобы быть переданными в канал IP-сети.

Прием со стороны IP-сети. Пакеты, поступающие в модуль из сети, попадают в буфер, образуя очередь. Затем в разборщике пакетов речевые битовые блоки извлекаются из пакетов и поступают в модуль адаптации воспроизведения. Адаптация воспроизведения заключается в буферизации речевых блоков с целью сглаживания вариации их задержки — джитгера. Для этого буфер организуется по правилу FIFO (Fist In Fist Out — первый пришел, первый вышел). Далее для речевых блоков, находящихся в очереди, измеряется джиттер. Это позволяет извлекать речевые блоки из буфера с управляемой задержкой, снижающей действие джитгера Теперь битовые блоки, несущие в себе элементы речи, декодируются. На входе декодера скорость цифрового потока такая же, как на выходе кодера. При декодировании происходит декомпрессия и на вход ИКМ-интерфейса поступают ИКМ-сигналы со скоростью 64 кбит/с. Во время речевых пауз обнаруживается отсутствие речевых пакетов и к выходу декодера подключается цифровой генератор комфортного шума. Это делается для того, чтобы у слушающего абонента во время речевых пауз не создавалось ощущения прерывания связи, так как при отсутствии комфортного шума в телефоне была бы полная тишина

Модуль пакетирования речи также обеспечивает детектирование и генерацию сигналов DTMF и передачу данных от факсимильных аппаратов и ог аналоговых модемов.

Рассмотрим основные вопросы, связанные с преобразованием речи.

В IP-телефонии находят применение следующие устройства преобразования речи: кодеры формы речевой волны, вокодеры и гибридные кодеры. Такие устройства различаются скоростью передачи цифрового потока, качеством передачи речи, задержкой речи в процессе преобразования и требованием к производительности процессоров, обрабатывающих речевые сигналы.

Кодеры формы речевой волны имеют широкое применение в системах с коммутацией каналов. Прежде всего — это импульсно-кодо- вая модуляция (ИКМ или PCM — Pulse Code Modulation), соответствующая рекомендации МСЭ-Т G.711. В этом методе предусмотрено цифровое сжатие, что позволяет амплитуду каждой выборки речевого сигнала преобразовать в 8-битовое слово (при линейном кодировании потребовалось бы 12-битовое слово). Скорость передачи равна 64 кбит/с. Другой метод кодирования — адаптивная дифференциальная ИКМ (ДДИКМ или ADPCM — Adaptive Differential Pulse Code Modulation), рекомендация МСЭ-Т G.721 для скорости передачи 32 кбит/с. В этом методе кодируется не сама амплитуда сигнала, а ее изменение по сравнению с предыдущей выборкой. Обработка сигнала происходит с применением предсказания и адаптивного квантования. В обоих методах преобразования, ИКМ и АДИКМ, задержка речи при преобразовании минимальна и составляет 125 мкс. Оба метода обеспечивают высокое качество передачи речи и характеризуются относительно невысокими требованиями к процессорам обработки сигналов.

Вокодеры используют кодеры речи, основанные на параметрическом компандировании (сжатии). В вокодерах осуществляется линейное предсказание речи (LPC), являющееся эффективным методом анализа речи. Этот метод позволяет определить основные параметры речевых сигналов: основной тон, форманты, частотный спектр. При кодировании выявляются периодические процессы в речевом сигнале, определяются их параметры, а затем устраняют из речевого сигнала избыточность, исключая найденные периодичности. В итоге получается остаточный речевой сигнал, который после аппроксимации передается вместе с параметрами периодических процессов речи на выход кодера. В декодере по принятому остаточному сигналу и по параметрам периодических процессов речи восстанавливают речевой сигнал, выполняя синтез речи.

Вокодеры предъявляют высокие требования к процессорам обработки сигналов и вносят заметные задержки преобразования. Увеличение задержки объясняется тем, что кодирование применяется не к отдельным значениям речевого сигнала, а к некоторому их набору, который перед преобразованием следует накопить. При применении вокодеров скорость передачи находится в пределах 1,2—4,8 кбит/с. Вокодеры обеспечивают относительно высокую разборчивость речи, однако теряется натуральность звучания.

Гибридные кодеры используют еще более сложную схему кодирования, в которой сочетаются линейное предсказание и элементы кодирования формы речевой волны. В этом случае используется алгоритм с обратной связью. Закодировав речевой сигнал, процессор пытается восстановить его форму и для этого сравнивает результат кодирования с исходным сигналом. При этом процессор меняет параметры кодирования, добиваясь наилучшего совпадения. Добившись этого, соответствующее кодовое слово передается на выход кодека. В пункте приема речевых пакетов элементы речи восстанавливаются в декодере.

В гибридных кодерах наибольшее применение нашли методы кодирования LD-CELP, MP-MLQ и ACELP, а также CS-ACELP.

Метод LD-CELP (Low-Delay Code Excited Linear Prediction — линейное предсказание с кодовым возбуждением и низкой задержкой) обеспечивает кодирование со скоростью передачи 16 кбит/с и соответствует рекомендации МСЭ-Т G.728. Этот метод позволяет получить удовлетворительное качество передачи речи с относительно невысокой задержкой преобразования.

Методы MP-MLQ (Multi-pulse Multy Level Quantization — множественная импульсная многоуровневая квантизация) и ACELP (Algebraic Code Excited linear Prediction — алгебраическое линейное предсказание с кодовым возбуждением) позволяют добиться значительного сжатия речи, однако при преобразовании появляется большая задержка речи. Несмотря на низкую скорость передачи 5,3 или 6,3 кбит/с обеспечивается хорошее качество передачи речи. Эти методы кодирования соответствуют рекомендации МСЭ-Т G.723.1.

Кодирование CS-ACELP (Conjugate Structure — Algebraic Code Exited Linear Prediction — сопряженная структура с управляемым алгебраическим кодом и линейным предсказанием) приводит к относительно небольшой задержке со скоростью передачи 8 кбит/с. Алгоритм кодирования описан в рекомендации МСЭ-Т G.729. Этот метод кодирования в первую очередь предназначен для технологий пакетной передачи Frame Relay и ATM (Asynchronous Transfer Mode — асинхронный режим передачи).

В табл. 4.2 приведены основные характеристики кодеков, которые получили название по наименованию рекомендации МСЭ-Т. К одному из параметров относится производительность цифрового сигнального процессора (DSP), реализующего соответствующий алгоритм кодирования в вокодерах и в гибридных кодерах (производительность оценивается в миллионах команд в секунду). Наиболее высокие требования к DSP предъявляет кодек G.728, однако он обеспечивает и небольшую задержку преобразования. По сравнению с другими кодек G.711 практически не вносит задержки при преобразовании речевых сигналов.

Для оценки качества преобразования речевых сигналов часто используют метод MOS (Mean Opinion Scores — средняя экспертная оценка), определенный в рекомендациях МСЭ-Т для телефонных сетей. Шкала оценок MOS для речевой полосы 200—3400 Гц приведена в табл. 4.3, а значения MOS для кодеков в табл. 4.2. Оче-

видно, что самое высокое качество преобразования обеспечивает кодек G.711. Качество преобразования ниже всею у кодека G.728. Применение в сетях IP-телефонии находят все рассмотренные кодеки, поскольку каждый из них позволяет передавать речь с хорошим или близким к хорошему качеством. Конечно, с точки зрения качества передачи речи лучше всего применять кодеки G.711, но в этом случае от IP-сети потребуется значительно большая пропускная способность.

Полученные на выходе битовые речевые блоки вставляются в пакеты. Чтобы эффективнее использовать ресурсы IP-сети целесообразно вставлять в пакеты как можно более длинные речевые блоки, но, с другой стороны это приводит к увеличению задержек речи и, как следствие, к ухудшению качества передачи речи. Обычно в пакет вставляется речевой блок, соответствующий речевому элементу продолжительностью от 10 до 40 мс. Следовательно, прежде чем сформировать речевой пакет, необход имо накопить речевую информацию, что приведет к появлению задержки накопления. Эха задержка жестко связана с задержкой преобразования. Например, если взять кодек G.723.1, то задержка преобразования (30 мс) входит в указанный диапазон значений накопления. В этом случае один битовый речевой блок, полученный на выходе кодека будет вставлен в один пакет. Длина речевого блока равна 20 (ACELP) или 24 (MP-MLQ) байтам. В данном примере задержка преобразования равна задержке накопления. Если использовать кодек G.711, то задержка преобразования составляет только 0,125 мс, а длина речевого блока — 1 байт. Чтобы получить задержку накопления, равную 10 мс, надо произвести 80 шагов преобразования (80 х 0,125= 10). Тогда накопится речевой блок длиной 80 байтов, который будет вставлен в пакет.

Рассмотрим, что собой представляет речевой пакет.

Для передачи речи в технологии TCP/IP на прикладном уровне применяется протокол RTP, позволяющий передавать речевую информацию через IP-сети в реальном масштабе времени. Этот же протокол позволяет передавать видеоинформацию. В каждом пакете протокола RTP вместе с элементом речи передается временная метка, указывающая на положение этого элемента на временной шкале, а также порядковый номер пакета. Этих данных достаточно для того, чтобы в пункте приема протокол RTP восстановил принятые пакеты в исходной последовательности и расставил их в требуемые временные позиции. Таким образом, обеспечивается синхронизация

между узлам и сети отправления и получения пакетов. Протокол RTP работает совместно с протоколом RTCP (Real Time Control Protocol — jiUporoKon управления в реальном масштабе времени). f. Пакет RTP состоит из 12 байтов (рис. 4.17), включающих в себя следующие поля.

Рис. 4.17. Формат пакета RTP

V— версия протокола RTP (2 бита). В настоящее время используется вторая версия.

, Р — флаг заполнения (1 бит), указывающий на то, что за полезным полем следует поле заполнения (Р= 1). Применяется в тех случаях, когда необходимо, чтобы длина пакета была бы кратна, например, 32 байтам.

. X— бит расширения (1 бит). Если Х= 1, то за основным заголовком следует дополнительный заголовок определенного формата.

СС- число CSRC (CSRC count) (4 бита). CSRC (Contributing . Source Identifier) — это идентификатор, определяющий один из источников речевой информации. Всего может быть до 15 источников. При СС = 0 имеется только один источник. Если СС > 1, то имеется источников более одного и каждому присваивается отдельный идентификатор CSRC длиной 32 бита. Поля идентификаторов CSRC следуют за заголовком RTP. Эти идентификаторы используются при организации конференц-связи. В этом случае в поля CSRC вставляются значения идентификаторов соответствующих источников синхронизации SSRC. В одной конференции может быть больше 15 участников, однако в речевом пакете будут переноситься идентификаторы CSRC только для 15 первых участников.

М— маркер (1 бит), отмечает некоторые события. Чаще всего отмечается некоторая граница в потоке пакетов. Например, при передаче речи отмечается начало активности в передаче речевой информации. Когда передается видеоинформация, маркер указывает на окончание видеокадра./T(Payload type) — тип полезного поля (7 битов). Задает формат полезного поля, следующего за заголовком, и определяет тип передаваемою трафика: речевой или видео. Здесь также передаются параметры сжатия речи или видео. Обычно в процессе одного сеанса связи отправитель пакетов задает только один тип трафика. При изменении условий передачи в сети отдельные параметры, например коэффициент сжатия, могут меняться.

Порядковый номер (16 битов) служит для контроля над следованием передаваемых пакетов. Содержимое этого поля увеличивается на единицу при передаче очередного пакета. Номер первого передаваемого пакета устанавливается произвольно. В узле получателя по номерам пакетов обнаруживаются потерянные пакеты.

Временная метка (32 бита) представляет собой число, указывающее на относительный момент времени, в который был создан первый байт данных полезной нагрузки (например, первый байт речевого блока на выходе кодера). Это число формируется в соответствии с состоянием таймера узла отправителя.

SSRC (Synchronization Source Identifier) — идентификатор источника синхронизации, который соответствует только одному источнику речи или видео. Значение идентификатора является случайным числом и оно генерируется самим источником полезного трафика. Это позволяет свести до минимума вероятность того, что два или более источника, участвующие в одной сессии RTP (например, при конференц-связи) имеют одинаковые идентификаторы. В протоколе RTP существует также дополнительный механизм д ля снижения указанной вероятности.

Основная задача протокола RTCP заключается в обеспечении обратной связи для контроля качества передачи при рассылке пользовательской информации. Пакеты RTCP переносят управляющую информацию, к которой, в частности, относятся отчеты отправителя (передаются от отправителя к получателю речевых/видеопакетов) и получателя (от получателя к отправителю).

В отчетах отправителя и получателя содержится одинаковый набор статистических данных: количество посланных пакетов и байтов полезного трафика, накопленное количество потерянных пакетов с начала сессии, значения джиттера и задержки, а также другие данные. По результатам анализа полученных данных, отправитель может изменить параметры передачи, например, уменьшить коэффициент сжатия речи при обнаружении ухудшения качества передачи. Анализ данных, проведенный получателем, может сделать вывод о месте возникновения проблемы: в местной, региональной или глобальной сети.

Пакеты RTCP имеют формат, похожий на пакет RTP. Хотя пакеты RTCP передаются только при наличии сессии RTP, протокол RTCP имеет собственный адрес порта. Чтобы не перегружать сеть управляющей информацией, пакеты RTCP передаются значительно реже, чем пакеты RTP.

Как было отмечено выше, протокол RTP, а также протокол RTCP, на транспортном уровне используют протокол UDP. В соответствии с рис. 4.4 речевые пакеты, посылаемые через сеть Ethernet, будут иметь четыре заголовка, что обычно записывается следующим образом: RTP/UDP/IP/Ethernet. Суммарная длина всех заголовков равна 66 байтов (RTP — 12 байтов, UDP — 8 байтов, IP — 24 байта, Ethernet — 22 байта). Интересно заметить, что суммарная длина заголовков сопоставима с длиной полезного поля пакета RTP. В примере, приведенном выше для кодека G.711 и длительности передаваемого элемента речи 10 мс, было показано, что в полезное поле вставляется речевой блок длиной 80 байтов. Это доказывает, что при передаче через IP-сеть трафика в реальном масштабе времени, доля полезной информации относительно невелика

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 1011 / 1911 12 13 14 15 16 17 18 19 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
02.09.2019383.49 Кб0ZhDSU.doc
#
21.09.20195.96 Mб12zhd_put_2.doc
#
16.03.20154.24 Mб281ZhPD.docx
#
15.11.2019550.8 Кб3_Метод КСТ-1.docx
#
16.03.201535.42 Кб10Автодор работа2.docx
#
08.05.20191.4 Mб53Автоматическая телефонная связь на железнодорож...doc
#
02.11.201812.62 Mб94Автоматические тормоза подвижного состава.doc
#
26.11.201941.73 Кб11автотранспорт 2.doc
#
16.03.2015492.54 Кб7АГО-6Д 01.01.2014.doc
#
06.11.2019222.21 Кб180АГРЕГАТ ТЯГОВЫЙ НП1 ИДМБ.doc
#
30.03.20161.63 Mб62Акимова (ред) - Психологическая диагностика.doc