Такая общая структура кодека называется TAAE (Transformer Audio AutoEncoder). Его основное отличие от рассмотренных выше нейронных кодеков в куда большем применении слоёв-трансформеров при кодировании/декодировании, что приводит к увеличению веса модели и увеличению ресурсоёмкости для работы кодека. При этом повышаются возможности масштабируемости кодека.
Кодек предназначен для работы со звуковыми сигналами с частотой дискретизации до 16 кГц. Дальнейшее повышение частоты дсикретизации при обучении возомжно ценой незначительного замедления быстройдествия и, что может быть критично, сильного повышения веса готовой модели. Минимально возможный битрейт для передачи речевых сигналов с сохранением допустимого качества звучания – 400 бит/с.
5.4Webex AI Codec
Последний из рассматриваемых кодеков – это Webex AI Codec. Основным направлением которого являются видеоконференции и телефония (к частности технологии передачи голоса посредством сети Интернет – VoIP). Его структурная схема представлена ниже.
Рис. 5.4.1 – Структурная схема кодека Webex AI Codec