Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
практика сии / 00_практика_по_сии_отчёт_велит_брв2201.odt
Скачиваний:
0
Добавлен:
13.05.2026
Размер:
232.89 Кб
Скачать

5Нейронные аудио кодеки

Как говорилось выше, уже существует не один аудио кодек с применением нейронных сетей для сжатия и кодирования звуковых сигналов. Одними из самых известных являются: EnCodec, Webex AI Codec, Stability AI Codec и SoundStream. Хоть они и схожи по принципу работы, в их структуре присутствуют различия.

5.1SoundStream

Одним из нейронных аудио кодеков с End2End обучением является SoundStream. Его цель – эффективное кодирование с низким битрейтом речи, музыки и звуковых сигналов в целом. Его структурная схема представлена ниже.

Р ис. 5.1.1 – Структурная схема кодека SoundStream

Кодер и декодер описываемого кодека используют только свёрточные слои с разными блоками, цель которых – кратно понизить частоту дискретизации исходного звукового сигнала. Например, для моно-сигнала с частотой дискретизации 24 кГц на выходе свёрточного слоя кодера получается сигнал с частотой дискретизации 75 Гц. Также в кодере присутствует блок, осуществляющий операцию вышеописанного остаточного векторного квантования. Декодер имеет такую же структуру, но с обратными операциями.

При обучении применяется дискриминатор, который «жёстко» связан с кодером и декодером, что позволяет эффективно обучать кодек.

Минимальный битрейт при максимальном качестве звука по тесту MUSHRA – 3 кбит/с.

5.2EnCodec

Ещё одним представителем нейронных аудио коеков является EnCode. Это потоковый Hi-Fi кодек с End2End обучением общего назначения: как для музыкальных композиций, так и для речевых сигналов. Его структура изображена ниже.

Р ис. 5.2.1 – Структурная схема кодека EnCodec

Она схоже с таковой у SoundStream: свёрточные кодер и декодер, блок остаточного векторного квантования и дискриминатор для обучения.

В отличие от «чисто» свёрточного кодера SoundStream, в EnCodec в структуре кодера присутсвует двухслойная нейронная сеть с долгой краткосрочной памятью для создания последовательностей для последнего одномерного свёрточного слоя. Таким образом частота дискретизации исходного сигнала кратно понижается (аналогично SoundStream): с 24 кГц до 75 Гц для моно-сигналов и с 48 кГц до 150 Гц для стерео-сигналов. Декодер имеет абсолютно такую же структуру с обратными операциями.

У кодека существует две реализации: потоковая и «статичная». При потоковой работе осуществлся кодирование с паматью (применение нейронной сети с долгой краткосрочной памятью) на время обработки первых отсчётов (то есть используется буфферизация). При «статичном» исполнении буфферезиция не применяется, использются более длинные блоки звукового сигнала с наложением начала и конца, а также применяется нормализационный слой.

Отдельно применятся малая языковая модель-трансформер для ускорения процесса кодирования/декодирования в реальном времени на системах с малой производительностью. В дополнении к модели-трансформеру применяется энтропийное кодирование (усреденине вероятностей появления элементов), чтобы устранить ошибки, вызываемые разными результатыми работы модели-транформера. Такие ошибки работы модели-трансформера могут нарушать симметрию кодера и декодера, приводит к ошибкам декодирования.

Кодер использует фиксированные значения битрейта для разных частот дискретизации:

  • Для моно сигнала с частотой дискретизации 24 кГц существуют пресеты с битрейтом 1.5 кбит/с, 3 кбит/с, 6 кбит/с и 12 кбит/с.

  • Для стерео сигнала с частотой дискретизации 48 кГц сущестувуют пресеты с битрейтом 6 кбит/с и 12 кбит/с и 24 кбит/с.

5.3Stability AI Audio Codec

Это кодек с применением нейронных сетей ориентрированный на высококачественную передачу музыкальных и речевых сигналов, а также на интеграцию с генеративными нейронными сетями. Его структурная схема престдавлена ниже.

Р ис. 5.3.1 – структурная схема кодека Stability AI Audio Codec

Структура кодера и декодера схожа с таковыми у двух кодеков ниже: свёрточная модель с несколькими слоями, цель которой – кратно уменьшить частоту дискретизации исходного сигнала. Отличие в том, что внутри свёрточного слоя приминияются слои модели-транформера, которая, в свою очередь, содержит слои нормалищации звукового сигнала. Также разделение на «блоки» происходит до непосредственного попадания в кодер, а восстановление непрерывного сигнала из малых «блоков» осуществляется после декодера.

Основное же отличие всей архетиктуры – применение для квантования метода FSQ (Finite Scalar Quantization – квантование конечными скалярами) вместо вышеупоменаемой RVQ. Это более продвинутый метод квантования, который размечает каждую скалярную компоненту конечным числом наборов уровней, что позволяет оптимизировать распределение весовых параметров.

Такая общая структура кодека называется TAAE (Transformer Audio AutoEncoder). Его основное отличие от рассмотренных выше нейронных кодеков в куда большем применении слоёв-трансформеров при кодировании/декодировании, что приводит к увеличению веса модели и увеличению ресурсоёмкости для работы кодека. При этом повышаются возможности масштабируемости кодека.

Кодек предназначен для работы со звуковыми сигналами с частотой дискретизации до 16 кГц. Дальнейшее повышение частоты дсикретизации при обучении возомжно ценой незначительного замедления быстройдествия и, что может быть критично, сильного повышения веса готовой модели. Минимально возможный битрейт для передачи речевых сигналов с сохранением допустимого качества звучания – 400 бит/с.

5.4Webex AI Codec

Последний из рассматриваемых кодеков – это Webex AI Codec. Основным направлением которого являются видеоконференции и телефония (к частности технологии передачи голоса посредством сети Интернет – VoIP). Его структурная схема представлена ниже.

Р ис. 5.4.1 – Структурная схема кодека Webex AI Codec

Структура схожа с таковой у SoundStream: кодекр, блок RVQ, декодер. Само сроение кодера и декодера, кроме симметричности, не объяснено. Однако, в виду напралвенности применения кодека, в кодере применяется нейроннная модель с минимально возможной (почти нулевой) задержкой по времени (условно мгновенная работа). Также в кодере присутвуют механизмы, позволяющие применить шумоподавление, убирание эффекта эхо, а также возможных артефактов, присутвующих в исходном сигнале. После примения вышеописанных алгоритмов возможно ещё более сильное сжатие уже обработанного сигнала. В декодере, помимо обычного восстановления сигнала,также реализованы алгоритмы восстановления потеренных/повреждённых пакетов. Отдельно стоит отметить, что для повышения качества и стабильности применятся механизм, подобный обратной связи: помимо кодирования и передачи текущего блока звукового сигнала с целевым битрейтом, параллельно кодируется и передаются предыдущие блоки с пониженным битрейтом. Например, при целевом битрейте 6 кбит/с, предыдущие блоки кодируются с битрейтом 1 кбит/с. Это и позволяет повысить устойчивость кодека к помехам.

Таким образом, в кодеке, помимо реализации кратно лучшего сжатия, применены технологии «улучшения» качества звучания, а также механизмы повышения устройсивости к помехам, возникающим в канале связи.

Предел по частоте дискретизации исходных звуковых сигналов, на работу с которыми предназначен кодек, не уточнятеся, однако существуют три пресета битрейтов: 1 кбит/с, 3 кбит/с и 6 кбит/с.

Соседние файлы в папке практика сии