Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
практика сии / 00_практика_по_сии_отчёт_велит_брв2201.pdf
Скачиваний:
0
Добавлен:
13.05.2026
Размер:
350.28 Кб
Скачать

вычисляется семантическая структура этих данных. Далее на основе полученной структуры вычисляются данные для дальнейшего обучения. На основе такого подхода и вышеописанного «вычитателя», строится

обратная связь при обучении: при одном цикле обучения получаются данные для следующего цикла обучения. Что позволяет снизить как временные, так и вычислительные затраты на обучение.

5Нейронные аудио кодеки

Как говорилось выше, уже существует не один аудио кодек с применением нейронных сетей для сжатия и кодирования звуковых сигналов. Одними из самых известных являются: EnCodec, Webex AI Codec, Stability AI Codec и SoundStream. Хоть они и схожи по принципу работы, в их структуре присутствуют различия.

5.1SoundStream

Одним из нейронных аудио кодеков с End2End обучением является SoundStream. Его цель – эффективное кодирование с низким битрейтом речи, музыки и звуковых сигналов в целом. Его структурная схема представлена ниже.

Рис. 5.1.1 – Структурная схема кодека SoundStream

8

Кодер и декодер описываемого кодека используют только свёрточные слои с разными блоками, цель которых – кратно понизить частоту дискретизации исходного звукового сигнала. Например, для моно-сигнала с частотой дискретизации 24 кГц на выходе свёрточного слоя кодера получается сигнал с частотой дискретизации 75 Гц. Также в кодере присутствует блок, осуществляющий операцию вышеописанного остаточного векторного квантования. Декодер имеет такую же структуру, но с обратными операциями.

При обучении применяется дискриминатор, который «жёстко» связан с кодером и декодером, что позволяет эффективно обучать кодек.

Минимальный битрейт при максимальном качестве звука по тесту MUSHRA – 3 кбит/с.

5.2EnCodec

Ещё одним представителем нейронных аудио коеков является EnCode. Это потоковый Hi-Fi кодек с End2End обучением общего назначения: как для музыкальных композиций, так и для речевых сигналов. Его структура изображена ниже.

Рис. 5.2.1 – Структурная схема кодека EnCodec

9

Она схоже с таковой у SoundStream: свёрточные кодер и декодер, блок остаточного векторного квантования и дискриминатор для обучения.

В отличие от «чисто» свёрточного кодера SoundStream, в EnCodec в структуре кодера присутсвует двухслойная нейронная сеть с долгой краткосрочной памятью для создания последовательностей для последнего одномерного свёрточного слоя. Таким образом частота дискретизации исходного сигнала кратно понижается (аналогично SoundStream): с 24 кГц до 75 Гц для моно-сигналов и с 48 кГц до 150 Гц для стерео-сигналов. Декодер имеет абсолютно такую же структуру с обратными операциями.

У кодека существует две реализации: потоковая и «статичная». При потоковой работе осуществлся кодирование с паматью (применение нейронной сети с долгой краткосрочной памятью) на время обработки первых отсчётов (то есть используется буфферизация). При «статичном» исполнении буфферезиция не применяется, использются более длинные блоки звукового сигнала с наложением начала и конца, а также применяется нормализационный слой.

Отдельно применятся малая языковая модель-трансформер для ускорения процесса кодирования/декодирования в реальном времени на системах с малой производительностью. В дополнении к модели-трансформеру применяется энтропийное кодирование (усреденине вероятностей появления элементов), чтобы устранить ошибки, вызываемые разными результатыми работы модели-транформера. Такие ошибки работы модели-трансформера могут нарушать симметрию кодера и декодера, приводит к ошибкам декодирования.

Кодер использует фиксированные значения битрейта для разных частот дискретизации:

Для моно сигнала с частотой дискретизации 24 кГц существуют пресеты с битрейтом 1.5 кбит/с, 3 кбит/с, 6 кбит/с и 12 кбит/с.

Для стерео сигнала с частотой дискретизации 48 кГц сущестувуют пресеты с битрейтом 6 кбит/с и 12 кбит/с и 24 кбит/с.

10

5.3Stability AI Audio Codec

Это кодек с применением нейронных сетей ориентрированный на высококачественную передачу музыкальных и речевых сигналов, а также на интеграцию с генеративными нейронными сетями. Его структурная схема престдавлена ниже.

Рис. 5.3.1 – структурная схема кодека Stability AI Audio Codec Структура кодера и декодера схожа с таковыми у двух кодеков ниже:

свёрточная модель с несколькими слоями, цель которой – кратно уменьшить частоту дискретизации исходного сигнала. Отличие в том, что внутри свёрточного слоя приминияются слои модели-транформера, которая, в свою очередь, содержит слои нормалищации звукового сигнала. Также разделение на «блоки» происходит до непосредственного попадания в кодер, а восстановление непрерывного сигнала из малых «блоков» осуществляется после декодера.

Основное же отличие всей архетиктуры – применение для квантования метода FSQ (Finite Scalar Quantization – квантование конечными скалярами) вместо вышеупоменаемой RVQ. Это более продвинутый метод квантования, который размечает каждую скалярную компоненту конечным числом наборов уровней, что позволяет оптимизировать распределение весовых параметров.

11

Соседние файлы в папке практика сии