- •1 Введение
- •2 Технические требования к звуковому вещанию
- •3 Классические кодеки
- •4 Общи принципы работы нейронных аудио кодеков
- •4.1 Residual Vector Quantization (RVQ)
- •4.2 Свёрточные нейронные сети
- •4.3 Вычитатель (Discriminator)
- •4.4 Обучение
- •5 Нейронные аудио кодеки
- •5.1 SoundStream
- •5.2 EnCodec
- •5.3 Stability AI Audio Codec
- •5.4 Webex AI Codec
- •6 Методика тестирования качества звучания
- •6.1 Описание методики
- •6.2 Результаты тестирования нейронных аудиокодеков
- •7 Заключение
- •8 Список литературы
- •9 Содержание
вычисляется семантическая структура этих данных. Далее на основе полученной структуры вычисляются данные для дальнейшего обучения. На основе такого подхода и вышеописанного «вычитателя», строится
обратная связь при обучении: при одном цикле обучения получаются данные для следующего цикла обучения. Что позволяет снизить как временные, так и вычислительные затраты на обучение.
5Нейронные аудио кодеки
Как говорилось выше, уже существует не один аудио кодек с применением нейронных сетей для сжатия и кодирования звуковых сигналов. Одними из самых известных являются: EnCodec, Webex AI Codec, Stability AI Codec и SoundStream. Хоть они и схожи по принципу работы, в их структуре присутствуют различия.
5.1SoundStream
Одним из нейронных аудио кодеков с End2End обучением является SoundStream. Его цель – эффективное кодирование с низким битрейтом речи, музыки и звуковых сигналов в целом. Его структурная схема представлена ниже.
Рис. 5.1.1 – Структурная схема кодека SoundStream
8
Кодер и декодер описываемого кодека используют только свёрточные слои с разными блоками, цель которых – кратно понизить частоту дискретизации исходного звукового сигнала. Например, для моно-сигнала с частотой дискретизации 24 кГц на выходе свёрточного слоя кодера получается сигнал с частотой дискретизации 75 Гц. Также в кодере присутствует блок, осуществляющий операцию вышеописанного остаточного векторного квантования. Декодер имеет такую же структуру, но с обратными операциями.
При обучении применяется дискриминатор, который «жёстко» связан с кодером и декодером, что позволяет эффективно обучать кодек.
Минимальный битрейт при максимальном качестве звука по тесту MUSHRA – 3 кбит/с.
5.2EnCodec
Ещё одним представителем нейронных аудио коеков является EnCode. Это потоковый Hi-Fi кодек с End2End обучением общего назначения: как для музыкальных композиций, так и для речевых сигналов. Его структура изображена ниже.
Рис. 5.2.1 – Структурная схема кодека EnCodec
9
Она схоже с таковой у SoundStream: свёрточные кодер и декодер, блок остаточного векторного квантования и дискриминатор для обучения.
В отличие от «чисто» свёрточного кодера SoundStream, в EnCodec в структуре кодера присутсвует двухслойная нейронная сеть с долгой краткосрочной памятью для создания последовательностей для последнего одномерного свёрточного слоя. Таким образом частота дискретизации исходного сигнала кратно понижается (аналогично SoundStream): с 24 кГц до 75 Гц для моно-сигналов и с 48 кГц до 150 Гц для стерео-сигналов. Декодер имеет абсолютно такую же структуру с обратными операциями.
У кодека существует две реализации: потоковая и «статичная». При потоковой работе осуществлся кодирование с паматью (применение нейронной сети с долгой краткосрочной памятью) на время обработки первых отсчётов (то есть используется буфферизация). При «статичном» исполнении буфферезиция не применяется, использются более длинные блоки звукового сигнала с наложением начала и конца, а также применяется нормализационный слой.
Отдельно применятся малая языковая модель-трансформер для ускорения процесса кодирования/декодирования в реальном времени на системах с малой производительностью. В дополнении к модели-трансформеру применяется энтропийное кодирование (усреденине вероятностей появления элементов), чтобы устранить ошибки, вызываемые разными результатыми работы модели-транформера. Такие ошибки работы модели-трансформера могут нарушать симметрию кодера и декодера, приводит к ошибкам декодирования.
Кодер использует фиксированные значения битрейта для разных частот дискретизации:
•Для моно сигнала с частотой дискретизации 24 кГц существуют пресеты с битрейтом 1.5 кбит/с, 3 кбит/с, 6 кбит/с и 12 кбит/с.
•Для стерео сигнала с частотой дискретизации 48 кГц сущестувуют пресеты с битрейтом 6 кбит/с и 12 кбит/с и 24 кбит/с.
10
5.3Stability AI Audio Codec
Это кодек с применением нейронных сетей ориентрированный на высококачественную передачу музыкальных и речевых сигналов, а также на интеграцию с генеративными нейронными сетями. Его структурная схема престдавлена ниже.
Рис. 5.3.1 – структурная схема кодека Stability AI Audio Codec Структура кодера и декодера схожа с таковыми у двух кодеков ниже:
свёрточная модель с несколькими слоями, цель которой – кратно уменьшить частоту дискретизации исходного сигнала. Отличие в том, что внутри свёрточного слоя приминияются слои модели-транформера, которая, в свою очередь, содержит слои нормалищации звукового сигнала. Также разделение на «блоки» происходит до непосредственного попадания в кодер, а восстановление непрерывного сигнала из малых «блоков» осуществляется после декодера.
Основное же отличие всей архетиктуры – применение для квантования метода FSQ (Finite Scalar Quantization – квантование конечными скалярами) вместо вышеупоменаемой RVQ. Это более продвинутый метод квантования, который размечает каждую скалярную компоненту конечным числом наборов уровней, что позволяет оптимизировать распределение весовых параметров.
11
