- •1 Введение
- •2 Технические требования к звуковому вещанию
- •3 Классические кодеки
- •4 Общи принципы работы нейронных аудио кодеков
- •4.1 Residual Vector Quantization (RVQ)
- •4.2 Свёрточные нейронные сети
- •4.3 Вычитатель (Discriminator)
- •4.4 Обучение
- •5 Нейронные аудио кодеки
- •5.1 SoundStream
- •5.2 EnCodec
- •5.3 Stability AI Audio Codec
- •5.4 Webex AI Codec
- •6 Методика тестирования качества звучания
- •6.1 Описание методики
- •6.2 Результаты тестирования нейронных аудиокодеков
- •7 Заключение
- •8 Список литературы
- •9 Содержание
Табл. 6.2. Сравнительная таблица результатов тестирования нейронных аудиокодеков
Кодек |
SoundStream |
EnCodec |
Webex |
Stability |
|
|
|
|
|
Битрейт, |
6 |
6 |
1 |
0.4 |
кбит/с |
12 |
12 |
6 |
0.7 |
|
|
|
|
|
Баллы |
83 |
82 |
82 |
н/д |
MUSHRA |
80 |
83 |
99 |
н/д |
|
|
|
|
|
Как видно из таблицы выше, нейронные кодеки показывают отличные результаты при сравнительно очень малых битрейтах (высокой степени сжатия).Что является превосходным результатом и открывает возможности для дальнейшего прикладного применения нейросетевых кодеков.
Результаты тестирования кодека Stability AI Audio Codec остуствуют, так как тестирование этого кодека произволилось не сравнении с кодеком Opus, а между различными реализациями нейронных кодеров с различными свёрточными моделями.
7Заключение
Существующие «статичные» (алгоритмические) кодеки сравнительно давно разработаны и активно применяются для кодирования и передачи звуковых сигналов. Однако, они имеют критические недостатки, которые не позволяют им работать с сохранением требуемого качества звучания при сравнительно очень низких битрейтах. Именно в этой области (улучешение качества передачи звуковых сигналов при низких битрейтах) и могут найти активное применение нейронный аудио кодеки.
Как было рассмотренно выше, они предоставляют сравнительно высокое качество звучание при более сильном сжатии, нежели «статичные» кодеки. Однако, основной вопрос стоит в недостаточно подробном и объёмном
16
тестировании нейронных аудио кодеков. В частности на соответсвие принятым стандратам качества звукового вещания. Отдельно стоит проблематека того, что нейронные аудиокодеки нацелены на передачу низкобитрейтных звуковых сигналов, а тестирование при повышенном битрейте не проводилось. Учитывая это, а также большую ресурсоёмкость процесса кодиования/декодиования нейронных аудиокодеков по сравнению с «алгоритмическими» кодеками, вопрос универсальности их применения для звукового вещания является спорным.
Для решения этого вопроса необходимо длительное и глубокое тестирование в разных сценариях работы и для разных видов звуковых сигналов. Такое тестирование также будет затруднено тем, что нейронные аудиокодеки требуют огромного количества данных, времени и вычислительных мощностей для подобоного вида тестирования. Результаты которого будут напрямую зависеть от качества обучения моделей. Так что применение нейронный аудиокодеков в Российской Федерации как «вторичный» источник звукового сигнала для последующего кодирования без потерь пока что не предвидется.
8Список литературы
1. |
|
|
|
|
|
Research. |
|
|
EnCodec: High Fidelity Neural Audio Compression [Электронный |
||||||
|
ресурс]. – URL: https://github.com/facebookresearch/encodec (дата |
||||||
|
обращения: 10.02.2026). |
|
|
|
|
||
2. |
Stability |
|
|
|
|
|
AI. |
|
Stable |
Audio |
Codec |
[Электронный |
ресурс]. |
– |
URL: |
|
https://github.com/Stability-AI/stable-codec (дата обращения: 10.02.2026). |
||||||
17
3.Webex AI Codec White Paper [Электронный ресурс]. – URL: https://www.webex.com/content/dam/www/us/en/whitepaper/ai-codec- whitepaper-cm-6165.pdf (дата обращения: 10.02.2026).
4. |
ГОСТ |
|
11515–91. |
|
Системы вещательного телевидения. Параметры и методы |
||
|
измерений звуковых каналов [Текст]. – М.: Изд-во стандартов, 1991. |
||
5. |
ГОСТ |
Р |
53537–2009. |
Цифровое телевизионное вещание. Параметры качества звукового сопровождения [Текст]. – М.: Стандартинформ, 2009.
6.Hawley S. H. Residual Vector Quantization [Электронный ресурс]. – 12 июн. 2023. – URL: https://drscotthawley.github.io/blog/posts/2023-06-12- RVQ.html (дата обращения: 11.02.2026).
7.Свёрточные нейронные сети: от основ до современных технологий
[Электронный ресурс] / Хабр. – URL: https://habr.com/ru/articles/887268/ (дата обращения: 11.02.2026).
8.stft: кратковременное преобразование Фурье [Электронный ресурс] / Docs Exponenta. – URL: https://docs.exponenta.ru/signal/ref/stft.html (дата обращения: 11.02.2026).
9.End2End-подход к пониманию разговорной речи [Электронный ресурс] / Хабр (рубрика «Компании / МТС»). – 8 мая 2019. – URL:
https://habr.com/ru/companies/ru_mts/articles/451008/ (дата обращения: 11.02.2026).
10.Recommendation ITU-R BS.1534-3: Method for the subjective assessment of intermediate quality levels of audio systems (MUSHRA) [Электронный ресурс]. – Международный союз электросвязи. – URL: https://www.itu.int/dms_pubrec/itu-r/rec/bs/R-REC-BS.1534-3-201510-I!!
PDF-R.pdf (дата обращения: 11.02.2026).
18
11.High-Fidelity Neural Audio Compression [Электронный ресурс] / A. Défossez, J. Copet, G. Synnaeve, Y. Adi – 2022. – URL: https://arxiv.org/pdf/2210.13438 (дата обращения: 11.02.2026).
12.High Fidelity Audio Codecs at Ultra-Low Bitrates (примерное описание; уточнить авторов из PDF) [Электронный ресурс] – 2024. – URL: https://arxiv.org/pdf/2411.19842 (дата обращения: 11.02.2026).
13.SoundStream: An End-to-End Neural Audio Codec [Электронный ресурс] / J. Lachaux, J. Defossez, N. Zeghidour, et al. – 2021. – URL: https://arxiv.org/pdf/2107.03312 (дата обращения: 11.02.2026).
14.Finite Scalar Quantization (FSQ) [Электронный ресурс] / Emergent Mind.
– URL: https://www.emergentmind.com/topics/finite-scalar-quantization-fsq (дата обращения: 12.02.2026).
15.What Is Residual Vector Quantization? [Электронный ресурс] / AssemblyAI. – URL: https://www.assemblyai.com/blog/what-is-residual- vector-quantization (дата обращения: 12.02.2026).
19
