- •Москва 2026
- •1Введение
- •2Технические требования к звуковому вещанию
- •3Классические кодеки
- •4Общи принципы работы нейронных аудио кодеков
- •4.2Свёрточные нейронные сети
- •4.3Вычитатель (Discriminator)
- •4.4Обучение
- •5Нейронные аудио кодеки
- •6Методика тестирования качества звучания
- •6.1Описание методики
- •6.2Результаты тестирования нейронных аудиокодеков
- •7Заключение
- •8Список литературы
- •9Содержание
7Заключение
Существующие «статичные» (алгоритмические) кодеки сравнительно давно разработаны и активно применяются для кодирования и передачи звуковых сигналов. Однако, они имеют критические недостатки, которые не позволяют им работать с сохранением требуемого качества звучания при сравнительно очень низких битрейтах. Именно в этой области (улучешение качества передачи звуковых сигналов при низких битрейтах) и могут найти активное применение нейронный аудио кодеки.
Как было рассмотренно выше, они предоставляют сравнительно высокое качество звучание при более сильном сжатии, нежели «статичные» кодеки. Однако, основной вопрос стоит в недостаточно подробном и объёмном тестировании нейронных аудио кодеков. В частности на соответсвие принятым стандратам качества звукового вещания. Отдельно стоит проблематека того, что нейронные аудиокодеки нацелены на передачу низкобитрейтных звуковых сигналов, а тестирование при повышенном битрейте не проводилось. Учитывая это, а также большую ресурсоёмкость процесса кодиования/декодиования нейронных аудиокодеков по сравнению с «алгоритмическими» кодеками, вопрос универсальности их применения для звукового вещания является спорным.
Для решения этого вопроса необходимо длительное и глубокое тестирование в разных сценариях работы и для разных видов звуковых сигналов. Такое тестирование также будет затруднено тем, что нейронные аудиокодеки требуют огромного количества данных, времени и вычислительных мощностей для подобоного вида тестирования. Результаты которого будут напрямую зависеть от качества обучения моделей. Так что применение нейронный аудиокодеков в Российской Федерации как «вторичный» источник звукового сигнала для последующего кодирования без потерь пока что не предвидется.
8Список литературы
Facebook Research. EnCodec: High Fidelity Neural Audio Compression [Электронный ресурс]. – URL: https://github.com/facebookresearch/encodec (дата обращения: 10.02.2026).
Stability AI. Stable Audio Codec [Электронный ресурс]. – URL: https://github.com/Stability-AI/stable-codec (дата обращения: 10.02.2026).
Webex AI Codec White Paper [Электронный ресурс]. – URL: https://www.webex.com/content/dam/www/us/en/whitepaper/ai-codec-whitepaper-cm-6165.pdf (дата обращения: 10.02.2026).
ГОСТ 11515–91. Системы вещательного телевидения. Параметры и методы измерений звуковых каналов [Текст]. – М.: Изд-во стандартов, 1991.
ГОСТ Р 53537–2009. Цифровое телевизионное вещание. Параметры качества звукового сопровождения [Текст]. – М.: Стандартинформ, 2009.
Hawley S. H. Residual Vector Quantization [Электронный ресурс]. – 12 июн. 2023. – URL: https://drscotthawley.github.io/blog/posts/2023-06-12-RVQ.html (дата обращения: 11.02.2026).
Свёрточные нейронные сети: от основ до современных технологий [Электронный ресурс] / Хабр. – URL: https://habr.com/ru/articles/887268/ (дата обращения: 11.02.2026).
stft: кратковременное преобразование Фурье [Электронный ресурс] / Docs Exponenta. – URL: https://docs.exponenta.ru/signal/ref/stft.html (дата обращения: 11.02.2026).
End2End-подход к пониманию разговорной речи [Электронный ресурс] / Хабр (рубрика «Компании / МТС»). – 8 мая 2019. – URL: https://habr.com/ru/companies/ru_mts/articles/451008/ (дата обращения: 11.02.2026).
Recommendation ITU-R BS.1534-3: Method for the subjective assessment of intermediate quality levels of audio systems (MUSHRA) [Электронный ресурс]. – Международный союз электросвязи. – URL: https://www.itu.int/dms_pubrec/itu-r/rec/bs/R-REC-BS.1534-3-201510-I!!PDF-R.pdf (дата обращения: 11.02.2026).
High-Fidelity Neural Audio Compression [Электронный ресурс] / A. Défossez, J. Copet, G. Synnaeve, Y. Adi – 2022. – URL: https://arxiv.org/pdf/2210.13438 (дата обращения: 11.02.2026).
High Fidelity Audio Codecs at Ultra-Low Bitrates (примерное описание; уточнить авторов из PDF) [Электронный ресурс] – 2024. – URL: https://arxiv.org/pdf/2411.19842 (дата обращения: 11.02.2026).
SoundStream: An End-to-End Neural Audio Codec [Электронный ресурс] / J. Lachaux, J. Defossez, N. Zeghidour, et al. – 2021. – URL: https://arxiv.org/pdf/2107.03312 (дата обращения: 11.02.2026).
Finite Scalar Quantization (FSQ) [Электронный ресурс] / Emergent Mind. – URL: https://www.emergentmind.com/topics/finite-scalar-quantization-fsq (дата обращения: 12.02.2026).
What Is Residual Vector Quantization? [Электронный ресурс] / AssemblyAI. – URL: https://www.assemblyai.com/blog/what-is-residual-vector-quantization (дата обращения: 12.02.2026).
