Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
практика сии / 00_практика_по_сии_отчёт_велит_брв2201.pdf
Скачиваний:
0
Добавлен:
13.05.2026
Размер:
350.28 Кб
Скачать

Табл. 6.2. Сравнительная таблица результатов тестирования нейронных аудиокодеков

Кодек

SoundStream

EnCodec

Webex

Stability

 

 

 

 

 

Битрейт,

6

6

1

0.4

кбит/с

12

12

6

0.7

 

 

 

 

 

Баллы

83

82

82

н/д

MUSHRA

80

83

99

н/д

 

 

 

 

 

Как видно из таблицы выше, нейронные кодеки показывают отличные результаты при сравнительно очень малых битрейтах (высокой степени сжатия).Что является превосходным результатом и открывает возможности для дальнейшего прикладного применения нейросетевых кодеков.

Результаты тестирования кодека Stability AI Audio Codec остуствуют, так как тестирование этого кодека произволилось не сравнении с кодеком Opus, а между различными реализациями нейронных кодеров с различными свёрточными моделями.

7Заключение

Существующие «статичные» (алгоритмические) кодеки сравнительно давно разработаны и активно применяются для кодирования и передачи звуковых сигналов. Однако, они имеют критические недостатки, которые не позволяют им работать с сохранением требуемого качества звучания при сравнительно очень низких битрейтах. Именно в этой области (улучешение качества передачи звуковых сигналов при низких битрейтах) и могут найти активное применение нейронный аудио кодеки.

Как было рассмотренно выше, они предоставляют сравнительно высокое качество звучание при более сильном сжатии, нежели «статичные» кодеки. Однако, основной вопрос стоит в недостаточно подробном и объёмном

16

тестировании нейронных аудио кодеков. В частности на соответсвие принятым стандратам качества звукового вещания. Отдельно стоит проблематека того, что нейронные аудиокодеки нацелены на передачу низкобитрейтных звуковых сигналов, а тестирование при повышенном битрейте не проводилось. Учитывая это, а также большую ресурсоёмкость процесса кодиования/декодиования нейронных аудиокодеков по сравнению с «алгоритмическими» кодеками, вопрос универсальности их применения для звукового вещания является спорным.

Для решения этого вопроса необходимо длительное и глубокое тестирование в разных сценариях работы и для разных видов звуковых сигналов. Такое тестирование также будет затруднено тем, что нейронные аудиокодеки требуют огромного количества данных, времени и вычислительных мощностей для подобоного вида тестирования. Результаты которого будут напрямую зависеть от качества обучения моделей. Так что применение нейронный аудиокодеков в Российской Федерации как «вторичный» источник звукового сигнала для последующего кодирования без потерь пока что не предвидется.

8Список литературы

1.

Facebook

 

 

 

 

 

Research.

 

EnCodec: High Fidelity Neural Audio Compression [Электронный

 

ресурс]. – URL: https://github.com/facebookresearch/encodec (дата

 

обращения: 10.02.2026).

 

 

 

 

2.

Stability

 

 

 

 

 

AI.

 

Stable

Audio

Codec

[Электронный

ресурс].

URL:

 

https://github.com/Stability-AI/stable-codec (дата обращения: 10.02.2026).

17

3.Webex AI Codec White Paper [Электронный ресурс]. – URL: https://www.webex.com/content/dam/www/us/en/whitepaper/ai-codec- whitepaper-cm-6165.pdf (дата обращения: 10.02.2026).

4.

ГОСТ

 

11515–91.

 

Системы вещательного телевидения. Параметры и методы

 

измерений звуковых каналов [Текст]. – М.: Изд-во стандартов, 1991.

5.

ГОСТ

Р

53537–2009.

Цифровое телевизионное вещание. Параметры качества звукового сопровождения [Текст]. – М.: Стандартинформ, 2009.

6.Hawley S. H. Residual Vector Quantization [Электронный ресурс]. – 12 июн. 2023. – URL: https://drscotthawley.github.io/blog/posts/2023-06-12- RVQ.html (дата обращения: 11.02.2026).

7.Свёрточные нейронные сети: от основ до современных технологий

[Электронный ресурс] / Хабр. – URL: https://habr.com/ru/articles/887268/ (дата обращения: 11.02.2026).

8.stft: кратковременное преобразование Фурье [Электронный ресурс] / Docs Exponenta. – URL: https://docs.exponenta.ru/signal/ref/stft.html (дата обращения: 11.02.2026).

9.End2End-подход к пониманию разговорной речи [Электронный ресурс] / Хабр (рубрика «Компании / МТС»). – 8 мая 2019. – URL:

https://habr.com/ru/companies/ru_mts/articles/451008/ (дата обращения: 11.02.2026).

10.Recommendation ITU-R BS.1534-3: Method for the subjective assessment of intermediate quality levels of audio systems (MUSHRA) [Электронный ресурс]. – Международный союз электросвязи. – URL: https://www.itu.int/dms_pubrec/itu-r/rec/bs/R-REC-BS.1534-3-201510-I!!

PDF-R.pdf (дата обращения: 11.02.2026).

18

11.High-Fidelity Neural Audio Compression [Электронный ресурс] / A. Défossez, J. Copet, G. Synnaeve, Y. Adi – 2022. – URL: https://arxiv.org/pdf/2210.13438 (дата обращения: 11.02.2026).

12.High Fidelity Audio Codecs at Ultra-Low Bitrates (примерное описание; уточнить авторов из PDF) [Электронный ресурс] – 2024. – URL: https://arxiv.org/pdf/2411.19842 (дата обращения: 11.02.2026).

13.SoundStream: An End-to-End Neural Audio Codec [Электронный ресурс] / J. Lachaux, J. Defossez, N. Zeghidour, et al. – 2021. – URL: https://arxiv.org/pdf/2107.03312 (дата обращения: 11.02.2026).

14.Finite Scalar Quantization (FSQ) [Электронный ресурс] / Emergent Mind.

– URL: https://www.emergentmind.com/topics/finite-scalar-quantization-fsq (дата обращения: 12.02.2026).

15.What Is Residual Vector Quantization? [Электронный ресурс] / AssemblyAI. – URL: https://www.assemblyai.com/blog/what-is-residual- vector-quantization (дата обращения: 12.02.2026).

19

Соседние файлы в папке практика сии