Добавил:

chrysler_a57_mltbnk Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Московский технический университет связи и информатики

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

практика сии / 00_практика_по_сии_отчёт_велит_брв2201.pdf

Скачиваний:

Добавлен:

13.05.2026

Размер:

350.28 Кб

Скачать

☆

<<< < Предыдущая 1 2 3 4 56 / 76 7 > Следующая >>>

Табл. 6.2. Сравнительная таблица результатов тестирования нейронных аудиокодеков

Кодек	SoundStream	EnCodec	Webex	Stability

Битрейт,	6	6	1	0.4
кбит/с	12	12	6	0.7

Баллы	83	82	82	н/д
MUSHRA	80	83	99	н/д

Как видно из таблицы выше, нейронные кодеки показывают отличные результаты при сравнительно очень малых битрейтах (высокой степени сжатия).Что является превосходным результатом и открывает возможности для дальнейшего прикладного применения нейросетевых кодеков.

Результаты тестирования кодека Stability AI Audio Codec остуствуют, так как тестирование этого кодека произволилось не сравнении с кодеком Opus, а между различными реализациями нейронных кодеров с различными свёрточными моделями.

7Заключение

Существующие «статичные» (алгоритмические) кодеки сравнительно давно разработаны и активно применяются для кодирования и передачи звуковых сигналов. Однако, они имеют критические недостатки, которые не позволяют им работать с сохранением требуемого качества звучания при сравнительно очень низких битрейтах. Именно в этой области (улучешение качества передачи звуковых сигналов при низких битрейтах) и могут найти активное применение нейронный аудио кодеки.

Как было рассмотренно выше, они предоставляют сравнительно высокое качество звучание при более сильном сжатии, нежели «статичные» кодеки. Однако, основной вопрос стоит в недостаточно подробном и объёмном

тестировании нейронных аудио кодеков. В частности на соответсвие принятым стандратам качества звукового вещания. Отдельно стоит проблематека того, что нейронные аудиокодеки нацелены на передачу низкобитрейтных звуковых сигналов, а тестирование при повышенном битрейте не проводилось. Учитывая это, а также большую ресурсоёмкость процесса кодиования/декодиования нейронных аудиокодеков по сравнению с «алгоритмическими» кодеками, вопрос универсальности их применения для звукового вещания является спорным.

Для решения этого вопроса необходимо длительное и глубокое тестирование в разных сценариях работы и для разных видов звуковых сигналов. Такое тестирование также будет затруднено тем, что нейронные аудиокодеки требуют огромного количества данных, времени и вычислительных мощностей для подобоного вида тестирования. Результаты которого будут напрямую зависеть от качества обучения моделей. Так что применение нейронный аудиокодеков в Российской Федерации как «вторичный» источник звукового сигнала для последующего кодирования без потерь пока что не предвидется.

8Список литературы

1.	Facebook						Research.
	EnCodec: High Fidelity Neural Audio Compression [Электронный
	ресурс]. – URL: https://github.com/facebookresearch/encodec (дата
	обращения: 10.02.2026).
2.	Stability						AI.
	Stable	Audio	Codec	[Электронный	ресурс].	–	URL:
	https://github.com/Stability-AI/stable-codec (дата обращения: 10.02.2026).

3.Webex AI Codec White Paper [Электронный ресурс]. – URL: https://www.webex.com/content/dam/www/us/en/whitepaper/ai-codec- whitepaper-cm-6165.pdf (дата обращения: 10.02.2026).

4.	ГОСТ		11515–91.
	Системы вещательного телевидения. Параметры и методы
	измерений звуковых каналов [Текст]. – М.: Изд-во стандартов, 1991.
5.	ГОСТ	Р	53537–2009.

Цифровое телевизионное вещание. Параметры качества звукового сопровождения [Текст]. – М.: Стандартинформ, 2009.

6.Hawley S. H. Residual Vector Quantization [Электронный ресурс]. – 12 июн. 2023. – URL: https://drscotthawley.github.io/blog/posts/2023-06-12- RVQ.html (дата обращения: 11.02.2026).

7.Свёрточные нейронные сети: от основ до современных технологий

[Электронный ресурс] / Хабр. – URL: https://habr.com/ru/articles/887268/ (дата обращения: 11.02.2026).

8.stft: кратковременное преобразование Фурье [Электронный ресурс] / Docs Exponenta. – URL: https://docs.exponenta.ru/signal/ref/stft.html (дата обращения: 11.02.2026).

9.End2End-подход к пониманию разговорной речи [Электронный ресурс] / Хабр (рубрика «Компании / МТС»). – 8 мая 2019. – URL:

https://habr.com/ru/companies/ru_mts/articles/451008/ (дата обращения: 11.02.2026).

10.Recommendation ITU-R BS.1534-3: Method for the subjective assessment of intermediate quality levels of audio systems (MUSHRA) [Электронный ресурс]. – Международный союз электросвязи. – URL: https://www.itu.int/dms_pubrec/itu-r/rec/bs/R-REC-BS.1534-3-201510-I!!

PDF-R.pdf (дата обращения: 11.02.2026).

11.High-Fidelity Neural Audio Compression [Электронный ресурс] / A. Défossez, J. Copet, G. Synnaeve, Y. Adi – 2022. – URL: https://arxiv.org/pdf/2210.13438 (дата обращения: 11.02.2026).

12.High Fidelity Audio Codecs at Ultra-Low Bitrates (примерное описание; уточнить авторов из PDF) [Электронный ресурс] – 2024. – URL: https://arxiv.org/pdf/2411.19842 (дата обращения: 11.02.2026).

13.SoundStream: An End-to-End Neural Audio Codec [Электронный ресурс] / J. Lachaux, J. Defossez, N. Zeghidour, et al. – 2021. – URL: https://arxiv.org/pdf/2107.03312 (дата обращения: 11.02.2026).

14.Finite Scalar Quantization (FSQ) [Электронный ресурс] / Emergent Mind.

– URL: https://www.emergentmind.com/topics/finite-scalar-quantization-fsq (дата обращения: 12.02.2026).

15.What Is Residual Vector Quantization? [Электронный ресурс] / AssemblyAI. – URL: https://www.assemblyai.com/blog/what-is-residual- vector-quantization (дата обращения: 12.02.2026).

<<< < Предыдущая 1 2 3 4 56 / 76 7 > Следующая >>>

Соседние файлы в папке практика сии

#
13.05.2026232.89 Кб000_практика_по_сии_отчёт_велит_брв2201.odt
#
13.05.2026350.28 Кб000_практика_по_сии_отчёт_велит_брв2201.pdf
#
13.05.20261.22 Mб0EnCode.pdf
#
13.05.20261.37 Mб0Itu_r_BS_1534_3.pdf
#
13.05.2026687.34 Кб0soundstream.pdf
#
13.05.2026979.24 Кб0stability_codec.pdf
#
13.05.20261.23 Mб0webex_ai_codex.pdf