- •1 Введение
- •2 Технические требования к звуковому вещанию
- •3 Классические кодеки
- •4 Общи принципы работы нейронных аудио кодеков
- •4.1 Residual Vector Quantization (RVQ)
- •4.2 Свёрточные нейронные сети
- •4.3 Вычитатель (Discriminator)
- •4.4 Обучение
- •5 Нейронные аудио кодеки
- •5.1 SoundStream
- •5.2 EnCodec
- •5.3 Stability AI Audio Codec
- •5.4 Webex AI Codec
- •6 Методика тестирования качества звучания
- •6.1 Описание методики
- •6.2 Результаты тестирования нейронных аудиокодеков
- •7 Заключение
- •8 Список литературы
- •9 Содержание
МИНИСТЕРСТВО ЦИФРОВОГО РАЗВИТИЯ, СВЯЗИ И МАССОВЫХ КОММУНИКАЦИЙ РОССИЙСКОЙ ФЕДЕРАЦИИ
ОРДЕНА ТРУДОВОГО КРАСНОГО ЗНАМЕНИ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ
ВЫСШЕГО ОБРАЗОВАНИЯ
МОСКОВСКИЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ СВЯЗИ И ИНФОРМАТИКИ
––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––
ФАКУЛЬТЕТ
«РАДИО И ТЕЛЕВИДЕНИЕ»
КАФЕДРА
«РАДИОТЕХНИЧЕСКИЕ СИСТЕМЫ (РТС)»
Реферат по дисциплине «Практическая деятельность по системам искусственного интеллекта»
«Применение искусственного интеллекта для повышения качества передачи сигнала звукового вещания в форматах FLAC и WAV»
Выполнил |
|
|
Студент группы БРВ2201 |
______________________ |
Велит А.И. |
Проверил |
|
|
Д.т.н., профессор |
______________________ |
Чиров Д.С. |
Москва 2026
1Введение
Вданный момент звуковое вещание в Российской Федерации осуществляется с использованием, в основном, различных реализаций кодека MPEG. Как для передачи со сжатиями с потерями, так и для передачи со сжатием без потерь. Упомянутые кодеки для сжатия звукового сигнала применяют как «математическое» сжатие информации (путём вычислений по заранее известным математическим моделям), так и психоакустические модели. Несмотря на эффективность этих методов, а также сравнительную простоту реализации, у кодеков есть один главный недостаток: невозможно производить сжатие с потерями условно бесконечно, чтобы уменьшить количество передаваемой информации.
Возможно, одним из решений описанной проблемы является применение адаптивных кодеков на основе нейронных сетей, с последующим кодированием результата в кодеки со сжатием без потерь (например, в очень распространённый FLAC – Free Lossless Audio Codec) или в контейнеры (например, в WAV – Waveform Audio File Format).
2Технические требования к звуковому вещанию
На данный момент в Российской федерации существуют два нормативных документа, регламентирующих требования к качеству звукового вещательного сигнала: ГОСТ 11515-91 «Каналы и тракты звукового вещания» и ГОСТ Р 53537-2009 «Основные электрические параметры каналов и трактов передачи студийного качества (с полосой частот 20…20000 Гц)». Ниже представлена таблица с техническими требованиями качеству каналов звукового вещания из ГОСТ Р 53537-2009.
1
Табл. 2.1 Нормы на электрические параметры качества каналов и трактов
Наименование параметра |
Норма |
|
|
Полоса эффективно передаваемых частот, кГц |
0,02—20 |
|
|
Отклонение выходного уровня сигнала ЗВ от номинального |
±0.2 |
значения, дБ |
|
|
|
Неравномерность АЧХ, дБ, не более, в полосах частот, кГц: |
|
0,02—0,125 |
От +0.1 до −0.5 |
0,123—10 |
±0,2 |
10—20 |
От +0,1 до −0,5 |
|
|
Коэффициент нелинейных искажений, %, не более, в |
|
полосах частот, Гц: |
|
до 125 |
0,05 |
свыше 125 |
0,02 |
|
|
Защищённость максимального сигнала от взвешенного |
|
шума, дБ, не менее |
70 |
|
|
Защищённость максимального сигнала от внятной |
|
переходной помехи, дБ, не менее |
84 |
|
|
Разность уровней на выходах каналов А и В стереопары, дБ, |
|
не более, в полосах частот, кГц: |
|
0,02—0,125 |
0,5 |
0,125—10 |
0,3 |
10—20 |
1,0 |
|
|
Разность фаз на выходах каналов А и В стереопары, град., не |
6,0 |
более в полосе частот кГц: 0,02—20 |
|
|
|
2
Защищённость от продуктов внутриполосной перекрёстной |
|
модуляции, дБ, не менее |
46 |
|
|
Защищённость от продуктов внеполосной перекрёстной |
|
модуляции, дБ, не менее |
66 |
|
|
Таким образом применение каких-либо кодеков, отличных от используемых при вещании на сегодняшний день, должно согласовываться с этими параметрами.
3Классические кодеки
Так как предполагается использование сжатия без потерь или отсутствие сжатия как таково, задача сводится к предоставлению такому кодеру уже сжатого звука. То есть необходимо подобрать такой кодек, который можно будет использовать для «первичного» кодирования звука.
«Привычные» кодеки (например, MPEG, Vorbis, OPUS, FLAC, APE) условно статичны: параметры их кодирования задаются заранее, а механизмы работы используют, как говорилось ранее, математические и психоакустические алгоритмы, которые также «заложены» в сами кодеки и не подлежат изменению в процессе кодирования. Это приводит к тому, что они не являются универсальными: каждый кодек имеет свои сильные и слабые стороны.
Так как прямой задачей кодеков является уменьшение передаваемой информации, стоит вопрос использования наиболее эффективных кодеков под конкретные задачи. К сожалению, существующие кодеки плохо отрабатывают при кодировании с низким битрейтом. Например, для mp3 минимальным битрейтом является 32 кбит/с при частоте дискретизации 44100 Гц и 48000 Гц.
3
