- •1 Введение
- •2 Технические требования к звуковому вещанию
- •3 Классические кодеки
- •4 Общи принципы работы нейронных аудио кодеков
- •4.1 Residual Vector Quantization (RVQ)
- •4.2 Свёрточные нейронные сети
- •4.3 Вычитатель (Discriminator)
- •4.4 Обучение
- •5 Нейронные аудио кодеки
- •5.1 SoundStream
- •5.2 EnCodec
- •5.3 Stability AI Audio Codec
- •5.4 Webex AI Codec
- •6 Методика тестирования качества звучания
- •6.1 Описание методики
- •6.2 Результаты тестирования нейронных аудиокодеков
- •7 Заключение
- •8 Список литературы
- •9 Содержание
Структура схожа с таковой у SoundStream: кодекр, блок RVQ, декодер. Само сроение кодера и декодера, кроме симметричности, не объяснено. Однако, в виду напралвенности применения кодека, в кодере применяется нейроннная модель с минимально возможной (почти нулевой) задержкой по времени (условно мгновенная работа). Также в кодере присутвуют механизмы, позволяющие применить шумоподавление, убирание эффекта эхо, а также возможных артефактов, присутвующих в исходном сигнале. После примения вышеописанных алгоритмов возможно ещё более сильное сжатие уже обработанного сигнала. В декодере, помимо обычного восстановления сигнала,также реализованы алгоритмы восстановления потеренных/повреждённых пакетов. Отдельно стоит отметить, что для повышения качества и стабильности применятся механизм, подобный обратной связи: помимо кодирования и передачи текущего блока звукового сигнала с целевым битрейтом, параллельно кодируется и передаются предыдущие блоки с пониженным битрейтом. Например, при целевом битрейте 6 кбит/с, предыдущие блоки кодируются с битрейтом 1 кбит/с. Это и позволяет повысить устойчивость кодека к помехам.
Таким образом, в кодеке, помимо реализации кратно лучшего сжатия, применены технологии «улучшения» качества звучания, а также механизмы повышения устройсивости к помехам, возникающим в канале связи.
Предел по частоте дискретизации исходных звуковых сигналов, на работу с которыми предназначен кодек, не уточнятеся, однако существуют три пресета битрейтов: 1 кбит/с, 3 кбит/с и 6 кбит/с.
6Методика тестирования качества звучания
Качество работы всех вышеперечисленных кодеков оценивалось с помощью метода субъективной оценки качества звучания MUSHRA (MUltiple Stimuli with Hidden Reference and Anchor – тест при использовании нескольких
13
входных сигналов со скрытым эталонным сигналом и с опорным сигналом). Его полное описание представлено в рекомендации МСЭ-R BS.1534-3 «Методы субъективной оценки промежуточного уровня качества аудиосистем». Он предназначен для сравнительного анализа качества различных алгоритмов обработки/кодирвания звуковых сигналов.
6.1Описание методики
Вего основе лежит одновременное предоставление слушателю нескольких вариантов одного и того же звукового сигнала. При этом слушателю, помимо нескольких тестируемых звуковых сигналов, обязательно предоставляются следующие вариации звуковых сигналов:
• Эталонный звуковой сигнал – исходный тестовый сигнал без применения алгоритмов обработки и/или сжатия.
• Скрытый эталон – полная копия эталонного звукового сигнала, о наличи и «месторасположении» которой слушатель не должен знать. Он необходим для проверки внимательности слушателя: если оценка скрытого эталона существенно оценки эталона, то результат такого слушателя не учитывается.
• Якорный сигнал – эталонный сигнал специально ухудженного качества (например, очень сильно сжатый или с добавлением шумов).
Все сигналы должны быть доступны слушателю сразу, и у слушателя должна быть возможность свободно переключаться между сигналами, а также возможность многократного повторного прослушивания.
Для каждого из сигналов слушатель ставит оценко от 0 до 100 по следующей шкале:
•100 – отличное качество (эталон и неотличимое от него);
•80-99 – хорошее качество;
•60-79 – удовлетворительное качество;
•40-59 – низкое качество;
14
•20-39 – плохое качество;
•0-19 – очень плохое качество.
Далее осуществляется статистический анализ полученных оценок: вычисляются среднее и стандартное отклониение, рассчитываются величины доверительных интервалов (обычно по альфе равной 0.05), а также осуществляется анализ различий. Если результаты сравнения превосходят доверительный интервал (различия болше, чем альфа), то такие различия в качестве звучания считаются статистически значимыми.
Проведение тестов осуществляется только в контролируемых условиях в специально подготовленной среде с одиноковыми условиями для всех слушателей. Используются специально подгтовленные тестовые сигналы, обработанные объектами сравнения. Минимальное количество слушателей для проведения теста – 20 человек.
Основным минусом такого подходя является сложность подготовки к тестированию и соблюдения условий, а также зависимость от человеческого фактора. Однако жёсткие условия тестирования позволяют уменьшить количество слушателей, необходимых для получения статистически значимой оценки качества звучания.
6.2Результаты тестирования нейронных аудиокодеков
Ниже представлена сравнительная таблице результатов тестирования рассматриваемых аудиокодеков. В ней представлены сравнительные резльтаты тестирования по системе MUSHRA в сравнении с кодеком Opus при одинаковых битрейтах.
15
