- •Москва 2026
- •1Введение
- •2Технические требования к звуковому вещанию
- •3Классические кодеки
- •4Общи принципы работы нейронных аудио кодеков
- •4.2Свёрточные нейронные сети
- •4.3Вычитатель (Discriminator)
- •4.4Обучение
- •5Нейронные аудио кодеки
- •6Методика тестирования качества звучания
- •6.1Описание методики
- •6.2Результаты тестирования нейронных аудиокодеков
- •7Заключение
- •8Список литературы
- •9Содержание
6Методика тестирования качества звучания
Качество работы всех вышеперечисленных кодеков оценивалось с помощью метода субъективной оценки качества звучания MUSHRA (MUltiple Stimuli with Hidden Reference and Anchor – тест при использовании нескольких входных сигналов со скрытым эталонным сигналом и с опорным сигналом). Его полное описание представлено в рекомендации МСЭ-R BS.1534-3 «Методы субъективной оценки промежуточного уровня качества аудиосистем». Он предназначен для сравнительного анализа качества различных алгоритмов обработки/кодирвания звуковых сигналов.
6.1Описание методики
В его основе лежит одновременное предоставление слушателю нескольких вариантов одного и того же звукового сигнала. При этом слушателю, помимо нескольких тестируемых звуковых сигналов, обязательно предоставляются следующие вариации звуковых сигналов:
Эталонный звуковой сигнал – исходный тестовый сигнал без применения алгоритмов обработки и/или сжатия.
Скрытый эталон – полная копия эталонного звукового сигнала, о наличи и «месторасположении» которой слушатель не должен знать. Он необходим для проверки внимательности слушателя: если оценка скрытого эталона существенно оценки эталона, то результат такого слушателя не учитывается.
Якорный сигнал – эталонный сигнал специально ухудженного качества (например, очень сильно сжатый или с добавлением шумов).
Все сигналы должны быть доступны слушателю сразу, и у слушателя должна быть возможность свободно переключаться между сигналами, а также возможность многократного повторного прослушивания.
Для каждого из сигналов слушатель ставит оценко от 0 до 100 по следующей шкале:
100 – отличное качество (эталон и неотличимое от него);
80-99 – хорошее качество;
60-79 – удовлетворительное качество;
40-59 – низкое качество;
20-39 – плохое качество;
0-19 – очень плохое качество.
Далее осуществляется статистический анализ полученных оценок: вычисляются среднее и стандартное отклониение, рассчитываются величины доверительных интервалов (обычно по альфе равной 0.05), а также осуществляется анализ различий. Если результаты сравнения превосходят доверительный интервал (различия болше, чем альфа), то такие различия в качестве звучания считаются статистически значимыми.
Проведение тестов осуществляется только в контролируемых условиях в специально подготовленной среде с одиноковыми условиями для всех слушателей. Используются специально подгтовленные тестовые сигналы, обработанные объектами сравнения. Минимальное количество слушателей для проведения теста – 20 человек.
Основным минусом такого подходя является сложность подготовки к тестированию и соблюдения условий, а также зависимость от человеческого фактора. Однако жёсткие условия тестирования позволяют уменьшить количество слушателей, необходимых для получения статистически значимой оценки качества звучания.
6.2Результаты тестирования нейронных аудиокодеков
Ниже представлена сравнительная таблице результатов тестирования рассматриваемых аудиокодеков. В ней представлены сравнительные резльтаты тестирования по системе MUSHRA в сравнении с кодеком Opus при одинаковых битрейтах.
Табл. 6.2.
Сравнительная таблица результатов тестирования нейронных аудиокодеков
Кодек |
SoundStream |
EnCodec |
Webex |
Stability |
Битрейт, кбит/с |
6 12 |
6 12 |
1 6 |
0.4 0.7 |
Баллы MUSHRA |
83 80 |
82 83 |
82 99 |
н/д н/д |
Как видно из таблицы выше, нейронные кодеки показывают отличные результаты при сравнительно очень малых битрейтах (высокой степени сжатия).Что является превосходным результатом и открывает возможности для дальнейшего прикладного применения нейросетевых кодеков.
Результаты тестирования кодека Stability AI Audio Codec остуствуют, так как тестирование этого кодека произволилось не сравнении с кодеком Opus, а между различными реализациями нейронных кодеров с различными свёрточными моделями.
