- •Москва 2026
- •1Введение
- •2Технические требования к звуковому вещанию
- •3Классические кодеки
- •4Общи принципы работы нейронных аудио кодеков
- •4.2Свёрточные нейронные сети
- •4.3Вычитатель (Discriminator)
- •4.4Обучение
- •5Нейронные аудио кодеки
- •6Методика тестирования качества звучания
- •6.1Описание методики
- •6.2Результаты тестирования нейронных аудиокодеков
- •7Заключение
- •8Список литературы
- •9Содержание
4.2Свёрточные нейронные сети
Звуковой сигнал в цифровой форме представляет собой дискретный набор отсчётов как по времени, так и по амплитуде. В нейронных кодеках для уменьшения количества отсчётов, передаваемых далее в векторный квантователь, используются свёрточные слои с различными параметрами.
Идея свёрточных нейронных сетей в использовании слоёв из идентичных копий одного и того же нейрона внутри слоя, что позволяет иметь ограниченное число параметров при вычислении больший объёмов данных.
Структурно свёрточные сети, обычно, состоит из четырёх общих слоёв: свёрточный слой, слой активации, слой субдискретизации, полносвязный слой. Свёрточный слой применяет к данным фильтры для извлечения требуемых признаков. Его выход – набор карт признаков данных. Слой активации применяет функции активации (пороговые функции) для улучшении способности сети учитывать сложные зависимости. Слой субдискретизации уменьшает размер карт признаков, выбирая максимум из некоего количества признаков. Полносвязный слой формирует итоговый вектор на основе полученной итоговой карты признаков.
4.3Вычитатель (Discriminator)
Для вычисления ошибок при обучении используется так называемый discriminator («вычитатель» в грубом переводе или дискриминатор), который различными алгоритмами вычисляет величину ошибки при обучении, на основе которой осуществляется корректировка параметров модели. На его вход при обучении подаются оригинальный сигнал и сигнал с декодера. На их основе и вычисляются вектора ошибок.
Также особенностью структуры вычитателя является использование оконного (кратковременного) преобразовании Фурье (Short Time Fourier Transform). Оно используется для того, чтобы анализировать как содержимое частоты неустановившегося сигнала изменяется в зависимости от времени. SFTF сигнала вычисляется путём скольжения заданного окна определённой длины по сигналу и вычислению дискретного преобразования Фурье оконных данных.
Таким образом вычисление ошибок производится не только во временной области, но и частотной, что позволяет минимизировать возможные ошибки реконструкции.
4.4Обучение
Схожесть подхода обучения, что очевидно, состоит в том, что обучение производится на специальных заранее подготовленных данных. Также схожесть в применении так называемого End2End-подхода к обучению.
Особенность End2End-подхода заключается в том, что обучение не разделяется на этапы анализа и синтеза, а соединяет всё в единый компонент. Всего есть четыре подхода в реализации такого подхода: прямая модель, совместная модель, многозадачная модель, многоступенчатая модель.
Прямая модель получает на вход «сырые» признаки, а на выходе выдаёт уже готовую семантическую структура. То есть модель повторяет концепцию «чёрного ящика».
Совместная модель также получает на вход «сырые» признаки, а на выходе даёт не только семантическую структуру, но и данные для дальнейшего обучения нейросети.
Многозадачная модель схожа с совместной: на ходе «сырые» данные – на выходе семантическая структура и данные для дальнейшего обучения нейросети. Однако в отличие от совместной модели, семантическую структуру формирует один элемент нейросети, а данные для дальнейшего обучения – другой.
Многоступенчатая модель подразумевает последовательные вычисления: на вход подаются «сырые» данные, на основе которых сначала вычисляется семантическая структура этих данных. Далее на основе полученной структуры вычисляются данные для дальнейшего обучения.
На основе такого подхода и вышеописанного «вычитателя», строится обратная связь при обучении: при одном цикле обучения получаются данные для следующего цикла обучения. Что позволяет снизить как временные, так и вычислительные затраты на обучение.
