Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Parametric Coding of Stereo Audio_перевод.doc
Скачиваний:
11
Добавлен:
15.03.2015
Размер:
1.42 Mб
Скачать

6. Fft-based decoder

The spatial synthesis part of the decoder receives a mono input signal s[n] and has to generate two output signals y1[n] and y2[n]. These two output signals should obey the transmitted spatial parameters. A more detailed overview of the spatial synthesis stage is shown in Figure 5.

(i) Снизить количество частотных полос (например, использовать 20 вместо 34). Скорость параметров повышается примерно линейно в зависимости от количества полос. При скорости обновления в 23 миллисекунды и с учетом передачи параметров IPD и OPD в случае 20 полос мы получим скорость около 4.5 кбит/c. Неофициальные исследования показали, что снижение количества полос до 10 проявляется в некотором снижении воспринимаемого качества.

(ii) Не передавать параметры IPD и OPD. Как сказано выше, когерентность – это мера разницы между входными сигналами, которые не могут быть вычислены по фазе (в пределах субполосы) и по разности уровней. Более низкое значение скорости получается, если применяемая сигнальная модель не включает в себя фазовые сдвиги. В этом случае нормированное значение взаимной корреляции является подходящей мерой различия входных сигналов, которые нельзя вычислить по разности уровней. Другими словами, фазовые или временные отличия между входными сигналами моделируются как (аддитивные) изменения когерентности. Затем оцененное значение когерентности (которое фактически является нормированным значением взаимной корреляции) получается из взаимного спектра следующим образом:

Получаем снижение скорости примерно на 27% по сравнению с системой, в которой передаются параметры IPD and OPD.

(iii) Увеличение ошибок квантования параметров. Снижение скорости в этом случае несущественное, так как дифференциальное распределение по времени имеет очень много пиков.

(iv) Снижение скорости обновления. Скорость цифрового потока практически линейно зависит от того, как часто происходит обновление. В итоге, скорость передачи параметров можно снизить с 8 кбит/c для получения наилучшего качества (при использовании 34 субполос анализа, периоде обновлений 23 мс и передачи всех необходимых параметров) до 1,5 кбит/c (20 субполос анализа, период обновлений 46мс, параметры IPD и OPD не передаются).

6. Декодер на основе бпф

Часть декодера, отвечающая за пространственный синтез получает на вход монофонический сигнал s[n]. Нужно создать два выходных сигнала y1[n] и y2[n]. Эти два выходных сигнала должны обладать переданными пространственными параметрами. Более подробный обзор этапа пространственного синтеза показан на рисунке 5.

Figure 5: Spatial synthesis stage of the decoder.

In order to generate two output signals with a variable (i.e., parameter-dependent) coherence, a second signal has to be generated which has a similar spectral-temporal envelope as the mono input signal, but is incoherent from a fine-structure waveform point of view. This incoherent (or orthogonal) signal, sd[n], is obtained by convolving the mono input signal s[n] with an allpass decorrelation filter hd[n]. A very cost-effective decorrelation allpass filter is obtained by a simple delay. The combination of a delay and a (fixed) mixing matrix to produce two signals with a certain spatial diffuseness is known as a Lauridsen decorrelator [87]. The decorrelation is produced by complementary comb-filter peaks and troughs in the two output signals. This approach works well provided that the delay is sufficiently long to result in multiple comb-filter peaks and troughs in each auditory filter. Due to the fact that the auditory filter bandwidth is larger at higher frequencies, the delay is preferably frequency dependent, being shorter at higher frequencies. A frequency-dependent delay has the additional advantage that it does not result in harmonic comb-filter effects in the output. A suitable decorrelation filter consists of a single period of a positive Schroeder-phase complex [88] of length Ns = 640 (i.e., with a fundamental frequency of fs/Ns). The Schroeder-phase complex exhibits low autocorrelation at nonzero lags and its impulse response hd[n] for 0 n Ns 1 is given by

Subsequently, the segmentation, windowing, and transform operations that are performed are equal to those performed in the encoder, resulting in the frequency-domain representations S[k] and Sd[k], for the mono input signal s[n] and its decorrelated version sd[n], respectively. The next step consists of computing linear combinations of the two input signals to arrive at the two frequency-domain output signals Y1[k] and Y2[k]. The dynamic mixing process, which is performed on a subband basis, is described by the matrix multiplication RB. For each subband b (i.e., kb k < kb+1), we have

Рис.5: Этап пространственного синтеза в декодере.

Чтобы создать два выходных сигнала с переменной (т.е. зависящей от параметра) когерентностью, у второго сигнала должна быть такая же временно-спектральная огибающая, как и у входного моно сигнала, но он должен быть некогерентным с точки зрения быстроменяющейся, тонкоструктурной формы волны. Такой некогерентный (или ортогональный) сигнал sd[n] получается с помощью операции свертки входного моно сигнала s[n] с импульсной характеристикой всечастотного корреляционного фильтра hd[n]. Экономически выгодный всечастотный корреляционный фильтр получается с помощью обычной задержки. Сочетание задержки и (фиксированной) матрицы смешивания для получения двух сигналов с определенной пространственной диффузностью широко известно как коррелятор Лауридсена[87]. Декорреляция производится с помощью подъемов и впадин обоих сигналов, пропущенных через комплиментарные гребенчатые фильтры. Такой метод хорошо работает при условии, что задержка достаточно большая, чтобы обеспечить несколько вершин и впадин в каждом акустическом фильтре. Т.к. ширина полосы пропускания акустического фильтра больше в области высоких частот, хотелось бы, чтобы задержка зависела от частоты, уменьшаясь в области ВЧ. Дополнительное преимущество частотно зависимой задержки в том, что она не влияет на гармонические эффекты на выходе гребенчатых фильтров. Подходящий корреляционный фильтр состоит из одного периода фазового комплекса Шредера [88] длины Ns = 640 (т.е. с основной частотой fs/Ns). Фазовый комплекс Шредера представляет собой слабо коррелированные между собой сдвиги фаз, и его импульсная характеристика hd[n] при 0 n Ns 1

Затем выполняются такие же, как в кодере, операции сегментации, взвешивания с помощью оконной функции и преобразования, чтобы получить представление в частотной области S[k] и Sd[k] для входного моно сигнала s[n] и его декоррелированного варианта sd[n]. Следующий этап состоит из вычисления линейных комбинаций двух входных сигналов, чтобы попасть в два выходных сигнала в частотной области Y1[k] и Y2[k]. Процесс динамического смешивания, который выполняется в пределах субполосы и описывается мультипликативной матрицей RB. Для каждой субполосы b (т.е.., kb k < kb+1)

with

The diagonal matrix V enables real-valued (relative) scaling of the two orthogonal signals S[k] and Sd[k]. The matrix A is a real-valued rotation in the two-dimensional signal space, that is, A1 = AT, and the diagonal matrix P enables modification of the complex-phase relationships between the output signals, hence |pi j| = 1 for i = j and 0 otherwise. The nonzero entries in the matrices P, A, and V are determined by the following constraints.

(1) The power ratio of the two output signals must obey the transmitted IID parameter.

(2) The coherence of the two output signals must obey the transmitted IC parameter.

(3) The average energy of the two output signals must be equal to the energy of the mono input signal.

(4) The total amount of S[k] present in the two output signals should be maximum (i.e., v11 should be maximum).

(5) The average phase difference between the output signals must be equal to the transmitted IPD value.

(6) The average phase difference between S[k] and Y1[k] should be equal to the OPD value.

The solution for the matrix P is given by

The matrices A and V can be interpreted as the eigenvector, eigenvalue decomposition of the covariance matrix of the (desired) output signals, assuming (optimum) phase alignment (P) prior to correlation. The solution for the eigenvectors and eigenvalues (maximizing the first eigenvalue v11) results from a singular value decomposition (SVD) of the covariance matrix. The matrices A and V are given by (see [89] for more details)

with α[b] being a rotation angle in the two-dimensional signal space defined by S and Sd, which is given by

Где

Диагональная матрица V позволяет вещественно масштабировать два ортогональных сигнала S[k] и Sd[k]. Матрица A обеспечивает поворот на вещественный угол в двумерном пространстве сигнала так, что A1 = AT, а диагональная матрица P позволяет осуществлять модификацию сложных фазовых отношений между выходными сигналами, следовательно, |pi j| = 1 при i = j и 0 в любом другом случае. Ненулевые элементы матриц P, A, и V определяются , исходя из следующих ограничений:

(1) Отношение мощностей двух выходных сигналов должно соответствовать передаваемому параметру IID.

(2) Когерентность двух выходных сигналов должна соответствовать передаваемому параметру IC

(3) Средняя энергия двух выходных сигналов должна равняться энергии входного моно сигнала.

(4) Общее число S[k], присутствующих в сигнале, должно быть максимально (т.е. v11 должно быть максимально).

(5) Средняя разность фаз между выходными сигналами должна быть равной передаваемому параметру IPD.

(6) Средняя разность фаз между S[k] и Y1[k] должна быть равной величине OPD.

Матрица Р имеет вид:

Матрицы A и V можно рассматривать как собственный вектор, разложение на характеристические числа ковариационной матрицы (искомых) выходных сигналов при условии, что (оптимальное) фазовое соотношение (P) взято до корреляции. Решение для собственных векторов и характеристических чисел (увеличивающим первое характеристическое число v11) получается из сингулярного разложения (SVD) ковариационной матрицы. Матрицы A и V приведены ниже (подробности смотри в [89])

Где α[b] – угол поворота в двумерном сигнальном пространстве, определяемый через S и Sd:

and γ[b] a parameter for relative scaling of S and Sd (i.e., the relation between the eigenvalues of the desired covariance matrix):

with

and c[b] the square root of the power ratio of the two subband output signals:

It should be noted that a two-dimensional eigenvector problem has in principle four possible solutions: each eigenvector, which is represented as columns in the matrix A, may be multiplied with a factor 1. The modulo operator in (27) ensures that the first eigenvector is always positioned in the first quadrant. However, this technique only works under the constraint of IC > 0, which is guaranteed if phase alignment is applied. If no IPD/OPD parameters are transmitted, however, the IC parameters may become negative, which requires a different solution for the matrix R. A convenient solution is obtained if we maximize S[k] in the sum of the output signals (i.e., Y1[k] + Y2[k]). This results in the mixing matrix RA[b]:

With

Finally, the frames are transformed to the time domain, windowed (using equal synthesis windows as in the encoder), and combined using overlap-add.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]