Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книжка умняшкина по моцос

.pdf
Скачиваний:
133
Добавлен:
16.04.2013
Размер:
1.55 Mб
Скачать

Увеличивая число разбиений N в пределе получим для энтропии (11):

ˆ

ˆ

lim H ( X ) = lim H ( X )

N →∞

u0

1

= −f (x)log f (x)dx lim log u → +∞ (13)

0

u0

(в предположении существования стоящего в выражении интеграла). При этом для ошибки (12):

lim

 

ετ2

= lim

N1 f (γ j )u = 1

f (x)dx =1 .

 

2

u0 u

12

u0 j=0

0

 

Получили, что при стремлении шага u сетки равномерного квантования к нулю ошибка квантования (12) есть бесконечно малая величина,

ε2 u2/12 для любой функции f(x), независимо от закона распределения.

Предел (12) энтропии (2) не существует; число бит, необходимое

ˆ

для кодирования дискретной величины X , с уменьшением шага u квантования непрерывной величины X бесконечно возрастает,

ˆ

H ( X ) log2 u . Однако если имеются две случайные величины X и Y,

определяемые на интервале [0,1) функциями плотности вероятности f(t) и g(t) соответственно, то при бесконечно малом шаге разбиения интервала [0,1) существует предел разности для значений энтропии (12) дис-

кретных величин

ˆ

 

ˆ

:

 

 

 

 

X

 

и Y

 

 

 

 

 

 

ˆ

 

ˆ

 

1

 

 

1

(14)

 

 

 

 

 

 

 

 

lim(H ( X ) H (Y ))= −f (t)log f (t)dt + g(t)log g(t)dt ,

u0

 

 

 

 

 

0

 

 

0

 

 

 

 

 

 

 

 

 

 

при этом ε

2

ˆ

 

2

ˆ

u

2

12

. Для непрерывной случайной величины

 

( X ) ε

 

(Y )

 

X с функцией плотности вероятности f(x) (заданной в общем случае на всей числовой оси) выражение

+∞

 

H ( X ) = − f (x)log f (x)dx

(15)

−∞

есть, по определению, энтропия или дифференциальная энтропия.

Для непрерывного источника информации X дифференциальная энтропия является мерой априорной неопределённости состояния. Смысловое содержание понятия «дифференциальная энтропия» следующее.

121

Если для некоторых непрерывных источников информации X, Y: H(X)<H(Y), то при достаточно малом шаге квантования u ошибки кван-

тования эквивалентны, ε2ˆ

ε2ˆ u2

12 , на кодирование величины

X

Y

 

ˆ

X потребуется примерно на HγHτ большее число бит, чем необходимо

ˆ

для кодирования Y - это следует из (14). Оценку абсолютного значения битовых затрат по энтропии (15) дать уже нельзя.

На непрерывный источник информации можно распространить и понятие условной энтропии. Так, если X, Y – непрерывные источники информации (или случайные величины непрерывного типа), то частной условной энтропией источника Y, соответствующей реализованному состоянию x источника X, называем величину:

+∞

H (Y | x) = − f ( y | x) log f ( y | x)dy ,

−∞

где f(y|x) - условная плотность распределения вероятностей, определяемая по совместной плотности распределения f(x,y):

f ( y | x) = f (x, y) fX (x) ,

где

+∞

fX (x) = f (x, y)dy

−∞

- безусловная плотность распределения случайной величины X. Условной энтропией источника Y по X называем величину

+∞

H (Y | X ) = H (Y | x) f X (x)dx .

−∞

Вновь, как можно показать, для энтропии ансамбля источников верно:

+∞ +∞

H(X,Y ) = − ∫ ∫ f (x, y)logf (x, y)dxdy = H(X ) +H(Y | X ) = H(Y ) +H(Y | X ) .

−∞ −∞

122

Глава 6.

Теоретические основы применения ортогональных преобразований для представления дискретных сигналов

6.1. Корреляция как мера статистической зависимости данных

Пусть X = (X 0 ,K, X N 1 )T - случайный вектор, состоящий из отсчё-

тов дискретного сигнала во временной области. Для реальных физических процессов соседние отсчёты вектора обычно имеют близкие значения, т.е. между компонентами вектора имеется статистическая зависимость. В терминах главы 5 дискретный сигнал можно рассматривать как сообщение, созданное непрерывным источником информации с памятью (если отсчёты проквантованы, то дискретным источником с памятью).

Зависимость между случайными величинами X и Y можно характеризовать ковариацией: cov(X ,Y ) = M[( X mX )(Y mY )], где mX, mY

математические ожидания случайных величин X и Y соответственно. Если cov(X,Y)≠0, то говорят, что случайные величины коррелированны. Из коррелированности случайных величин следует их зависимость. Обратное, вообще говоря, не верно. Например, пусть X R(-1;1) (равномерное распределение), Y=X2. Несмотря на наличие полностью детерминированной функциональной зависимости между случайными величинами X и Y имеем: cov(X,Y)=0 (убедитесь!), т.е. X и Y некоррелированы. Однако на практике наличие или отсутствие статистических зависимостей часто ограничивают рассмотрением именно корреляционных связей. При этом в качестве меры зависимости случайных величин удобно ис-

пользовать коэффициент корреляции ρ(X ,Y )= cov(X ,Y ) DX DY , где

DX, DY – дисперсии случайных величин X, Y. Коэффициент корреляции может принимать значения из диапазона ρ [-1;1], чем ближе к единице абсолютная величина коэффициента корреляции |ρ|, тем сильнее зависимость между случайными величинами, а при |ρ|=1 реализация одной случайной величины позволяет указать точное значение другой.

В рамках корреляционной теории для описания математической модели вектора данных X = (X 0 ,K, X N 1 )T необходимо задать вектор

123

из математических ожиданий компонент mX = (mX 0 ,K, mX N 1 )T и кова-

риационную матрицу KX = (cov(X k , X j ))kN, j =1

0 . Ковариационная матрица

всегда симметрическая, положительно определена, а ее диагональные элементы представляют собой дисперсии компонент случайного вектора. Считая X, mX векторами-столбцами, ковариационную матрицу мож-

но записать как KX = Μ[(X mx )(X mx )T ] .

Для реальных дискретных сигналов в большинстве случаев соседние отсчёты имеют близкие значения, т.е. корреляция между близко

расположенными

на временной оси отсчетами положительна,

ρ( X k , X k + j ) > 0 ,

причем коэффициент корреляции тем больше, чем

меньше j. Вследствие наличия межкомпонентных связей в векторе X независимое покомпонентное статистическое кодирование компонент (отсчётов дискретного сигнала), следующее за их квантованием, порождает избыточные, неэффективные коды (см. раздел 5.4, пример 5.9). Учёт статистических зависимостей при построении эффективных кодов технически сложен из-за больших размерностей моделей, описывающих совместные распределения вероятностей компонент вектора X. По этой причине один из методов, предложенных для повышения эффективности кодирования дискретных сигналов, представляет собой кодирование с предсказанием сигнала и заключается в следующем. По уже каким-то образом закодированным проквантованным отсчётам дискретного сигнала xˆk m ,K, xˆk 1 составляется прогноз pk = p(xˆk m ,K, xˆk 1) (например, в виде экстраполирующего полинома) для значения отсчёта xk, а квантованию и кодированию подвергается ошибка прогноза: k=xk-pk. В простейшем случае используется экстраполирующий полином нулевого порядка, когда прогноз имеет вид: pk=xk-1, т.е. квантованию и кодированию подвергаются первые разности k=xk-xk-1 дискретного сигнала – этот метод кодирования называют дифференциальной импульснокодовой модуляцией (ДИКМ). Естественно ожидать повышение эффективности кодирования при построении прогноза по большему количеству предыдущих отсчётов, однако это влечёт и усложнение вычислений.

Более общий подход, который используется для повышения эффективности кодирования дискретных сигналов, состоит в предварительной обработке исходных данных при помощи обратимого преобразования F, переводящего вектор X в некоторый вектор Y=F{X}, компоненты которого менее зависимы (в рамках корреляционной теории – менее корре-

124

лированны). Тогда независимое покомпонентное кодирование вектора Y, а не вектора X, становится более обоснованным. Вектор Y будем называть вектором трансформант (от англ. transform - преобразование).

6.2. Преобразование Карунена-Лоэва

Итак, пусть для вектора данных X известна ковариационная матрица KX и вектор математических ожиданий компонент

mX = Μ(X) = (mX 0 ,K, mX N 1 )T . Пусть вектор Y получен из вектора X в результате некоторого линейного преобразования, которое определяется матрицей W: Y=WX. Наша задача состоит в том, чтобы ослабить (в идеале – исключить) межкомпонентную зависимость данных в векторе Y. Поскольку статистическую зависимость мы отождествили с коррелированностью, это означает, что необходимо добиться некоррелированности данных в векторе Y, т.е. того, чтобы ковариационная матрица вектора Y приняла диагональный вид. Возможно ли это? Для ответа на данный вопрос найдем сначала выражение для ковариационной матрицы вектора Y.

В

силу линейности операции математического

ожидания

mY =

(mY0 ,K, mYN 1 )T = Μ(Y) = Μ(WX) = WΜ(X) = W mX , и для кова-

риационной матрицы имеем:

 

KY = Μ[(Y mY )(Y mY )T ] = Μ[(WX WmX )(WX WmX )T ]=

= Μ[W(X mX )(X mX )T WT ] = W Μ[(X WmX )(X WmX )T ]WT =

 

= WKX WT .

(1)

Напомним два утверждения, известных из курса линейной алгебры.

1.Если матрица A размерности n×n обладает линейно независимыми собственными векторами r1,…,rn, то матрица B=C-1AC будет иметь диагональный вид тогда, когда матрица C составлена из собственных векторов-столбцов A: C=(r1r2rn).

2.Если, к тому же, матрица A – симметрическая, то матрица C из

нормированных ( rk Е =1 , k=1,…,n) собственных векторов – ортогональна и C-1=CT.

125

Отсюда (см. также (1)) следует, что ковариационная матрица KY вектора Y=WX будет иметь диагональный вид, если матрицу W составить из собственных векторов (векторов-строк!) ковариационной матрицы KX вектора X, при этом матрица W будет ортогональна в силу симметричности KX. Данное (ортогональное!) преобразование, приводящее матрицу KY к диагональному виду, называется преобразованием Карунена-

Лоэва.

Таким образом, если для характеристики зависимостей между компонентами вектора данных X используется корреляционная модель, то по заданной ковариационной матрице вектора X при помощи ортогонального преобразования Карунена-Лоэва можно получить вектор Y=WX, компоненты которого полностью не коррелированы. В рамках корреляционной модели мы считаем компоненты вектора Y независимыми, поэтому с точки зрения эффективности кодирования независимая покомпонентная обработка (квантование и статистическое кодирование) вектора Y становится обоснованной.

Однако возможности практического использования преобразования Карунена-Лоэва существенно ограничиваются следующими факторами. Прежде всего, преобразование Карунена-Лоэва является неуниверсальным: матрица преобразования W жестко определяется конкретной ковариационной матрицей KX. Применяя для обрабатываемого сигнала модель случайного процесса, обычно нельзя говорить о его стационарности, т.е. корреляционные зависимости между отсчётами дискретного сигнала меняются, и различные выборки из дискретного сигнала (векторы данных X) могут иметь существенно различающиеся ковариаци-

онные матрицы, для которых априори неизвестны точные значения

элементов

{kk,m = cov( X k , X m )}kN,m1=0 . Использование же некоторой

«средней» ковариационной матрицы KX для построения преобразования Карунена-Лоэва не позволяет говорить об оптимальности последнего для каждого отдельного вектора X – очередной выборки из дискретного сигнала. Другая проблема, связанная с использованием преобразования Карунена-Лоэва, заключается в отсутствии быстрых алгоритмов его вычисления.

126

6.3. Эффективность использования дискретных ортогональных преобразований для кодирования коррелированных данных

Преобразование Карунена-Лоэва является оптимальным в том смысле, что позволяет добиться полной декорреляции данных в преобразованном векторе Y=WX, но отсутствие быстрых алгоритмов вычисления и зависимость параметров оптимального преобразования Каруне- на-Лоэва от структуры матрицы KX вынуждают использовать на практике другие ортогональные преобразования. При этом общую схему кодирования и декодирования дискретного сигнала можно представить в следующем виде (см. рис. 6.1).

а)

 

 

Декоррелирующее

 

Квантование

 

Статистическое

 

 

Дискретный

Выходные

 

ортогональное

 

компонент

 

кодирование

 

 

 

 

 

 

сжатые

сигнал-

 

 

преобразованного

 

компонент

 

 

преобразование:

 

 

 

данные

вектор Х

 

 

вектора:

 

проквантованного

 

 

Y=WX

 

~

 

~

 

(код)

 

 

 

Y = Q(Y)

 

вектора Y

 

 

 

 

 

 

 

 

 

 

 

б)

 

 

Статистическое

 

«Деквантование»

 

Обратное

 

 

Входные

Восстанов-

 

декодирование

 

 

 

 

 

 

 

 

 

 

компонент вектора

 

ортогональное

 

ленный

сжатые

 

компонент

 

 

 

 

 

~

(

 

 

 

 

сигнал-

 

 

проквантованного

 

 

преобразование:

 

данные

 

 

Y: Y Y Y

 

 

вектор

 

~

 

 

(

1 (

 

 

 

вектора Y

 

 

 

 

 

(

 

 

 

 

 

 

 

X = W

Y

 

X X

 

 

 

 

 

 

Рисунок 6.1. Схема сжатия (а) и восстановления (б) коррелированных данных с использованием ортогонального преобразования

Наличие этапа квантования компонент вектора трансформант Y (будем также называть этот вектор спектром, понимая данный термин

обобщенно) вносит определенную ошибку

 

(

 

2

=

 

(

 

2

в восста-

 

X X

 

 

 

Y Y

 

 

(

новленные данные – вектор X (см. также пример 8 из главы 3), которая может быть снижена до пренебрежимо малого уровня за счет квантования спектральных компонент с большим количеством уровней квантования. Кодирование спектра Y, а не исходного вектора X, позволяет во многих случаях получить существенно меньшие битовые затраты. Критерий, по которому может быть оценена эффективность применения вещественных ортогональных преобразований для целей кодирования, основан на следующих рассуждениях.

127

Мерой априорной неопределенности для непрерывной случайной величины с функцией плотности распределения вероятностей f(x) является дифференциальная энтропия (5.15). Пусть fk(mk,σk,x) - функция плотности распределения вероятностей для Yk - k-ой компоненты векто-

ра Y, где mk - математическое ожидание, σk - среднеквадратичное от-

клонение.

Обозначая

 

fk0 (x)= fk (0,1, x)

и

учитывая,

что

 

 

1

 

 

 

 

 

 

+∞

 

 

 

fk (mk ,σk

, x)=

0

 

x mk

 

 

fk (mk ,σk , x)dx = 1 , среднюю безус-

σk

fk

 

σk

 

 

,

 

 

 

 

 

 

 

−∞

 

 

 

ловную энтропию одной компоненты вектора трансформант можно записать следующим образом:

Hcp

=1 N1log 1

N k=0 σk

1N 1+∞

=N k=0fk (mk ,σk , x)log fk (mk ,σk , x)dx =

+∞

 

 

1

N1 +∞

 

 

 

 

 

 

x mk

 

x

 

 

 

 

 

 

 

0

 

x mk

 

0

 

 

 

 

fk (mk ,σk , x)dx

N ∑∫fk

σk

 

log fk

 

σk

d

σk

 

=

−∞

 

 

 

 

k=0 −∞

 

 

 

 

 

 

 

 

 

 

 

 

1

N 1

1

 

N 1+∞

(x)log fk0

(x)dx .

 

 

 

 

 

 

 

=

logσk

 

fk0

 

 

 

 

(2)

 

N

N

 

 

 

 

 

 

 

 

k =0

 

 

k =0 −∞

 

 

 

 

 

 

 

 

 

 

 

 

Чем меньше средняя энтропия (2), тем эффективнее будет последующее независимое кодирование компонент вектора Y.

Поскольку в рамках рассматриваемой нами корреляционной модели законы распределения компонент вектора X неизвестны, то и точное

определение вида функций плотности распределения fk0 (x) для компо-

нент вектора Y также невозможно. Однако компоненты вектора Y представляют собой определенные взвешенные суммы из компонент вектора

N 1

X, yk = wk, j x j , где весовые коэффициенты представляют собой эле-

j =0

менты матрицы преобразования W = {wk, j }kN, j =1 0 , поэтому можно допус-

тить возможность применения центральной предельной теоремы и положить, что распределение каждой из компонент вектора Y подчиняется нормальному закону (отличия имеют место только в параметрах распределения). Такое допущение не является строгим, однако часто применяется на практике, поэтому можно считать, что k = 0,1,K, N 1:

128

+∞

fk0 (x)log fk0 (x)dx Const .

−∞

Мы будем использовать менее жесткое ограничение, а именно:

1 N 1+∞

N k=0fk0 (x)log fk0 (x)dx Const .

Среднюю энтропию (2) одной компоненты вектора трансформант можем записать тогда в следующем виде:

 

1

N 1

 

Hcp =

logσk2 +C ,

(3)

 

 

2N k =0

 

где С - некоторая константа, не зависящая от вида используемого преобразования и его размерности.

Необходимые в выражении (3) значения σ 2

=σ 2

дисперсий ком-

k

Yk

 

понент Yk являются диагональными элементами матрицы KY=WKXWT и могут быть найдены по формуле (убедитесь!):

 

N 1

N 1

σk2

= wk,m wk, j cov(xm , x j ).

 

m=0

j=0

Лемма 1. Для всех ортогональных преобразований след ковариацион-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

N 1

 

 

 

 

 

 

N 1

 

 

 

ной матрицы инвариантен:

 

 

 

trace KY = σk2

= trace KX = σX2 k .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k =0

 

 

 

 

 

 

k =0

 

 

 

 

N 1

 

N 1

 

 

 

 

 

 

 

 

 

 

 

 

)T (Y

m

 

 

 

 

 

 

 

 

 

 

 

σ 2

=

Μ((Y m )2 )

= Μ (Y m

Y

Y

) =

 

 

 

 

 

 

 

k

 

 

 

 

k

Y

k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k =0

 

 

k =0

 

 

 

 

 

 

 

 

 

1424314243

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

строка

 

столбец

 

 

 

 

 

 

 

 

 

 

(X m

)T

 

 

 

 

 

 

 

 

 

= Μ((X m

)T (X m

 

))=

N 1

. ►

= Μ

WT W(X m )

 

σ 2

 

 

 

 

 

x

 

 

123

 

 

x

 

 

 

 

 

 

x

 

 

 

x

 

X k

 

 

 

 

 

 

 

 

 

 

 

 

 

E

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k =0

 

 

 

 

Для оптимального преобразования Карунена-Лоэва расчет по фор-

муле

(3) упрощается,

т.к.

матрица

KY имеет

диагональный

вид и

 

N 1

= det K

 

 

 

 

 

 

 

WT

 

= det W det W1 det K

 

= det K

 

.

 

σ 2

Y

= det WK

 

 

X

X

 

k

 

 

 

 

 

 

 

 

 

 

 

X {

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k =0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

W1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Поэтому

 

 

 

 

 

N 1

 

 

 

 

 

 

 

N 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

1

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

logσk2 =

 

 

 

log σk2 =

log det KX .

 

 

 

 

(4)

 

 

 

 

 

 

 

 

 

 

 

2N

 

 

 

 

 

 

 

 

 

 

 

 

 

2N k =0

 

 

 

 

 

k =0

 

 

2N

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

129

При использовании понятия дифференциальной энтропии для анализа априорной неопределенности непрерывных случайных величин реальное содержание имеют не сами значения энтропии, а их отличия друг от друга (т.е. разности), см. раздел 5.5. Рассматривая среднюю безусловную энтропию одного элемента вектора трансформант (2) как характеристику «декоррелирующих» свойств ортогональных преобразований, естественно в качестве “точки отсчета” принять значение (2) для оптимального преобразования Карунена-Лоэва и ввести в рассмотрение следующий параметр:

H (W, KX )= Hcp (W, KX )Hcp (Wopt , KX ),

или, с учетом (3), (4):

H (W, K X )=

1

N 1

log σk2

 

2N

k =0

det K X . (5)

Будем называть данную величину средней избыточной энтропией. Величина (5) характеризует избыточность данных в векторе Y, связанную с неполной декорреляцией компонент (чем больше значение (5), тем меньше эффективность декоррелирующего преобразования с матрицей

W).

Можно показать, что величина (5) всегда является неотрицательной и принимает нулевое значение для преобразования Карунена-Лоэва. Если взять двоичное основание для логарифма, то физический смысл величины (5) определяется как избыточные битовые затраты, приходящиеся в среднем на одну компоненту вектора Y при независимом эффективном кодировании компонент после квантования с достаточно малым шагом. Таким образом, чем меньше величина средней избыточной энтропии, тем ближе свойства используемого преобразования к оптимальным.

Отметим, что для анализа эффективности использования преобразований с использованием формулы (5) требование ортогональности исследуемого преобразования является принципиальным. Действительно, анализируя среднюю неопределенность компоненты вектора Y=WX по величине средней дифференциальной энтропии, мы (см. раздел 5.5) фактически предполагали, что компоненты вектора Y равномерно проквантованы с шагом квантования u0, при этом квадратичная ошибка (5.12), вносимая при квантовании в каждую компоненту вектора Y: ε2 u2/12, тогда суммарная ошибка от квантования компонент

130