Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Математическая теория энтропии

..pdf
Скачиваний:
17
Добавлен:
12.11.2023
Размер:
19.07 Mб
Скачать

182

Гл.

3. Теория информации

Зафиксируем

такое 6,

что 0 < б < е *, и выберем целое число

т настолько

большим,

что

 

 

 

 

ь_

 

± и С £ т " ' 0 - а ™

< з •

Пусть е > 0 так мало,

а п столь велико,

что

где

ртах — max {р(sit а,):

1 < / < /, 1 < / < k).

^

 

Пусть а — оснащенная (е, п)-башня для динамической систе­

мы (2 (S) X 2 (Л), P's X

а > Р, Т), отвечающая разбиению | V Ч-

Тогда p(U ?;jT‘a ( 0 ) ) > l - e и

 

 

d (a (0) Л V Т- ' (I V > l ) ) = d ( V Т " ' (£ V ч )) .

(3.6)

где распределения определяются относительно меры р.

 

 

Поскольку автоморфизм Т|<*> изоморфен Ts,

 

 

d (о (0) Л V Т~г^

= d ( V Т“'|) = d ( V T i'lo ).

(3.7)

где

через £0 обозначено начальное разбиение пространства

2 (S).

 

В силу соотношения (3.7) оснащенную (е, л)-башню а,

пост­

роенную для разбиения

£ V Ч> можно считать (е, п)-башней и

для разбиения £. Обозначим эту вторую башню через С|. Рас­

смотрим теперь оснащенную (е, п)-башню а' для динамической системы (2 (S), &"s>Ц, Ts) и разбиения | 0, так что

d (o' (0) Л V

TJ'so) =

d ( V T jlo ) •

(3.8)

Из равенств (3.7) и. (8.8)

следует,

что

 

d ( a ( 0 ) n V T - ^ ) = d ( a ' ( 0 ) n V T J <&)) .

(3.9)

В случае когда две башни <т6 и о' удовлетворяют соотно­

шению вида (3.9), говорят, что они изоморфны, и в этом слу­ чае мы будем писать о^ ~ а'. Из равенства (3.9) следует, что

соответственные элементы этих двух разбиений имеют одну и ту же меру. Поскольку для любых непрерывного вероятност­ ного пространства и дискретного вероятностного распределения

3.6. Кодирование источника

183

существует разбиение этого пространства с данным распреде­ лением, найдется разбиение Ло = (“По (0, • • Лз(*0) множества U"ZTo Tscr' (0) с тем свойством, что

d ( СТ(0) П K T_i (l VTl)) = d ( У (0) П S Tji (Ь> V Чо)) • (ЗЛ°)

откуда следует, что

 

d (а (0) П V T“ ‘, ) = d ( а ' (0) Л V Т*'л<>),

(3.11)

т. е. башни ач и изоморфны в смысле данного выше опре­ деления.

Расширим разбиение % любым образом с множества и"Го

o'(i) на все пространство 2(S) *). Заметим, что из соотноше­ ний (3.10) и (3.6) следует, что

d (Q j* TV (0)) П I V л) = d (| V Л)

И

d ( ( UQTs<r' (0)) П to V Ло) = d ( Q o t o (0)) Л IV л ) •

Кроме того, p (U?-o Т$<т' (0)) ^

1 — e.

Таким образом,

| p (to (i) Л

П Ло (/)) — Р (I (0 Л Л (/ )) К » для

всех

i и /,

откуда

 

Р(1о. Ло) =

Е Р (Si,

а,) р (1о (0 Л Ло 01) <

 

 

1.1

а,) р (I (/) л Л (/)) +

8 Е Р (*<> а,) <

<

Е Р (st,

 

1.1

 

 

 

1.1

 

< P ( [ 2 ( S ) ,

р], [2 (Л ),

v]) +

-§ -6.

(ЗЛ2)

Применяя теперь лемму А из дополнения к [49], получим,

что

^ я ( 7 т г Ч ) < ^ я ( у о' т - ч ) +

+ /m ( e + -2LF 1 ) < A (T ^ + T 6 - (З Л З >

Заметим, что тем самым мы доказали утверждение леммы для скользящего блокового кодера /(оо) бесконечной длины, определяемого разбиением Ло> т. е. такого, что fW(x) = a{

') Здесь имеется в виду, что число элементов разбиения Ло остается прежним, но сами эти элементы .дополняются так, чтобы их объединением было все Z (S). — Прим, перев.

184

 

 

 

Гл. 3.

Теория информации

 

 

 

тогда и только тогда, когда

х е Ло (г). Для того

чтобы убе­

диться в этом,

перепишем

соотношения (3.12) и (3.13) с исполь­

зованием

/(00):

 

Z Р (slt

 

 

 

 

 

 

 

Р(/(оо)) =

а,) р do (О П По (/)) <

 

 

 

 

 

 

«./

 

 

 

 

 

 

 

 

 

<

р ([2 (S),

lx],

[2 (Л), v]) +-§- б,

 

(3.120

 

h (Г О <

lim- L H (V TJЧ ) < Л(Тл) + х

б-

(ЗЛЗ')

Поскольку

разбиение

to — образующее

для динамической

системы

(2(S),

iFs,

Р> Ts),

а

разбиение Ло

является

^изме­

римым,

для любого

б '> 0

найдутся N > 0 и разбиение % =

= (%(1)......... Йо(А)). такие,

что iio<V-JvTsto и

 

 

 

 

 

 

 

k

 

,

 

 

 

 

 

I Йо — Из I =

Z Р (По (0 А По (0) < б'.

 

 

Из теоремы 4.23 следует, что 6' может быть выбрано настолько малым, а N настолько большим, что

|A(TS, Ho)-A(Ts, По) | < 6/3 .

Для любых i и /

So (0 П По (/) <= (to (0 Г) По (/)) и (По (/) А По (/))

Р (So (0 П По (/)) < Р (So (0 П По (/)) + Р (По 0) а По (/))- Таким образом,

Р(So. По) =

Z Р (Si,

а,) р (to (0 П По (/)) <

<

Z Р ( S i ,

a t ) р (to (0 Г) ПО( D ) + I ПО— По I Ртах <

<P([2(S), р], [2 (Л), v]) + - f 6 + 6'ртзх.

Следовательно, если дополнительно потребовать выполнения

неравенства б'ртах^ б /3 ,

то получим, что

 

 

h (Ts, iio) <

h (Ts, Ло) + 6/3 < Л (TA) +

б

(3.14)

Р(So. По)<р((2(5), р],

[2 (Л), v]) +

6.

(3.15)

Поскольку % ^ Vi^-AfTsto. можно определить

кодер f N):

S2ti+l -*• А следующим образом:

 

 

 

(*/-*> ••••

П

T*+A,+I |o (/f) с: Ло (п).

Точно так же, как это делалось выше для /(те), перепишем со­

 

 

3.6. Кодирование источника

 

185

отношения (3.14) и (3.15) с использованием /(ЛГ):

 

 

h { f N)) < h { Тл) +

б,

 

 

P(/(A,))< P ([2(S ),

|i], [2 (Л), v])-f б,

 

 

т. е. лемма доказана.

 

 

 

нам

до­

Доказательство теоремы 3.7. Как уже отмечалось,

статочно показать,

что

б (R) ^

inf {р ([2 (S), ц], [2 (Л),

V ])} — г.

Пусть задано

е > 0.

Возьмем

стационарную меру v

на

про­

странстве 2 (Л),

такую, что

А^(ТЛ) ^ / ? и

 

 

 

p([2(S),

р],

[2 (Л), v ] ) < r + е.

 

 

Применяя лемму 3.8 к паре [2 (S), ц], [2 (Л), v], получим функ­ цию f N\ где N достаточно велико, такую, что

р ( Г ) « • + ■ ! - • •

A (f'"’) < R + е,

и тем самым b{R + e ) < r

з

Поскольку функция б (R).

непрерывна, теорема доказана.

Мы завершим этот раздел примером скользящего блокового кодера. Он легко получается из одного изоморфизма, описан­ ного в [6]. Другие примеры скользящих блоковых кодеров можно найти в [49], [6] и [65]. В действительности, в статье [140] Шилдс и Нойхоф обсуждают связь между блоковыми кодами и скользящими блоковыми кодерами и то, как одни могут быть получены из других. Мы выбрали именно приво­ димый ниже пример по той причине, что это не только при­ мер скользящего блокового кодера, но и пример так называе­ мого финитарного изоморфизма (см. [65]).

Пример 3.9. Пусть S = { 1 , 2, 3, 4, 5, 6}. Определим меру на пространстве (2 (S), P's) таким образом, чтобы процесс (Ts, | s)

был марковской цепью

(см.

разд.

2.12.10). Положим р =

= (-1-,

-i-, -i-,

 

а

в качестве переходной матри­

цы М возьмем

 

0

0,5

0

0,5

0

0

 

 

 

 

0,5

0

0

0

0

0,5

 

М

0

0,5

0

0,5

0

0

 

0

0

0,5

0

0,5

0

 

 

 

 

0,5

0

0

0

0

0,5

 

 

0

0

0,5

0

0,5

0

186 Гл. 3. Теория информации

Как обычно, Мц — это вероятность перехода из i в /.'Задан ­ ная начальным распределением р и переходной матрицей М мера ц на пространстве 2(5) определяется на цилиндрических множествах формулой

Ц (I s (»о) П Т s % ( h ) П • • • T s % (<*)) = PlоМ{о*< • • • .

а затем продолжается обычным образом. Энтропия сдвига Т$

относительно

меры

ц

составляет

l = l o g 22

бит (см. разд.

2.12.10). Пусть

А = {а,

b}, определим

меру v на

пространстве

2 (Л) таким образом,

чтобы случайные

величины,

образующие

процесс (Тл, |д), были независимы

и одинаково распределены

и, кроме того

v ({у: у0 = а}) = \({у:

у0 = Ь}) =

-~-

 

Определим пару, состоящую из скользящих блоковых кодера и декодера бесконечной длины, а затем перейдем от нее к паре конечной длины, как это было сделано в доказательстве тео­ ремы. Зададим функцию A: S X , S —>A соотношениями

А(1, 2) = Л(2, 1) = Л(4, 3) = Л(3, 2) = Л(5, 1) = Л(6, 3) = а, А(1, 4) = Л(2, 6) = Л(4, 5) = Л(3, 4) = Л(5, 6) = Л(6, 5) = Ь.

Таким образом, все переходы марковской цепи с пространством состояний S разбиты на два класса: «a-переходы» и «6-пере­ ходы». На самом деле отображение А определяет скользящий блоковый кодер длины 2 и индуцирует изоморфизм <рЛ: 2(S)-> ->2(Л), заданный на подмножестве 2(S) единичной меры по формуле (Фа(*))* = Л (хг_|, хг). В этом примере именно устрой­ ство декодера позволяет отчетливо увидеть разницу между декодерами конечной и бесконечной длины.

Идея построения декодера очень проста. Пусть у <=2 (Л). Если у0 = а, то нам известно, что произошел «a-переход», и тем

самым

x_jx0— это одна из пар

{(1,

2), (2,

1), (4,

3),

(3, 2),

(5, 1), (6, 3)}. Кроме

того, заметим, что если

известно,

какой

именно

«a-переход»

произошел, то

вероятностью

единица)

мы можем определить и все сообщение источника с этого места. Наконец, заметим еще, что если нам встретилась последова­ тельность aaba, то последний символ соответствующего слова источника — это 3, благодаря чему сообщение источника может быть с этого места полностью восстановлено. Проверить эти последние утверждения очень легко, и мы предоставляем сде­ лать это читателю. Сформулированные соображения позволяют определить декодер следующим образом.

Для

заданной

последовательности

у е Е ( Л ) мы просматри­

ваем ее

прошлое

... , г/_3, г/_2, у_{

до тех пор, пока нам не

встретится

ключ

aaba. Теперь, поскольку известно, что соответ­

ствующая

буква

источника — это 3,

мы можем вернуться к у0

 

 

 

3.6. Кодирование источника

187

и определить

тем

самым букву источника *„. На формальном

языке

 

fiD)(y) = x0,

 

где

 

 

 

 

 

 

 

 

1.

лг0 = 3,

если

r/_4y_3«/_2y_i =

аайа.

 

2.

Если k — наименьшее положительное целое число, такое,

что

у -k-гУ-k-чУ-k-\y-k = aaba,

то *0 — это

последняя буква

единственного слова источника (3, x_ft+1.........*0). отвечающего

(y~k> У-k*i.

•••»

Уо)‘

 

 

3. Если

такого k не существует, то х0 определяется из того

условия, что X_\XQ— это с равной вероятностью один из шести

«у0-переходов» ')•

 

 

 

От декодера бесконечной длины можно перейти к декодеру

длины

N,

если

потребовать, чтобы k

лежало

во множестве

{1, 2,

... ,

N }. При N — оо в силу эргодической теоремы мера

множества

всех

последовательностей

из 2 (А),

для которых

ключ aaba встречается в прошлом бесконечное число раз, равна единице. Вероятность f(N) того, что слово длины N не содер­

жит aaba

при достаточно больших N, удовлетворяет неравен­

ству / (N) ^

(0,97)w. Таким образом, хотя эта вероятность и

стремится к нулю, происходит это довольно медленно.

') То

есть *о — это один из символов 1, 2, 3 (с равными вероятностями),

если уа«

а, и один из символов 4, 5, 6, если у0ш*Ь. — Прим, перев.

Глава 4

ЭРГОДИЧЕСКАЯ ТЕОРИЯ

4.1' ВВЕДЕНИЕ

Эргодическая теория берет свое начало в попытках истолковать макроскопические характеристики физических систем, в частно­ сти термодинамических газовых систем, основываясь на изме­ нениях микроскопической структуры системы. Эта проблема вместе с рядом других физических задач привела к так назы­ ваемой «задаче многих тел» в математике, а математическое изучение этой задачи породило то, что теперь известно под названием эргодической теории.

IНапример, если рассматривать газ как совокупность боль­ шого числа находящихся в движении молекул (которые счита­ ются материальными точками), то такие характеристики газа, как давление, температура и объем, должны определяться дина­ микой этих молекул, т. е. их координатами и импульсами как функциями времени.

Если подобная система консервативна, т. е. ее полная энер­ гия не изменяется со временем, то с помощью гамильтоновой теории динамических систем можно получить преобразования многообразий, лежащих в евклидовом пространстве большой размерности — фазовом пространстве. Эти многообразия в фазо­ вом пространстве образованы состояниями газа (обобщенными координатами и обобщенными импульсами всех молекул) с одинаковой полной энергией. Задающие динамику преобразо­ вания сохраняют на многообразиях уровня энергии меру, инду­ цированную мерой Лебега; их построение было намечено в разд. 2.8.

Определить микроскопическое состояние газа в некоторый момент времени нельзя, поэтому, даже если бы и удалось решить уравнения Гамильтона и явно описать динамику, точно предсказать будущее поведение газа было бы невозможно. Тем не менее можно рассмотреть вероятностное распределение на состояниях, которое зависит от таких поддающихся изме­ рению величин, как энергия и температура, и определяет веро­ ятность того, что газ находится в одном из состояний из дан­ ного подмножества фазового пространства.

4.2. Унитарный оператор

189

Названное вероятностное распределение задает' меру

на

многообразиях уровня энергии и является инвариантным отно­ сительно преобразований, определенных системой уравнений Гамильтона. Таким образом, мы пришли к сохраняющему меру преобразованию Т вероятностного пространства (Q, У , Р). Эта динамическая система (Q, Sr , Р, Т) может служить моделью для изучения динамики газов.

Эргодическая теория в своей наиболее абстрактной форме состоит в изучении сохраняющих меру преобразований. В этой главе мы обсудим те задачи эргодической теории, которые привели к развитию понятия энтропии динамических систем. Мы также коснемся некоторых классов динамических систем, для описания которых существенно привлечение энтропии. В частности, будут рассмотрены /f-системы и системы Бернулли и будет доказано, что для систем Бернулли энтропия является полным метрическим инвариантом.

В этой главе мы предполагаем, что все динамические системы обратимы1), а соответствующие пространства Лебега не имеют атомов.

4.2. УНИТАРНЫЙ ОПЕРАТОР СИСТЕМЫ И СДВИГИ БЕРНУЛЛИ

Купман в работе [70] предложил конструкцию, позволяющую сопоставить каждому метрическому автоморфизму простран­ ства с мерой некоторый унитарный оператор в гильбертовом пространстве. Это по существу позволяет вместо нелинейной системы рассматривать линейную, что было весьма эффективно использовано Халмошем и фон Нейманом [57] при исследова­ нии динамических систем2). В данном разделе мы обсудим некоторые из этих идей и покажем, как они оказали косвен­ ное влияние на возникновение понятия энтропии динамических

систем.

(Q, $F, Р, Т) — динамическая система. Определим на

Пусть

множестве ^ “-измеримых .функций на Q линейное преобразова­

ние *Т по формуле (’Tf)(a) =

(f °Т)(а).

В частности, если

рас­

смотреть

ограничение *Т на

L2 (Q, У,

Р) — гильбертово

про­

странство суммируемых с квадратом функций с нормой ||/||j —

= jj Р (da) | f (со) f, то поскольку Р (Т~1Е) — Р (Е) для всех Е е

0*,

простая

замена

переменной показывает,

что |ГТ/||2 =

||^ ||2 для

всех f е

L2,

т. е. *Т является линейной

изометрией

на

L2.

!) А также эргодичны (если не оговорено противное). — Прим. перев.

2) Задолго

до

работы [57] фон Нейман использовал оператор

Купмана,

в частности, в

формулировке статистической эргодической теоремы

(von

Neumann

[1932а]). — Прим, перев.

 

 

 

190

 

 

Гл. 4. Эргодическая теория

 

 

Поскольку

преобразование Т обратимо,

оператор

*Т имеет

обратный

и тем самым является унитарным *)•

 

Напомним, что

линейные операторы В{ и В2 в гильберто­

вом пространстве

называются унитарно эквивалентными, если

существует такой унитарный оператор Н,

что Н о В ^ В г о Н *2).

Вопрос

об унитарной эквивалентности двух унитарных опера­

торов

может быть

полностью решен средствами спектральной

теории

операторов.

 

Р,Т )

и (£У, ЗГ',

Р', Т') —

Предположим теперь, что (Q,

две изоморфные динамические системы, a

S — такой

метриче­

ский изоморфизм,

что SoT = T'oS. Тогда *S — изометрический

изоморфизм и *S о *Т' = *Т о *S, так

что операторы *Т и *Т' уни­

тарно

эквивалентны. Если бы из

унитарной эквивалентности

*Т и *Т' следовал изоморфизм преобразований Т и Т', то для решения проблемы изоморфизма в эргодической теории было бы вполне достаточно использовать спектральную теорию.

то

Если Н — линейный оператор в гильбертовом пространстве,

множество комплексных чисел Я, таких, что оператор Н — Я1

не

имеет ограниченного обратного (здесь I — единичный опера­

тор), называется спектром оператора Н. Если Н унитарен, то спектр является подмножеством единичной окружности, т. е. | Я | = 1 для всех Я, лежащих в спектре. Комплексное число Я называется собственным значением оператора Н, если сущест­ вует такой ненулевой вектор /, называемый собственным векто­

ром,

что (Н — Я1) / =

0. Очевидно, что

собственные значения,

если

они существуют,

лежат в спектре

Н, но помимо собствен­

ных значений в спектре могут быть и другие точки.

Говорят, что динамическая система (Q, ST, Р, Т) (или авто­ морфизм Т) имеет дискретный спектр, если собственные век­ торы оператора *Т порождают все пространство L2(Q, Р), и имеет непрерывный спектр, если единственное собственное

значение оператора *Т есть 1.

(Заметим, что если / — постоян­

ная

функция,

то

*Т/ = /, так

что

1 всегда является

собствен­

ным

значением.)

 

 

 

 

 

 

Халмош и фон Нейман [57] показали, что если автомор*

физмы Т и

Т' имеют дискретный

спектр

и спектрально экви­

валентны3),

то

они

изоморфны.

Таким

образом,

в классе

*) Оператор

часто

называют

оператором, сопряженным с динамиче­

ской

системой (Q, 6Г, Р, Т).— Прим.

перев.

 

 

2)В дальнейшем речь будет идти об унитарной эквивалентности опера­ торов, действующих не , обязательно в одном и том же гильбертовом про­ странстве. В этом случае в определении унитарной эквивалентности в качестве

Ннадо брать изометрический изоморфизм соответствующих гильбертовых пространств. — Прим. перев.

3)Динамические системы (и соответствующие автоморфизмы) называются спектрально эквивалентными, если их сопряженные операторы унитарно экви­ валентны. — Прим, перев.

4.2. Унитарный оператор

191

систем с дискретным спектром спектральная эквивалентность равносильна изоморфизму. Халмош [56] показал, что в общем случае это неверно, построив два преобразования без дискрет­ ного спектра, которые спектрально эквивалентны, но не изо­ морфны.

Имеется интересный класс эргодических динамических си­ стем, спектральная эквивалентность которых была известна довольно давно, но все попытки установить их изоморфность оставались тщетными. Это класс „сдвигов Бернулли, которые были определены нами в разд. 2.12.9. Можно заметить, что характеристическим параметром систем этого класса является функция распределения /. Они называются сдвигами Бернулли, поскольку моделируют последовательности одинаково распре­ деленных независимых случайных величин с распределением f. Все эти системы имеют непрерывный спектр 1), и все они спек­ трально эквивалентны.

В 1948 г. Какутани пытался использовать энтропию для решения проблемы изоморфизма сдвигов Бернулли, но не смог найти эффективных путей ее вычисления, и вопрос оставался

открытым до

1958 г. В этом году Колмогоров [69] определил

ту энтропию,

о которой мы говорили выше, и дал формулу

для вычисления энтропии сдвигов Бернулли по соответству­ ющей функции распределения, позволившую показать, что не все сдвиги Бернулли изоморфны. Читатель может вспомнить, что в примере 2.49 мы вычислением энтропии показали, что сдвиги Бернулли с равномерным распределением на двух и на трех состояниях неизоморфны. Синай [142] внес небольшое, но очень важное изменение в определение Колмогорова, и после­ довавший за этим всплеск работ по эргодической теории при­ вел к появлению ряда чрезвычайно глубоких и фундаменталь­ ных результатов2). В частности, Орнстейн, доказав, что энтро­ пия является полным метрическим инвариантом сдвигов Бер­ нулли, представил старые задачи эргодической теории в новом свете.

Перед разбором теоремы об изоморфизме мы рассмотрим введенный Колмогоровым класс систем, который содержит сдвиги Бернулли, а условия принадлежности к нему могут быть высказаны в энтропийных терминах. Входящие в этот класс системы служат моделями случайных процессов, для которых выполняется закон нуля-единицы, и были некоторые основания считать, что он исчерпывается сдвигами Бернулли. Первый пример систем из этого класса, которые не изоморфны)*

*) Точнее, счетно-кратный лебеговский спектр (например, см. Корнфельд, Синай, Фомин [1980]. —- Прим, перев.

. 2) См. предисловие редактора перевода. — Прим, перев,

Соседние файлы в папке книги