книги / Математическая теория энтропии
..pdf182 |
Гл. |
3. Теория информации |
|
Зафиксируем |
такое 6, |
что 0 < б < е *, и выберем целое число |
|
т настолько |
большим, |
что |
|
|
|
|
ь_ |
|
± и С £ т " ' 0 - а ™ |
< з • |
|
Пусть е > 0 так мало, |
а п столь велико, |
что |
где |
ртах — max {р(sit а,): |
1 < / < /, 1 < / < k). |
^ |
|
Пусть а — оснащенная (е, п)-башня для динамической систе |
||
мы (2 (S) X 2 (Л), P's X |
а > Р, Т), отвечающая разбиению | V Ч- |
||
Тогда p(U ?;jT‘a ( 0 ) ) > l - e и |
|
||
|
d (a (0) Л V Т- ' (I V > l ) ) = d ( V Т " ' (£ V ч )) . |
(3.6) |
|
где распределения определяются относительно меры р. |
|
||
|
Поскольку автоморфизм Т|<*> изоморфен Ts, |
|
|
|
d (о (0) Л V Т~г^ |
= d ( V Т“'|) = d ( V T i'lo ). |
(3.7) |
где |
через £0 обозначено начальное разбиение пространства |
2 (S). |
|
|
В силу соотношения (3.7) оснащенную (е, л)-башню а, |
пост |
|
роенную для разбиения |
£ V Ч> можно считать (е, п)-башней и |
для разбиения £. Обозначим эту вторую башню через С|. Рас
смотрим теперь оснащенную (е, п)-башню а' для динамической системы (2 (S), &"s>Ц, Ts) и разбиения | 0, так что
d (o' (0) Л V |
TJ'so) = |
d ( V T jlo ) • |
(3.8) |
Из равенств (3.7) и. (8.8) |
следует, |
что |
|
d ( a ( 0 ) n V T - ^ ) = d ( a ' ( 0 ) n V T J <&)) . |
(3.9) |
В случае когда две башни <т6 и о' удовлетворяют соотно
шению вида (3.9), говорят, что они изоморфны, и в этом слу чае мы будем писать о^ ~ а'. Из равенства (3.9) следует, что
соответственные элементы этих двух разбиений имеют одну и ту же меру. Поскольку для любых непрерывного вероятност ного пространства и дискретного вероятностного распределения
3.6. Кодирование источника |
183 |
существует разбиение этого пространства с данным распреде лением, найдется разбиение Ло = (“По (0, • • Лз(*0) множества U"ZTo Tscr' (0) с тем свойством, что
d ( СТ(0) П K T_i (l VTl)) = d ( У (0) П S Tji (Ь> V Чо)) • (ЗЛ°)
откуда следует, что |
|
d (а (0) П V T“ ‘, ) = d ( а ' (0) Л V Т*'л<>), |
(3.11) |
т. е. башни ач и изоморфны в смысле данного выше опре деления.
Расширим разбиение % любым образом с множества и"Го
o'(i) на все пространство 2(S) *). Заметим, что из соотноше ний (3.10) и (3.6) следует, что
d (Q j* TV (0)) П I V л) = d (| V Л)
И
d ( ( UQTs<r' (0)) П to V Ло) = d ( Q o t o (0)) Л IV л ) •
Кроме того, p (U?-o Т$<т' (0)) ^ |
1 — e. |
Таким образом, |
| p (to (i) Л |
|||
П Ло (/)) — Р (I (0 Л Л (/ )) К » для |
всех |
i и /, |
откуда |
|
||
Р(1о. Ло) = |
Е Р (Si, |
а,) р (1о (0 Л Ло 01) < |
|
|||
|
1.1 |
а,) р (I (/) л Л (/)) + |
8 Е Р (*<> а,) < |
|||
< |
Е Р (st, |
|||||
|
1.1 |
|
|
|
1.1 |
|
< P ( [ 2 ( S ) , |
р], [2 (Л ), |
v]) + |
-§ -6. |
(ЗЛ2) |
Применяя теперь лемму А из дополнения к [49], получим,
что
^ я ( 7 т г Ч ) < ^ я ( у о' т - ч ) +
+ /m ( e + -2LF 1 ) < A (T ^ + T 6 - (З Л З >
Заметим, что тем самым мы доказали утверждение леммы для скользящего блокового кодера /(оо) бесконечной длины, определяемого разбиением Ло> т. е. такого, что fW(x) = a{
') Здесь имеется в виду, что число элементов разбиения Ло остается прежним, но сами эти элементы .дополняются так, чтобы их объединением было все Z (S). — Прим, перев.
184 |
|
|
|
Гл. 3. |
Теория информации |
|
|
|
||
тогда и только тогда, когда |
х е Ло (г). Для того |
чтобы убе |
||||||||
диться в этом, |
перепишем |
соотношения (3.12) и (3.13) с исполь |
||||||||
зованием |
/(00): |
|
Z Р (slt |
|
|
|
|
|
|
|
|
Р(/(оо)) = |
а,) р do (О П По (/)) < |
|
|
|
|||||
|
|
|
«./ |
|
|
|
|
|
|
|
|
|
< |
р ([2 (S), |
lx], |
[2 (Л), v]) +-§- б, |
|
(3.120 |
|||
|
h (Г О < |
lim- L H (V TJЧ ) < Л(Тл) + х |
б- |
(ЗЛЗ') |
||||||
Поскольку |
разбиение |
to — образующее |
для динамической |
|||||||
системы |
(2(S), |
iFs, |
Р> Ts), |
а |
разбиение Ло |
является |
^изме |
|||
римым, |
для любого |
б '> 0 |
найдутся N > 0 и разбиение % = |
|||||||
= (%(1)......... Йо(А)). такие, |
что iio<V-JvTsto и |
|
|
|||||||
|
|
|
|
|
k |
|
, |
|
|
|
|
|
I Йо — Из I = |
Z Р (По (0 А По (0) < б'. |
|
|
Из теоремы 4.23 следует, что 6' может быть выбрано настолько малым, а N настолько большим, что
|A(TS, Ho)-A(Ts, По) | < 6/3 .
Для любых i и /
So (0 П По (/) <= (to (0 Г) По (/)) и (По (/) А По (/))
Р (So (0 П По (/)) < Р (So (0 П По (/)) + Р (По 0) а По (/))- Таким образом,
Р(So. По) = |
Z Р (Si, |
а,) р (to (0 П По (/)) < |
< |
Z Р ( S i , |
a t ) р (to (0 Г) ПО( D ) + I ПО— По I Ртах < |
<P([2(S), р], [2 (Л), v]) + - f 6 + 6'ртзх.
Следовательно, если дополнительно потребовать выполнения
неравенства б'ртах^ б /3 , |
то получим, что |
|
|
|
h (Ts, iio) < |
h (Ts, Ло) + 6/3 < Л (TA) + |
б |
(3.14) |
|
Р(So. По)<р((2(5), р], |
[2 (Л), v]) + |
6. |
(3.15) |
|
Поскольку % ^ Vi^-AfTsto. можно определить |
кодер f N): |
|||
S2ti+l -*• А следующим образом: |
|
|
|
|
(*/-*> •••• |
П |
T*+A,+I |o (/f) с: Ло (п). |
Точно так же, как это делалось выше для /(те), перепишем со
|
|
3.6. Кодирование источника |
|
185 |
|||
отношения (3.14) и (3.15) с использованием /(ЛГ): |
|
|
|||||
h { f N)) < h { Тл) + |
б, |
|
|
||||
P(/(A,))< P ([2(S ), |
|i], [2 (Л), v])-f б, |
|
|
||||
т. е. лемма доказана. |
|
|
|
нам |
до |
||
Доказательство теоремы 3.7. Как уже отмечалось, |
|||||||
статочно показать, |
что |
б (R) ^ |
inf {р ([2 (S), ц], [2 (Л), |
V ])} — г. |
|||
Пусть задано |
е > 0. |
Возьмем |
стационарную меру v |
на |
про |
||
странстве 2 (Л), |
такую, что |
А^(ТЛ) ^ / ? и |
|
|
|||
|
p([2(S), |
р], |
[2 (Л), v ] ) < r + е. |
|
|
Применяя лемму 3.8 к паре [2 (S), ц], [2 (Л), v], получим функ цию f N\ где N достаточно велико, такую, что
р ( Г ) « • + ■ ! - • •
A (f'"’) < R + е,
и тем самым b{R + e ) < r |
з |
Поскольку функция б (R). |
непрерывна, теорема доказана.
Мы завершим этот раздел примером скользящего блокового кодера. Он легко получается из одного изоморфизма, описан ного в [6]. Другие примеры скользящих блоковых кодеров можно найти в [49], [6] и [65]. В действительности, в статье [140] Шилдс и Нойхоф обсуждают связь между блоковыми кодами и скользящими блоковыми кодерами и то, как одни могут быть получены из других. Мы выбрали именно приво димый ниже пример по той причине, что это не только при мер скользящего блокового кодера, но и пример так называе мого финитарного изоморфизма (см. [65]).
Пример 3.9. Пусть S = { 1 , 2, 3, 4, 5, 6}. Определим меру на пространстве (2 (S), P's) таким образом, чтобы процесс (Ts, | s)
был марковской цепью |
(см. |
разд. |
2.12.10). Положим р = |
||||
= (-1-, |
-i-, -i-, |
|
а |
в качестве переходной матри |
|||
цы М возьмем |
|
0 |
0,5 |
0 |
0,5 |
0 |
0 |
|
|
||||||
|
|
0,5 |
0 |
0 |
0 |
0 |
0,5 |
|
М |
0 |
0,5 |
0 |
0,5 |
0 |
0 |
|
0 |
0 |
0,5 |
0 |
0,5 |
0 |
|
|
|
||||||
|
|
0,5 |
0 |
0 |
0 |
0 |
0,5 |
|
|
0 |
0 |
0,5 |
0 |
0,5 |
0 |
186 Гл. 3. Теория информации
Как обычно, Мц — это вероятность перехода из i в /.'Задан ная начальным распределением р и переходной матрицей М мера ц на пространстве 2(5) определяется на цилиндрических множествах формулой
Ц (I s (»о) П Т s % ( h ) П • • • T s % (<*)) = PlоМ{о*< • • • .
а затем продолжается обычным образом. Энтропия сдвига Т$
относительно |
меры |
ц |
составляет |
l = l o g 22 |
бит (см. разд. |
||
2.12.10). Пусть |
А = {а, |
b}, определим |
меру v на |
пространстве |
|||
2 (Л) таким образом, |
чтобы случайные |
величины, |
образующие |
||||
процесс (Тл, |д), были независимы |
и одинаково распределены |
||||||
и, кроме того |
v ({у: у0 = а}) = \({у: |
у0 = Ь}) = |
-~- |
|
Определим пару, состоящую из скользящих блоковых кодера и декодера бесконечной длины, а затем перейдем от нее к паре конечной длины, как это было сделано в доказательстве тео ремы. Зададим функцию A: S X , S —>A соотношениями
А(1, 2) = Л(2, 1) = Л(4, 3) = Л(3, 2) = Л(5, 1) = Л(6, 3) = а, А(1, 4) = Л(2, 6) = Л(4, 5) = Л(3, 4) = Л(5, 6) = Л(6, 5) = Ь.
Таким образом, все переходы марковской цепи с пространством состояний S разбиты на два класса: «a-переходы» и «6-пере ходы». На самом деле отображение А определяет скользящий блоковый кодер длины 2 и индуцирует изоморфизм <рЛ: 2(S)-> ->2(Л), заданный на подмножестве 2(S) единичной меры по формуле (Фа(*))* = Л (хг_|, хг). В этом примере именно устрой ство декодера позволяет отчетливо увидеть разницу между декодерами конечной и бесконечной длины.
Идея построения декодера очень проста. Пусть у <=2 (Л). Если у0 = а, то нам известно, что произошел «a-переход», и тем
самым |
x_jx0— это одна из пар |
{(1, |
2), (2, |
1), (4, |
3), |
(3, 2), |
|
(5, 1), (6, 3)}. Кроме |
того, заметим, что если |
известно, |
какой |
||||
именно |
«a-переход» |
произошел, то |
(с |
вероятностью |
единица) |
мы можем определить и все сообщение источника с этого места. Наконец, заметим еще, что если нам встретилась последова тельность aaba, то последний символ соответствующего слова источника — это 3, благодаря чему сообщение источника может быть с этого места полностью восстановлено. Проверить эти последние утверждения очень легко, и мы предоставляем сде лать это читателю. Сформулированные соображения позволяют определить декодер следующим образом.
Для |
заданной |
последовательности |
у е Е ( Л ) мы просматри |
||
ваем ее |
прошлое |
... , г/_3, г/_2, у_{ |
до тех пор, пока нам не |
||
встретится |
ключ |
aaba. Теперь, поскольку известно, что соответ |
|||
ствующая |
буква |
источника — это 3, |
мы можем вернуться к у0 |
|
|
|
3.6. Кодирование источника |
187 |
|
и определить |
тем |
самым букву источника *„. На формальном |
|||
языке |
|
fiD)(y) = x0, |
|
||
где |
|
|
|
||
|
|
|
|
|
|
1. |
лг0 = 3, |
если |
r/_4y_3«/_2y_i = |
аайа. |
|
2. |
Если k — наименьшее положительное целое число, такое, |
||||
что |
у -k-гУ-k-чУ-k-\y-k = aaba, |
то *0 — это |
последняя буква |
единственного слова источника (3, x_ft+1.........*0). отвечающего
(y~k> У-k*i. |
•••» |
Уо)‘ |
|
|
|
3. Если |
такого k не существует, то х0 определяется из того |
||||
условия, что X_\XQ— это с равной вероятностью один из шести |
|||||
«у0-переходов» ')• |
|
|
|
||
От декодера бесконечной длины можно перейти к декодеру |
|||||
длины |
N, |
если |
потребовать, чтобы k |
лежало |
во множестве |
{1, 2, |
... , |
N }. При N — оо в силу эргодической теоремы мера |
|||
множества |
всех |
последовательностей |
из 2 (А), |
для которых |
ключ aaba встречается в прошлом бесконечное число раз, равна единице. Вероятность f(N) того, что слово длины N не содер
жит aaba |
при достаточно больших N, удовлетворяет неравен |
|
ству / (N) ^ |
(0,97)w. Таким образом, хотя эта вероятность и |
|
стремится к нулю, происходит это довольно медленно. |
||
') То |
есть *о — это один из символов 1, 2, 3 (с равными вероятностями), |
|
если уа« |
а, и один из символов 4, 5, 6, если у0ш*Ь. — Прим, перев. |
Глава 4
ЭРГОДИЧЕСКАЯ ТЕОРИЯ
4.1' ВВЕДЕНИЕ
Эргодическая теория берет свое начало в попытках истолковать макроскопические характеристики физических систем, в частно сти термодинамических газовых систем, основываясь на изме нениях микроскопической структуры системы. Эта проблема вместе с рядом других физических задач привела к так назы ваемой «задаче многих тел» в математике, а математическое изучение этой задачи породило то, что теперь известно под названием эргодической теории.
IНапример, если рассматривать газ как совокупность боль шого числа находящихся в движении молекул (которые счита ются материальными точками), то такие характеристики газа, как давление, температура и объем, должны определяться дина микой этих молекул, т. е. их координатами и импульсами как функциями времени.
Если подобная система консервативна, т. е. ее полная энер гия не изменяется со временем, то с помощью гамильтоновой теории динамических систем можно получить преобразования многообразий, лежащих в евклидовом пространстве большой размерности — фазовом пространстве. Эти многообразия в фазо вом пространстве образованы состояниями газа (обобщенными координатами и обобщенными импульсами всех молекул) с одинаковой полной энергией. Задающие динамику преобразо вания сохраняют на многообразиях уровня энергии меру, инду цированную мерой Лебега; их построение было намечено в разд. 2.8.
Определить микроскопическое состояние газа в некоторый момент времени нельзя, поэтому, даже если бы и удалось решить уравнения Гамильтона и явно описать динамику, точно предсказать будущее поведение газа было бы невозможно. Тем не менее можно рассмотреть вероятностное распределение на состояниях, которое зависит от таких поддающихся изме рению величин, как энергия и температура, и определяет веро ятность того, что газ находится в одном из состояний из дан ного подмножества фазового пространства.
4.2. Унитарный оператор |
189 |
Названное вероятностное распределение задает' меру |
на |
многообразиях уровня энергии и является инвариантным отно сительно преобразований, определенных системой уравнений Гамильтона. Таким образом, мы пришли к сохраняющему меру преобразованию Т вероятностного пространства (Q, У , Р). Эта динамическая система (Q, Sr , Р, Т) может служить моделью для изучения динамики газов.
Эргодическая теория в своей наиболее абстрактной форме состоит в изучении сохраняющих меру преобразований. В этой главе мы обсудим те задачи эргодической теории, которые привели к развитию понятия энтропии динамических систем. Мы также коснемся некоторых классов динамических систем, для описания которых существенно привлечение энтропии. В частности, будут рассмотрены /f-системы и системы Бернулли и будет доказано, что для систем Бернулли энтропия является полным метрическим инвариантом.
В этой главе мы предполагаем, что все динамические системы обратимы1), а соответствующие пространства Лебега не имеют атомов.
4.2. УНИТАРНЫЙ ОПЕРАТОР СИСТЕМЫ И СДВИГИ БЕРНУЛЛИ
Купман в работе [70] предложил конструкцию, позволяющую сопоставить каждому метрическому автоморфизму простран ства с мерой некоторый унитарный оператор в гильбертовом пространстве. Это по существу позволяет вместо нелинейной системы рассматривать линейную, что было весьма эффективно использовано Халмошем и фон Нейманом [57] при исследова нии динамических систем2). В данном разделе мы обсудим некоторые из этих идей и покажем, как они оказали косвен ное влияние на возникновение понятия энтропии динамических
систем. |
(Q, $F, Р, Т) — динамическая система. Определим на |
|||
Пусть |
||||
множестве ^ “-измеримых .функций на Q линейное преобразова |
||||
ние *Т по формуле (’Tf)(a) = |
(f °Т)(а). |
В частности, если |
рас |
|
смотреть |
ограничение *Т на |
L2 (Q, У, |
Р) — гильбертово |
про |
странство суммируемых с квадратом функций с нормой ||/||j —
= jj Р (da) | f (со) f, то поскольку Р (Т~1Е) — Р (Е) для всех Е е |
0*, |
|||||
простая |
замена |
переменной показывает, |
что |ГТ/||2 = |
||^ ||2 для |
||
всех f е |
L2, |
т. е. *Т является линейной |
изометрией |
на |
L2. |
|
!) А также эргодичны (если не оговорено противное). — Прим. перев. |
||||||
2) Задолго |
до |
работы [57] фон Нейман использовал оператор |
Купмана, |
|||
в частности, в |
формулировке статистической эргодической теоремы |
(von |
||||
Neumann |
[1932а]). — Прим, перев. |
|
|
|
190 |
|
|
Гл. 4. Эргодическая теория |
|
|
|
Поскольку |
преобразование Т обратимо, |
оператор |
*Т имеет |
|||
обратный |
и тем самым является унитарным *)• |
|
||||
Напомним, что |
линейные операторы В{ и В2 в гильберто |
|||||
вом пространстве |
называются унитарно эквивалентными, если |
|||||
существует такой унитарный оператор Н, |
что Н о В ^ В г о Н *2). |
|||||
Вопрос |
об унитарной эквивалентности двух унитарных опера |
|||||
торов |
может быть |
полностью решен средствами спектральной |
||||
теории |
операторов. |
|
Р,Т ) |
и (£У, ЗГ', |
Р', Т') — |
|
Предположим теперь, что (Q, |
||||||
две изоморфные динамические системы, a |
S — такой |
метриче |
||||
ский изоморфизм, |
что SoT = T'oS. Тогда *S — изометрический |
|||||
изоморфизм и *S о *Т' = *Т о *S, так |
что операторы *Т и *Т' уни |
|||||
тарно |
эквивалентны. Если бы из |
унитарной эквивалентности |
*Т и *Т' следовал изоморфизм преобразований Т и Т', то для решения проблемы изоморфизма в эргодической теории было бы вполне достаточно использовать спектральную теорию.
то |
Если Н — линейный оператор в гильбертовом пространстве, |
множество комплексных чисел Я, таких, что оператор Н — Я1 |
|
не |
имеет ограниченного обратного (здесь I — единичный опера |
тор), называется спектром оператора Н. Если Н унитарен, то спектр является подмножеством единичной окружности, т. е. | Я | = 1 для всех Я, лежащих в спектре. Комплексное число Я называется собственным значением оператора Н, если сущест вует такой ненулевой вектор /, называемый собственным векто
ром, |
что (Н — Я1) / = |
0. Очевидно, что |
собственные значения, |
если |
они существуют, |
лежат в спектре |
Н, но помимо собствен |
ных значений в спектре могут быть и другие точки.
Говорят, что динамическая система (Q, ST, Р, Т) (или авто морфизм Т) имеет дискретный спектр, если собственные век торы оператора *Т порождают все пространство L2(Q, Р), и имеет непрерывный спектр, если единственное собственное
значение оператора *Т есть 1. |
(Заметим, что если / — постоян |
|||||||
ная |
функция, |
то |
*Т/ = /, так |
что |
1 всегда является |
собствен |
||
ным |
значением.) |
|
|
|
|
|
|
|
Халмош и фон Нейман [57] показали, что если автомор* |
||||||||
физмы Т и |
Т' имеют дискретный |
спектр |
и спектрально экви |
|||||
валентны3), |
то |
они |
изоморфны. |
Таким |
образом, |
в классе |
||
*) Оператор |
*Т |
часто |
называют |
оператором, сопряженным с динамиче |
||||
ской |
системой (Q, 6Г, Р, Т).— Прим. |
перев. |
|
|
2)В дальнейшем речь будет идти об унитарной эквивалентности опера торов, действующих не , обязательно в одном и том же гильбертовом про странстве. В этом случае в определении унитарной эквивалентности в качестве
Ннадо брать изометрический изоморфизм соответствующих гильбертовых пространств. — Прим. перев.
3)Динамические системы (и соответствующие автоморфизмы) называются спектрально эквивалентными, если их сопряженные операторы унитарно экви валентны. — Прим, перев.
4.2. Унитарный оператор |
191 |
систем с дискретным спектром спектральная эквивалентность равносильна изоморфизму. Халмош [56] показал, что в общем случае это неверно, построив два преобразования без дискрет ного спектра, которые спектрально эквивалентны, но не изо морфны.
Имеется интересный класс эргодических динамических си стем, спектральная эквивалентность которых была известна довольно давно, но все попытки установить их изоморфность оставались тщетными. Это класс „сдвигов Бернулли, которые были определены нами в разд. 2.12.9. Можно заметить, что характеристическим параметром систем этого класса является функция распределения /. Они называются сдвигами Бернулли, поскольку моделируют последовательности одинаково распре деленных независимых случайных величин с распределением f. Все эти системы имеют непрерывный спектр 1), и все они спек трально эквивалентны.
В 1948 г. Какутани пытался использовать энтропию для решения проблемы изоморфизма сдвигов Бернулли, но не смог найти эффективных путей ее вычисления, и вопрос оставался
открытым до |
1958 г. В этом году Колмогоров [69] определил |
ту энтропию, |
о которой мы говорили выше, и дал формулу |
для вычисления энтропии сдвигов Бернулли по соответству ющей функции распределения, позволившую показать, что не все сдвиги Бернулли изоморфны. Читатель может вспомнить, что в примере 2.49 мы вычислением энтропии показали, что сдвиги Бернулли с равномерным распределением на двух и на трех состояниях неизоморфны. Синай [142] внес небольшое, но очень важное изменение в определение Колмогорова, и после довавший за этим всплеск работ по эргодической теории при вел к появлению ряда чрезвычайно глубоких и фундаменталь ных результатов2). В частности, Орнстейн, доказав, что энтро пия является полным метрическим инвариантом сдвигов Бер нулли, представил старые задачи эргодической теории в новом свете.
Перед разбором теоремы об изоморфизме мы рассмотрим введенный Колмогоровым класс систем, который содержит сдвиги Бернулли, а условия принадлежности к нему могут быть высказаны в энтропийных терминах. Входящие в этот класс системы служат моделями случайных процессов, для которых выполняется закон нуля-единицы, и были некоторые основания считать, что он исчерпывается сдвигами Бернулли. Первый пример систем из этого класса, которые не изоморфны)*
*) Точнее, счетно-кратный лебеговский спектр (например, см. Корнфельд, Синай, Фомин [1980]. —- Прим, перев.
. 2) См. предисловие редактора перевода. — Прим, перев,