Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Бездудный, В. Г. Техника безопасности в шахтном строительстве

.pdf
Скачиваний:
5
Добавлен:
22.10.2023
Размер:
10.55 Mб
Скачать

Выражения (22) и (23) представляют собой частные условные эн-

тропии.

Общая условная энтропия сообщения В относительно сообщения А характеризует количество информации, содержащееся в любом сим­ воле алфавита. Ее определяют путем усреднения по всем символам, т. е. по всем состояниям а£ с учетом вероятности появления каждого из них. Она равна сумме вероятностей появления символов алфавита на неопределенность, которая остается после того, как адресат принял сигнал:

Н(В1 А) = — 2

р (а,) Н (bj/aj) =

<а ) р (bj/a,) logр (bf/at). (24)

i

,

‘ i

Выражение (24) является общим для определения количества информа­ ции на один символ сообщения в случае взаимозависимых и неравно­ вероятных символов.

Так как р (ад р(Ь,-/ад представляет собой вероятность совместного появления двух событий р (а{, bj), то формулу (24) можно записать следующим образом:

Н (В/А) = — 2

2 P («г, bj) log р (bj/ад.

(25)

i

i

 

Выражения (24) и (25) — равноценны.

В случае взаимозависимых и равновероятных символов в сообще­

нии, т. е. при р (ад = р (bj)

=

 

Н (А!В) = _

_L V Р (Щ/bj) log р (a^bj).

(26)

 

I

 

Вслучае неравновероятных, но независимых символов, т. е. при

р(a-Jbd = р (ад и Н (А, В) = Н (А) = Н (В), выражение для эн­ тропии приобретает знакомый нам вид:

Я = - 2 i а-bg Л.

(27)

И наконец, в случае равновероятных и независимых символов

Р (ад = P (ЬЦ =. - i- и Н (А, В) = Н (А) = Я (В),

Я = ^ log = log т,

(28)

т. е. приходим к формуле Хартли. Это предельное количество инфор­ мации, составленное из равновероятных и независимых символов и позволяющее максимально использовать символы алфавита, Шеннон назвал максимальной энтропией, тем самым установив предел инфор­ мационной нагрузки сообщения из ограниченного числа символов.

Выражения (24)—(28) могут быть использованы для подсчета ко­ личества информации как для отдельных элементов, так и для сооб­ щения в целом.

30

Для сообщений, составленных из п независимых символов, ко- ,личество информации определяют непосредственным умножением на п количества информации, полученного при помощи выражений (27) и (28). При небольшом количестве символов в алфавите вероятности pi легко задать. Для сообщений, составленных из п неравновероятных взаимозависимых символов, при достаточно большом числе п (т. е. при длинных сообщениях) можно использовать формулу (27), так как при этом отдельные символы становятся практически независимыми. В противном случае определить количество информации невозможно без таблицы условных вероятностей.

Если заранее известны статистические свойства источника сооб­ щений, в котором учтены распределения вероятностей отдельных сим­ волов (например, статистические свойства различных буквенных ал­ фавитов хорошо изучены и вероятности появления отдельных букв мо­ гут быть заданы априори) и взаимосвязи между ними (например, появление буквы h после t в английском языке), а также характер рас­ пределения помех в канале связи (например, свойства белого шума хорошо изучены, известно, что у него нормальный закон распределения, и даже-найдено выражение для энтропии суммы сигнала и шума [13]), то для вычисления, количества информации выписывают значения веро­ ятностей отдельных символов и исходных условных вероятностей и подставляют их в выражение (24). В противном случае соответствую­ щие вероятности определяют опытным путем.

Напомним, как это делается. Пусть при передаче п сообщений

символ А появился т раз, т. е.

р (А) = min;

символ А т и символ

В I раз, т. е. р {A -f В) =

т

11п. Далее, пусть при передаче

п сообщений символ В появился I,

а символ А вместе с символом В

k раз. Вероятность появления

символа В

р (В) = 1/п, вероятность

совместного появления символов А и В р (АВ) — kin , условная веро­ ятность появления символа А относительно символа В

р

)

~

-

И

Если известна условная

вероятность, то можно легко определить

и вероятность совместного появления символов А и В,

используя вы­

ражение (29):

 

 

 

 

р (АВ) = р (В) р (А/В) = р (А) р (В/А).

Если известно, что

среди

п сообщений

был получен

символ

А

и что в сообщениях Ег,

Е2, ....

Еп присутствует символ А,

и мы хотим

определить вероятность получения сообщения Еи Е 2, ...,

Еп, зная

о

получении символа А, то пользуемся формулой Бейса:

 

 

р (Ek/A) =

р (A,Ek)

,

 

 

 

 

2 р (Я,-)р

)

 

 

 

 

(=i

 

 

 

31

где р (Ек1 А ) — условная вероятность появления сообщений относи­

тельно появления символа А:

П

Еi р (Ес) р (А1Е[) = р (А) — полная вероятность события.

В заключение несколько слов об основных свойствах условной эн­ тропии.

Свойство 1. Если сообщения А и В взаимонезависимы, то условная энтропия А относительно В равна безусловной энтропии А:

Н (А/В) = Н (А); Н (В/ А) = Н (В).

Действительно, если сообщения А и В взаимонезависимы, то ус­ ловные вероятности отдельных символов равны безусловным:

Р (V«i) = Р (bj).

(30)

Подставим выражение (30) в формулу (24). Тогда

Н { В ! А ) = - У > Т р (о,-) Р (bj) log p(bf) = i i

= — EP {ад E P Фд log p (bj) = H (В), i !

так как Et p (ai) — 1-

Свойство 2. Если сообщения А и В настолько жестко статистиче­ ски связаны, что появление одного из них непременно подразумевает появление другого, то их условные энтропии равны нулю:

Н(А1В) = Н(В/А) = 0.

Для доказательства этого положения вновь воспользуемся свой­ ствами вероятностей, согласно которым при полной статистической за­ висимости р (bjlad = 1 и слагаемые р (Ь,-/а{) log р (b//at) выражения (24) также равны нулю [см. доказательство выражения (11)). Если ну­ лю равны отдельные слагаемые, тд и сумма равна нулю, откуда

H(BJA)=*H(AIB) = 0.

Выводы: 1. Энтропия сообщения, составленного из неравновероят­ ных символов меньше, чем энтропия сообщения, составленного из рав­ новероятных символов.

2. Энтропия сообщения, составленного из взаимозависимых сим­ волов меньше, чем энтропия сообщения, составленного из взаимонезависимых символов.

3. Максимальная энтропия у сообщений, составленных из рав­ новероятных и независимых символов, т. е. у тех сообщений, у которых условная энтропия равна нулю, а вероятность появления т символов

алфавита р = —•

32

Задачи к теме 5

1. Сообщения передаются двоичным кодом. В первом случае вероятности появления 0 и 1 равны соответственно ро — 0,8 и pi = 0,2. Помехи в канале отсутст­ вуют, т. е. условные вероятности переходов 0 в 1 и 1 в 0 равны нулю. Во втором слу­ чае символы передаются с равными вероятностями: ро = pi — 0,5, однако в резуль­ тате действия помех условные вероятности переходов не равны нулю, а равны соответ­

ственно Р]/, = 0,8; р0д) = 0,8; р0/,,

= 0,2; р ^ 0 = 0,2.

В

каком

случае

энтропия

сообщений будет больше?

 

 

 

 

 

 

сообщений,

со­

2.

Определить общую условную и частные условные энтропии

ставленных из алфавитов

А и В, если вероятности символов равны

соответственно

р = 0,6;

р — 0,4; а условные вероятности переходов рА/в = 0,15;

рВ/А — 0,1.

 

3.

В результате статистических испытаний установлено, что при передаче каж­

дых 100 сообщений длиной по пять символов в сообщении символ

s

встречается 50

раз, а символ t — 30 раз. Вместе символы s

и

f встречаются 10

раз.

Определить

условные

энтропии.

Н=

 

Н{t/s).

 

 

 

 

 

 

 

 

 

 

{sit) и

 

 

 

 

 

 

 

4. Чему равна энтропия сообщений, передаваемых двоичным кодом, для слу­

чаев, когда символы сообщений:

 

 

 

 

 

 

 

 

 

 

а) равновероятны и взаимонезависимы;

 

 

 

 

 

 

 

 

б) взаимозависимы и равновероятны;

и

р = 0,4,

р = 0,6,

если

известны

в) взаимозависимы и неравновероятны

условные

вероятности

переходов:

Р\ц =

0,8;

po/i =

0,3; Р0/о —

0,7;

p]IQ = 0,1 ?

5. При передаче 100сигналов Л7статистика принятых сигналов В распределилась

следующим образом: В 7= 70; В 6=

10; Ва =

10; Въ =

4; б 9 = 3; В 10=

2

и В4=

1.

Чему равно количество информации о том, что при передаче сигнала Л7 будет принят сигнал В7? Чему равно количество информации о том, что при передаче сигнала Л, бу­ дет получен сигнал В4? Чему равна энтропия получения одного из сигналов В1 — В1в при передаче Л7?

6. При передаче сообщений, построенных из первичного алфавита А ', В 1, С \ принимаются сообщения во вторичном алфавите Л", В", С . Статистические испыта­ ния показали, что в результате действия помех 3% символов с равной вероятностью могут перейти в любой другой символ данного алфавита. Чему равна энтропия при­ нятых сообщений, если символы первичного алфавита встречаются в сообщениях с вероятностями рА = 0,2, рв = 0,3 и рс = 0,5?

ИЗБЫТОЧНОСТЬ. СКОРОСТЬ ПЕРЕДАЧИ ИНФОРМАЦИИ

Для нахождения максимальной пропускной способности системы связи необходимо уметь определять максимальное количество инфор­ мации, которое может быть передано при помощи символов данного алфавита за единицу времени. Мы уже знаем, что максимальное ко­ личество информации на символ сообщения Н = log т можно полу­ чить только в случае равновероятных и независимых символов. Ре­ альные коды редко полностью удовлетворяют этому условию, поэтому

2 3-1273

33

информационная нагрузка на каждый элемент их сигнала обычно мень­ ше той, которую они могли бы передавать. Энтропия таких сигналов меньше максимальной.

Раз сигналы сообщений недогружены, то само сообщение обладает информационной избыточностью. Понятие избыточности в теории ин­ формации и кодирования введено для количественного описания ин­ формационного резерва кода, из которого составлено сообщение. Сама постановка такой задачи стала возможной именно потому, что инфор­

мация является

измеримой величиной, каков бы ни был частный вид

 

 

 

 

рассматриваемого сообщения.

 

 

 

 

Для

уяснения

понятия избы­

 

 

 

 

точности

рассмотрим

следующее

 

 

 

 

сообщение: «Затребованные от нас

l i

 

L

I i L lLl

сводки в

положенный срок обра­

1

ботать не' можем ввиду

того, что

A S C D F F S H I SлK L M U O P Q В S T U Y W X Y Z

на районном вычислительном цент­

Рис. 12.

Соотношение вероятностей по­

ре вышла

из

строя

подстанция».

Очевидно,

что

без

особой потери

явления различных букв в английских

текстах.

 

 

 

ценности информации это сообщение

можно было бы передать так: «Об­ работка сводок задерживается связи отсутствием электричества». Второе сообщение короче, в нем слова несут гораздо большую инфор­ мационную нагрузку, чем в первом, т. е. первое сообщение обладает информационной избыточностью по, отношению ко второму.

Однако не следует смешивать избыточность такого рода с избы­ точностью сообщений, рассматриваемых в теории информации и коди­ рования, где избыточность показывает количество лишней информации, которое не зависит от пишущего, а определяется структурой алфавита и обычно заранее известно из статистических данных. Например, для английского алфавита, состоящего из 26 букв, максимальное значение энтропии

Ятах = logs т = log2 26 = 4,7 бит.

Если условно представить частоту появления различных букв в английских текстах, как показано на рис. 12, то можно наглядно убе­ диться в том, что вероятности появления букв английского алфавита далеко не равны, а следовательно, энтропия английского языка мень­ ше, чем 4,7 бит. Действительно, исследования показали, что при учете частоты распределения восьмибуквенных сочетаний, т. е. взаимо­ зависимости между символами, энтропия английского языка уменьша­ ется до 2,35 бит. Если же учитывать статистику следования слов в английских текстах, то энтропия английского языка не превысит

2 бит.

При учете следования букв в различных сочетаниях и слов в раз­ личных сообщениях передаваемую информацию можно значительно

34

сжать, сократить. Отношение Я /Я тах = р называют коэффициентом сжатия, или относительной энтропией, а величину

D —

Н

(31)

 

Ягах

избыточностью. Из выражения (31) очевидно, что избыточность боль­ ше у тех сообщений, у которых больше энтропия.

Энтропия может быть определена как информационная нагрузка

на символ сообщения. Избыточность определяет недогруженностьсим­

волов. Если Я

— Я тах, то, согласно формуле (31), недогруженцости

не существует.

Поэтому для характеристики степени недогруженности

и приняли разность между единицей и р.

Для английского языка без учета взаимозависимости между сло­ вами

D = 1 -----1 — 0,5 = 0,5.

Действительно, проведенные эксперименты подтвердили, что удается восстановить содержание английских текстов, составленных из 50% алфавита.

Кроме общего понятия избыточности, существуют различные ча­ стные понятия, основными из которых являются следующие: избыточ­ ность Ds, вызванная статистической связью между символами сообще­ ния, и избыточность Dp, обусловленная неравновероятными распреде­ лениями символов в сообщении.

Избыточность Ds определяется выражениями (24), (27) и харак­ теризует информационный резерв' сообщении со взаимонезависимыми символами по отношению к сообщениям, в которых наблюдается ста­ тистическая связь между (символами:

D ,= l - - § r ,

(32)

где

я= — 23 2 P (ад Р (bi/°d log P (bjlad;

i/

я' = —2i л log л .

Однако выражение для Я ' само обладает избыточностью за счет неэкстремальное™ распределения вероятностей отдельных символов (напомним, что максимальная энтропия достигается при равномерном распределении вероятностей Я тах = log т для конечного алфавита т).

Избыточность Dp определяется выражениями (27), (28) и харак­ теризует информационный резерв сообщений с равновероятными сим­ волами относительно сообщений, символы которых неравновероятны:

Dp = l -

Н’

(33)

Ящах

 

2*

35

Полная избыточность

(34)

При малых Ds и Dp полную избыточность вычисляют как сумму част­ ных избыточностей, так как последний член выражения (34) представ­ ляет собой произведение дробей, меньших единицы, и с уменьшением Dp и Ds стремится к нулю гораздо быстрее, чем два первых члена.

Наличие избыточности в сигнале равносильно его удлинению. Од­ нако считать избыточность исключительно отрицательным явлением нельзя, потому что, как мы увидим ниже, чем больше избыточность сообщения, тем меньше оно подвержено искажению за счет действия помех. Нахождение оптимальной избыточности кода при данном уров­ не помех — одна из главных задач теории информации и кодирования.

Кроме понятий энтропии, количества информации и избыточности, для характеристики системы передачи информации необходимо иметь представление о том, какое количество информации может быть переда­ но за данный промежуток времени по данному каналу связи, т. е. о его пропускной способности. Например, если бы троллейбусы были всегда одинаково загружены, всегда попадали на зеленый свет, при езде им не мешал ни гололед, ни аварии, то количество пассажиров, перевезенное за единицу времени, скажем за квартал или за год, и было бы пропускной способностью данного маршрута.

Пропускная способность канала связи характеризует его потен­ циальные возможности и определяется максимальной скоростью передачи информации. Скорость передачи информации определяется количеством информации, переданной в единицу времени.

Для дискретного канала связи скорость передачи информации сле­ дует характеризовать количеством переданных символов в единицу времени. За единицу времени удобнее всего принять время передачи одного символа. Так как энтропия представляет собой количество ин- <|юрмации на символ сообщения, то скорость передачи информации в

общем виде

 

 

н

бит!сек,

(35)

С = —

где т — время передачи одного символа.

Для простейшего случая (отсутствуют помехи, символы сообщения равной длительности, равной вероятности и взаимонезависимы, т. е.

Н = loga т) скорость передачи информации

 

С = — log2 т бит!сек

( )

 

36

прямо пропорциональна энтропии сообщения и обратно пропорцио­ нальна длительности элементарного символа. Увеличение С в этом слу­ чае следует искать за счет уменьшения длительности элементарного символа.

36

В случае неравновероятных символов равной длительности

1 т

С= — (— 2 Pi l°g2 Pi) бит!сек. (37)

тt=i.

Вслучае неравновероятных символов неравной длительности

С" =

-----(— 2 Pi log2 рд бит!сек.

^38)

2

%pi

<=1

 

г=1

 

 

 

При этом, увеличение С может быть получено за счет того, что им­ пульсы меньшей длительности будут появляться чаще. Однако боль­ шого разноса вероятностей появления символов следует избегать. Вспомним свойство произведения — /^log/?,- (см. рис. 9). Как видно из рис. 9, максимальное значение — p,log pt будет при 0,36 < pt > 0,37. При большом разносе вероятностей значения слагаемых в выражениях (37) и (38) будут малы, и увеличение скорости может не получиться.

Таким образом, в случае неравновероятных символов неравной длительности увеличение скорости передачи информации происходит за счет увеличения энтропии, потому что с ростом энтропии за то же время снимается большая неопределенность, т. е. получится большее количество информации, а это равносильно увеличению скорости пере­ дачи информации. Убедимся в этом на следующем примере.

Пример 1. Пусть сообщение передается в двоичном коде =

 

2). Время пере­

дачи 0 — та = 1 сек, а

1— т0 = 5 сек.

 

 

 

 

а) Символы равновероятны

и независимы:

 

 

 

 

 

Я

log., 2

:=>0,33 бит/сек',

 

 

 

 

*ср

 

 

 

 

 

1/2 (то + ъ)

 

 

 

б)

 

 

ра= 0,37,

Pi = 0,63:

 

 

 

т

 

 

 

 

 

 

 

^PllogtPl

 

 

 

 

 

 

г_х

 

 

— (0,37 log2 0,37 + 0,63 logj 0,63)

=

0,27 бит/сек.

 

 

 

2 х№

 

 

0,63 • 5 + 0,37 • 1

 

 

 

 

 

 

 

 

 

в)

 

 

р0 0,2,

Pi = 0,8:

 

 

 

 

 

— (0,8 log2 0,8 + 0,2 log2 0,2)

= 0,4 бит/сек.

 

 

 

0,8 • 1 +

0,2 • 5

 

 

 

г)

 

 

р0 = 0,02,

Pi = 0,98:

 

 

 

Я 3

_

— (0,98 log2 0,98 +

0,02 log2 0,02)

0,14 бит/сек.

тср

-

 

0,98 • 1 +

0,02 • 5

 

 

 

 

Таким образом, максимальная скорость передачи информации достигается при некотором среднем распределении вероятностей отдельных символов, т. е. при 0,2 < pt < 0,6, что хорошо видно

37

из рис. 9. Это объясняется тем, что именно в этой области энтропия мак­ симальна, т. е. в увеличении энтропии есть резерв увеличения скорости передачи информации.

Теперь рассмотрим пропускную способность для передачи сообще­ ний по дискретному каналу связи без шумов. Напомним, что дискрет­ ный канал связи приспособлен для передачи конечного ряда элемен­

тарных символов Аи

А 2, ...,

А п с конечными длительностями t1% t2, ...

..., tn. Символы А и

А 2, ....

Ап между собой независимы, корреляция

между ними отсутствует, их физическая природа может быть произ­ вольной.

Предположим, что требуется передать N сообщений с элементами длительностью т, например передать при помощи телетайпа N бука в коде Бодо. Известно, что каждая буква кода Бодо состоит из пяти символов двоичного кода (из пяти нулей и единиц, скомбинированных определенным образом), т. е. каждый символ несет 1 бит информа­ ций, код равномерный и энтропия максимальная, каждая буква — 5 бит. Если каждую букву передавать за 1 сек, то в идеальном случае канал связи будет пропускать информацию со скоростью 5 бит/сек. Это бу­ дет пропускная способность данного канала связи, что следует из ее определения как максимальной скорости передачи информации (ка­ нал связи не может передавать информацию со скоростью, большей, чем ее вырабатывает объект). Так как максимальная скорость передачи информации возможна при максимальной величине энтропии, то

Г

_

мта*

}

/ооу

'-'max —

 

 

\°У/

где Т — длительность' сообщеИия;

Стзх

 

достигается при

равнове­

роятных и взаимонезависимых символах алфавита в передаваемых со­ общениях.

При неравновероятных символах алфавита скорость передачи ин­ формации приближается к пропускной способности по мере удлинения сообщения, так как в этом случае уменьшается взаимозависимость символов и уравниваются шансы появления в сообщении символов с разными вероятностями. В бесконечно длинных сообщениях будет реа­ лизоваться оптимальное распределение символов алфавита. Тогда для сообщения из п символов

Pi l°g Р[

п log m

_1_ log m.

^ ш ах — НгП

П-*°о

п т

т

В случае двоичного кода

_i_

 

q _ log2 2

 

тт

Вработе [521 показано, что оптимальное распределение символов

38

алфавита сообщений конечной длительности должны удовлетворять равенству

т

 

 

где р определяется соотношением 2

=

1; тг — длительность

г=1

 

 

i-го символа.

Эти соотношения позволяют по данным длительностям символов определить оптимальное распределение вероятностей. Так, для при­ мера 1 получаем значения вероятностей: рх = 0,775 и р0 = 0,225. При этом

 

■ ( 0 ,7 7 5 lo g s 0 . 7 7 5 + 0 ,2 2 5 lo g 2 0 ,2 2 5 )

0,48

бит!сек.

 

0 ,7 7 5 • 1 + 0 ,2 2 5 • 5

 

 

 

2

чт

 

 

i=i

'

 

 

Следует сказать, что на практике гораздо больший интерес пред­ ставляет обратная задача: определение необходимой длительности сим­ волов по данным вероятностям.

Заканчивая рассмотрение вопроса о пропускной способности ка­ нала связи без шумов, необходимо обратить внимание на то, что тер­ мин скорость передачи информации не следует путать с термином ско­ рость передачи сигналов. Скорость передачи сигналов определяется ко­ личеством элементов сигнала в единицу времени и зависит от частоты манипуляции скорости образования сигналов. Скорость передачи ин­ формации зависит от ее статистических характеристик еще до того, как она поступает на передатчик, и, прежде всего, от энтропии источни­ ка сообщений. Например, если сообщения передавать, комбинируя

пять качественных признаков ( т =

5) при длительности элементарной

посылки 20 мсек, то скорость передачи сигналов

 

 

 

V = 2 - =

■0q2~ =

50 символов/сек,

а скорость передачи информации

 

 

 

 

С

Н

logsт

lo g 2 5

 

2 ,3 2

116

бит!сек.

т

г

0,02

=

0,02

 

 

 

Эффективность системы кодирования может быть оценена отноше­ нием действительной скорости передачи к пропускной способности ка­ нала связи. Так как при равных длительностях элементарных символов скорость передачи информациибудет зависеть от энтропии символов источника сообщений, то эффективность системы кодирования может быть оценена отношением действительной энтропии Н символов к максимально возможной энтропии Я тах:

Q =

н

(40)

77щах

 

39

Соседние файлы в папке книги из ГПНТБ