Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

TEOR_inform_19-12-10_2014_01_06_12_12_03_442

.pdf
Скачиваний:
3
Добавлен:
10.02.2015
Размер:
1.39 Mб
Скачать

a H(Z) H(Y ) при отсутствии шума, то необходимо минимизировать J Z ,Y по всем возможным распределениям плотности вероятности w ( z / y ) .

Минимальное значение меры информации J Z ,Y при выполне-

нии условия M [ (Y , Z )] 2 называется эпсилон-энтропией (ε-

энтропия) непрерывного ансамбля

H (Y / Z ) min

J Y , Z H (Y ) max H (Y / Z ) .

(2.22)

w( y / z)

w( y / z)

 

Понятие -энтропия введено Колмогоровым А.Н. [Колмогоров А. Н. Теория информации и теория алгоритмов.— М.: Наука, 1987.-304 с.(стр.46)

Если на входе канала связи мощность сигнала ограничена величиной Y2 , значения сигнала находятся в интервале ( , ) , то энтропия H (Y ) не превышает энтропию нормального закона распределения вероятности. Энтропия нормального зако-

на распределения вероятности равна 12 log 2 e 2 . Условная энтропия H (Y / Z)

зависит только от шума и принимает максимальное значение 12 log 2 e 2 при

нормальном распределении шума мощностью, не превышающей 2 . Учитывая значения безусловной и условной энтропий, получим

H (Y / Z )

1

log

y2

 

áèò

 

 

 

 

.

2

2

 

 

 

 

ñî î á

Положим, источник генерирует сообщения со скоростью V

1

[

ñî î á

].

 

 

èñò

T

ñåê

 

 

 

Тогда ε-призводительностью источника сообщений называется величина

R Vèñò

 

 

 

 

H (Y / Z ) Vèñò H (Y ) max

H (Y / Z )

 

 

w( y / z)

 

 

 

 

 

 

 

áèò

Vèñò

H (Y ) log

2 e 2

 

 

.

 

 

 

 

 

 

ñek

Если учесть, что интервал дискретизации T есть величина обратная полосе частот, занимаемая сигналом, то, согласно теореме Котельникова, получим

 

 

 

 

 

áèò

 

R 2Fèñò

H (Y ) log

2 e 2

,

 

 

 

 

 

 

 

 

 

ñek

 

(2.23)

(2.24)

где Fèñò - полоса частот, занимаемая сигналом источника, приходящаяся на один

отсчѐт.

Максимальная ε-призводительность источника сообщений будет тогда, когда значения сигнала Y ( t ) распределены по нормальному закону с известной диспер-

сией Y2 ,

21

R max

1

Vèñò

log 2 e Y2 log 2 e 2

1

Vèñò log

Y2

,

2

2

2

 

 

 

 

 

 

 

 

 

 

 

R

 

F log

2

 

 

 

 

 

 

 

max

Y .

 

 

 

 

 

 

 

 

èñò

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Формулы (2.23) и (2.24) показывают, с какой скоростью можно генерировать информацию, чтобы восстановить сообщения с погрешностью, не превышающей 2 .

3. Кодирование источника информации

Источник информации может быть составлен из различных элементов. В частности это могут быть результаты измерений непрерывных величин, это может быть дискретный ансамбль, составляющий полную группу событий, это может быть последовательность символов, составленная из элементов некоторого алфавита, скажем текст на русском языке. Все эти представления источника должны быть определены некоторыми элементарными величинами, составляющими алфавит, характеризующий источник информации.

Если под сообщениями подразумеваются измерения непрерывных величин, необходимо произвести квантование измерений и составить алфавит, из которых в дальнейшем образуется совокупность результатов измерений.

Если имеется дискретный ансамбль, составляющий полную группу событий, то из него образуется алфавит, характеризующий источник.

Если источник генерирует текст на русском языке, то его алфавит известен. Будем считать, что элементы алфавита взаимно независимы (хотя в общем слу-

чае они зависимы), на этом множестве задается распределение вероятностей

p ( xi

) таких, что

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

p ( x

) 1.

 

 

 

 

 

 

 

 

 

 

i

i

 

 

 

 

 

 

 

 

 

X

 

 

 

Y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Z

 

X

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Источник

 

Кодер

 

 

 

Канал

 

Декодер

 

Потреби-

 

источника

 

 

 

передачи

 

источника

 

тель

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рис. 3.1. Модель канала передачи информации с использованием кодера и декодера

Вероятности p ( xi ) использования элементов xi бывают известны до начала кодирования. Если они неизвестны, то на основании экспериментальных данных

22

делаются оценки вероятностей pˆ ( xi ) и их используют для дальнейших вычисле-

ний.

Пример 3.1. Положим необходимо передать сообщение: ―Если имеется дискретный ансамбль‖, состоящий из 32 символов, включая пробелы. Ниже в таблице 1.1 приведены элементы алфавита, составляющие ансамбль X и участвующие в образовании сообщения. В последней строке – частота появления этих элементов в

Таблица 3.1

Элементы

а

б

д

е

и

й

к

л

 

 

алфавита

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Количество

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

элементов в

2

 

1

 

1

 

4

 

3

 

1

 

1

 

2

 

 

сообщении

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Частота

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

реализации

2/32

 

1/32

 

1/32

 

4/32

 

3/32

 

1/32

 

1/32

 

2/32

 

 

элементов

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Элементы

м

 

н

 

р

 

с

 

т

 

ы

 

ь

 

я

-

алфавита

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Количество

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

элементов в

2

 

2

 

1

 

4

 

2

 

1

 

1

 

1

3

сообщении

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Частота

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

реализации

2/32

 

2/32

 

1/32

 

4/32

 

2/32

 

1/32

 

1/32

 

1/32

3/32

элементов

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

сообщении. Эту частоту реализации элементов примем за оценку вероятностей pˆ ( xi ) появления элементов алфавита в сообщении. Все остальные элементы рус-

ского алфавита не участвуют в данном сообщении и их вероятность реализации равна нулю.

Как видно из таблицы, распределение вероятностей pˆ ( xi ) - не равновероят-

ное, существует избыток средней информации в сообщении и поэтому имеется возможность сжать информацию.

3.1 Метод кодирования равномерным кодом

Чтобы уменьшить избыточность, содержащуюся в ансамбле X источника информации, создается новый ансамбль Y символов, энтропия которой близка к максимальному значению. Затем с помощью элементов ансамбля Y составляются сообщения из ансамбля X.

23

Рассмотрим модель передачи информации с использованием кодера и декодера источника сообщений. Источник генерирует сообщения из ансамбля X , состоящего из элементов x1, x2 , , xN ., образующих полную группу событий и появляющихся с некоторыми вероятностями p(xi ) . Кодер источника использует ансамбль

Y, состоящий из двух символов - (0, 1).

Существуют различные методы кодирования. Одним из них является метод, когда все элементы xi ансамбля X представлены одним и тем же числом элементов

ансамбля Y. Такое кодирование называется равномерным. Число возможных сообщений, которые кодируются двоичным m разрядным кодом, равно 2 m . Например, при кодировании четырѐхразрядным кодом можно закодировать 16 сообщений. Кодовое дерево (граф ) изображено на рисунке 3.2.

 

0

 

1

 

 

 

00

01

10

11

000

001

010

011

100

101

110

111

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0000

0001

0010

0011

0100

0101

0110

0111

1000

1001

1010

1011

1100

1101

1110

1111

Рис. 3.2

Кодовое дерево для 16 сообщений при равномерном кодировании

Однако число кодируемых сообщений может быть меньше, чем 2 m . Тогда используются не все коды и возникает избыточность при кодировании равномерным кодом. С другой стороны, не учитываются вероятности реализации сообщений xi ,

составляющих ансамбль X .

Пример 3.2. равномерного кодирования приведѐн в таблице 3.2. Все элементы ансамбля X расположены в первой колонке. Во второй колонке записаны вероятности реализаций соответствующих сообщений xi . В третьей колонке количест-

во информации, содержащееся в сообщении xi . В четвѐртой колонке представлены двоичные коды, соответствующие сообщениям xi . В пятой колонке записаны ус-

ловные вероятности p 1/ xi появления символа «1» при реализации соответст-

вующего сообщения xi

24

 

 

 

 

 

 

 

p 1/ xi nx

i

1 nx

i

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где

n x

i

 

- общее число символов, употребляемых для кодирования xi -го сообще-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ния,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n x

i

1 - число «1» в xi -ом сообщении.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Для того чтобы закодировать двоичным кодом девять сообщений необходимо

четыре двоичных разряда, ( 2m 9 ; m = 4 ).

 

 

 

 

 

 

 

 

 

Таблица 3.2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

2

 

 

3

 

 

 

 

4

5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Вер.

 

 

log p ( x

 

)

 

Условн.

 

 

 

 

 

 

Анс-ль

 

 

 

i

 

вер.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

p ( xi )

 

 

áèò

 

Коды

 

 

 

 

 

 

X

 

 

 

 

 

p 1/ xi

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

0.20

 

 

2.32193

 

0001

1/4

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

0.2

 

 

2.32193

 

0010

1/4

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

0.19

 

 

2.39593

 

0011

2/4

 

 

 

 

 

 

3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

0.15

 

 

2.73697

 

0100

1/4

 

 

 

 

 

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

0.10

 

 

3.32193

 

0101

2/4

 

 

 

 

 

 

5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

0.08

 

 

3.64386

 

0110

2/4

 

 

 

 

 

 

6

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

0.06

 

 

4.05889

 

0111

3/4

 

 

 

 

 

 

7

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

0.01

 

 

6.64386

 

1000

1/4

 

 

 

 

 

 

8

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

0.01

 

 

6.64386

 

1001

2/4

 

 

 

 

 

 

9

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

9

 

H X

2.79465

 

 

 

 

 

 

 

 

 

 

pi 1

áèò / ñî î áù .

 

 

 

 

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Кодовое дерево, отображающее коды при равномерном кодировании, представлено на рисунке 1.2.

Максимальная энтропия ансамбля X , в соответствии с теорией, равна

Hmax X log NX

 

log 9 = 3.16993 áèò / ñî î áù . .

Энтропия ансамбля X равна H X =2.79465 áèò / ñî î áù . .

Коэффициент избыточности ансамбля X равен

 

 

 

H X

 

=

2.79465

= 0.881615 ,

X

Hmax X

 

 

 

 

3.16993

 

 

 

 

 

25

коэффициент сжатия ансамбля X равен

 

0

 

1

 

 

 

00

01

10

11

000

001

010

011

100

101

110

111

0001

0010

0011

0100

0101

0110

0111

1000

1001

 

 

 

 

 

 

Рис. 3.3

Кодовое дерево равномерного кода

 

rX

1

H

X

= 0.118385.

 

 

 

 

 

 

 

 

 

 

Hmax X

 

 

 

 

 

 

 

 

 

 

 

 

Рассмотрим ансамбль Y { y1 , y2 } {1, 0}. Максимальная энтропия ансамбля Y равна

Hmax Y log NY log 2 = 1 áèò / ñèì â. .

Используя формулу полной вероятности, вычисляется вероятность p 1 реали-

зации символа «1» при кодировании элементов ансамбля X ‗символами ансамбля

Y.

p 1 9 p x p 1/ x = 0.375.

i i

i 1

Вероятность реализации символа «0» равна соответственно p 0 1 p 1 =0.625.

Количество информации, содержащееся в каждом символе ансамбля Y равно соответственно

( y1)

1.41504 áèò ,

( y2 )

0.678072

áèò .

 

 

Энтропия ансамбля Y равна

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

H

 

Y

 

p 1

log p 1

1 p 1

log 1

p 1

=

0.954434

 

áèò / ñèì â. .

26

Соответственно коэффициент сжатия и коэффициент избыточности будут рав-

ны

Y

 

H Y

= 0.954434,

rY 1

H Y

= 0.045566

 

 

 

Hmax

Y

Hmax Y

 

 

 

 

 

Из cравнения коэффициентов сжатия и коэффициентов избыточности ансамблей X и Y видно, произошло увеличение коэффициента сжатия и уменьшение избыточности ансамбля Y. Относительные величины равны соответственно

 

 

Y

= 1.0826 ,

r

rX

= 2.59809.

 

 

YX

 

X

 

XY

rY

 

 

 

 

 

 

3.2 Метод кодирования Шеннона-Фано

При кодировании по методу Шеннона следует придерживаться следующих правил.

1.Все сообщения x1, x2 , , xN ансамбля X ранжируются в порядке убывания вероятности реализаций сообщений.

2.Сообщения x1, x2 , , xN делятся на две группы сообщений, приблизительно одинаковые по вероятности.

3.Всем сообщениям одной из подгрупп приписывается символ 1, другой – символ 0.

4.Сообщения каждой подгруппы опять делятся на две подгруппы, приблизительно одинаковые по вероятности, и приписываются символы 1и 0.

5.Процедура деления и приписывания символов 1 и 0 продолжается до тех пор пока не останется в каждой подгруппе по одному сообщению.

6.Полученная последовательность символов, соответствующая определѐнному

сообщению, является отображением сообщения в двоичной системе счисления в сжатой форме.

Ввиду того, что производится последовательная процедура деления множества символов на подгруппы, количество символов в коде, соответствующее определѐнному сообщению, будет зависеть от вероятности реализации сообщения. В этом случае метод кодирования характеризуется средним числом символов

 

 

N

p xi

 

 

 

ni

ñèì â / ñî î áù ,

n

 

 

i 1

 

 

где ni - количество символов, употребляемых для кодирования xi -го сообщения. Пример 3.2. Процедура кодирования изложена в таблице 3.3.

27

Таблица 3.3

1

 

2

 

3

4

5

6

7

8

9

 

 

 

 

 

 

 

 

 

 

 

 

Вер.

x

 

 

 

 

 

 

 

Условн.

Анс-ль

i

 

 

 

 

 

 

вер.

 

 

 

 

 

 

 

Коды

 

 

 

 

 

 

 

 

X

 

 

 

 

 

 

 

 

p 1/ xi

 

P

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

0.20

 

 

1

11

 

 

 

11

1

1

 

 

 

 

 

 

 

 

 

 

x

0.2

 

 

1

10

101

 

 

101

2/3

2

 

 

 

 

 

 

 

 

 

 

x

0.19

 

 

1

10

100

 

 

100

1/3

3

 

 

 

 

 

 

 

 

 

 

x

0.15

 

 

0

01

011

 

 

011

2/3

4

 

 

 

 

 

 

 

 

 

 

x

0.10

 

 

0

01

010

 

 

010

1/3

5

 

 

 

 

 

 

 

 

 

 

x

0.08

 

 

0

00

001

 

 

001

1/3

6

 

 

 

 

 

 

 

 

 

 

x

0.06

 

 

0

00

000

0001

 

0001

1/4

7

 

 

 

 

 

 

 

 

 

 

x

0.01

 

 

0

00

000

0000

00001

00001

1/5

8

 

 

 

 

 

 

 

 

 

 

x

0.01

 

 

0

00

000

0000

00000

00000

0

9

 

 

 

 

 

 

 

 

 

 

В примере используется тот же ансамбль сообщений X с теми же вероятностями реализаций элементов ансамбля. В колонке 3 показано разбиения множества сообщений на

два подмножества x1 , x2 , x3 и x4 , x5 , x6 x7 , x8 , x9 . Далее в колонках 4 – 7

показана процедура разбиения каждого подмножества до получения подмножества, состоящего из одного сообщения. Коды, соответствующие каждому сообщению, отображены жирными символами. Все полученные коды сведены в восьмую колонку.

Кодовое дерево для рассматриваемого примера приведено на рисунке 1.2.

Как видно из таблицы и рисунка 1.2, из узлов, отображающие коды, не выходит ни одна ветвь, т.е. получен префиксный код. На кодовом дереве из узла с кодом 100 выходят ветви и останавливаются на уровне пятиразрядного кода. При этом число неиспользуемых кодов равно 4.

Характеристики

Hmax X , H X , X ,

rX , Hmax Y остаются неизменными

Hmax X

3.16993 áèò / ñî î áù . .

 

H X =2.79465 áèò / ñî î áù .

 

X 0.881615 ,

rX 0.118385.

Hmax Y 1

áèò / ñèì â. .

 

28

Рассмотрим ансамбль Y { y1 , y2 } {1, 0}. По формуле полной вероятности получим p 1 = 0.57367, p 0 = 0.42633.

Количество информации, содержащееся в каждом символе ансамбля Y равно соответственно

0

1

1

00

01

000

001

010

011

 

 

2

 

10

 

11

100

3

 

 

101

 

 

4

0000

0001

 

00000

00001

5

 

Рис. 3.4 Кодовое дерево при кодировании по методу Шеннона-Фано

( y1)

0.801707 áèò ,

( y2 )

1.22996 áèò .

Энтропия ансамбля Y равна

H Y 0.984283 áèò / ñèì â. .

Соответственно коэффициент сжатия и коэффициент избыточности будут рав-

ны

Y 0.984283,

rY 0.015717

Сравнивая коэффициенты сжатия и коэффициенты избыточности ансамблей X и Y видно при кодировании по методу Шеннона, произошло увеличение коэффициента сжатия и уменьшение избыточности ансамбля Y. Относительные величины равны соответственно

 

 

Y

= 1.11645 ,

r

rX

= 7.53229.

 

 

YX

 

X

XY

rY

 

 

 

 

 

N

n ni p xi =

i 1

29

ñèì â

=2*0.2+3*(0.2+0.19+0.15+0.1+0.08)+4*0.06+5*(0.01+0.01)= 2.9 ñî î áù

3.3 Метод кодирования Хафмана

Правило образования кодов состоит из следующих пунктов.

1.Все сообщения x1, x2 , , xN ансамбля X ранжируются в порядке убывания вероятности реализаций сообщений.

2.Последние два сообщения объединяются в одно сообщение с вероятностью реализации, равной сумме вероятностей, объединяемых сообщений.

3.Полученные сообщения вновь ранжируются в порядке убывания вероятности реализаций сообщений.

4.Процедура объединения и ранжирования сообщений продолжается до тех пор, пока не останется одно сообщение с вероятностью реализации, равной 1.

5.В результате процедуры объединения и ранжирования сообщений получается кодовое дерево. Каждому лучу, исходящему из узла, в котором объединяются сообщения, приписываются символы 1 и 0, ( скажем, верхнему лучу приписывается символ 1, нижнему – символ 0).

6.Запись кода, соответствующего xi -му сообщению можно начинать как с вершины кодового дерева, так и с ветви , соответствующего xi -му сообще-

нию. Если записывать код сообщения с ветви, соответствующего xi -му со-

общению, получается не префиксный код. Поэтому рекомендуется производить считывание кода, начиная с вершины кодового дерева к ветви, содержащей xi -ое сообщение.

Процедура кодирования демонстрируется на примере.

Пример 3. В примере используется тот же ансамбль сообщений X с теми же

вероятностями

реализаций элементов ансамбля. Характеристики Hmax X ,

H X , X , rX ,

Hmax Y остаются неизменными. На рисунке 1.3 показана реа-

лизация правила кодирования сообщений. В результате считывания символов, начиная с ветви xi -го сообщения, получены не префиксные коды. Для получе-

ния префиксных кодов производится зеркальное отображение не префиксных кодов, что показано в таблице 1

Характеристики Hmax X , H X , X , rX , Hmax Y остаются неизменными.

30

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]