ЛЕКЦИЯ №7
5. ЭНТРОПИЯ. СТАТИСТИЧЕСКОЕ КОДИРОВАНИЕ.
5.1. Энтропия.
Информационная содержательность сообщения определяется вероятностью его появления. Количество информации, которое заключено в некотором
сообщении с вероятностью появления p(i), равно: |
|
I= -log2 p(i) |
(5.1) |
Основание логарифма определяет единицы измерения количества информации. Обычно, в теории информации основание логарифма принимают равным 2, т.е. количество информации измеряют в двоичных единицах (1 дв. ед.) или битах (1 бит). Одна двоичная единица информации или один бит - это количество информации, которое мы получаем, если произошло событие, вероятность появления которого равна 0.5:
I= -log2 0.5 =1 дв. ед. =1 бит.
Обычно, основание логарифма не пишут, считая, его, по умолчанию, равным 2. Свойства меры количества информации:
1.Количество информации величина неотрицательная: I 0 . 2.Чем меньше p, тем больше I. Действительно:
p = 0.5 => I= -log2 0.5 =1 дв.ед. ; p = 0.125 => I= -log2 0.125 = 3 дв.ед.
3.Количество информации, заключенное в достоверном событии с вероятностью появления p=1, равно 0: I= -log21= 0 дв.ед.
4.Количество информации обладает свойством аддитивности: количество информации, заключенное в совокупности независимых сообщений, равно сумме количеств информации, заключенных в каждом сообщении в отдельности.
Если сообщения независимы, то вероятность совместного появления i-го, j-го
ит.д. k-го сообщений равна p(i,j…k)=p(i)р(j)…р(k) и, следовательно:
I(i,j…k)= -log2 p(i,j…k)= -log2 p(i)р(j)…р(k) =
= - log2 p(i) -log2 р(j) - …. - log2 р(k)= I(i)+I(j)+….+I(k) ; (5.2)
Сообщения источника информации принимают различные значения с разными вероятностями, которым соответствует различное количество информации. Для характеристики источника информации вводят среднюю меру, которая называется «энтропия источника информации».
Энтропия (H) - это среднее количество информации, приходящееся на одно сообщение, символ, слово источника информации.
Энтропия характеризует также среднюю неопределенность ситуации. Чем больше энтропия, тем больше неопределенность ситуации и , следовательно, тем больше информации мы получаем, когда принимаем некоторое сообщение, которое устраняет неопределенность.
Рассмотрим дискретный источник информации, который производит последовательность кодовых символов, соответствующих передаваемой информации. Предположим, что символы в кодовом слове – независимы и могут принимать одно из m возможных значений. В этом случае энтропия дискрет-
ного |
|
|
источника |
независимых |
|
символов |
равна: |
||||||
m |
|
|
|
|
|
|
|
|
|
дв. ед. |
(5.3) |
|
|
Н = - |
р |
k |
logp |
k |
= - р1logp1 |
- р2logp2 |
- ..... - рmlogp |
m |
; |
|
|
|
|
|
|
||||||||||||
k = 1 |
|
|
|
|
|
|
символ |
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
pk - вероятность к-го символа.
m - основание кода - общее количество разных символов.
Энтропия дискретного источника независимых сообщений максимальна, если все сообщения равновероятны т.е.:
|
|
|
p1 = p2 =…= pm =1/m , |
|
|
(5.4) |
|||||||||
так как сумма всех вероятностей равна 1: p1 + p2 + … + pm = 1. |
|
||||||||||||||
Рассчитаем максимальное значение энтропии: |
|
|
|
||||||||||||
Hmax = - |
1 |
log |
1 |
- ...... - |
1 |
log |
1 |
= -m ( |
1 |
log |
1 |
) = -log |
1 |
= logm ; |
(5.5) |
|
|
|
|
|
|
|
|||||||||
|
m m |
m m |
|
m m |
m |
|
|||||||||
Если m=2 , то H max = log2 = 1 дв.ед/символ;
если m=16, то H max = log16 = 4 дв.ед/символ.
Энтропия двоичного источника независимых сообщений может быть определена по формуле:
Н = -р0logp0 - р1logp1; |
(5.6) |
p0 - вероятность передачи 0; p1 - вероятность передачи 1.
Максимальное значение энтропии двоичного источника равно 1дв.ед./символ ,
если p0 = p1 =0.5.
Если вероятность одного из символов равна 0 или 1, то энтропия двоичного источника равна 0. Зависимость энтропии двоичного источника от p0 показана на рис.5.1.
Энтропия характеризует источник, производящий сообщения, принадлежащие некоторому ансамблю А, в котором определены сообщения и их вероятности. Поэтому энтропия источника обозначается H(A).
H
1
0 |
0,5 |
1 |
p0 |
Рис.5.1.
5.2. Статистическое кодирование (кодирование источника)
1
Кодирование - это отображение сообщений совокупностью кодовых символов, которые называются кодовой комбинацией.
Количество различных символов, которые образуют все кодовые комбинации,
называют основанием кода - m.
Количество символов, образующих данную кодовую комбинацию, называют
длиной кодовой комбинации – n.
Общее количество кодовых комбинаций равно: N=mn . Если m=2, n=1 =>N=21=2 => возможные комбинации: 1;0.
m=2, n=2 =>N=22=4=> возможные комбинации: 00;01;10;11. m=3, n=1 =>N=31=3=> возможные комбинации: 1; -1; 0.
Физический смысл символов может быть произвольным: это могут быть символы разной частоты, или разной амплитуды, или разной формы и т.д.
Т.к. энтропия характеризует среднее количество информации, которое переносит один кодовый символ, то чем больше энтропия, тем быстрее можно передать заданное количество информации. Используя различные способы кодирования, можно сформировать новый код, у которого энтропия будет больше, чем у исходного кода.
Способы увеличения энтропии
Сформулируем качественно основные способы увеличения энтропии.
1) Наличие корреляционных связей между сообщениями, символами уменьшает энтропию. Для увеличения энтропии осуществляют операцию декорреляции символов, сообщений. Один из способов декорреляции символов - укрупнение сообщений, т.е. символами кода будут не отдельные буквы, а целые слова. Корреляционные связи между словами гораздо меньше, чем между символами. Следовательно, укрупненные символы нового кода, соответствующие словам старого кода будут практически некоррелированы, т.е. энтропия нового кода увеличится.
Например, сообщение «удовлетворительно», состоящее из 17 букв, можно закодировать одной цифрой «3». Т.о. скорость передачи информации для этого частного случая увеличится в 17 раз, так как одно и то же количество информации будет передано не 17-ю символами, а только одним символом. Однако, при этом падает помехоустойчивость приема, так как ошибку при приеме символа «3» исправить невозможно, а ошибка в одном из 17 символов слова «удовлетворительно» практически не изменяет смысла всего сообщения благодаря корреляционным связям между буквами.
Второй способ декорреляции символов - предсказание следующего символа по предыдущим и передача только ошибки предсказания.
2) Неравновероятность сообщений уменьшает энтропию. Для увеличения энтропии надо перекодировать сообщения так, чтобы символы нового кода были практически равновероятны. При этом наиболее вероятные сообщения кодируются наиболее короткими кодовыми комбинациями.
2
3) Для дальнейшего увеличения энтропии необходимо увеличивать основание кода m, так как для источника (кода) с равновероятными символами: Нmax
=logm.
5.3. Устранение корреляционных связей между символами источника путем укрупнения сообщений.
Цель статистического кодирования - увеличение энтропии и, как следствие, увеличение скорости передачи информации.
Источник создает сообщения, символы аk , которые могут принимать значения от 1 до m. Символы статистически связаны между собой – это исходный код К1. Последовательности из n символов образуют слова, статистические связи между которыми практически отсутствуют.
Осуществим укрупнение алфавита источника, будем кодировать не буквы, а целые слова Аi. Эти слова Аi являются символами нового кода К2. Вероятность символов нового кода К2 равна вероятности слов первичного кода К1 . Т.к. слово состоит из n букв , то энтропия на символ нового кода H2 больше в n раз энтропии на символ старого кода H1 .
Рассмотрим пример, который подробно изложен в описании лабораторной работы №20а. Источник двоичных сообщений A и M производит слова из двух букв (AM, MA, MM, AA); буквы в слове коррелированы, слова - некоррелированы. Статистические характеристики источника следующие:
p(A)=0.7 , p(M)=0.3 , |
p(A/A)=0.8 , p(M/A)=0.2 , |
p(A/M)=0.7 , |
p(M/M)=0.3. |
|
|
Т.к. между буквами существуют корреляционные связи, то энтропия источника меньше максимальной.
Порядок расчета энтропии источника зависимых сообщений:
1)Определяем общее количество N независимых слов источника. В данном случае их 4, т.к. m =2 , а n =2 (слова состоят из двух букв) , N=22=4.
2)Определяем вероятность каждого слова:
p(AM)=p(A)*p(M/A)=0.7*0.2=0.14;
p(MA)=p(M)*p(A/M)=0.3*0.7=0.21;
p(MM)=p(M)*p(M/M)=0.3*0.3=0.09;
p(AA)=p(A)*p(A/A)=0.7*0.8=0.56;
3) Т.к. слова независимы, то энтропию источника «на слово», т.е. среднее количество информации, приходящееся на одно слово источника, найдем по формуле :
N
Hсл pk log pk p(АМ )log p(АМ ) p(ММ )log p(ММ )
k 1
дв. ед. p(МА) log p(МА) p(АА)log p(АА) 1.656 [ слово ] ;
4) Энтропия на одну букву или символ (n=2):
H=Hсл / n = 0.828 дв.ед/символ
3
Рассчитаем избыточность нашего источника, т.е. степень отличия энтропии источника от максимального значения:
R=(Hmax-H)/Hmax (5.7)
Так как наш источник создаѐт только 2 разных сообщения A и M, т.е. является двоичным источником, то его максимальная энтропия равна Hmax=log2 2 =
= 1 дв.ед./символ. Следовательно, его избыточность равна:
R=(1- 0.828)/1=0.172
Укрупним алфавит источника и будем кодировать кодом К2 целые слова. Т.к. разных слов – 4, то нужно использовать код с основанием m=4.
АМ – первое слово S1 кодируем символом 0,
МА – второе слово S2 кодируем символом 1,
ММ – третье слово S3 кодируем символом 2, АА – четвертое слово S4 кодируем символом 3.
Получили новый код К2 с основанием m=4, длиной комбинации n=1, общее число комбинаций N=mn=4.
Сообщения этого кода независимы, т.к. независимы слова (между словами нет корреляции). Поэтому энтропия рассчитывается по формуле для дискретного источника независимых сообщений:
H = = -P(S1) logP(S1) -P(S2) logP(S2) -P(S3) logP(S3) -P(S4) logP(S4) = =1.656 (дв.ед. / сообщение)
Вместо «сообщение» можно употребить термин «буква», т.к. буквами нового источника являются слова первичного источника.
Ранее для исходного первичного источника было H=0.828(дв.ед./ символ). Таким образом мы увеличили энтропию в 2 раза. Определим избыточность нового источника, для которого Нmax=log4=2(дв.ед./ символ) :
R’=1-H/Hmax=1-1.656/2= 0.172
Избыточность осталась та же. Т.о., увеличив энтропию с помощью кода К2, мы не уменьшили избыточность. Это означает, что есть возможность еще более увеличить энтропию.
4
