

Рис.3.10.
С выхода сумматора сигнал поступает на вход фильтра, согласованного с одиночным прямоугольным импульсом. Фильтр, согласованный с одиночным прямоугольным импульсом дает на выходе автокорреляционную функцию этого импульса (рис.3.11.).
Рис.3.11.
Если на вход фильтра подаётся согласованный с ним сигнал, то на выходе мы получаем автокорреляционную функцию сигнала. В соответствии с этими расчетами нарисована временная диаграмма напряжения на выходе полного фильтра, согласованного с кодом Баркера. (тонкая линия на рис.3.10). Фильтр ФСОИ преобразует каждый прямоугольный импульс напряжения u1(t) в треугольный.
109
4. ЭНТРОПИЯ. СТАТИСТИЧЕСКОЕ КОДИРОВАНИЕ.
4.1. Энтропия.
Информационная содержательность сообщения определяется вероятностью его появления. Количество информации, которое заключено в некотором
сообщении с вероятностью появления p(i), равно:
I= -log2 p(i) |
(4.1) |
Основание логарифма определяет единицы измерения количества информации. Обычно, в теории информации основание логарифма принимают равным 2, т.е. количество информации измеряют в двоичных единицах (1 дв. ед.) или битах (1 бит). Одна двоичная единица информации или один бит - это количество информации, которое мы получаем, если произошло событие, вероятность появления которого равна 0.5: I= -log2 0.5 =1 дв. ед. =1 бит. Обычно, основание логарифма не пишут, считая, его, по умолчанию, равным 2.
Свойства меры количества информации:
1.Количество информации величина неотрицательная: I ³ 0 . 2.Чем меньше p, тем больше I. Действительно:
p = 0.5 => I= -log2 0.5 =1 дв.ед. ; p = 0.125 => I= -log2 0.125 = 3 дв.ед.
3.Количество информации, заключенное в достоверном событии с вероятностью появления p=1, равно 0: I= -log21= 0 дв.ед.
4.Количество информации обладает свойством аддитивности: количество информации, заключенное в совокупности независимых сообщений, равно сумме количеств информации, заключенных в каждом сообщении в отдельности.
Если сообщения независимы, то вероятность совместного появления i-го, j- го и т.д. k-го сообщений равна p(i,j…k)=p(i) р(j)… р(k) и, следовательно:
I(i,j…k)= -log |
2 p(i,j…k)= -log |
2 p(i)р(j)… |
р(k) = |
|
= - log2 p(i) -log2 р(j) - …. - log |
2 р(k)= I(i)+I(j)+….+ I(k) ; |
(4.2) |
||
Сообщения источника |
информации |
принимают различные |
значения с |
|
разными вероятностями, |
которым соответствует |
различное |
количество |
информации. Для характеристики источника информации вводят среднюю меру, которая называется «энтропия источника информации».
Энтропия (H) - это среднее количество информации, приходящееся на одно сообщение, символ, слово источника информации.
Энтропия характеризует также среднюю неопределенность ситуации. Чем больше энтропия, тем больше неопределенность ситуации и , следовательно, тем больше информации мы получаем, когда принимаем некоторое сообщение, которое устраняет неопределенность.
Рассмотрим дискретный источник информации, который производит последовательность кодовых символов, соответствующих передаваемой информации. Предположим, что символы в кодовом слове – независимы и могут принимать одно из m возможных значений. В этом случае энтропия дискретного источника независимых символов равна:
27

m |
|
|
|
|
|
|
|
|
|
|
дв. ед. |
|
Н = - ∑ |
р |
logp |
= - р logp - р |
|
logp |
|
- ..... - рmlogp |
|
; |
|
|
|
|
|
|
|
|||||||||
k = 1 |
k |
k |
1 |
1 |
2 |
|
2 |
|
m |
|
символ |
|
|
|
|
|
|
|
|
|
|
|
|
|
pk - вероятность к-го символа.
m - основание кода - общее количество разных символов. Энтропия дискретного источника независимых сообщений если все сообщения равновероятны т.е.:
p1 = p2 =…= p m =1/m ,
так как сумма всех вероятностей равна 1: p1 + p2 + … + p m = 1. Рассчитаем максимальное значение энтропии:
1 |
1 |
|
1 |
1 |
1 |
|
1 |
|
1 |
= logm ; |
||||
Hmax = - |
|
log |
|
- ...... - |
|
log |
|
= -m ( |
|
log |
|
) = -log |
|
|
m |
|
m |
m |
|
|
|
||||||||
|
|
m |
|
|
m |
m |
m |
(4.3)
максимальна,
(4.4)
(4.5)
Если m=2 , то H max = log2 = 1 дв.ед/символ;
если m=16, то H max = log16 = 4 дв.ед/символ.
Энтропия двоичного источника независимых сообщений может быть определена по формуле:
Н = -р0logp0 - р1logp1; |
(4.6) |
|
p0 - вероятность передачи 0; |
p1 - вероятность передачи 1. |
|
Максимальное значение |
энтропии двоичного источника |
равно |
1дв.ед./символ , если p0 = p1 =0.5.
Если вероятность одного из символов равна 0 или 1, то энтропия двоичного источника равна 0. Зависимость энтропии двоичного источника от p0 показана на рис.4.1.
H 1
0 |
0,5 |
1 |
p0 |
|
|
Рис.4.1. |
|
Энтропия характеризует источник, производящий сообщения, принадлежащие некоторому ансамблю А, в котором определены сообщения и их вероятности. Поэтому энтропия источника обозначается H(A).
4.2. Статистическое кодирование (кодирование источника) Кодирование - это отображение сообщений совокупностью кодовых символов, которые называются кодовой комбинацией.
Количество различных символов, которые образуют все кодовые комбинации, называют основанием кода - m.
Количество символов, образующих данную кодовую комбинацию,
называют длиной кодовой комбинации – n.
Общее количество кодовых комбинаций равно: N=mn .
28
Если m=2, n=1 =>N=21=2 => возможные комбинации: 1;0. m=2, n=2 =>N=22=4=> возможные комбинации: 00;01;10;11. m=3, n=1 =>N=31=3=> возможные комбинации: 1; -1; 0.
Физический смысл символов может быть произвольным: это могут быть символы разной частоты, или разной амплитуды, или разной формы и т.д. Т.к. энтропия характеризует среднее количество информации, которое переносит один кодовый символ, то чем больше энтропия, тем быстрее можно передать заданное количество информации. Используя различные способы кодирования, можно сформировать новый код, у которого энтропия будет больше, чем у исходного кода.
Сформулируем качественно основные способы увеличения энтропии.
1) Наличие корреляционных связей между сообщениями, символами уменьшает энтропию. Для увеличения энтропии осуществляют операцию декорреляции символов, сообщений. Один из способов декорреляции символов - укрупнение сообщений, т.е. символами кода будут не отдельные буквы, а целые слова. Корреляционные связи между словами гораздо меньше, чем между символами. Следовательно, укрупненные символы нового кода, соответствующие словам старого кода будут практически некоррелированы, т.е. энтропия нового кода увеличится.
Например, сообщение «удовлетворительно», состоящее из 17 букв, можно закодировать одной цифрой «3». Т.о. скорость передачи информации для этого частного случая увеличится в 17 раз, так как одно и то же количество информации будет передано не 17-ю символами, а только одним символом. Однако, при этом падает помехоустойчивость приема, так как ошибку при приеме символа «3» исправить невозможно, а ошибка в одном из 17 символов слова «удовлетворительно» практически не изменяет смысла всего сообщения.
Второй способ декорреляции символов - предсказание следующего символа по предыдущим и передача только ошибки предсказания.
2) Неравновероятность сообщений уменьшает энтропию. Для увеличения энтропии надо перекодировать сообщения так, чтобы символы нового кода были практически равновероятны. При этом наиболее вероятные сообщения кодируются наиболее короткими кодовыми комбинациями.
3) Для дальнейшего увеличения энтропии необходимо увеличивать основание кода m, так как для источника (кода) с равновероятными символами: Нmax =logm.
4.3. Устранение корреляционных связей между символами источника путем укрупнения сообщений.
Цель статистического кодирования - увеличение энтропии и, как следствие, увеличение скорости передачи информации.
Источник создает сообщения, символы аk , которые могут принимать значения от 1 до m. Символы статистически связаны между собой – это исходный код К1. Последовательности из n символов образуют слова, статистические связи между которыми практически отсутствуют.
29

Осуществим укрупнение алфавита источника, будем кодировать не буквы, а целые слова Аi. Эти слова Аi являются символами нового кода К2. Вероятность символов нового кода К2 равна вероятности слов первичного кода К1 . Т.к. слово состоит из n букв , то энтропия на символ нового кода H2 больше в n раз энтропии на символ старого кода H1 .
Рассмотрим пример, который подробно изложен в описании лабораторной работы №20а.
Источник двоичных сообщений A и M производит слова из двух букв (AM, MA, MM, AA); буквы в слове коррелированы, слова - некоррелированы.
Статистические характеристики источника следующие: |
|
|||
p(A)=0.7 , |
p(M)=0.3 |
, |
p(A/A)=0.8 , p(M/A)=0.2 , |
p(A/M)=0.7 , |
p(M/M)=0.3 |
|
|
|
|
Т.к. между |
буквами |
существуют корреляционные связи, |
то энтропия |
источника меньше максимальной.
Порядок расчета энтропии источника зависимых сообщений:
1)Определяем общее количество N независимых слов источника. В данном случае их 4, т.к. m =2 , а n =2 (слова состоят из двух букв) , N=22=4.
2)Определяем вероятность каждого слова: p(AM)=p(A)*p(M/A)=0.7*0.2=0.14; p(MA)=p(M)*p(A/M)=0.3*0.7=0.21; p(MM)=p(M)*p(M/M)=0.3*0.3=0.09; p(AA)=p(A)*p(A/A)=0.7*0.8=0.56;
3)Т.к. слова независимы, то энтропию источника «на слово», т.е. среднее количество информации, приходящееся на одно слово источника, найдем по формуле :
N
H сл = −∑ pk log pk = − p(АМ) log p(АМ) − p(ММ) log p(ММ) −
k=1
−p(МА) log p(МА) − p(АА) log p(АА) = 1.656 [ дв. ед.] ;
слово
4) Энтропия на одну букву или символ (n=2):
H=Hсл / n = 0.828 дв.ед/символ
Рассчитаем избыточность нашего источника, т.е. степень отличия энтропии
источника от максимального значения: |
|
R=(Hmax-H)/Hmax |
(4.7) |
Так как наш источник создаёт только 2 разных сообщения A и M, т.е. |
|
является двоичным источником, то его |
максимальная энтропия равна |
Hmax=log2 2 = 1 дв.ед./символ. Следовательно, |
его избыточность равна: |
R=(1-0.828)/1=0.172
Укрупним алфавит источника и будем кодировать кодом К2 целые слова.
Т.к. разных слов – 4, то нужно использовать код с основанием m=4.
АМ – |
первое слово S1 |
кодируем символом 0, |
МА – |
второе слово S2 |
кодируем символом 1, |
ММ – |
третье слово S3 |
кодируем символом 2, |
30
АА – четвертое слово S4 кодируем символом 3.
Получили новый код К2 с основанием m=4, длиной комбинации n=1, общее число комбинаций N=mn=4.
Сообщения этого кода независимы, т.к. независимы слова (между словами нет корреляции). Поэтому энтропия рассчитывается по формуле для дискретного источника независимых сообщений:
H = = -P(S1)×logP(S1) -P(S2)×logP(S2) -P(S3)×logP(S3) -P(S4)×logP(S4) = =1.656 (дв.ед. / сообщение)
Вместо «сообщение» можно употребить термин «буква», т.к. буквами нового источника являются слова первичного источника.
Ранее для исходного первичного источника было H=0.828(дв.ед./ символ). Таким образом мы увеличили энтропию в 2 раза.
Определим избыточность нового источника, для которого Нmax=log4 : R’=1-H/Hmax=1-1.656/2= 0.172
Избыточность осталась та же. Т.о., увеличив энтропию с помощью кода К2 , мы не уменьшили избыточность. Это означает, что есть возможность еще более увеличить энтропию.
4.4. Устранение корреляционных связей между символами. Кодирование с предсказанием.
Между отдельными буквами в словах, символами в кодовых комбинациях , как указывалось выше, существуют корреляционные связи. Это значит, что вероятность появления следующей буквы, символа зависит от того, какие буквы, символы были переданы до этого.
Для устранения корреляционных связей между символами можно использовать линейное кодирование с предсказанием (Line Prediction Coding =LPC-кодер).
Слово или сегмент в последовательности из n букв, символов (х1,х2,…, хn) описывается корреляционной матрицей:
|
R11 |
R12 |
R13 …R |
1n |
|
|
|
||||
|
R21 |
R22 |
R23 …R |
2n |
|
М = |
. . . |
. |
(4.8) |
||
|
. . . |
. |
|
||
|
Rn1 . . |
Rnn |
|
||
|
|
Rik - коэффициент корреляции между i-ой и k-ой буквами.
Зная предыдущие буквы, можно предсказать последующие. Предсказанное значение xk запишем в виде:
|
xk |
= c1x1 + c2x2 + ...... + ck -1xk -1 |
(4.9) |
|
% |
|
|
xj - буквы, символы, которые мы передаём. |
|
||
Ошибка предсказания равна: |
|
||
% |
= xk - (c1x1 |
+ c2x2 + ...... + ck -1xk -1 ) |
|
xk - xk |
(4.10) |
||
|
|
|
31
Коэффициенты сj подбирается таким образом, чтобы обеспечить минимум среднеквадратической ошибки предсказания. Поиск минимума сводится к решению системы уравнений:
% |
2 |
|
|
|
|
d (xk - xk ) |
|
= 0; j = 1, 2, .....(k - 1) |
|
|
d cj |
|
|
|
|
|
|
|
|
Оптимальное значение сj для предсказания xk имеет вид: |
|
|||
cj опт =- Aik / Dk-1 |
(4.11) |
Aik - алгебраическое дополнение матрицы М для элемента Rjk. Dk-1 - определитель матрицы (k-1)-го порядка.
Определитель матрицы D равен сумме произведений элементов любой строки матрицы на их алгебраические дополнения.
Алгебраическое дополнение Аij элемента аij равно определителю (минору), который получается после вычеркивания строки и столбца, в которых стоит элемент аij .
В линию связи передается ошибка предсказания.
Рассмотрим простейший случай предсказания к-го символа по (к-1)-му:
% |
= ck -1xk -1 |
|
|
xk |
, где сk-1=R – |
коэффициент корреляции между к-ым и (к-1)-ым |
|
|
|
символами.
В линию связи передаётся ошибка предсказания:
∆x = xk - x%k ;
Кодирование с предсказанием позволяет уменьшить динамический диапазон передаваемого сигнала, а при использовании ИКМ уменьшить необходимое количество уровней квантования при заданной дисперсии шума квантования.
4.5.Увеличение энтропии дискретного источника независимых, неравновероятных сообщений с помощью неравномерного кодирования. Алгоритм Хаффмена.
Из вышеприведенного примера видно, что после укрупнения сообщений источника мы имеем те же сообщения. Они были закодированы кодом К2, энтропия которого больше, чем энтропия исходного сообщения, т.е. кода К1 . Символы нового кода независимы, некоррелированы. Однако, энтропия этого кода К2, вообще говоря, не максимальна, так как символы нового кода не равновероятны. Для дальнейшего увеличения энтропии необходимо закодировать символы кода К2 так, чтобы символы нового кода К3 были равновероятны. Это достигается неравномерным кодированием, например, в соответствии с алгоритмом Хаффмена. В соответствии с этим алгоритмом получим код с префиксными свойствами :
более короткая кодовая комбинация не должна являться началом более длинной комбинации.
Это позволяет осуществить однозначное декодирование без разделительных символов ( в отсутствии помех).
Алгоритм Хаффмена предполагает построение «кодового дерева». Алгоритм построения кодового дерева:
32
а) Расположить исходные сообщения в порядке убывания (невозрастания) вероятностей; б) Объединить два наименее вероятных сообщения в одно, вероятность
которого равна сумме вероятностей объединяемых сообщений (точка объединения сообщений называется «узлом кодового дерева»); в) Повторять шаги а) и б) до тех пор, пока не получим одно сообщение с
вероятностью 1. Эта точка называется «вершиной кодового дерева». Например, кодовое дерево имеет такой вид для источника сообщений, заданного в примере :
Рис.4.2.
Алгоритм кодирования слов новым двоичным кодом следующий: -идём от вершины кодового дерева к сообщению,
-если в узле мы идём вверх, то в кодовую комбинацию записывается единица, если вниз – ноль. В результате получим:
S4 => “1” ; S2 => “00” ; S1 => “011” ; S3 => “010 ” .
Проследите кодирование по кодовому дереву. Мы получили код К3 с префиксными свойствами.
Рассчитаем энтропию нового двоичного кода. |
Для этого надо определить |
||
вероятности нулей и единиц |
в новом коде. |
Пусть слова исходного |
|
источника S1, S2, S3, S4 имеют вероятности |
и закодированы как в нашем |
||
примере. Из 100 среднестатистических сообщений будем иметь S1 - 14 |
|||
сообщений; S2 - 21 сообщение; S3 - 9 сообщений; |
S4 - 56 сообщений. В |
||
соответствии с новым кодом имеем: |
|
|
*14 сообщений S1, т.е. 14 символов 0 и 28 символов 1;
*21 сообщение S2, т.е. 42 символа 0;
*9 сообщений S3, т.е. 9 символов 1 и 18 символов 0;
*56 сообщений S4, т.е. 56 символов 1.
Таким образом, 100 среднестатистических сообщений содержат:
cимвол 0: |
N0 = 14*1 + 21*2 + 9*2 = 74 |
штуки; |
cимвол 1: |
N1 = 14*2 +9*1 + 56*1= 93 |
штуки. |
Вероятность появления единиц и нулей: |
||
p(1) = N1/(N1+N0)=93/167 = 0.557; |
p(0)=0.443. |
Энтропия нового двоичного источника H’’:
33

H’’ = - p(1) ×log p(1) – p(0) log p(0)= - 0.557 ×log0.557–0.443 ×log0.443 = =0.994 (двоичных ед./символ)
Избыточность нового двоичного источника, существенно уменьшилась: R’’=1-0.994=0.006.
Определим среднюю длину кодовой комбинации:
N |
|
nср = ∑pk nk ; |
(4.12.) |
k =1
рк - вероятность k-того сообщения,комбинации; nk – длина кодовой комбинации k-го сообщения. Для нашей задачи получим:
nср =0.56+ 0.14×3 + 0.21×2 + 0.09×3 = 1.67 (дв.симв. / сообщение)
Можно сделать вывод, что энтропия полученного кода К3 практически максимальна.
4.6. Эффективные способы передачи Описанные методы нашли широкое применение в современных
модификациях ИКМ.
Дифференциальная ИКМ (ДИКМ). Этот способ передачи состоит в вычислении ошибки предсказания. Ошибка предсказания кодируется при меньшем числе уровней квантования. Структурная схема системы связи с ДИКМ показана на рис.4.3.
хk |
|
|
|
∆хk |
|
|
|
ДИКМ |
|
|
Квантователь |
|
|
||||
|
|
|
|
|
|
Кодер ИКМ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Предсказатель +
Линия |
|
|
|
|
|
|
|
связи |
|
∆хk |
|
|
|
хk |
|
Декодер ИКМ |
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Предсказатель |
|||
|
|
|
|
|
|
|
|
Рис.4.3.
34

Предсказатель - это трансверсальный фильтр. Его структурная схема
показана на рис.4.4.
Линия задержки
Ск-1 |
|
Ск-2 ………… |
С1 |
|
|
|
|
∑ |
|
|
Рис.4.4. |
|
|
|
|||
|
|
|
|
|
|
Дельта - модуляция (ДМ).
При ДМ в тактовый момент времени передаётся только знак изменения функции по сравнению с предыдущим отсчётом рис.4.5.
Если приращение положительное, то передаём "+1", если приращение отрицательное, то передаём "-1".
На приёме принятые импульсы подаются на ФНЧ, или интегратор.
x(t) |
|
∆x |
t |
UДМ(t) |
|
|
t |
Рис.4.5.
Погрешности дискретизации и квантования приблизительно такие же, как и при ИКМ. Ширина спектра сигнала ДМ приблизительно равна ширине спектра сигнала ИКМ при одинаковых качественных показателях.
4.7. Увеличение энтропии путём увеличение основания кода m. Будем считать, что символы нового двоичного кода К3 (m = 2) , полученного выше, практически равновероятны и каждый символ переносит
35