Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Дырда, Иващенко Учебн пособие рус

.pdf
Скачиваний:
50
Добавлен:
10.02.2016
Размер:
737.16 Кб
Скачать

11

1.8. Чему равно максимальное значение энтропии двоичного источника независимых сообщений и при каких условиях оно имеет место?

ЗАДАЧИ для самостоятельной работы студентов

1.1.Алфавит источника составляют три знака a1, a2 и a3 с вероятностями Р(а1) = 0,1 и Р(а2) = 0,3. Длительности выдачи сообщений 1,0 мс, 2,0 мс и 3,0 мс соответственно. Вычислить количество информации в каждом знаке, энтропию, производительность и избыточность источника.

1.2.Найти количество информации в слове ентропія, если считать, что буквы независимые. Вероятности букв украинского содержательного текста предоставлены в табл. 4.1.

1.3.Источник дискретных сообщений выдает сообщения, используя МА = 8 знаков. Энтропия источника 2,5 дв.ед./знак. Вычислить коэффициент избыточности источника.

1.4.Вычислить производительность источника дискретных сообщений, если его энтропия Н(A) = 2,25 дв.ед./знак; средняя длительность знака – 10 мс.

Словарь основных терминов и понятий

Асинхронный источник – длительности выдачи знаков источником могут быть разны-

ми.

Бит (синоним – дв.ед.) – единица измерения количества информации; в сообщении, вероятность которого равняется 0,5, количество информации равняется 1 биту.

Двоичная единица, сокр. дв.ед. (синоним – бит) – единица измерения количества информации; в сообщении, вероятность которого равняется 0,5, количество информации равняется 1 дв.ед.

Энтропия источника – среднее количество информации в одном знаке источника сообщений; характеризует неопределенность состояния источника сообщений.

Информация – совокупность сведений об окружающем нас мир (явления, события, факты и т.п.), которые мы получаем в результате взаимодействия с ним; эти сведения заранее неизвестны получателю.

собственная (синоним – безусловная) – количество информации в сообщении ak источника дискретных независимых сообщений.

условная – количество информации в сообщении ak источника дискретных зависимых сообщений при условии, что известны сообщения, с которыми сообщение ak имеет статистическую зависимость.

Коэффициент избыточности – числовая характеристика избыточности источника сообщений. Показывает, какая часть максимально возможной энтропии не используется источником. Приобретает значения от 0 (избыточности нет) до 1 (сообщения не несут информации).

Избыточность – свойство источника сообщений выдавать информацию большим количеством знаков, чем можно было бы.

Сообщение – материальная форма представления информации.

Производительность источника сообщений – средняя скорость выдачи информации источником.

Синхронный источник – длительности выдачи всех знаков источника одинаковые.

Лекция2. Информационныехарактеристикидвухисточниковдискретныхсообщений

Тематика лекции

1 Математическая модель двух источников дискретных сообщений (зависимых и независимых) и ее параметры.

2 Информационные характеристики двух источников дискретных сообщений: количество информации, общая и взаимная энтропии, их свойства; избыточность и производительность.

12

Таблица Л2.1 – Расчетные формулы информационных характеристик двух источников дискретных сообщений

Наименование характеристики

Расчетная формула

Номер

фор-лы

 

 

 

 

 

 

 

 

 

Условное количество информации в сообщении

І(аk/bj) = – log2 P(аk/bj)

 

(знаке) аk или bj объединенного ансамбля AB

(2.1)

двух источников дискретных сообщенийA и B,

І(bj/ak) = – log2 P(bj/ak)

 

дв.ед. (бит)

 

 

 

 

 

 

 

 

 

 

H A B

 

 

 

 

 

 

 

 

Условная энтропия двух источников сообщений

I(ak

bj )

(2.2)

A и B или B и A, дв.ед. (бит)

H B A I(bj

ak )

 

Общее количество информации в сообщениях

І(аk, bj) = – log2 P(аk, bj)

 

(знаках) аk и bj объединенного ансамбля AB двух

(2.3)

І(bj, ak) = – log2 P(bj, ak)

источников сообщений A и B, дв.ед. (бит)

 

 

 

 

 

 

 

 

 

 

Общая энтропия объединенного ансамбля AB

Н(A, B) = Н(A) + Н(B/A) =

 

двух источников сообщений A и B, дв.ед./знак

(2.4)

= Н(B) + Н(A/B)

(бит/знак)

 

 

 

 

 

 

 

 

 

 

Взаимная энтропия объединенного ансамбля AB

Нвз(A, B) = Н(A) – Н(A/B) =

 

двух источников сообщений A и B, дв.ед./знак

(2.5)

= Н(B) – Н(B/A)

(бит/знак)

 

 

 

 

 

 

 

 

 

 

Производительность объединенного ансамбля

 

 

 

 

 

 

 

 

 

AB двух источников сообщений A и B, дв.ед./с

Rи(A, B) = Н(A, B)/

 

 

 

 

(2.6)

Т

(бит/с)

 

 

 

 

 

 

 

 

 

Скорость передачи информации от источника

 

 

 

 

 

 

 

 

 

сообщений A к источнику B или от источника

Rвз(A, B) = Нвз(A, B)/

 

 

(2.7)

Т

сообщений В к источнику А, дв.ед./с (бит/с)

 

 

 

 

 

 

 

 

 

Пояснение: P(аk/bj) – апостериорная (условная) вероятность сообщения (знака) аk источника A, если сообщение (знак) bj источника B известное;

Т – средняя длительность сообщения (знака)

Примечание. В табл. Л2.1, а в дальнейшем и в лекциях модуля 2, приняты некоторые обозначения, которые отличаются от обозначений в [1] и другой литературе, в частности:

взаимная энтропия двух источников сообщений A и B обозначается как Нвз(A, B), а

не I(A, B);

скорость передачи информации от источника сообщений A к источнику B обозначается как Rвз(A, B), а не I (A, B).

Это сделано с целью унификации обозначений и улучшения их восприятия, посколь-

ку во всей литературе по теории информации энтропия обозначается буквой H, а скорость – буквой R.

Математическая модель двух источников. По терминологией [1, с. 299...300] два стационарных источника A и B имеют объединенный ансамбль AB и выдают дискретные сообщения аk и bj.

Статистические характеристики двух источников сообщений такие:

априорные (безусловные) вероятности знаков аk и bj P(аk) и P(bj), k, j = 1, 2, ..., MА;

апостериорные (условные) вероятность знаков аk источника A, если имел место знак bj источника B P(аk/bj), k, j = 1, 2, ..., MА;

совместные вероятности знаков аk и bj P(аk, bj) = P(аk)P(bj/ak) = P(bj)P(ak/bj), k, j = 1, 2, ..., MА;

длительности выдачи знаков аk или bj источниками Тk или Тj, k, j = 1, 2, ..., MА.

13

Типичным примером двух источников сообщений является схема: источник A действует на входе канала связи, а выход этого канала связи – источник В. Мы наблюдаем сообщение на выходе канала (из источника B), а информацию должны получить об источнике A.

Количество информации в сообщении аk или bj объединенного ансамбля AB двух

!источников сообщений A и B характеризуется условной и общей информацией – формулы (2.1) и (2.3) в табл. Л2.1

Энтропии двух источников и их свойства детально описаны в [1, с. 302...304]. Об-

ращаем внимание на такое положение:

Информационными характеристиками объединенного ансамбля AB двух источни-

!ков сообщений A и B являются условная, общая и взаимная энтропии. Расчетные формулы (2.2), (2.4) и (2.5) в табл. Л2.1

Взаимная энтропия объединенного ансамбля AB двух источников сообщений по-

!казывает среднее количество информации, которую можно получить об источнике А, наблюдая источник В

Упражнение 2.1. Вывести формулы для вычисления общей H(A, B) и взаимной Hвз(A, B) энтропий двух источников сообщений.

Решение. Поскольку энтропия это – математическое ожидание количества информации, то общая энтропия объединенного ансамбля AB двух источников сообщений A и B

H A,B I(ak ,bj) log2 P(ak,bj).

Для объединенного ансамбля AB двух источников

P(ak ,bj ) P(ak )P(bj ak ) i log2(ak ,bj ) log2 P(ak ) log2 P(bj ak )

Тогда log2 P(ak ,bj ) log2 P(ak ) log2 P(ak ,bj ).

А согласно формулам (1.4) и (2.2)

Н(A, B) = Н(A) + Н(B/A) = Н(B) + Н(A/B),

поскольку P(аk, bj) = P(bj, ak).

Из определения взаимной энтропии и полученной выше формулы

Нвз(A, B) = Н(A) – Н(A/B) = Н(B) – Н(B/A).

Упражнение 2.2. Доказать, что общая энтропия двух независимых источников сообщений A и B равняется сумме их собственных энтропий, т.е. H(A, B) = H(A) + H(B).

Решение. Поскольку совместная вероятность независимых сообщений P(ak, bj) = = P(ak) P(bj), то Н(B/A) = Н(B) и из формулы (2.4) вытекает, что H(A, B) = H(A) + H(B).

Упражнение 2.3. Доказать, что взаимная энтропия двух независимых источников сообщений A и B равняется нулю, т.е. Hвз(A, B) = 0.

Решение. Поскольку для независимых сообщений P(ak/bj) =P(ak) и P(bj/ak) =P(bj), то Н(B/A) = Н(B) и Н(A/B) = Н(A). Тогда из формулы (2.5) вытекает, что Hвз(A, B) = 0.

Пример 2.1. Два источника сообщений A и B имеют энтропии, дв.ед./знак: Н(A) = 5,2; Н(A/B) = 2,2; Н(B) = 5,3; Н(B/A) = 2,3. Вычислить общую и взаимную энтропии этих двух источников.

Решение.

По

формулам (2.4)

и (2.5) общая энтропия Н(A, B) =

Н(A)

+

Н(B/A)

=

= Н(B) + Н(A/B)

=

5,2 + 2,3 = 7,5

дв.ед./знак, а взаимная Hвз(A, B) =

Н(A)

Н(A/B)

=

= Н(B) – Н(B/A) = 5, 3-3,3 = 3,0 дв.ед./знак.

 

 

 

 

Производительность объединенного ансамбля AB двух источников сообщений вы-

числяется по общей энтропии [1, с. 305], формула (2.6) в табл. Л2.1.

14

Производительность двух источников сообщений A и B, вычисленную по взаим-

ной энтропии, в [1] и [2] называют скоростью передачи информации от источни-

!ка A к источнику B. Ее можно трактовать как взаимную скорость обмена информацией между источниками A и B

Пример 2.2. Вычислить производительность объединенного ансамбля AB двух источников сообщений, описанного в примере 2.1, если средняя длжительность сообщений 1,5 мс.

Решение. Общая энтропия этого ансамбля из примера 2.1 Н(A, B) = 7,5 дв.ед./знак. Тогда по формуле (2.6) производительность объединенного ансамбля AB двух источников

сообщений Rи(A, B) = Н(A, B)/Т = 7,5/(1,5ּ10–3) = 500 дв.ед./с.

Пример 2.3. Вычислить скорость передачи информации между двумя источниками A и B, описанными в примере 2.1, если средняя длительность сообщений 1,5 мс.

Решение. Взаимная энтропия этих источников из примера 2.1 Нвз(A, B) = 3,0 дв.ед./знак. Тогда по формуле (2.7) скорость передачи информации между двумя источниками A и B

Rвз(A, B) = Нвз(A, B)/Т = 3,0/(1,5ּ10–3) = 200 дв.ед./с.

Контрольные вопросы

2.1.Дать определения понятий совместная и взаимная энтропия двух источников со-

общений.

2.2.Перечислить основные свойства совместной и взаимной энтропии двух источников сообщений.

2.3.Как вычисляется производительность объединенного ансамбля AB двух источников сообщений?

2.4.Как вычисляется скорость передачи информации от источника сообщений А к источнику сообщений В?

ЗАДАЧИ для самостоятельной работы студентов

2.1.Два источника сообщений A и B имеют энтропии, дв.ед./знак: Н(A) = 4,2; Н(A/B) = 1,2; Н(B) = 4,3; Н(B/A) = 1,3. Вычислить общую и взаимную энтропии объединенного источника сообщений АВ.

2.2.По рассчитанным в задаче 2.1 общей и взаимной энтропиях объединенного ансамбля АВ двух источников сообщений А и В вычислить производительность источника АВ и скорость передачи информации от источника А к источнику В, если средняя длительность сообщений 2,0 мс.

Словарь основных терминов и понятий

Энтропия взаимная двух источников сообщений A и B – среднее количество инфор-

мации на одно сообщение источника A, которое можно получить, наблюдая сообщения источника B.

общая двух источников сообщений A и B – среднее количество информации на одно сообщение объединенного ансамбля AB двух источников A и B с учетом статистической зависимости между ними.

условная источника A (или B) – среднее количество информации в одном сообщении источника A (или B) при условии, что известны сообщения источника B (или A).

Производительность двух источников дискретных сообщений A и B – скорость выда-

чи информации объединенным ансамблем AB двух источников, которая вычисляется по общей энтропии.

Скорость передачи информации между двумя источниками A и B – скорость обмена информацией между источниками A и B, которая вычисляется по взаимной энтропии.

15

Лекция 3. Кодирование источников дискретных сообщений

Тематика лекции

1 Кодирование в телекоммуникационных системах – задачи и цели кодирования, классификация кодов, изучение кодов в разных модулях дисциплины ТС.

2 Кода источника – параметры кодов, представление кодов, типы кодов и их характеристики, используемые ныне стандартные коды.

3 Эффективные кода – определение, параметры, принципы и алгоритмы кодирования кодами Шеннона-Фано и Хаффмана, применение.

Таблица Л3.1 – Расчетные формулы к кодированию источника дискретных сообщений

Наименование параметра

 

 

Расчетная

Номер

 

 

формула

фор-лы

 

 

 

Количество кодовых комбинаций равномерного кода

 

 

M = mn

(3.1)

Длина (разрядность) равномерного двоичного кода

 

 

n = logmM

(3.2)

 

 

 

 

 

 

 

 

Соотношение между объемом алфавита (количеством знаков) ис-

 

 

MА M

(3.3)

точника и количеством кодовых комбинаций кода

 

 

 

 

 

 

 

 

 

 

Длительность двоичного символа (бита)

 

 

Тб = Тзн/n

(3.4)

 

 

 

= P(ak)nk

 

Средняя длина кодовых комбинаций неравномерного кода

n

(3.5)

 

 

 

k

 

Коэффициент сжатия неравномерного кода

 

 

=n/

 

 

 

(3.6)

 

 

n

Коэффициент эффективности неравномерного кода

 

 

= H(A)/

n

(3.7)

 

 

 

 

 

 

 

 

Пояснения: nk – длина k-ой комбинации неравномерного кода;

 

 

 

 

 

 

 

m – основание кода;

 

 

 

 

 

 

 

Тзн – длительность выдачи знака источником; H(A) – энтропия источника.

Необходимость кодирования источника. Как правило, сообщения, которые выда-

ются источником, предназначены для непосредственного восприятия органами чувств человека и, конечно, не приспособлены для их передачи каналами связи. Поэтому они в процессе передачи, обычно, подвергаются кодированию и, как правило, неоднократно.

Необходимость кодирования возникает, прежде всего, из необходимости приспособить форму сообщения к данному каналу связи или устройству, предназначенному для преобразования или хранения информации. Но после кодирования кодером источника в систему электросвязи включается еще и кодер канала. Это связано, прежде всего, с тем, что в современных телекоммуникационных системах сообщения передаются цифровыми сигналами и обрабатываются цифровыми методами.

Втелекоммуникационных системах коды имеют разное функциональное назначение

иих классификация предоставлена на рис. Л3.1.

Все эти классы кодов рассматриваются в разных модулях дисциплины ТС:

-коды источника и коды АЦП – в модуле 2, кодирование источника является составной частью “Теории информации”;

-коды линии и модуляционные коды – в модуле 1, они обеспечивают согласование сигналов электросвязи с параметрами каналов связи;

-корректирующие (помехоустойчивые) коды непосредственно вытекают из основных положений “Теории информации” относительно потенциальных возможностей передачи информации каналами связи и рассматриваются в модуле 4.

16

Функциональные назначения кодов

Кодированиесообщений дискретныхинепрерывныхисточников

 

Коды источника

 

 

 

Кодирование отсчетов непрерывных сигналов при аналогоцифровом преобразовании

Кодирование цифровых последовательностей для их передачи линиями связи

Коды АЦП

Коды линии

Кодирование блоков двоичных символов в модуляторах

 

Модуляционные

сигналов цифровой модуляции

 

коды

 

 

 

 

 

 

Корректирование ошибок, возникающих при передаче

 

Корректирующие

сигналов каналами связи

 

коды

 

 

 

 

 

 

Рисунок Л3.1 – Классификация кодов по функциональному назначению

Основные термины, понятия и определение из кодирования. В литературе по тео-

рии информации и кодирования, теории электросвязи, цифровой связи, в частности [1, 2, 3, 4], применяется многообразие терминов и определений: код, кодирование, кодер, декодер,

кодек, формат кода, сообщение, знаки, символы, биты, информационные биты, информационная последовательность, данные, цифровой поток, цифровой сигнал.

Определение большинства этих терминов можно найти в рекомендованной литературе [1, с. 11...16] и [3, с. 12...16]. В конце лекции приведен словарь основных терминов и понятий, относящихся к кодированию источника.

Коды дискретного источника осуществляют преобразование сообщений (знаков) источника в символы вторичного алфавита. Каждому знака присваивается кодовая комбинация по определенному правилу. Как правило, такие коды равномерные. Процедура кодирования и декодирования кодами дискретного источника детально описана в рекомендованной литературе [1, с. 11...16] и [3, с. 12...16]. Ниже приведено важное правило такого кодирования.

Кодирование источника дискретных сообщений, как правило, ведется без потерь

!информации, поэтому оно не изменяет ни количество информации источника, ни его энтропию

Необходимо обратить внимание и запомнить основные параметры кодов источника и их классы, а именно: первичный алфавит; вторичный алфавит, или основание (объем) кода; длина (разрядность) кода; коды равномерные и неравномерные; двоичные и недво-

ичные; избыточные и простые; префиксные. Определение всех этих терминов и понятия представлены в рекомендованной литературе и словаре терминов.

По своей структуре коды источника можно разделить на две группы: натуральные и стандартные коды.

17

Натуральные коды – это представление числового номера знака (перед кодированием знаки источника каким-то образом необходимо перенумеровать) в любой позиционной системе исчисления с основанием m. Пример такого кодирования предоставляет табл. Л3.2.

 

 

 

 

 

 

 

 

 

 

Основание (объем)

кода

Таблица Л3.2 – Натуральные коды источника

 

 

 

может быть любой, но наиболь-

 

 

с разным основанием m

 

 

 

 

 

 

 

 

шее распространение имеют дво-

Знаки

Код с

Код с

Код с

Код с

 

 

ичные коды,

которые очень про-

m = 10

m = 8

m = 4

m = 2

 

 

 

сто формируются и легко обделы-

a0

0

00

 

00

0000

 

 

 

ваются цифровыми устройствами.

a1

1

01

 

01

0001

 

 

 

Поэтому

в

дальнейшем

будем

a2

2

02

 

02

0010

 

 

 

считать,

что

кодирование

источ-

a3

3

03

 

03

0011

 

 

 

ника дискретных сообщений вы-

a4

4

04

 

10

0100

 

 

 

полняется по схеме, приведенной

a5

5

05

 

11

0101

 

 

 

на рис. Л3.2.

 

 

 

a6

6

06

 

12

0110

 

 

 

 

 

 

 

Стандартные коды – это

a7

7

07

 

13

0111

 

 

 

 

представление знаков

источника

a8

8

10

 

20

1000

 

стандартизированными

тем или

 

 

 

 

 

 

 

 

 

иным образом кодовыми комби-

 

 

 

 

 

 

 

 

 

нациями.

Стандартизация ведется

национальными или международными организациями со стандартизации.

 

 

 

 

 

 

 

 

 

 

 

 

Двоичные

 

 

 

 

Источник

 

Знаки

 

Кодер

 

символы

 

 

 

 

сообщений А

 

 

 

источника

Выход источника В

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рисунок Л3.2 – Кодирование источника дискретных сообщений

Перечень стандартных кодов за более чем 170-летнюю историю существования электрической связи довольно большой. К ним относятся коды: Морзе, Бодо (первый международный пятиразрядный телеграфный код), МТА № 2 (Международный телеграфный алфавит № 2), МТК № 2 (Международный телеграфный код № 2, который отличается от МТА № 2 наличием кириллицы), МТА № 3, МТК № 5, русские – КОИ-7 (код отображения информации

– код отображения информации), ДКОИ-8 (двоичный код отображения информации – двоичный код отображения информации ), американские – ASСII (American Standard Code for Information Interchange – американский стандартный код для обмена информацией), EBCDIC (Extended Binary Coded Decimal Interchange) – расширенный двоично-десятичный код обмена информацией и т.д.

Некоторые из стандартных кодов уже не применяются или находят ограниченное применение, например, коды Морзе, Бодо, МТК-2, КОИ-7, ДКОИ-8 и др.

!

 

 

Характеристики стандартных кодов приведены ниже

Код МТК № 2 – равномерный, пятиразрядный. Поскольку общее число кодовых комбинаций этого кода M = 32, то для кодирования большего числа знаков источника применяется регистровый принцип, при котором кодер и декодер содержат три кодовых таблицы, которые могут переключаться, и одна и та же кодовая комбинация служит для кодирования разных знаков (см. пример 1.1 из [3]).

Код ASCII – равномерный, семиразрядный. Поскольку общее число кодовых комбинаций этого кода M = 128, то для кодирования знаков источника можно не применять регистровый принцип. Но если его применять для кодирования кириллицей (буквами русского или украинского алфавитов), то семи разрядов уже мало. Используется восьмой разряд. Под кириллицу используются двоичные комбинации, которые не заняты в общепринятом коде,

18

чтобы сохранить неизменным кодирование латинских букв и других знаков. Так возник русский код ДКОИ-8, затем с появлением персональных компьютеров – альтернативный код Windows – код 1251. Кроме того, код ASCII довольно гибкий. Он может быть и шестиразрядным (один разряд не используется), и восьмиразрядным (добавляется разряд проверки кодовых комбинаций на четность для нахождения ошибок).

Простейшим способом представления кодов являются кодовые таблицы, которые ставят в соответствие: знак – кодовая комбинация (см. табл. Л3.2).

Применяется также представление кодов определенной формулой (как правило, это касается корректирующих кодов) и в виде кодового дерева. Кодовое дерево представляет собой граф, из каждого узла которого выходит m веток. Для двоичного кода m = 2, т.е. выходят две ветки, которые кодируются как “0” и “1”. Пример кодового дерева представлен в табл. Л3.3.

Равномерные двоичные коды очень широко используются в силу своей простоты и удобства процедур кодирования-декодирования: каждому знаку соответствует одно и то же количество кодовых символов.

Декодирование неравномерных кодов – процедура намного сложнее, чем декодирование равномерных кодов. При этом усложняется аппаратура декодирования и синхронизации, поскольку декодирование знаков становится нерегулярным. Так, например, если на вход декодера поступил кодовый символ, например, 0, то декодер должен просмотреть кодовую таблицу и выяснить, какому знаку соответствует такая кодовая комбинация. Если такой комбинации нет, декодер ждет прихода следующего кодового символа. Если со следующим кодовым символом комбинацию будет найдено, то декодирование комбинации из двух символов завершится. Если за вторым символом комбинацию снова не будет найдено, необходимо ждать третьего символа и т.д.

Эффективные коды. Определение. Как правило, выход кодера источника (рис. Л3.2)

– это выход двоичного источника сообщений В. В каком соотношении находятся информационные характеристики источников А и В?. Производительности источников А и В одинаковые, а энтропии и коэффициенты избыточности разные (в общем случае), поскольку разные алфавиты источников и разные вероятностные характеристики знаков.

Упражнение 3.1. Доказать, что при использовании равномерных кодов коэффициент избыточности источника В не меньше коэффициента избыточности источника А.

Длина двоичного равномерного кода: n log2 MА .

Коэффициент избыточности источника А: Kизб(A) 1 H(A)/log2 MА . Коэффициент избыточности источника В: Kизб(B) 1 H(B)/log2 m 1 H(B). Очевидные соотношения: H(B) H(A)/n H(A)/log2 MА .

Kизб(B) 1 H(А)/log2 MА Kизб(A) .

Итак, в результате кодирования равномерным кодом избыточность сообщений может остаться неизменной или увеличиться.

Эффективными (экономными) называют коды источников сообщений, которые

!обеспечивают уменьшение избыточности сообщений при кодировании

Благодаря уменьшению избыточности сообщений эффективные коды предоставляют возможность более эффективно использовать каналы связи или устройства памяти.

Принципы построения эффективных кодов. Для того чтобы сформулировать прин-

ципы построения эффективных кодов, необходимо вспомнить причины избыточности сообщений:

-статистическая зависимость между знаками в сообщениях источника;

-неравновероятность знаков в сообщениях источника.

Поэтому построение эффективного кода проводится в два этапа. На первом этапе устраняется статистическая зависимость между знаками, которые подлежат кодированию, путем укрупнения алфавита. Укрупнение алфавита заключается в том, что некоторые знаки

19

источника А объединяются в знакосочетания из нескольких знаков (в слова). Объединения выполняется так, чтобы знакосочетания в сообщениях были независимыми. Если знаки источника А независимые, то первый этап не требуется.

На втором этапе построения кода необходимо учесть следующие особенности:

двоичные символы на выходе кодера должны быть равновероятными;

в упражнении 3.1 доказано, что уменьшение избыточности возможно лишь при использовании неравномерных кодов;

чем меньше вероятность знака ak, тем меньше информации он несет, тем меньше двоичных символов (меньшую длину) должна иметь кодовая комбинация, которая соответствует знаку ak. Например, i(ak) = 3 дв.ед., тогда нецелесообразно использовать для знака ak комбинацию длины nk ≥ 4, поскольку это порождает избыточность;

код должен быть префиксным никакая из коротких кодовых комбинаций не должна быть началом более длинной кодовой комбинации. Тогда для правильного декодирования последовательности нет необходимости передавать разделительные знаки между кодовыми комбинациями.

Поскольку для построения эффективного кода используют вероятности знаков, то эффективные коды называют также статистическими.

Числовыми характеристиками эффективного кода являются:

коэффициент эффективности кода = H(A)/ n , т.е. отношение энтропии источ-

ника H(A) к средней длине кодовой комбинации n = nkP(ak ). Согласно теореме кодиро-

k

вания Шеннона 1;

коэффициент сжатия сообщений = n/n , т.е. отношение длины равномерного кода n к средней длине кодовых комбинаций n . Принимает значения 1, и чем лучше сжатие, тем значение больше.

Применяемые эффективные коды. Первым эффективным статистическим кодом был код Морзе (1837 г.), но он не префиксный, поэтому его коэффициент эффективности незначительный. Ныне его применение очень ограничено.

Первым эффективным префиксным кодом стал код Шеннона-Фано (1951 г.), описанный в [1, с. 308]. Алгоритм построения кода Шеннона-Фано имеет такую последовательность действий по шагам.

1.Упорядочение путем размещения знаков источника в порядке убывания их вероят-

ностей.

2.Разделение знаков на 2 группы с приблизительно равными вероятностями. Эта процедура приводит к разным конечным результатам, в зависимости от разделения знаков на группы, как это показано в табл. Л3.2 для двух вариантов.

3.Знакам верхней группы (в таблице) приписывается символ “0”, знакам нижней группы – символ “1” (или наоборот, это не имеет существенного значения).

4.Повторение шагов 2 и 3, пока разделения знаков на группы не закончится, и им не будут приписаны символы “0” или “1”.

5.Кодовая комбинация знака формируется путем выписывания символов, приписанных этому знаку, слева направо.

Пример 3.1. Построить код Шеннона-Фано. Знаки источника a1a6 независимые и

имеют такие вероятности: P(a1) = P(a2) = 0,05; P(a3) = 0,40; P(a4) = 0,20; P(a5) = P(a6) = 0,15.

Вычислить энтропию источника, среднюю длину кодовой комбинации, коэффициент эффективности и коэффициент сжатия полученного кода.

Решение. Возможны два варианта кода, которые показаны в табл. 3.3.

20

Таблица Л3.3 – Пример построения кода Шеннона-Фано

 

ak

P(ak)

 

 

 

 

Кодовые

 

ak

P(ak)

 

 

 

 

 

 

Кодовые

 

Шаги 1...4

комбина-

 

 

Шаги 1...4

 

комбина-

1-й

 

 

 

 

 

 

ции

2-й

 

 

 

 

 

 

 

 

ции

a3

0,40

0

0

 

 

00

a3

0,40

0

 

 

 

 

 

0

вари-

a4

0,20

 

1

 

 

01

вари-

a4

0,20

 

 

0

0

 

 

100

a5

0,15

 

0

 

 

10

a5

0,15

 

1

 

 

101

ант

 

 

 

ант

1

 

 

 

 

 

a6

0,15

1

 

0

 

110

 

a6

0,15

 

 

0

 

 

110

 

a1

0,05

1

1

0

1110

 

а1

0,05

 

 

1

1

 

0

1110

 

 

 

 

 

 

 

a2

0,05

 

1

1111

 

а2

0,05

 

 

 

 

1

1111

 

 

 

 

 

 

 

 

 

 

Из примера видно, что при первом варианте кодирования средняя длина кодовой комбинации n = 2,35 символов, а при втором варианте кодирования n = 2,30 символов. Энтропия источника H(A) = 2,247 дв.ед./знак.

Числовые параметры кода для лучшего второго варианта кодирования такие:

коэффициент эффективности = H(A)/ n = 2,247/2,3 = 0,977;

коэффициент сжатия = n/n = 3/2,3 = 1,3.

Вторым эффективным префиксным кодом является код, предложенный Д. Хаффманом (1952 г.). Этот код является оптимальным префиксным кодом для дискретных источников без памяти по критерию – минимальная средняя длина кодовой комбинации знака.

Код Хаффмана играет важную роль в кодировании изображений. Он является основной частью стандартов кодирования JPEG, MPEG и Н.261. Является стандартным для кодирования факсимильных сообщений согласно Рекомендации E.452 МСЭ. Кроме того, код Хаффмана используются для кодирования аудиосигналов.

Поскольку код Хаффмана рассматривается в рекомендованной литературе только в [3], рассмотрим его детально. Алгоритм построения кода Хаффмана базируется на кодовом дереве и имеет такую последовательность действий.

1.Упорядочение знаков путем размещения их в порядке убывания их вероятностей.

2.Выбирают два узла (знака) с наименьшими вероятностями. Из них строят две ветки, которые сходятся в один узел, который соответствует составному знаку, а его вероятность равна сумме вероятностей узлов, из которых вышли ветки. Веткам приписывают символы 1

и0, например, верхней ветке 1, а нижней ветке 0.

3.Повторение шагов 1 и 2 пока не будет достигнут корень кодового дерева.

4.Кодовая комбинация знака формируется путем выписывания символов, начиная из корня кодового дерева, проходя по веткам к этому знаку, т.е. справа налево.

Примечание. В случае, когда несколько знаков имеют одинаковые вероятности, объединяются те два из них, которые до этого имели наименьшее число объединений. Этим достигается выравнивания длин кодовых комбинаций, которое уменьшает среднюю длину кодовой комбинации.

Пример 3.2. Построить код Хаффмана. Знаки источника a1a6 независимые и имеют такие вероятности: P(a1) = 0,12; P(a2) = P(a3) = 0,10; P(a4) = 0,05; P(a5) = P(a6) = 0,15; P(a7) = 0,21; P(a8) = 0,08; P(a9) = 0,04. Вычислить энтропию источника, среднюю длину кодовой комбинации, коэффициент эффективности и коэффициент сжатия полученного кода.

Решение. Построение кода Хаффмана наглядно показано в табл. Л3.3. Перегруппировки не отображены на рисунке – в таком простом примере это сделано «в уме».

Средняя длина кодовой комбинации найденного кода n = 3,08. Длина кодовой комбинации равномерного кода, которым можно закодировать заданный алфавит, n log29 = 3,17. Поэтому n = 4. Энтропия источника

9

H(A) = – P(ak )log2 P(ak) = 3,02 дв.ед./знак.

k 1