Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
конспект лекции ТИ.docx
Скачиваний:
1
Добавлен:
01.04.2025
Размер:
798.88 Кб
Скачать

10.2 Избыточность сообщений

В качестве источника сообщений рассмотрим оператора, который вводит в компьютер текста на русском языке. Очевидно, что буквы в тексте появляются с разными вероятностями. Так, буква А передается значительно чаще чем Ц или Ю. Кроме того, появление очередной буквы зависит от предыдущей. Ясно, что после гласных не появится Ь, Ъ или Ы. Весьма редким будет появление подряд трех букв Е (в слове «змееед»). Таким образом, на выходе источника «с памятью» (зависимыми сообщениями) неопределенность оказывается меньше, чем при отсутствии памяти, когда сообщения появляются хаотично. Таким образом, мы подошли к понятию избыточности источника, которую формально можно определить соотношением:

. (10.3)

Отсюда видно, чем больше энтропия, тем меньше избыточность источника и наоборот. Ясно также, что величина избыточности принимает значения в пределах 0≤ρ≤1.

Данная величина характеризует число букв (символов) n, используемых источником сообщений для передачи заданного количества информации, относительно необходимого букв.

Избыточность можно определить так:

ρ=(n-nmin)/n=1-nmin/n. (10.4)

Величину μ=H(A)/logN=nmin/n называют коэффициентом сжатия. Он показывает, до какого значения без потери информации можно сжимать передаваемые сообщения, если устранить содержащуюся в них избыточность. Например, при передаче телеграмм из текста исключают союзы, знаки препинания которые легко восстанавливаются при чтении на основании известных правил.

Очевидно, что избыточность приводит к увеличению времени передачи сообщений, излишней загрузке каналов связи и, как следствие, - к снижению эффективности их использования. Вместе с тем было бы неверным всегда рассматривать избыточность как признак несовершенства источника сообщений. В ряде случаев она бывает полезной. Наличие зависимостей между буквами и словами текста дает возможность восстанавливать его при искажении отдельных букв, т.е. избыточность можно использовать для повышения достоверности передачи информации в условиях воздействия помех.

Помимо избыточности важным параметром, характеризующим любой источник с фиксированной скоростью Vи=1/Ти симв/с выдачи сообщений, является его производительность, которую определяют как энтропию в единицу времени (секунду):

H’(A)=VиH(A). (10.5)

Если энтропия максимальна и равна log N, то величина Rи=logN/Tи, бит/с, называется информационной скоростью источника.

Смысл производительности – среднее количество информации, которое выдается источником в течение одной секунды непрерывной работы.

10.3 Теорема об эффективном кодировании.

Теоретическую основу эффективного кодирования составляет основная теорема К.Шеннона для канала без шума. Суть этой теоремы состоит в следующем.

Пусть источник имеет энтропию H (бит на символ), а канал имеет пропускную способность C (бит в секунду). Тогда можно закодировать сообщения на выходе источника таким образом, чтобы передавать символы (элементы) по каналу со средней скоростью C/H-E символов в одну секунду, где E – сколь угодно мало. Передавать элементы сообщения со средней скоростью, больше чем C/H, невозможно.

Рисунок 10.1

Отметим, что при кодировании элементов ДС, передаваемых по каналу связи без помех, необходимо выполнить следующие два условия:

1) кодовые комбинации должны быть различны (т.е. однозначно декодироваться на приеме) и однозначно связаны с соответствующими элементами ДС;

2) способ кодирования должен обеспечить максимальную экономичность (минимальную среднюю значность) кода, при которой на передачу данного сообщения затрачивается минимальное время или обеспечивается максимальная скорость передачи. Эффективные коды, удовлетворяющие первому условию, называют префиксными (в этих кодах ни одна кодовая комбинация не является передней частью или «префиксом» другой кодовой комбинации). Коды, удовлетворяющие второму условию, называют оптимальными.

Минимальная средняя значность nmin оптимального кода при кодировании сообщений источника, вырабатывающего неравновероятные независимые друг от друга элементы находится из равенства

. (10.6)

Причем среднее число кодовых символов конкретного кода, приходящихся на один элемент (символ) сообщения, определяют так:

. (10.7)

Для оптимального двоичного эффективного кода (в=2, m=2)

. (10.8)

В этом случае условие оптимальности n=nmin достигается, если в (11.7) и (11.8) принять

. (10.9)

Итак, в оптимальном эффективном коде значность ni кодовой комбинации , соответствующий элементу сообщения А, зависит от вероятности pi ее наступления. Чем больше вероятность, тем меньше значность кодовой комбинации и наоборот. С учетом этого, подобные коды называют еще статистическими (вероятностными). Кроме того, эффективные (статистические) коды относятся к неравномерным.

Избыточность кодера источника оценивают так:

. (10.10)

Примерами двоичных эффективных кодов, близких к оптимальным и обеспечивающих избыточность , близкую к нулю, являются коды Шеннона-Фано и Хаффмена.

Разберем принцип двоичного кодирования по методу Шеннона-Фано. Элементы , ДС располагаются вначале в виде столбца (группы) в порядке убывания их вероятностей. При кодировании на первом этапе эта группа разбивается на две подгруппы, по возможности с равными суммарными вероятностями. Всем элементам первой подгруппы приписывается первый кодовый символ 0, для второй подгруппы I. На втором этапе каждая из подгрупп также разбивается на две подгруппы с примерно равными вероятностями, и частная подгруппа определяет второй двоичный символ. Этот процесс продолжается до тех пор, пока не получатся подгруппы, содержащие только по одному элементу сообщения.

В таблице 10.1 приведен пример построения эффективного кода Шеннона-Фано для источника ДС с распределением вероятностей:

, , , .

Для данного источника: Н (А)=1,75 бит, Hmax= 2 бит, r(A)=0.125.

Для построенного кода: бит, nmin=1.75 бит, . Следовательно, данный код оптимален. В табл. 1.1 для сравнения построен равномерный примитивный код: бит. Отношение / = ксж называют коэффициентом сжатия. Здесь Ксж=1,15.

Таблица 10.1

А

Этапы кодирования

Эффект. код

Примитив. код

I

II

III

Код. комб.

Знач-

ность

ni

Код. комб.

Значность

niпр

а3

а1

а0

а2

0,5

0,25

0,125

0,125

0

1

1

1

-

0

1

1

-

-

0

1

0

10

110

111

1

2

3

3

11

01

00

10

2

2

2

2