Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
кодирования.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
12.08 Mб
Скачать

1.2. Информационные характеристики системы передачи сообщений

Такие понятия теории информации, как количество информации, передаваемое по каналу связи, энтропия, избыточность, пропускная способность канала являются интегральными оценками эффективнос- ти системы связи. Теория указывает потенциальные возможности сис- темы связи, которые надо стремиться реализовать на практике.

Мера количества информации

Мера количества информации должна отражать сущность работы систем передачи сообщений и служит основой для сравнения их между

собой. Для систем связи в большинстве случаев не имеет значения кон- кретное содержание сообщений, их ценность, важность, истинность или ложность. Системы передачи информации можно уподобить почте, для которой важен только сам факт отправления письма, а содержание пе- ресылаемых писем никак не учитывается. Поэтому понятие количества информации, применяемое для характеристики технических систем, значительно беднее, чем используемое нами в повседневной жизни.

Тем не менее, мера количества информации должна согласовы- ваться с интуитивными представлениями о существенных сторонах сообщений. При этом разумно руководствоваться следующими со- ображениями:

чем длиннее сообщение, тем большее количество информации оно должно содержать;

количество информации в сообщении тем больше, чем больше чис- ло возможных сообщений;

количество информации должно обладать свойством аддитивности,

т. е. количество информации, содержащееся, например, в двух незави- симых сообщениях, должно равняться сумме количества информации, переносимой каждым сообщением;

большее количество информации несут маловероятные сообщения

(сенсации).

Понятие количества информации прошло следующие этапы эволюции:

1. Сообщение состоит не из одного, а из многих символов (букв, знаков, элементов). Число возможных элементов определяется объемом m соответствующего алфавита (mi , mk , ms – i – источник, к – кодер,

s сигнал), а число элементов в сообщении n. При выборе первого

элемента сообщения производится выбор из m возможных элементов. При выборе второго делается выбор из того же числа m элементов, но число возможных комбинаций выбора двух элементов составляет уже m2 (при m = 2, например "0" и "1", возможных комбинаций 4: "00", "01", "10" и "11"). Если же сообщение содержит n элементов, то число раз- личных сочетаний этих элементов:

N = mn . (2.1) Значение N определяет число возможных сообщений. Оно и может

служить мерой количества информации. Однако мера N не обладает

свойством аддитивности. Действительно, количество информации в сообщении из n символов не равно сумме количеств информации из n1 и n2 символов, так как

1

mn # mn1 + mn2, если n

+ n2

= n.

2. Для удовлетворения условию аддитивности можно выбрать в ка- честве меры количества информации не само число N, а некоторую его функцию J = f (N). Р. Хартли в 1928 г. предложил логарифмическую меру количества информации:

J = log (N) = nlog (m). (2.2) Эта мера обладает свойством аддитивности, а именно:

nlog (m) = n1log (m) + n2log (m), если n1 + n2 = n.

Основание логарифма в (2.2) не имеет существенного значения. Широко пользуются логарифмом по основанию 2 (причем обозначение "2" опускается). В этом случае количество информации измеряется в двоичных единицах (дв. ед.) или битах. Однако мера (2.2) не удовлет- воряет четвертому интуитивному требованию, так как не учитывается зависимость количества информации, содержащейся в сообщении, от вероятности появления сообщения. В то же время эта вероятность ха- рактеризует неожиданность данного сообщения для получателя.

3. К. Шеннон учел требуемую зависимость и предложил определять количество информации, содержащееся в сообщении xi (i = 1, 2, ... , mi) и относящееся к выбору данной буквы xi алфавита источника, в виде

J(xi) = log [1/p(xi)] = –log [p(xi)] , (2.3)

где p (xi) вероятность появления сообщения xi, причем сумма всех

p (xi) = 1.

Как следует из (2.3), количество информации, содержащееся в сооб-

щении, тем больше, чем меньше вероятность этого сообщения. Такая зависимость соответствует интуитивным представлениям об информа- ции. Действительно, сообщения, ожидаемые с большей вероятностью, легко угадываются получателем, а достоверные сообщения, вероятность которых равна 1, вообще не содержат информации, так как всегда мо- гут быть предсказаны точно (очевидно, если p (xi) = 1, то J (xi) = 0).

Наоборот, сообщения, являющиеся сенсациями, имеют малую вероят-

ность появления и их трудно предсказать, поэтому они содержат боль- ше информации.

Количество информации, определяемое (2.3), является случайной величиной, принимающей значение J (xi) с вероятностью p (xi) в зави- симости от появления буквы xi в сообщении источника. Однако при

передаче больших массивов сообщений важно не количество информа-

ции в одном конкретном символе J(xi), а количество информации, ус- редненное по всем возможным сообщениям, содержащим n символов. Такой мерой количества информации является математическое ожида-

ние (среднее значение) случайной величины J(xi), содержащей n симво- лов (букв), усредненное по всему ансамблю X:

mi mi

J ( ) n p ( xi )J ( xi ) n p ( xi ) log p ( xi ).

(2.4)

i  1

i  1

Это соотношение носит название формулы Шеннона. Для равнове- роятных сообщений (p (xi) = 1/mi) меры информации по Хартли (2.2) и по Шеннону (2.4) совпадают

m

J ( ) n 1/ m log (1/ m) n log m.

i  1

Поэтому меру Шеннона (2.4) можно рассматривать как обобщение меры Хартли на ансамбль сообщений с распределением вероятностей, отличающимся от равномерного.

Энтропия источника дискретных сообщений

Для характеристики источника сообщений более удобной величи- ной является средняя величина (математическое ожидание) количества информации, содержащейся в одном символе (букве) сообщения. Эта величина называется энтропией источника сообщений. В случае отсут- ствия статистической связи между символами, энтропия источника:

m

H ( ) J ( ) / n p ( xi ) log p ( xi ).

i  1

(2.5)

Понятие энтропии (от греческого "эн-тропе" – обращение) распрост- ранилось на ряд областей знания. Энтропия характеризует неопреде- ленность каждой ситуации. Энтропия в термодинамике определяет ве- роятность теплового состояния вещества (закон Больцмана), в матема- тике – степень неопределенности ситуации или задачи, в теории ин- формации она характеризует способность источника "отдавать" инфор- мацию. Приобретение информации сопровождается уменьшением нео- пределенности, поэтому количество информации можно измерять ко- личеством исчезнувшей неопределенности, т. е. энтропией. Энтропию называют также информационной содержательностью сообщения.

Анализируя выражение (2.5), можно отметить некоторые свойства энтропии дискретной случайной величины.

1. Энтропия источника является величиной вещественной и поло- жительной – H (x)  0. Энтропия равна 0 в случае, когда отсутствует возможность выбора, т. е. когда величина X может принимать только одно значение с вероятностью p (x) = 1. В передаче такого сообщения нет смысла, поскольку результат заранее известен получателю. Источни- ки с малой энтропией не являются информативными. Они выдают зна- ки, которые с большой вероятностью известны получателю. В этом смысле энтропия источника характеризует его информационную емкость.

2. Энтропия случайной величины, имеющей всего два значения x1 и x2, не превышает 1. При объеме алфавита источника mi= 2 и одинако- вой вероятности сообщений p (x1) = p (x2) = 0,5 энтропия достигает мак- симального значения Hmax(x) = 1 дв. ед. Следовательно, в качестве еди- ницы измерения информации (дв. ед., бит) взята информация, содержа-

щаяся в одном из двух равновероятных сообщений.

3. Максимальная энтропия источника Hmax(x) достигается лишь в слу- чае равных вероятностей выбора букв алфавита, т. е. когда p (xi) = 1/m, (i = 1, 2, ..., m), тогда

m

H max ( x) 1/ m log(1/ m) log m.

i  1

(2.6)

Такой источник называют идеальным (оптимальным), так как каж- дый его символ несет максимальное количество информации. Для кон- кретизации этих свойств энтропии приведем два примера.

Пример

Определить энтропию источника сообщений, если он может выда- вать m = 5 знаков с вероятностями p (x1) = 0,4; p (x2) = 0,1; p (x3) = 0,2; p (x4) = 0,1; p (x5) = 0,2. (Сумма всех p (xi) = 1).

Решение:

m

H ( x) p ( xi ) log2 p ( xi ) (0, 4 log2 0, 4 0,1log2 0,1

i  1

0, 2 log2 0, 2  0,1log2 0,1  0, 2 log2 0, 2)  2,12 бит/знак.

Пример

Решить предыдущий пример при условии одинаковой вероятности появления каждого из пяти знаков: p (xi) = 1/m = 0,2.

Решение:

m

H ( x) p ( xi ) log2 p ( xi ) 5 0,2 log2 0, 2 2, 32 бит/знак.

i  1

Отметим, что это значение H(x) соответствует Hmax(x).

При наличии кодера источника, в свою очередь, представляющего

каждую из m букв алфавита источника кодовой группой из nk символов (разрядов), определяют удельную энтропию H1(x), приходящуюся на один разряд кодовой группы:

1

H ( x) H ( x) ,

(2.7)

nk

где nk – длина кодовой группы (слова), а в обозначении удельной энт- ропии H1(x) индексом 1 подчеркивается, что энтропия отнесена к одно- му разряду кодовой группы, а не к знаку источника сообщения.

Пример

Определить максимальные значения энтропии Hmax(x), H1max(x), H1(x) для первичного пятиразрядного (nК = 5) кода МТК-2, если известно, что с учетом неравновероятности появления m = 32 буквенных знаков

текста энтропия источника сообщений H(x) = 4,36 бит/знак.

Решение:

В соответствии с (2.6) и (2.7) Hmax(x) = log32 = 5 бит/знак;

H1max

( x) H max ( x) 5 / 5 1 бит/разряд; H (x) = 4,36/5 = 0,87 бит/разряд.

nk 1

Это означает, что кодер источника (рис. 2.1) выдает разряды сообще- ния при кодировании буквенного алфавита источника первичным ко- дом МТК-2 с "недогрузкой" в информационном смысле на 13% по срав- нению с потенциальными возможностями.

В теории информации доказывается, что энтропия источника зави- симых сообщений всегда меньше энтропии источника независимых со- общений при том же объеме алфавита и тех же безусловных вероятно- стях сообщений.

Если источник выдает последовательность букв из алфавита объе- мом m = 32 и буквы выбираются равновероятно и независимо друг от друга, то энтропия источника (2.6) Hmax(x) = log m = 5 бит. Однако

таким источником могла бы быть обезьяна, нажимающая в хаотическом

порядке клавиши пишущей машинки (идеальный источник!).

Если буквы передаются не хаотически, а составляют связный, на- пример русский текст, то появление их неравновероятно (см. выше – вероятность появления буквы "О" в 45 раз больше, чем буквы "Ф"), и, главное, буквы в тексте зависимы. Так, после гласных не может по- явиться "Ь", мала вероятность сочетания более трех согласных подряд, вероятность последовательности, не образующей осмысленных слов (идеальный источник), практически равна нулю. Расчеты показывают [5], что для текстов русской художественной прозы энтропия оказыва- ется менее 1,5 бит на букву. Еще меньше, около 1 бита на букву, энтро- пия поэтических произведений, так как в них имеются дополнитель- ные вероятностные связи, обусловленные ритмом и рифмами. Слово, рифмуемое с окончанием предыдущей стихотворной строки, легко уга- дывается без произнесения или чтения его, и поэтому информации не несет (H(x) = 0). Энтропия телеграмм обычно не превышает 0,8 бит на букву, поскольку их тексты довольно однообразны (особенно поздрави- тельных).

Количественно эта характеристика источника оценивается его избы- точностью.

Избыточность источника сообщений

Абсолютная избыточность источника определяется формулой

a

 = H

max

(x) – H(x). (2.8)

Чаще используется понятие относительной избыточности, которую и называют избыточностью источника:

H max ( x) H ( x) 1 H ( x) 1 ,

(2.9)

H max ( x)

H max ( x)

где = H(x) / Hmax(x) относительная энтропия.

Избыточность 0    1 и учитывает как взаимосвязь (корреляцию)

символов в передаваемой последовательности, так и неопределенность каждого символа. Она является важной характеристикой источника, так как указывает, насколько можно сократить число символов и довести его до минимального nmin в последовательности данного источника, если

то же количество информации будет передаваться последовательнос- тью, составленной из равновероятных и независимых символов, т. е. при H(x) = Hmax(x). Действительно, для данного (реального) источника

количество информации, содержащееся в последовательности из n сим-

волов, равно (2.5) J = nH(x), а для идеального J = nminHmax. Приравни- вая количества информации этих источников, получим

nmin

H ( x) / H max ( x) n

или избыточность кода источника

n nmin 1 nmin 1 ,

n n

(2.10)

где отношение = nmin / n получило название коэффициента сжатия,

равного относительной энтропии.

Таким образом, источник с избыточностью  # 0 формирует последо- вательности сообщений, число n символов, в которых больше минималь-

но необходимого nmin для передачи данного количества информации.

Установлено, что избыточность текстов на русском и английском

языках   0,7, т. е. объем книги и другой печатной продукции пример- но в 3,3 раза больше, чем это необходимо для отображения содержащей-

ся в ней информации (при = 0,7 значение nmin / n = 0,3 = 1/3,3).

Однако это не дает повод утверждать, что такая избыточность бес-

полезна. Избыточность текста обеспечивает высокую достоверность пе- редачи информации, позволяет легко находить опечатки и исправлять ошибки. В частности, получатель телеграммы догадывается об ее под- линном содержании даже при нескольких ошибочно переданных бук- вах. Отметим, что именно необходимость разговаривать при воздействии акустических помех явилась причиной того, что все национальные языки в процессе своего возникновения и развития оказались избыточными, и значение избыточности для всех языков близко к  = 0,7 – 0,9 [5].

В технических приложениях естественную избыточность источни- ков трудно использовать для повышения помехоустойчивости систем связи. Лишние символы в последовательности сообщений часто неже- лательны, так как увеличивают время передачи информации, а при ее хранении требуют дополнительной памяти в запоминающих устройствах. Вопросам устранения избыточности сообщений уделяется большое вни- мание, и с этой целью осуществляют статистическое (эффективное) кодирование дискретных сообщений, в частности, применяют коды Шеннона–Фано и Хафмена.

Отметим, что для повышения помехозащищенности канала связи целесообразно вводить избыточность снова, что делается при помехоу- стойчивом кодировании.

Производительность источника

Производительность источника H(X) есть среднее количество ин- формации, создаваемое источником в единицу времени:

H ( X ) lim H ( X T ) ,

T

T

(2.11)

где H(XT) – энтропия случайной последовательности, заданной на ин- тервале T.

При наличии кодера источника, с учетом определения удельной энт- ропии (2.7) выражение (2.11) преобразуется

H ( X ) H1( X ) V H ( X ),

(2.12)

x x 1

где

x средняя длительность одного символа (разряда) кодового сло-

ва; Vx = 1/

x скорость формирования символов кодером источника.

Из (2.12) следует весьма важный вывод о том, что источник может генерировать сообщения с большой скоростью, но, тем не менее, его производительность с информационной точки зрения будет чрезвычай- но низкой, если H1(X) << 1. Причиной этого является избыточность

источника.

Различие понятий производительности и скорости формирования символов объясняется тем, что количество информации характеризует не сам факт появления сообщения, а определенное его свойство – сте- пень его неожиданности, нетривиальность выбора этого сообщения из множества других.

Производительностью источника можно управлять, изменяя длитель-

ность символов

x . Поэтому различают неуправляемые и управляемые

источники. Для неуправляемых источников производительность – по- стоянная величина. Так, телеметрические датчики обычно выдают ин- формацию с постоянной скоростью и могут служить примером неуправ- ляемых источников с фиксированной скоростью создания сообщений.

Для управляемых источников формирование символов сообщений про- исходит по внешним командам и, следовательно, длительность символа может изменяться. Например, чтение чисел из запоминающего устрой- ства осуществляется импульсами, интервал между которыми определя- ется возможностями и быстродействием периферийных устройств. Оче- видно, что производительность управляемого источника может менять- ся в широких пределах.

Производительность источника является основной характеристикой при решении задач согласования источника с каналом связи.