Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Теория Информации / 05 Энтропия, количество информации

.pdf
Скачиваний:
122
Добавлен:
29.03.2015
Размер:
329.65 Кб
Скачать

11

5.5.Мера количества информации в дискретном сигнале (по Р. Хартли)

Втеории информации в ее современном виде не требуется определения понятия информации как таковой; необходимым и достаточным для построения теории является понятие количества информации.

Всоответствии с определением предмета теории информации в ее современном состоянии вводимая мера информации должна быть полезной для анализа и синтеза систем передачи и хранения информации. Поэтому искомая мера, очевидно, должна быть «нечувствительной» к смыслу, ценности, степени правдивости информации. Например, задачей системы связи является точная и своевременная передача сообщений независимо от того, содержат ли последние для получателя ценность, смысл и правдивость или же нет.

Введение количественной меры информации является весьма трудной задачей. Действительно, информация может быть чрезвычайно разнообразной: мы можем получить извещение о приезде знакомых или родственников, можем услышать по радио или прочесть в газетах о тех или иных событиях; узнать о новом открытии или изобретении и т.п. Различная информация будет вызывать у нас различные эмоции и будет представлять различную ценность. Иногда краткое, содержащее лишь несколько слов, извещение может иметь для нас неизмеримо большее значение, чем текст, состоящий из многих слов и страниц. Из двух книг равного объема мы можем извлечь совершенно различную информацию. Очевидно, что количественная мера информации не должна противоречить нашим интуитивным представлениям, должна охватывать то общее, что присуще всему многообразию различной информации, и, главное, эта мера должна быть полезной для теории и практики построения различных систем передачи и преобразования информации.

Таким образом, сообщение о том, что произойдет событие, которое должно произойти почти наверняка, содержит в себе очень мало информации. Напротив, сообщение о том, что произойдет событие, которое почти наверняка произойти не должно, содержит много информации. Сообщение о некотором событии содержит тем больше информации, чем больше изменяется вероятность этого события после приема сообщения о нем, по сравнению с вероятностью того же события до того, как было принято соответствующее сообщение. В общем случае мерой количества информации в сообщениях должна служить величина, измеряющая изменение вероятности события под действием сообщения.

Количество информации должно определяться через нечто общее, объективно присущее всему многообразию различной информации, оставаясь при этом созвучным нашим интуитивным представлениям, связанным с фактом получения информации. Этим общим, характеризующим факт получения произвольной информации, является, во-первых, наличие опыта. Всякая информация добывается нами в результате опыта и

12

только опыта. Опытом может служить прослушивание радиопередачи, визуальное наблюдение события, измерение некоторого параметра процесса тем или иным прибором и т. п. Во-вторых, до опыта должна существовать некоторая неопределенность в том или ином исходе опыта. В самом деле, если бы получателю до опыта было известно, какое сообщение он получит, то, получив его, он не приобрёл бы никакого количества информации. До опыта всегда имеется большая или меньшая неопределенность в интересующей нас ситуации. После опыта (после получения информации) ситуация становится более определенной и на поставленный вопрос мы можем ответить либо однозначно, либо число возможных ответов уменьшится и, следовательно, уменьшится существовавшая ранее неопределенность. Количество уменьшенной неопределенности после опыта, очевидно, можно отождествить с количеством полученной информации в результате такого опыта.

Теперь ясно, что для установления формулы для вычисления количества информации необходимо уметь вычислять неопределенность некоторой ситуации до и после опыта. Разность между этими количествами неопределенности и даст нам искомое количество информации, полученное от такого опыта.

Первая попытка определения количественной меры информации была предпринята американским инженером Р.В. Хартли в 1928 г., однако данное им определение оказалось недостаточно универсальным.

Основные соотношения, определяющие количественную меру информации, и основные теоремы теории информации были сформулированы К. Шэнноном и опубликованы в 1949 г.

Предположим сначала, что после опыта неопределенности нет. К примеру, при бросаниях монеты возможны два исхода опыта: выпадет орел или выпадет решка. После опыта неопределенности исхода нет—выпал, к примеру, орел. В данном случае, как ясно из сказанного выше, неопределенность до опыта будет численно равна количеству полученной информации.

В этой ситуации к количеству информации (или, что то же самое, к количеству неопределенности до опыта) можно предъявить три интуитивных требования.

1.Количество получаемой информации больше, в том опыте, у которого большее число возможных исходов.

Обозначая количество информации буквой I, а число возможных исходов п, первый постулат запишем в виде I(n1 ) ≥ I(n2 ) , если n1 n2 .

2.Опыт с единственным исходом необходимо несет количество информации, равное нулю.

Символически это выглядит так: I(п = 1) = 0.

3.Количество информации от двух независимых опытов должно равняться сумме количеств информации от каждого из них. Это естественное требование аддитивности вводимой меры количества информации.

Например, количество информации, содержащееся в двух различных

13

по содержанию (независимых) книгах, равно сумме количеств информации, содержащихся в отдельных книгах. Однако если одна книга содержит часть другой, то количество информации от двух таких книг не будет равно сумме количеств информации от книг в отдельности, а будет несколько меньше.

В аналитической записи условие 3 примет вид

I(n1 n2 ) = I(n1 ) + I(n2 ) ,

так как опыт, объединяющий два опыта с исходами соответственно n1 и n2 , имеет n1 n2 исходов.

Итак, вводимая мера информации должна монотонно возрастать с увеличением длительности сигнала, которую естественно измерять числом символов в дискретном сигнале и временем передачи в непрерывном случае. Очевидно также, что количество информации зависит от числа употребляемых элементов сигнала. Например, при пятибалльной системе оценок полученная оценка более полно характеризует состояние знаний обучающегося, чем оценка по двухбалльной системе. Другими словами, количество информации на один элемент сигнала тем больше, чем больше число возможных элементов; этим свойством должна обладать и вводимая мера информации.

Имеются и другие факторы, влияющие на содержание информации в сигнале. Поскольку всякий сигнал должен рассматриваться как случайный процесс (см. гл.3), статистические характеристики такого процесса тоже должны влиять на содержание информации в сигнале.

Задача, как видим, сводится к отысканию некоторого числа, монотонно возрастающего с увеличением длительности и увеличением числа возможных элементов сигнала, и подходящим образом изменяющегося при изменении статистических характеристик сигнала.

Можно высказать предположение, что таким числом, или основой для построения такого числа, может служить число N различимых реализаций, образующих процесс, или (как иногда принято говорить) число различных сигналов.

Проверим это предположение обратившись к рассмотрению самого простого случая. Простейший случай определяется следующими условиями.

1.Сигнал однозначно определяется состоянием источника. Отсутствуют помехи, шумы и неоднозначные преобразования.

2.Сигнал дискретен как по времени, так и по информативным параметрам. Такой сигнал является последовательностью сменяющих друг друга различных состояний источника; в технике дискретной связи эти состояния рассматриваются как символы.

3.Множество различимых состояний (т.е. множество символов, или алфавит) не только дискретно, но и конечно. Смена состояний (появление новых символов) происходит таким образом, что

4.все состояния (символы) являются равновероятными,

5.вероятностные связи между различными символами отсутствуют, т.е. символы являются статистически независимыми.

14

Этот простейший случай впервые рассмотрен Р. Хартли в 1928г. Пусть сигнал представлен в виде случайной функции времени X(t),

имеющей длительность не более Т сек и максимальное значение Хт.

Если считать спектр сигнала ограниченным частотой F Гц, то можно определить число интервалов квантования сигнала по времени, которое будет равно (см. гл. 2) n = 2FT.

Осуществляя квантование сигнала по уровню, можно указать число уровней квантования m. Таким образом, область возможных значений сигналов может быть представлена в виде прямоугольной сетки, стороны которой равны Т и Хт, причем сигнал определяется только в точках пересечения вертикальных и горизонтальных линий сетки.

Предположим вначале, что число т уровней квантования равно трем (0; 1; 2). Если рассмотреть сигнал, имеющий только один момент отсчета (n=1), то возможные значения сигнала будут просто равны этим уровням. Следовательно, количество различных значений сигнала в этом случае равно трем.

Если рассмотреть сигнал, имеющий два момента отсчета (n = 2), то возможные значения сигнала будут являться комбинациями этих уровней, а

именно:

 

 

 

00 01 02

10 11

12

20 21 22,

где первая цифра характеризует значение уровня в первый момент отсчета, а вторая цифра — во второй момент отсчета. Следовательно, всего будет девять различных значений сигнала. Продолжая рассмотрение подобным образом, легко установить общую зависимость для числа N возможных значений сигнала, которая будет иметь вид

N = mn .

Таким образом, квантованная по времени и по уровню и ограниченная значениями Т и Хт случайная функция времени будет иметь N реализаций. Какое-либо устройство, вырабатывающее рассмотренную случайную функцию, может при этом выдать любую из реализаций. Очевидно, естественно считать, что чем больше N, тем более разнообразную информацию может выдать подобное устройство. Однако какой будет эта информация?

Предположим, известно, что источник информации имеет один уровень квантования (m=1). Тогда любой сигнал в интервале от 0 до Г будет состоять из последовательности символов только одного вида, например h1 и мы будем заранее знать, что передается по каналу связи, когда он включен. Иными словами, прием сигнала не доставляет никакой дополнительной информации о том, что передается.

Пусть теперь имеется два уровня квантования (m = 2). Так как эти уровни могут передаваться в любой очередности, то мы не знаем заранее, какая их комбинация передается в данный момент, и лишь после приема получаем ответ на этот вопрос, т. е. получаем дополнительную информацию о сигнале. Чем меньше данных о передаваемом сигнале нам известно заранее (априори), тем больше дополнительной информации мы получим о нем после приема. Так как число уровней квантования m и длительность сигнала Т

15

(выраженная в количестве интервалов п) нам известны, то априорное знание сигнала будет тем меньше, чем больше возможных комбинаций он имеет. Так, например, если длительность Т фиксирована и определяется n = 2, то при n = 2 будут следующие возможные комбинации сигнала:

00 01 10 11, и рамки наших предположений о сигнале ограничиваются четырьмя

возможными случаями. Если при п=2 число уровней квантования равно трем, то будут уже следующие возможные комбинации сигнала:

00 01 02 10 11 12 20 21 22, и наши предположения о том, какой сигнал будет передан, станут менее достоверными.

Как видно, число возможных комбинаций сигнала также увеличивается, если число уровней квантования т фиксировано, но увеличивается длительность сигнала (т. е. число п).

Таким образом, количество информации, которое можно перенести сигналом, будет тем больше, чем больше N — число возможных комбинаций сигнала. Отсюда следует, что количество информации, содержащейся в сигнале, можно определить количеством возможных сформированных сообщений по отношению к данному, принятому за единицу измерения.

Из приведенных выше рассуждений также следует, что количество информации будет неизменным, если N фиксировано. Наши рассуждения первоначально наводят на мысль о том, что в качестве меры количества информации можно было бы использовать число возможных комбинаций сигнала N. Вот что по этому поводу сказано у Р. Хартли [35], впервые предложившего количественную меру информации: «Посмотрим, насколько хорошо оно (т. е. число N) удовлетворяет требованиям, предъявляемым к подобной мере. При выбранной нами мере количество переданной информации экспоненциально растет с числом выборов (п) и вклад каждого выбора в общий итог переданной информации прогрессивно возрастает. Несомненно, что такое возрастание зачастую имеет место в связи, рассматриваемой с психологической точки зрения. Так, например, слово «да» или «нет», приходя в конце затянувшейся дискуссии, может иметь исключительно большое значение. Однако такие случаи являются скорее исключением, чем правилом. Но мы должны установить меру, не зависящую от психологических факторов. Рассматривая физическую систему, мы не обнаруживаем такого экспоненциального нарастания качеств, необходимых для передачи результатов последовательных выборов.

Телеграф передает десятое слово известия не с большим трудом, чем предшествующее. Телефон, успешно передающий речь, продолжает и впредь это делать до тех пор, пока свойства системы остаются неизменными. Для того чтобы мера информации имела практическую инженерную ценность, она должна быть такой, чтобы информация была пропорциональна числу выборов».

Итак, число возможных комбинаций сигнала N непригодно для измерения количества информации. Так как необходимо, чтобы количество

16

информации было пропорционально длительности сигнала (числу n), то запишем следующую зависимость:

I = Kn (5.19)(5.15) где I — количество информации, K — постоянная, зависящая от числа значений сигнала m. Чтобы найти зависимость K(m), рассмотрим передачу одного и того же количества информации I с помощью двух различных алфавитов, содержащих соответственно т1 и т2 символов.

Поскольку при фиксированном N количество информации I остается неизменным, справедливы соотношения

N = m1n1 = m2n2 , I = K1n1 = K2n2

откуда получаем

K1 loga m2 = K2 loga m1.

Из этого соотношения следует, что коэффициент K пропорционален логарифму m:

K = logam.

Следовательно, мера количества информации, определится формулой I = n logam,

или

 

I = loga N,

(5.20)

где а — основание логарифма.

 

Естественно принять за единицу измерения количество информации, содержащееся в наиболее простом, элементарном сообщении, которое может выдать источник. Легко заметить, что таким элементарным сообщением будут два возможных значения уровней при одном отсчете сигнала, что соответствует случаю m = 2, п=1. При приеме одного из этих двух уровней доставляется информация в один двоичный знак, или одну двоичную единицу.

Основание логарифма в формуле (5.20) легко определяется из этого частного случая 1 = loga 2 и будет а = 2.

Таким образом, количество информации в двоичных единицах

определяется формулой

 

I = log2N двоичных единиц,

(5.21)

или

 

I = n log2m двоичных единиц.

(5.21')

Сформулируем, следуя Хартли, окончательное определение:

в качестве меры количества информации принимается логарифм числа возможных последовательностей символов.

Проведенное рассмотрение является упрощенным и опирается в значительно большей степени на физические представления, чем на строгие формулировки и выводы.

Полученный результат не учитывает ряда важных аспектов передачи информации, и в первую очередь статистических свойств сигналов. Однако

17

даже такой простейший случай хорошо иллюстрирует методическую сторону оценки количества информации, и в этом его ценность. Более детальное изучение вопроса является предметом последующего рассмотрения.

5.6. Статистическая мера количества информации

Меру количества информации, получаемой в результате того или иного опыта, можно было бы установить как функцию отношения числа равновозможных ответов до опыта (п) и после опыта (пс), т. е. как функцию

отношения n . Интуиция подсказывает, что количество получаемой в nc

результате опыта информации должно быть тем больше, чем больше это отношение. Вместо понятия «равновозможные события» (или ответы) удобнее пользоваться понятием о «вероятности этих событий».

Если рассматриваемые события (ответы) равновозможны, то априорная

(доопытная) вероятность

события

хi равна, очевидно, p(xi ) =

1

 

,

 

а

n

 

 

 

 

 

 

 

 

 

 

 

 

апостериорная (после опыта или после сообщения) вероятность p

 

(x

) =

 

1

.

c

 

 

 

 

 

 

 

 

i

 

 

 

 

nc

 

 

 

 

 

 

 

 

 

 

 

 

В таком случае количество

информации, которое мы получаем о событии xi

в результате опыта, должно быть функцией отношения

 

 

 

 

 

 

 

 

 

 

n

=

pc (xi )

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

nc

p(xi )

 

 

 

 

 

 

 

 

Наиболее удобной является логарифмическая функция, и, следовательно, количество информации, получаемое о событии xi в результате опыта, может быть принято равным

I(i) = K log pc (xi ) . p(xi )

Выбор коэффициента K и основания логарифмов (а) не имеет принципиального значения, ибо он определяет лишь масштаб или единицу количества информации. Обычно выбирают логарифм с основанием два (а = = 2) и K = 1, тогда

I(i) = log

 

pc (xi )

дв. ед.

(5.22)

2

p(xi

)

 

 

 

 

 

 

 

Единица количества информации при таком выборе а и K называется

двоичной.

Получение одной двоичной единицы количества информации соответствует тому, что мы узнаем, какое из двух равновозможных событий имеет место или какая из двух равновозможных гипотез правильна. Такими двумя событиями (гипотезами) могут быть также ответы «да» или «нет» на

18

какой-либо вопрос. Если эти ответы равновозможны (равновероятны), то, получив один из них, мы тем самым получаем одну двоичную единицу информации.

Если события (ответы) равновозможны и если к тому же pc(i) = 1, т.е. после опыта ситуация полностью определена, формула (6.1) может быть представлена в виде

I(i) = log2 n.

(5.23)

Определим количественную меру информации при конечном ансамбле независимых событий. Формула (5.22) устанавливает непосредственную связь между количеством информации, получаемой о некотором событии в результате опыта, и изменением вероятности этого события до и после опыта. Эта связь может быть обобщена и на случай, когда имеется некоторое конечное множество независимых событий с разными априорными вероятностями.

Рассмотрим некоторое конечное множество X событий x1, x2, …, xn. Допустим, что данные события независимы и несовместны, а априорные вероятности их соответственно равны р(х1), р(x2), …, р(хп), причем р(х1)+ + р(x2)+ … + р(хп) = 1. Последнее означает, что в течение некоторого наблюдаемого отрезка времени всегда происходит одно из этих событий.

Рассматриваемый ансамбль событий может быть описан конечной схемой вида

 

x

x

 

...

x

n

 

 

X =

1

 

2

 

 

.

(5.24)

 

 

 

 

 

 

 

 

 

 

p(x1) p(x2 )... p(xn )

 

Ансамбль рассматривается как некоторая модель физической системы, которая может находиться в п различных состояниях или в которой может происходить п различных событий. Рассматривается случай, когда эти состояния или события независимы и несовместны.

Используя формулу (5.22), можно сказать, что достоверное сообщение о том, что из всех событий х происходит событие xi, несет в себе количество

информации, равное

 

 

 

I(x ) = log

1

дв. ед.

(5.25)

 

i

p(xi )

 

 

 

 

 

Следовательно, сообщение о событии несет тем большее количество информации, чем меньше априорная вероятность этого события. Это положение хорошо согласуется с интуитивным представлением об информации. Так, например, сообщение о том, что летом дни длиннее ночи, для любого человека с минимальным жизненным опытом или образованием не несет никакой информации, ибо этот факт априори (до этого сообщения) уже ему известен.

Формула (5.25) указывает, что в конечном ансамбле X сообщения о разных событиях в общем случае несут разное количество информации. При решении большинства задач, связанных с построением систем передачи и

19

преобразования информации, необходимо знать среднее количество информации, приходящееся на одно сообщение. Последнее в соответствии с правилами теории вероятности может быть определено как математическое ожидание величины I(xi), т. е.

I(X )= M{I(xi )}

и, следовательно,

n

)log p(xi

 

 

I(X )= −p(xi

) дв.ед./сообщ.

(5.26)

i=1

Вданном случае через I(X) обозначено среднее количество информации, приходящееся на одно достоверное сообщение о событии х при передаче большого числа таких сообщений. Это соотношение носит название формулы Шеннона.

Количество информации, определяемое формулой (5.26), принято называть полным или средним количеством информации ансамбля событий {Х}, а каждое слагаемое –log p(xi) – частным количеством информации, получаемым от отдельного i-го события, состоящего в том, что ансамбль {Х} находится в состоянии xi.

Обращает на себя внимание тот факт, что формула Шеннона (5.26) для количества информации совпадает с формулой для величины энтропии множества возможных сигналов. Это совпадение не является случайным и ниже будет рассмотрено более детально. Здесь же пока констатируем этот важный факт: при отсутствии ошибок при приеме среднее количество информации на сигнал численно равно энтропии множества возможных сигналов. Из этого, однако, не следует, что энтропия и количество информации это одно и то же.

Снимем теперь условие статистической независимости между символами, которое накладывалось на сигнал при построении количественной меры информации по Хартли. По-прежнему пока остается в силе условие отсутствия ошибок.

Рассмотрим важный случай такой статистической зависимости, которая имеет место между элементами простой цепи Маркова.

Очевидно, что энтропия символа, который должен осуществиться, теперь зависит от того, какой символ осуществился только что перед ним. Пусть, например, последним символом был символ под номером i. Тогда энтропия следующего символа (при условии, что предыдущий известен) равна

Hi = −m

p(j

 

i)log p(j

 

i),

(5.27)

 

 

j=1

 

 

 

 

 

 

где p(j i) - вероятность того, что после символа i осуществится символ j. Нас, однако, интересует безусловная энтропия Н символа в цепи Маркова, т.е.

_

средняя величина Hi . ПО определению среднего,

20

m

m

m

 

 

 

m

 

H = p(i)Hi

= −p(i)p(j

 

i)log p(j

 

i)= −p(i, j)log p(j

 

i).

(5.28)

 

 

 

i=1

i=1

j=1

 

 

 

i, j=1

 

Эти соотношения и дают нам искомый результат.

5.7. Количество информации как мера снятой неопределенности

Встатистической теории информации рассматриваются ансамбли или системы событий, которым присуща некоторая неопределенность.

Врезультате получения некоторого сообщения, представляющего собой результат выбора из ансамбля событий, априорная неопределенность может быть уменьшена. Так как степень неопределенности измеряется величиной энтропии, то в качестве меры количества информацииоб ансамбле событий естественно принять изменение (уменьшение) энтропии ансамбля в результате получения сообщения. То есть при статистическом подходе энтропия есть мера недостатка информации об ансамбле событий, а количество информации представляет собой разность априорной и апостериорной энтропий ансамбля событий.

Если в результате сообщения состояние ансамбля или системы событий стало известным (апостериорная энтропия ансамбля стала равной нулю), то количество информации, содержащееся в ансамбле событий, равно его априорной энтропии

n

I(Х) = H(Х) – 0 = Pi logPi , (5.29)

i=1

где I(Х) – количество информации ансамбля событий {Х}; H(Х) – априорная энтропия ансамбля {Х}.

Таким образом, в результате приема сигнала, с одной стороны, произошло уменьшение неопределенности с H(x) до нуля, а с другой стороны

– получено количество информации I, численно равное Н.

Обычно на практике информацию об исследуемом ансамбле{Х} приходится определять не непосредственно, а по состоянию некоторого ансамбля или системы {Y}, связанного с {X}. В общем случае ансамбли {X} и {Y} отличаются друг от друга и различие состоит в следующем.

Во-первых, ансамбли {X} и {Y} могут различаться за счет того, что некоторые события {xi} интересующего нас ансамбля {X} не отражены в совокупности {yi} событий ансамбля {Y} и наоборот.

Во-вторых, различия могут возникнуть за счет погрешностей определения (например, измерения) состояния ансамбля {X} или ошибок при передаче сообщения об ансамбле {X}.

В связи с этим найдем, какое количество информации об ансамбле {X} дает установление состояния ансамбля {Y}.

Определим это количество информации как уменьшение энтропии ансамбля {X} в результате получения сообщения об ансамбле {Y}, с ним