Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Теория информ.(редакт2).doc
Скачиваний:
108
Добавлен:
02.05.2015
Размер:
877.06 Кб
Скачать

3.Структурное (комбинаторное) определение количества информации (по Хартли)

Данное определение количества информации применимо лишь к дискретным сообщениям, причем таким, у которых символы равно- вероятны и взаимно независимы. Количество информации, содержащееся в такого рода сообщениях можно определить из следующих соображений.

Пусть дан источник дискретных сообщений , объем алфавита которого равенm. Предположим, что каждое сообщение включает n символов, при этом сообщения различаются либо на- бором символов, либо их размещением. Число различных сообщений , состоящих изn символов, будет . Предположим, что все сообщения равновероятны и одинакова ценность этих сообщений.

Тогда легко подсчитать количество информации, которое несет каждое сообщение.

Вероятность появления каждого такого сообщения будет равна

. (6)

И, следовательно, количество информации в одном сообщении равно:

(бит). (7)

Эту формулу предложил Р.Хартли в 1928 г., и она носит его имя. Разделив на количество символов в сообщении (n), получим среднее количество информации , приходящееся на один символ:

(бит / символ), (8)

где - вероятность появления одного символа.

Из соотношений (7) и (8) вытекают важные свойства дискретных сообщений, символы которых равновероятны и взаимно независимы.

  1. Количество информации в сообщении пропорционально полному числу символов в нем – n и логарифму объема алфавита- m.

  2. Среднее количество информации, приходящееся на один символ, зависит только от m – объема алфавита.

В реальных дискретных сообщениях символы часто появляются с различными вероятностями и, более того, часто существуют статистическая связь между символами, характеризующаяся условной вероятностьюпоявления символаполе символаНапример, в тексте на русском языке вероятность появления различных символов (букв) различна. В среднем, в тексте из 1000 букв буква О появляется 110 раз, Е – 87, А – 75, Т – 65, Н – 65, С – 55, кроме того, существует статистическая связь, скажем после гласных не может быть Ь или Ъ.

Исходя из этого, применение формулы вычисления количества информации по Хартли не всегда корректно.

4.Статистическое определение количества информации (по Шеннону).

Этот подход к определению количества информации в сообщениях, учитывающий не равновероятное появление символов сообщения и их статистическую связь был предложен К.Шенноном в 1946 г.

Рассмотрение этого метода удобно начать с определения количества информации в дискретных сообщениях. символы которых появляются не равновероятно, однако статистическая связь между символами отсутствует.

Пусть, как и ранее, дан источник дискретных сообщений ,с объемом алфавита равнымm, который генерирует сообщение, состоящее из n символов. Допустим, что в этом сообщении символ встретитсяраз, символраз и так далее, а символвстретитсяраз, причем очевидно, что

(9)

При приеме одного символа , как следует из (5), получаем количество информации

(10)

где - вероятность появления символа.

А количество информации , содержащееся ввзаимно независимых символов, будет равно

(11)

Аналогично, в символахсодержится количество информации

(12)

и так далее.

Очевидно, что полное количество информации, содержащееся в сообщении из n символов, равно

(бит) (13)

Разделив и умножив это выражение на n, приведем выражение (13) к следующему виду:

(бит) (14)

Ясно, что отношение – это априорная вероятность появленияi-го символа, таким образом (при достаточно большом n ) справедливо равенство

(15)

причем

Подставим (15) в (14), получим:

(бит) (16)

При этом среднее количество информации, приходящееся на один символ (Н), будет равно:

(17)

Определенная таким образом величина Н называется энтропией, а формула (17) известна как формула Шеннона для энтропии источника дискретных сообщений. Энтропия определяет среднее количество информации, приходящееся на один символ дискретного сообщения.

В общем случае, символы, входящие в сообщения, могут появляться не только с различной вероятностью, но и быть статистически зависимыми. Статистическая зависимость может быть выражена условной вероятностью появления одного символа после другого.

Чтобы учесть статистические связи между символами, входящими в сообщение, вводят понятие условной энтропии.

Условная энтропия ( ) определяется выражением

, (18)

где – условная вероятность появления символапосле сим- вола. Количество информации, содержащееся в этом случае в сообщении длинойn символов, равно:

, (19)