Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции / 5. Основные понятия теории информации. Количественные меры информации..ppt
Скачиваний:
38
Добавлен:
19.09.2023
Размер:
496.64 Кб
Скачать

Допустим, поступило n независимых сообщений (ансамбль сообщений):

а1, а2,…аn. Совместная вероятность ансамбля P(a1, a2,…,an) = P(a1)∙P(a2)∙…∙P(an).

Количество информации в этом ансамбле равно:

I(a1, a2,…,an) = - log2P(a1, a2,…,an) = -∑ log2P(ai) = - ∑ I(ai)

Убедились, что мера Шеннона (4) обладает свойством аддитивности.

Количество информации для равновероятных символов в сообщении

В сообщении из n элементов вероятность каждого символа равна p. Вероятность n символов равна Р = pn . По формуле Шеннона (4):

I log2 P log2 pn nlog2 p

С учетом того, что для равновероятных символов p=1/m имеем

I nlog2

1

nlog2 m

m

 

 

 

Количество информации для неравновероятных независимых символов в сообщении

Пусть получили сообщение из n символов (в алфавите m элементов). Пусть

каждый i-ый символ встречался ni раз, а вероятность появления i-го символа pi.

То есть, статистика сообщения следующая:

a1

a2

a3

am

символы

p1

p2

p3

pm

вероятности

 

 

 

 

 

 

n1

n2

n3

nm

количество

 

 

 

 

 

появлений

• Тогда вероятность появления ni раз символа ai будет pni i , а вероятность появления всего сообщения (ввиду независимости символов) будет

m

P pi ni

i 1

но вероятность pi можно определить апостериорно, исходя из частоты, если сообщение длинное:

pi nni ni n pi

mm

Тогда P pini pinpi

i 1

i 1

 

 

 

 

 

• откуда вытекает

 

 

 

 

 

 

 

m

m

pnpi i

m

 

 

I log2 P log2 pnpi i

log2

n pi log2

pi

(6)

 

i 1

i 1

 

i 1

 

Пример 1. Студент Вася сообщил, что у него день рождения 25 октября. Какое количество информации он сообщил?

Решение. Вероятность этого сообщения P равна 1/365≈0,0027

По формуле (4): I = -log2P = -log20.0027 ≈ 8.5 (бит)

Пример 2. У студента Васи спросили «У тебя сегодня день рождения?» Какое количество информации содержит ответ?

Решение. Ответ представляет собой сообщение, состоящее из одного символа двоичного алфавита: «да» или «нет». Вероятность символа «да» - 1/365, вероятность символа «нет» - 364/365. По формуле (6):

I = -1/365∙log21/365 – 364/365∙log2364/365 ≈ 0.027 (бит)

Количество информации в случае неравновероятных зависимых символов

В реальных условиях отсчеты, образующие сообщения, взаимосвязаны, например:

снимается квантованный по уровню и времени электронный сигнал (см.рис. 1(б));

количество заглавных букв в тексте связано с количеством точек;

количество заголовков пакета связано с количеством контрольных сумм и.т.д.

Поэтому вероятность Р сообщения надо считать с использованием совместных вероятностей. Если учитывать взаимосвязь между парами

символов (ai, aj), то следует использовать совместную вероятность появления пары p(ai, aj)= pij.

 

I

1 n pij log pij ,при pij 1

 

 

2

i

j

i j

если учитывать взаимосвязь между тремя отсчетами

I 1 n pijk log pijk

и т.д.

 

3

 

i

j k

 

Энтропия и ее свойства

Энтропи́я (от др.-греч. ἐντροπία — поворот, превращение) — широко используемый в естественных и точных науках термин. Впервые введён в рамках термодинамики как функция состояния термодинамической системы,

определяющая меру необратимого рассеивания энергии.

Понятие энтропии, её обозначение и название были введены Р. Клаузиусом (1865).

Энтропия может интерпретироваться как мера неопределённости (неупорядоченности) некоторой системы,

например, какого-либо опыта (испытания), который может иметь разные исходы, а значит, и количество информации.

Таким образом, другой интерпретацией энтропии является информационная ёмкость системы. С данной

интерпретацией связан тот факт, что создатель понятия энтропии в теории информации (Клод Шеннон) сначала хотел назвать эту величину информацией.

Энтропия – мера неопределенности случайного состояния некоторой системы.

Мы рассматриваем информационные системы, то есть системы, воспринимающие, хранящие, перерабатывающие и использующие информацию. Нормальное функционирование подобных систем – это прием-передача информационных сообщений.

Для целей теории информации мы определим энтропию как среднее количество информации, приходящееся на одно сообщение в ансамбле сообщений (или на один символ в отдельном сообщении). Иначе говоря, энтропия – это математическое ожидание количества информации в сообщении.

Пусть информационная система может порождать ансамбль

(алфавит) сообщений a1, a2,…,am. Вероятности каждого сообщения: P(a1), P(a2), …,P(am). Так как вероятности сообщений не одинаковы, то они несут разное количество информации.

I(ai) = - log2 P(ai).

Среднее количество информации (математическое ожидание):

m

m

 

H(a) M I(a) P(ai ) I(ai ) P(ai ) log2

P(ai )

i 1

i 1

 

• Совершенно аналогично вводится энтропия сообщений:

m

H pi log2 pi

i 1

Энтропия не зависит от конкретного сообщения. Это характеристика информационной системы (источника сообщений или канала передачи сообщений).

Энтропия в таком виде является априорной характеристикой и может быть вычислена до эксперимента, если известна статистика сообщений.

Энтропия характеризует неопределенность ситуации до передачи сообщения, поскольку заранее не известно, какое сообщение из ансамбля будет передано. Чем больше энтропия, тем сильнее неопределенность и тем большую информацию в среднем несет одно сообщение источника.

Сравнивая формулы (8) и (6) видим, что I = n∙H.

Свойства энтропии

1.Энтропия принимает значение, равное 0, только в случае детерминированного источника сообщений системы.

Детерминированность источника означает, что один из возможных символов генерируется источником постоянно (с единичной вероятностью), а остальные – не производятся вовсе. Предположим для определенности, что генерируется k-й символ.

Пусть P(ak)=1 , а P(ai)=0 для всех i=1,m i≠k

Тогда, обозначив элемент суммы в формуле (8) через hi, получим

hk P(ak )log2 P(ak ) 0

hi 0 log2 0 0 (?)