Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции / 6. Энтропия и ее свойства.ppt
Скачиваний:
23
Добавлен:
19.09.2023
Размер:
324.61 Кб
Скачать

Энтропия непрерывных сообщений

Рассмотрим систему, где качественные признаки состояния изменяются непрерывно (непрерывный сигнал). Вероятность нахождения системы в состоянии х (т.е. сигнал принимает значение х) характеризуется плотностью вероятности f(x). Чтобы найти энтропию такого сообщения, разбиваем диапазон возможного изменения сигнала на дискреты размером ∆x.

Вероятность нахождения системы в i-й дискрете равна

P(xi) = f(xi)∙ x

Тогда энтропия системы вычисляется так:

H f (xi ) x log(f (xi ) x) f (xi ) x (log f (xi ) log x)

 

 

i

i

i

i

 

 

i

 

) x

 

 

f (x

)log f (x

) x log x

f (x

 

i

 

 

i

 

 

при малых Δх:

 

 

 

 

 

 

 

 

f (xi )log f (xi ) x f (x)log f (x)dx

 

i

 

 

 

 

 

 

 

 

А также

f (xi ) x f (x)dx 1

 

i

 

 

Таким образом

 

 

 

 

 

(13)

H f (xi )log f (xi )dx log x

 

 

 

 

 

 

 

Если ∆х=1 (это зависит от масштаба), то

H H* f (x)log f (x)dx

 

 

 

 

 

Величина Н* называется приведенной или дифференциальной

энтропией.

При уменьшении ∆х Н стремится к . Это естественно, т.к. чем точнее мы хотим задать состояние системы, тем большую степень неопределенности мы должны устранить. Дифференциальная энтропия не является мерой количества информации, хотя и характеризует степень неопределенности, присущую источнику.

Относительная энтропия

Идеальные сообщения, имеющие максимальную энтропию, оптимальны в том смысле, что в них на один символ (элемент, уровень квантования) приходится наибольшее количество информации.

В реальных сообщениях символы всегда коррелированны (после запятой не появляется точка, после гласной мягкий знак), вследствие чего количество информации, приходящееся на один символ будет меньше, чем в идеальных. Соотношение реальных и оптимальных сообщений выражается посредством коэффициента сжатия (относительная энтропия)

(s) Hp (s) / H0 (s) n0 / np

где n0 и np – количество символов оптимального и реального сообщения.

Одно и то же количество информации I(s) может содержаться в

сообщении, состоящим из np символов с энтропией Нр(s) или из n0 символов с энтропией Н0(s)

I(s) = np∙Hp(s) = n0∙H0(s), а так как Hp(s)≤H0(s), то np n0.

Количественные характеристики источника сообщений

Избыточность сообщения

Коэффициент избыточности выражается так:

(s)

np

 

n0

1

n

0

1 (s)

np

 

 

 

 

 

 

 

np

 

 

(s)

H0

 

Hp

1

 

Hp

 

H0

 

 

H0

 

 

 

 

 

Он показывает, какая часть реального сообщения является излишней и могла бы не передаваться, если бы сообщение было организовано оптимально.

Экономичность источников информации

Энтропию можно увеличивать за счет обеспечения равновероятности символов алфавита, а также за счет увеличения мощности алфавита. Однако увеличение мощности алфавита приводит к сложностям приема-передачи информации (непрерывный сигнал передается и воспринимается с погрешностями, китайские иероглифы трудны для освоения, для них не хватает клавиш на клавиатуре…), к увеличению избыточности сообщений (в языках программирования ряд команд применяется редко).

Существует теоретический оптимум для мощности алфавита.

Пусть имеется источник с алфавитом мощности m. Тот же алфавит можно получить, используя два источника с алфавитами m/2 или три

источника с алфавитами m/3 и т.д. При какой мощности алфавита m общая энтропия будет максимальной, если k∙m = const, где k – количество независимых источников, а m – это мощность алфавита каждого источника? (Под независимыми источниками можно понимать и независимые сигналы одного источника)

• Пусть k∙m = а. Энтропия композиции независимых источников равна

k

H Hi k Hi k log m

i 1

k = а/m

Hma log2 m

Найдем максимум энтропии, для чего продифференцируем по m

H

 

a

 

1

 

a

logm

a

log2 e

a

log2 m 0

m

m m ln 2

m2

m2

m2

 

 

 

 

 

ma2 log2 e ma2 log2 m

m = e

Оптимальная мощность алфавита теоретически равна основанию натуральных логарифмов е (2.718281828459045…), а практически – трем.

Очевидно, что троичный алфавит является более экономичным, чем двоичный. Именно поэтому в истории развития вычислительной техники были случаи создания компьютеров, использующих троичный алфавит.

В 1958 году группа советских инженеров под руководством конструктора Н.П. Брусенцова представила электронно-вычислительную машину «Сетунь»,

работающую на принципах троичной логики. Элементной базой такого компьютера были магнитные усилители на ферритовых сердечниках. Они допускали три устойчивых состояния: ток в прямом направлении (логическая «единица»), ток в обратном направлении (логическая «минус единица») и отсутствие тока (логический «ноль»). Машины этой серии выпускались с 1962 по 1964 год и отличались исключительной надежностью. Архитектурно они были совершеннее «двоичных» полупроводниковых аналогов.

Помешали их массовому распространению миниатюризация, удешевление и повышение надежности полупроводниковых элементов. «Сетунь» стала экономически невыгодной.

Производительность источника сообщений

Производительностью источника называется количество информации, порождаемое источником в среднем за единицу времени

Пусть Н – энтропия источника, m – мощность алфавита, pi (i=1, 2,…, m)

– вероятность появления i-го символа, θi – длительность генерации i

го символа. Рассмотрим процесс генерации mn символов. В среднем,

один символ генерируется за время M i 1 ipi .

На генерацию n символов будет затрачено время Т=n∙M[θ].

Количество информации, порожденное источником за это время

равно: I = n∙H. Производительность источника:

 

 

 

 

 

 

m

R

I

 

n H

 

 

pi logpi

i 1

 

T

n M[ ]

m

 

 

 

 

ipi

 

 

 

 

 

 

i 1

Если все символы генерируются за одно и то же время θ, то

 

 

 

m

 

 

R

 

pi

logpi

.

 

i 1

 

 

 

 

 

 

 

 

 

Максимальной производительностью обладает источник с максимальной энтропией:

Rmax

 

log

2 m