Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Системы связи / Теория информации-нов.doc
Скачиваний:
54
Добавлен:
01.05.2014
Размер:
1.96 Mб
Скачать

3.2. Энтропия источника с памятью

Формула (2.10) описывает энтропию источника без памяти. Но при передаче символов в сообщении вероятность последующего символа связана с предыдущим символом и определяется смыслом передаваемого сообщения. В связи с этим учет взаимосвязи в последующих символах приводит к уменьшению энтропии. Неопределенность условного распределения символов не может превышать энтропии их безусловного распределения.

. (2.13)

Обозначим как вероятность того, что источник послал символполе отправки символа. Тогда при фиксированном значенииэнтропия источника будет равна

. (2.14)

Если символ принимает произвольное значение из алфавита источника дискретных сообщений, то энтропию источника можно записать как:

. (2.15)

Поскольку

,

то (2.15) можно переписать в виде

. (2.16)

Для доказательства (2.13), учитывая что для источника дискретных сигналов без памяти , формулу (2.10) можно переписать как

.

Рассмотрим (2.13) в виде . Тогда

Используя известное соотношение , проиллюстрированное на рис. 2.2, предыдущие выражение можно переписать как:

(2.17)

Рис. 3.2. Графики и

С учетом того, что иобразуют полный

ансамбль событий, и.

Следовательно, выражение (2.17), принимает вид

, (2.18)

что и доказывает (2.13).

Равенство в (2.18) получается, только если , что возможно только у источника без памяти.

Типичный пример дискретного источника с памятью – текст, написанный на русском языке. Так, например, вероятность появления буквы ‘О’ составляет 0.09. Пробел встречается еще чаще, вероятность с которой он встречается в тексте составляет 0.125. В тоже время есть символы которые встречаются намного реже, так, например, символ ‘Ф’ встречается с вероятностью 0.002.

В принципе для текста можно построить формулы расчета энтропии, учитывающие взаимосвязь более чем двух символов. Но данная величина может быть получена более простым образом из экспериментов.

По экспериментальным данным . По (2.10) и (2.15) значение энтропии для русского языка можно рассчитать как. Максимальное значение энтропии для языка с алфавитом в 32 символа составляет:

.

Таким образом, в обычном тексте содержится в раза меньше информации, чем в хаотически набранном тексте. Избыточность текста составит:

Другой характеристикой источника дискретных сообщений является его производительность.

, (2.19)

В формуле (2.19) - скорость источника (количество символов выдаваемых за единицу времени).имеет размерность двоичных единиц в секунду.

3.3. Типичные и нетипичные комбинации

Все последовательности длиной , выдаваемые дискретным источником сообщений, можно разделить на типичные и нетипичные. Например, типичная комбинация для дискретного источника сообщений, выдающий осмысленный текст на русском языке, это слова с средней длинойсимволов. Нетипичная комбинация, в этом случае будет бессмысленный набор символов длиной.

Предположим, что источник выдает только типичные комбинации с одинаковой вероятностью, т.е. и вероятность появления типичных комбинаций

.

Если, в качестве выходной информации источника рассматривать типичные комбинации (обозначим его как ), то максимально возможная энтропия такого источника будет равна

.

В этом случае энтропию исходного источника сообщений, через количество типичных комбинаций можно записать как

. (2.20)

Исходя из (2.20) количество типичных комбинаций можно выразить как

. (2.20)

Для источника дискретных сообщений с известной производительностью выражение (2.19) можно переписать в виде

,

где - время отправки типичной комбинации длиной.

Возвращаясь к реальному случаю

С учетом того, что избыточность источника ,, формулу (2.20) можно переписать как

.

Общее количество комбинаций источника дискретных сообщений длиной равно

.

Соотношение между типичными и нетипичными комбинациями можно выразить как

, (2.21)

. (2.22)

Исходя из (2.21-2.22) можно утверждать, что доля типичных комбинаций с ростом убывает, а доля не типичных комбинаций растет.

Например, если в качестве источника дискретных сообщений рассмотреть текст, написанный на русском языке, то средняя длина слова будет равна шести символам. Будем рассматривать в качестве типичной комбинации рассматривать осмысленные слова, а в качестве нетипичной комбинации бессмысленный набор символов длиной в шесть символов.

В этом случае при и,

,

.

Исходя из выше изложенного можно утверждать, что всего в русском языке можно построить возможных слов, но осмысленными из них будет толькослов.

Соседние файлы в папке Системы связи