- •3. Теория информации
- •3.1. Количественное определение информации
- •3.2. Энтропия источника с памятью
- •3.3. Типичные и нетипичные комбинации
- •Количество и скорость передачи информации по дискретному каналу с шумами
- •Теорема оптимального кодирования
- •Энтропия непрерывного источника сообщений
- •Пропускная способность непрерывного канала связи
3.2. Энтропия источника с памятью
Формула (2.10) описывает энтропию источника без памяти. Но при передаче символов в сообщении вероятность последующего символа связана с предыдущим символом и определяется смыслом передаваемого сообщения. В связи с этим учет взаимосвязи в последующих символах приводит к уменьшению энтропии. Неопределенность условного распределения символов не может превышать энтропии их безусловного распределения.
. (2.13)
Обозначим как вероятность того, что источник послал символполе отправки символа. Тогда при фиксированном значенииэнтропия источника будет равна
. (2.14)
Если символ принимает произвольное значение из алфавита источника дискретных сообщений, то энтропию источника можно записать как:
. (2.15)
Поскольку
,
то (2.15) можно переписать в виде
. (2.16)
Для доказательства (2.13), учитывая что для источника дискретных сигналов без памяти , формулу (2.10) можно переписать как
.
Рассмотрим (2.13) в виде . Тогда
Используя известное соотношение , проиллюстрированное на рис. 2.2, предыдущие выражение можно переписать как:
(2.17)
Рис. 3.2. Графики и |
С учетом того, что иобразуют полный |
ансамбль событий, и.
Следовательно, выражение (2.17), принимает вид
, (2.18)
что и доказывает (2.13).
Равенство в (2.18) получается, только если , что возможно только у источника без памяти.
Типичный пример дискретного источника с памятью – текст, написанный на русском языке. Так, например, вероятность появления буквы ‘О’ составляет 0.09. Пробел встречается еще чаще, вероятность с которой он встречается в тексте составляет 0.125. В тоже время есть символы которые встречаются намного реже, так, например, символ ‘Ф’ встречается с вероятностью 0.002.
В принципе для текста можно построить формулы расчета энтропии, учитывающие взаимосвязь более чем двух символов. Но данная величина может быть получена более простым образом из экспериментов.
По экспериментальным данным . По (2.10) и (2.15) значение энтропии для русского языка можно рассчитать как. Максимальное значение энтропии для языка с алфавитом в 32 символа составляет:
.
Таким образом, в обычном тексте содержится в раза меньше информации, чем в хаотически набранном тексте. Избыточность текста составит:
Другой характеристикой источника дискретных сообщений является его производительность.
, (2.19)
В формуле (2.19) - скорость источника (количество символов выдаваемых за единицу времени).имеет размерность двоичных единиц в секунду.
3.3. Типичные и нетипичные комбинации
Все последовательности длиной , выдаваемые дискретным источником сообщений, можно разделить на типичные и нетипичные. Например, типичная комбинация для дискретного источника сообщений, выдающий осмысленный текст на русском языке, это слова с средней длинойсимволов. Нетипичная комбинация, в этом случае будет бессмысленный набор символов длиной.
Предположим, что источник выдает только типичные комбинации с одинаковой вероятностью, т.е. и вероятность появления типичных комбинаций
.
Если, в качестве выходной информации источника рассматривать типичные комбинации (обозначим его как ), то максимально возможная энтропия такого источника будет равна
.
В этом случае энтропию исходного источника сообщений, через количество типичных комбинаций можно записать как
. (2.20)
Исходя из (2.20) количество типичных комбинаций можно выразить как
. (2.20)
Для источника дискретных сообщений с известной производительностью выражение (2.19) можно переписать в виде
,
где - время отправки типичной комбинации длиной.
Возвращаясь к реальному случаю
С учетом того, что избыточность источника ,, формулу (2.20) можно переписать как
.
Общее количество комбинаций источника дискретных сообщений длиной равно
.
Соотношение между типичными и нетипичными комбинациями можно выразить как
, (2.21)
. (2.22)
Исходя из (2.21-2.22) можно утверждать, что доля типичных комбинаций с ростом убывает, а доля не типичных комбинаций растет.
Например, если в качестве источника дискретных сообщений рассмотреть текст, написанный на русском языке, то средняя длина слова будет равна шести символам. Будем рассматривать в качестве типичной комбинации рассматривать осмысленные слова, а в качестве нетипичной комбинации бессмысленный набор символов длиной в шесть символов.
В этом случае при и,
,
.
Исходя из выше изложенного можно утверждать, что всего в русском языке можно построить возможных слов, но осмысленными из них будет толькослов.