Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
2. Часть 1.doc
Скачиваний:
103
Добавлен:
02.06.2015
Размер:
5.54 Mб
Скачать

Глава 11.

Стационарные эргодические модели

содержательных сообщений

В этой модели открытые (содержательные) сообщения AL=представляются отрезками реализацийстационарной эргодической случайной последовательности. Случайная последовательность называется стационарной, если распределение вероятностей отрезка этой последовательности не зависит отi при любом конечном значении k. Если на открытые сообщения не накладывается никаких регламентирующих ограничений, то с большой уверенностью можно считать, что указанное свойство будет для них выполняться. Эргодичность случайной последовательности, представляющей осмысленное сообщение, означает, что для любых двух отрезков текста осмысленного содержания в потоке осмысленных сообщений найдется сообщение, которое содержит в себе оба этих отрезка. Это свойство также не противоречит нашим представлениям о характере взаимосвязей в последовательности знаков осмысленных сообщений.

Зададим распределение вероятностей P(AL) на последовательностях AL=для всехL>0 с учетом заданных условных вероятностей

P(a/AL-1)= P(AL-1a)/P(AL-1).

В соответствии с формулами (1) и (2) (см. параграф 4.1) можно ввести в рассмотрение энтропию объединенной схемы A(L)=

H()=,

которую называют энтропией отрезка последовательности длины L.

Из рассмотренных ранее свойств энтропии имеем

0 H()log2nL=Llog2n.

Отношение H()/L называют средней энтропией, приходящейся на одну букву набора . При этом всегда 0 H()/Llog2n

ДОКАЖЕМ теперь, что существует предел

=H().

Рассмотрим условную энтропию

H(A/)=.

Можно показать, что для любого L

H(A/)H(A/).

Далее, легко убедиться, что

H()=H()+H(A/)H()+H(A/)

и

H()=H()+H(A/A1)+H(A/A1A2)+...+H(A/) LH(A/).

Отсюда следует, что

H()H()+H()=H()

и

H()H().

Таким образом, последовательность H() приявляется невозрастающей последовательностью, ограниченной снизу нулем. Следовательно, существует предел=H().

ОПРЕДЕЛЕНИЕ. Предел

=H().

называется энтропией эргодического источника сообщений на одну букву или энтропией, приходящейся на одну букву в бесконечных наборах (с учетом стационарной эргодичности их получения).

Свойство «равнораспределенности» для эргодических источников. Это свойство формулируется следующим образом.

Для любого >0

при .

Иными словами, утверждается, что при больших L все множество последовательностей AL, также, как и в независимом случае, можно разбить на два непересекающихся подмножества (AL) и (AL), которые обладают следующими свойствами:

– для любой AL(AL) вероятность P(AL)2-L,

– cуммарная вероятность P((AL))при.

Таким образом, распределение P(AL) оказывается фактически сосредоточенным лишь на множестве (AL), причем входящие в (AL) последовательности почти равновероятны, а их число почти равно 2L.

Отдельно стоит вопрос об оценке величины . В некоторых учебных курсах теории информации доказывается, что для стационарных случайных последовательностей пределсовпадает с условной энтропией знака последовательности, при условии, что известна вся предыдущая последовательность, то есть с «неопределенностью» очередной буквы последовательности. Формально, последняя неопределенность записывается как

lim H(аL12,…,аL-1) при L.

Все вышеизложенное (в частности, формулы) для абстрактной стационарной последовательности используется для последовательности букв открытых (содержательных) текстов. При этом не учитываются нестационарности в их началах и концах. Из вероятностных свойств открытых текстов следует, что непосредственный расчет значений H() иH(аL12,…,аL-1) возможен для небольших значений L. Для больших значений L известны лишь косвенные методы их оценок. Например, К. Шеннон предлагал метод оценки H(аL12,…,аL-1) основанный на задании случайно выбранных L-значных отрезков открытого текста и отгадывании L+1 буквы. При этом замечено, что с увеличением L до 20–30 величина H(аL12,…,аL-1) заметно убывает. Другой метод оценки предельной энтропии связан с некоторой характеристикой языка, называемой его избыточностью. Этот термин возник в связи с тем, что каждая буква сообщения, при условии что буквы появляются в нем случайно, равновероятно, независимо могла бы нести информацию, равную Нmax=log2n, где n – число букв в алфавите. В это же время средняя энтропия Н буквы в обычном открытом тексте, как показывают экспериментальные расчеты, значительно меньше, и, следовательно, величина Нmax – Н характеризует неиспользованные возможности в «сжатии» информации, содержащейся в открытом тексте. Величину

D=

называют избыточностью языка, а величину Н/Нmaxкоэффициентом сжатия.

Избыточность языка показывает, какую часть букв открытого текста можно вычеркнуть до наступления нечитаемости сообщения. На основе таких экспериментов и оценивают избыточность D открытых текстов, откуда получают оценку Н

Н=(1-D)Нmax=(1– D)log2n,

n – мощность алфавита открытых текстов.

Представление о величине энтропии и избыточности различной информации на русском (Нmax=log232=5) и французском (Нmax=log226=4,7) языках дает следующая таблица.

Н бит/буква

Русский язык

Н бит/буква

Французский

язык

D в процентах

Русский язык

D в процентах

Французский

язык

Язык в целом

1,37

1,40

72,6

70,6

Разговорная

речь

1,40

1,50

72,0

68,4

Литературные

тексты

1,19

1,38

76,2

71,0

Деловые

тексты

0,83

1,22

83,4

74,4

Принято считать, что для литературного текста Н=1 дв.ед, для деловой переписки Н=0.5–0.7 дв.ед. В заключение отметим, что основное свойство равнораспределенности осмысленных сообщений будет ниже использовано для решения ряда задач.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]