Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Национальный исследовательский университет «Высшая школа экономики»

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

2. Часть 1.doc

Скачиваний:

103

Добавлен:

02.06.2015

Размер:

5.54 Mб

Скачать

☆

<<< < Предыдущая 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 4041 / 4641 42 43 44 45 46 > Следующая >>>

Глава 11.

Стационарные эргодические модели

содержательных сообщений

В этой модели открытые (содержательные) сообщения A_L=представляются отрезками реализацийстационарной эргодической случайной последовательности. Случайная последовательность называется стационарной, если распределение вероятностей отрезка этой последовательности не зависит отi при любом конечном значении k. Если на открытые сообщения не накладывается никаких регламентирующих ограничений, то с большой уверенностью можно считать, что указанное свойство будет для них выполняться. Эргодичность случайной последовательности, представляющей осмысленное сообщение, означает, что для любых двух отрезков текста осмысленного содержания в потоке осмысленных сообщений найдется сообщение, которое содержит в себе оба этих отрезка. Это свойство также не противоречит нашим представлениям о характере взаимосвязей в последовательности знаков осмысленных сообщений.

Зададим распределение вероятностей P(A_L) на последовательностях A_L=для всехL>0 с учетом заданных условных вероятностей

P(a/A_L-1)= P(A_L-1a)/P(A_L-1).

В соответствии с формулами (1) и (2) (см. параграф 4.1) можно ввести в рассмотрение энтропию объединенной схемы A⁽^L⁾=

H()=,

которую называют энтропией отрезка последовательности длины L.

Из рассмотренных ранее свойств энтропии имеем

0 H()log₂n^L=Llog₂n.

Отношение H()/L называют средней энтропией, приходящейся на одну букву набора . При этом всегда 0 H()/Llog₂n

ДОКАЖЕМ теперь, что существует предел

=H().

Рассмотрим условную энтропию

H(A/)=.

Можно показать, что для любого L

H(A/)H(A/).

Далее, легко убедиться, что

H()=H()+H(A/)H()+H(A/)

H()=H()+H(A/A₁)+H(A/A₁A₂)+...+H(A/) LH(A/).

Отсюда следует, что

H()H()+H()=H()

H()H().

Таким образом, последовательность H() приявляется невозрастающей последовательностью, ограниченной снизу нулем. Следовательно, существует предел=H().

ОПРЕДЕЛЕНИЕ. Предел

=H().

называется энтропией эргодического источника сообщений на одну букву или энтропией, приходящейся на одну букву в бесконечных наборах (с учетом стационарной эргодичности их получения).

Свойство «равнораспределенности» для эргодических источников. Это свойство формулируется следующим образом.

Для любого >0

при .

Иными словами, утверждается, что при больших L все множество последовательностей A^L, также, как и в независимом случае, можно разбить на два непересекающихся подмножества (A^L)^ и (A^L)^, которые обладают следующими свойствами:

– для любой A_L(A^L)^ вероятность P(A_L)2^-^L,

– cуммарная вероятность P((A^L)^)при.

Таким образом, распределение P(A_L) оказывается фактически сосредоточенным лишь на множестве (A^L)^, причем входящие в (A^L)^ последовательности почти равновероятны, а их число почти равно 2^L.

Отдельно стоит вопрос об оценке величины . В некоторых учебных курсах теории информации доказывается, что для стационарных случайных последовательностей пределсовпадает с условной энтропией знака последовательности, при условии, что известна вся предыдущая последовательность, то есть с «неопределенностью» очередной буквы последовательности. Формально, последняя неопределенность записывается как

lim H(а_L/а₁,а₂,…,а_L_-1) при L.

Все вышеизложенное (в частности, формулы) для абстрактной стационарной последовательности используется для последовательности букв открытых (содержательных) текстов. При этом не учитываются нестационарности в их началах и концах. Из вероятностных свойств открытых текстов следует, что непосредственный расчет значений H() иH(а_L/а₁,а₂,…,а_L_-1) возможен для небольших значений L. Для больших значений L известны лишь косвенные методы их оценок. Например, К. Шеннон предлагал метод оценки H(а_L/а₁,а₂,…,а_L_-1) основанный на задании случайно выбранных L-значных отрезков открытого текста и отгадывании L+1 буквы. При этом замечено, что с увеличением L до 20–30 величина H(а_L/а₁,а₂,…,а_L_-1) заметно убывает. Другой метод оценки предельной энтропии связан с некоторой характеристикой языка, называемой его избыточностью. Этот термин возник в связи с тем, что каждая буква сообщения, при условии что буквы появляются в нем случайно, равновероятно, независимо могла бы нести информацию, равную Н_max=log₂n, где n – число букв в алфавите. В это же время средняя энтропия Н буквы в обычном открытом тексте, как показывают экспериментальные расчеты, значительно меньше, и, следовательно, величина Н_max – Н характеризует неиспользованные возможности в «сжатии» информации, содержащейся в открытом тексте. Величину

называют избыточностью языка, а величину Н/Н_max – коэффициентом сжатия.

Избыточность языка показывает, какую часть букв открытого текста можно вычеркнуть до наступления нечитаемости сообщения. На основе таких экспериментов и оценивают избыточность D открытых текстов, откуда получают оценку Н

Н=(1-D)Н_max=(1– D)log₂n,

n – мощность алфавита открытых текстов.

Представление о величине энтропии и избыточности различной информации на русском (Н_max=log₂32=5) и французском (Н_max=log₂26=4,7) языках дает следующая таблица.

	Н бит/буква Русский язык	Н бит/буква Французский язык	D в процентах Русский язык	D в процентах Французский язык
Язык в целом	1,37	1,40	72,6	70,6
Разговорная речь	1,40	1,50	72,0	68,4
Литературные тексты	1,19	1,38	76,2	71,0
Деловые тексты	0,83	1,22	83,4	74,4

Принято считать, что для литературного текста Н=1 дв.ед, для деловой переписки Н=0.5–0.7 дв.ед. В заключение отметим, что основное свойство равнораспределенности осмысленных сообщений будет ниже использовано для решения ряда задач.

<<< < Предыдущая 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 4041 / 4641 42 43 44 45 46 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
26.03.201649.79 Mб81_berbau_resentation.pdf
#
02.06.20154.41 Mб6331_Gloveli_G_D_Istoria_ekonomichesky_ucheny_U.doc
#
02.06.2015211.46 Кб101Теория-практика р_я.doc
#
19.11.2018713.77 Кб92 этап. Оценка идеи.docx
#
26.09.201949.42 Кб32. 1-25.docx
#
02.06.20155.54 Mб1032. Часть 1.doc
#
02.06.201535.27 Кб132.вопрос.Шопенрауэр.docx
#
17.04.2019490.5 Кб1220-24.doc
#
26.03.201638.4 Кб3020.Первые контакты китайцв с европейцами.doc
#
26.03.20162.17 Mб82000 full.doc
#
02.06.20152.65 Mб62001 Ross.pdf