Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Шпоргалки по теории информации.doc
Скачиваний:
298
Добавлен:
02.05.2014
Размер:
881.15 Кб
Скачать

6. Информационная мера Шеннона. Энтропия. Условная энтропия.

Когда мы решаем задачи кодирования и поиска информации мы, главным образом, имеем дело с сообщениями. При этом мы имеем дело не с какими-то автономными сообщениями, а с сообщениями, входящими в некоторое множество. Одним из критериев, определяющих сложность алгоритмов для решения этих задач, является неопределенность сообщений. Действительно, чем больше элементов во множестве сообщений, тем больше неопределенность того, какой из них выбран в качестве ар­гумента поиска, тем больше сравнений требуется произвести для нахождения элемента. Чем больше неопределенность со­общения, тем длиннее требуется последовательность знаков, чтобы указать на выбранное сообщение, т. е. закодировать со­общение. Следовательно, неопределенность сообщений можно количественно измерить упомянутой предельной сложностью алгоритмов поиска и кодирования.

Кроме того, любое сообщение несет некоторую информацию. И здесь важнейшим моментом является понятие количество информации. До получе­ния конкретного сообщения оно характеризуется для получа­теля некоторой неопределенностью. После получения сообще­ния неопределенность исчезает, а мы обогащаемся некоторыми сведениями. Это можно трактовать как переход неопределен­ности в информацию. Следовательно, количество информации можно задать как уменьшение неопределенности.

Вообще различают типичную и нетипичную последовательность сообщений.

Пусть имеется последовательность из n сообщений s1, s2, .., sn, каждое из которых принадлежит множеству из N возможных значений {х1,.., хN}. Сообщения независимы и принимают возможные значения с определенными вероятно­стями р1,…pN. Рассмотрим свойства таких последователь­ностей при п ->∞.

Вообще говоря, последовательность может принимать Nn возможных значений. Однако при больших n вступают в дей­ствие вероятностные законы, в частности, закон больших чи­сел, и количество действительно выпадающих значений сокра­щается. По закону больших чисел при больших n в последова­тельности должно быть приблизительно np1 значений х1, при­близительно nр2 значений х2, …, приблизительно npN значений xN, причем точность такой оценки увеличивается с ростом n.

Конкретная последовательность называется типичной, ес­ли в ней выполняются вышеприведенные соотношения, и нетипичной в противном случае.

Вероятность того, что значение x1 встретится n1 раз, значение x2 – n2 раз,… равна

q=p1n1p2n2…pNnN

Поэтому вероятность типичной последовательности для больших n близка к величине

q=p1np1p2np2…pNnpN

Это выражение одинаково для всех типичных последователь­ностей, следовательно, все типичные последовательности ста­новятся равновероятными.

При стремлении п к бесконеч­ности суммарная вероятность нетипичных последователь­ностей стремится к нулю, а типичные последовательности становятся относительно равновероятными. (теорема асимптотической равновероятности ти­пичных последовательностей)

Из этой теоремы следует, что с увеличением n из общего числа nN возможных последовательностей остается

(1)

(типичных) последовательностей.

CN=log2N – 1 + ε (2) – формула для среднего числа сравнений при чистом дихотомическом поиске, где ε = ограниченная положительная величина.

Объединим (1) и (2) и получим:

(3)

А для одного сообщения

(4)

При n->∞ эта величина стремится к пределу:

(5)

(5) – формула Шеннона для энтропии сообщений.

Это энтропия, которая по Шеннону является мерой информации.

Энтропия Н — это количественная мера неопределенно­сти сообщений. В соответствии с приведенными рассуждени­ями энтропия имеет ясный физический смысл. Она выража­ет предельно достижимое среднее число сравнений, необхо­димых при чистом дихотомическом поиске в условиях от­сутствия помех, или предельно достижимое среднее число двоичных знаков, необходимых при двоичном кодировании со­общений.

В качестве единицы измерения энтропии (и количества информации), таким об­разом, выступает энтропия множества двух равновероятных сообщений. Эта единица измерения называется битом.

К сожалению, такое же название в вычислительной технике имеет совершенно иной объект — двоичный символ (двоичный разряд). Поэтому следует отличать бит как единицу количе­ства информации от бита как двоичного символа.

Условная энтропия

Пусть случайные величины с множествами возможных значений:

X=

Количество информации при наблюдении случайной величиныс распределением вероятностейзадается формулой Шеннона:

Условной энтропией величины при наблюдении величиныназывается

Справедливы соотношения: