6. Информационная мера Шеннона. Энтропия. Условная энтропия.

Когда мы решаем задачи кодирования и поиска информации мы, главным образом, имеем дело с сообщениями. При этом мы имеем дело не с какими-то автономными сообщениями, а с сообщениями, входящими в некоторое множество. Одним из критериев, определяющих сложность алгоритмов для решения этих задач, является неопределенность сообщений. Действительно, чем больше элементов во множестве сообщений, тем больше неопределенность того, какой из них выбран в качестве аргумента поиска, тем больше сравнений требуется произвести для нахождения элемента. Чем больше неопределенность сообщения, тем длиннее требуется последовательность знаков, чтобы указать на выбранное сообщение, т. е. закодировать сообщение. Следовательно, неопределенность сообщений можно количественно измерить упомянутой предельной сложностью алгоритмов поиска и кодирования.

Кроме того, любое сообщение несет некоторую информацию. И здесь важнейшим моментом является понятие количество информации. До получения конкретного сообщения оно характеризуется для получателя некоторой неопределенностью. После получения сообщения неопределенность исчезает, а мы обогащаемся некоторыми сведениями. Это можно трактовать как переход неопределенности в информацию. Следовательно, количество информации можно задать как уменьшение неопределенности.

Вообще различают типичную и нетипичную последовательность сообщений.

Пусть имеется последовательность из n сообщений s1, s2, .., sn, каждое из которых принадлежит множеству из N возможных значений {х1,.., хN}. Сообщения независимы и принимают возможные значения с определенными вероятностями р1,…pN. Рассмотрим свойства таких последовательностей при п ->∞.

Вообще говоря, последовательность может принимать Nⁿ возможных значений. Однако при больших n вступают в действие вероятностные законы, в частности, закон больших чисел, и количество действительно выпадающих значений сокращается. По закону больших чисел при больших n в последовательности должно быть приблизительно np1 значений х1, приблизительно nр2 значений х2, …, приблизительно npN значений xN, причем точность такой оценки увеличивается с ростом n.

Конкретная последовательность называется типичной, если в ней выполняются вышеприведенные соотношения, и нетипичной в противном случае.

Вероятность того, что значение x1 встретится n1 раз, значение x2 – n2 раз,… равна

q=p1ⁿ¹p2ⁿ²…pN^nN

Поэтому вероятность типичной последовательности для больших n близка к величине

q=p1^np¹p2^np²…pN^npN

Это выражение одинаково для всех типичных последовательностей, следовательно, все типичные последовательности становятся равновероятными.

При стремлении п к бесконечности суммарная вероятность нетипичных последовательностей стремится к нулю, а типичные последовательности становятся относительно равновероятными. (теорема асимптотической равновероятности типичных последовательностей)

Из этой теоремы следует, что с увеличением n из общего числа n^N возможных последовательностей остается

(1)

(типичных) последовательностей.

C_N=log₂N – 1 + ε (2) – формула для среднего числа сравнений при чистом дихотомическом поиске, где ε = ограниченная положительная величина.

Объединим (1) и (2) и получим:

(3)

А для одного сообщения

(4)

При n->∞ эта величина стремится к пределу:

(5)

(5) – формула Шеннона для энтропии сообщений.

Это энтропия, которая по Шеннону является мерой информации.

Энтропия Н — это количественная мера неопределенности сообщений. В соответствии с приведенными рассуждениями энтропия имеет ясный физический смысл. Она выражает предельно достижимое среднее число сравнений, необходимых при чистом дихотомическом поиске в условиях отсутствия помех, или предельно достижимое среднее число двоичных знаков, необходимых при двоичном кодировании сообщений.

В качестве единицы измерения энтропии (и количества информации), таким образом, выступает энтропия множества двух равновероятных сообщений. Эта единица измерения называется битом.

К сожалению, такое же название в вычислительной технике имеет совершенно иной объект — двоичный символ (двоичный разряд). Поэтому следует отличать бит как единицу количества информации от бита как двоичного символа.

Условная энтропия

Пусть случайные величины с множествами возможных значений: