Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
l05-08.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
1.06 Mб
Скачать

Взаимная информация и ее свойства. Количество информации между дискретными ансамблями

Пусть Х и У—два дискретных множества. Рассмотрим ан­самбль который образован всевозможными парами (x,y) XY. Как указывалось выше, при задании ансамбля XY определены также ансамбли и где

; . (2.1.1)

Кроме того, для каждого из сообщений и , для которых и , определены условные распре­деления вероятностей и а, следовательно, и услов­ные ансамбли и .

В соответствии с определением 1.3.1 для каждого сообщения и вводится собственная информация

, (2.1.2)

и условная собственная информация

; . (2.1.3)

Величины (2.1.2) и (2.1.3) могут принимать конечные и бесконеч­ные значения, но для некоторых пар сообщений условная соб­ственная информация может быть не определена. В последнем случае эта информация при необходимости доопределяется произ­вольным образом. Нетрудно показать, что способ доопределения не влияет на величины средних количеств информации, т. е. на энтропии H(X\Y) и H(Y\X).

Определение 2.1.1. Количеством информации в сооб­щении о сообщении называется величина

. (2.1.4)

Замечание. Количество информации I ( x; у) может при­нимать различные по знаку и величине конечные и бесконечные значения, но может быть не определено для некоторых пар сооб­щений. Неопределенность появляется, либо когда под знаком логарифма в (2.1.4) оказывается выражение вида 0/0, либо когда условная вероятность не определена. Нетрудно видеть, что не­определенности не возникает, если для пары (x, у) XY выпол­нены условия и . Неопределенность можно устранить, либо произвольным образом доопределив количество информации, либо исключив из рассмотрения сообщения x X, у Y, вероятности которых равны нулю.

Так как для любых x X и у Y таких, что и , имеют места равенства

, (2.1.5)

то

, (2.1.6)

т. е. количество информации в сообщении x о сообщении y равно количеству информации в сообщении y о сообщении x. Это замеча­ние показывает, что количество информации есть симметрическая функция пары сообщений. Поэтому величину I (x; у) называют количеством взаимной информации между сообщениями x и у

или просто взаимной информацией между этими сообщениями. Формуле (2.1.4) можно придать симметричную форму:

. (2.1.7)

Рассмотрим теперь ансамбль , образованный всевозможными тройками (x, у, z) XYZ, где X, Y и Z — ди­скретные множества. Как указывалось раньше, задание такого ансамбля одновременно задает различные условные и безусловные ансамбли. Ниже мы выпишем некоторые распределения вероят­ностей, определяемые данным ансамблем, которые понадобятся ниже. Пусть

p (x, у) =

p (y, z) = (2.1.8)

р (x, z) =

— безусловные распределения вероятностей на парах (x, y) XY, (у, z) YZ, (x, z) XZ соответственно и

p(x)= (2.1.9)

p(z)=

— безусловные распределения вероятностей на сообщениях x Х и z Z соответственно. Пусть, далее,

, (2.1.10)

,

—условные распределения вероятностей на XY при заданном фиксированном сообщении z Z и на YZ при заданном фиксиро­ванном сообщении x Х соответственно. Пусть, кроме того,

, (2.1.11)

,

— условные распределения вероятностей на сообщениях у Y при фиксированных x Х и (x,z) XZ соответственно.

С помощью определения 2.1.1 может быть введена условная информация I(y; z/x) между сообщениями у Y и z Z при данном сообщении x X:

. (2.1.12)

С помощью того же определения может быть введена информация между парой сообщений (x, y) XY и сообщением z Z:

. (2.1.13)

Мы хотим представить информацию между парой (x, y) и сообще­нием z в виде суммы, в которой фигурировали бы информации между x и z, а также между у н z. Это можно сделать, если вос­пользоваться свойством аддитивности собственной информации (см. § 1.3):

I (x, y) = I (x) + I (y/z), I ((x, y)/z) = I (x/z) + I (y/x z). (2.1.14)

Отсюда, а также из (2.1.12) и (2.1.13) следует, что

, (2.1.15)

I ((x, y); z)=I (y; z)+I (x; z/y).

Эти последние соотношения называются свойством аддитив­ности взаимной информации.

Не останавливаясь подробно, заметим, что аналогичным обра­зом могут быть определены и другие количества информации, скажем I (x; y/z),

I ((x, z); у) и т. д.

Замечание. Количества информации I (у; z/x), I ((x, у); г), I (x; y/z) и др., введенные выше для сообщений ансамбля XYZ, могут быть не определены для некоторых троек (x, у, г) XYZ. Неопределенность возникает либо при появлении выра­жений вида 0/0, либо при не существовании условных вероят­ностей. В каждом отдельном случае легко выписать условия, при выполнении которых неопределенности не возникает. Так, например, информация I (у; z/x) определена для всех сообщений (x, у, z), для которых р (x, у) 0 и р (x, z) 0. В этом примере нельзя устранить неопределенность, исключая часть сообщений из множеств X, Y н Z (ср. с замечанием, сделанным вслед за опре­делением 2.1.1). Поэтому в дальнейшем мы будем предполагать, что в случае необходимости неопределенность устраняется произ­вольным доопределением рассматриваемого количества инфор­мации.

В точности так же, как в случае собственной информации, взаимную информацию можно рассматривать как случайную величину на ансамбле и вводить для нее различные числовые характеристики, и, в частности, математическое ожидание.

Пусть задан дискретный ансамбль . Будем рас­сматривать количество взаимной информации I (x; у) как функ­цию, отображающую элементы ансамбля XY в числовую ось. Таким образом, количество взаимной информации является слу­чайной величиной на ансамбле XY.

Определение 2.1.2. Математическое ожидание случай­ной величины I (x; у) на ансамбле называется средним количеством взаимной информации или просто средней взаимной информацией между ансамблями и (p(x) и p (у) определены соотношениями (2.1.1)) и обо­значается через I (X; Y):

. (2.1.16)

Легко видеть, что величина математического ожидания не зависит от способа доопределения функции I (x; у), поскольку вероятность всех пар сообщений, для которых количество инфор­мации доопределено, равна нулю.

Предположим теперь, что зафиксировано некоторое сообщение у Y (или x X), причем р (у) 0 (или р (x) 0). Тогда количество информации I (x; у) можно рассматривать как случай­ную величину на ансамбле {X, р (x у)} (или на ансамбле ).

Определение 2.1.3. Математическое ожидание случай­ной величины I (x; у) на ансамбле , назы­вается средней взаимной информацией между ансамблем Х и сооб­щением у Y и обозначается через I (X; y):

. (2.1.17)

Аналогичным образом определяется средняя взаимная информа­ция между ансамблем Y и сообщением x X, р (x) 0:

. (2.1.18)

Средняя взаимная информация I (X; у) или I (x; Y) зависит от выбора сообщения у Y или x Х и не определена для тех сообщений, вероятности которых равны нулю. Если для таких сообщений I (X; у) или I (x; У) произвольным образом доопре­делить, то среднюю взаимную информацию I (X; у) можно рас­сматривать как случайную величину на ансамбле , а среднюю взаимную информацию I (x; Y) — как случайную величину на ансамбле {X, р (x у)}. Нетрудно увидеть, что незави­симо от способа доопределения

(2.1.19)

Таким образом, среднюю взаимную информацию I (X; Y) между ансамблями Х и Y можно определить двояким способом, либо как в определении 2.1.2, либо как повторное математическое ожидание или .

Поскольку взаимная информация между сообщениями была определена как разность собственных информации (безусловной и условной), а математическое ожидание собственной информации является по определению энтропией ансамбля, то можно записать

I (X;Y) = H(X) H (X/Y) = H(Y) – H(Y/X). (2.1.20)

Изучение средней взаимной информации между дискретными ансамблями мы начнем с установления простейших ее свойств.

Теорема 2.1.1. Средняя взаимная информация между сообщением, вероятность которого отлична от нуля, и ансамблем, а также средняя взаимная информация между двумя ансамблями неотрицательна.

Доказательство. Покажем только, что , если . Второе утверждение теоремы будет тогда следо­вать из (2.1.19). Рассмотрим величину —I (X; у). Так как р (у) 0, то существует условное распределение вероятностей р (x; у) и

. (2.1.21)

Последнее соотношение получается в результате применения не­равенства для логарифма (1.3.7). Если р (x, у) = р (x) р (у) при всех x X, то I (X; у) = 0. Очевидно, что средняя взаимная информация I (X; У) равна нулю в том и только том случае, когда Р (x, У) = Р (x) р (у) для всех x Х и у Y, т. е. когда ан­самбли Х и Y статистически независимы.

Сноса будем рассматривать ансамбль троек . Для этого ансамбля определена условная взаимная информация I (x; y/z), которая при фиксированном z Z представляет собой функцию, отображающую условный ансамбль на числовую ось, и поэтому является случайной величиной на этом ансамбле.

Определение 2.1.4. Математическое ожидание случай­ной величины I (x; y/z) на условном ансамбле называется средней взаимной информацией между ансамблями Х и Y относительно сообщения z из ансамбля Z и обозначается через I (X; Y/z):

. (2.1.22)

Как и раньше, средняя взаимная информация I (X; Y/z) может рассматриваться как случайная величина на ансамбле .

Определение 2.1.5. Математическое ожидание случай­ной величины I (X; Y/z) на ансамбле называется средней взаимной информацией между ансамблями Х и Y относительно ансамбля Z и обозначается через I (X; Y / Z):

. (2.1.23)

Для ансамбля определено также количество взаимной информации I ((x, у);z) между парой сообщений (z, у) и сообщением z. Пару (x, у) можно рассматривать как элемент ансамбля XY, тогда математическое ожидание случайной вели­чины I ((x, у); z) на ансамбле XYZ представляет собой среднюю взаимную информацию между парой ансамблей XY и ансамблем Z;

. (2.1.24)

Из свойства аддитивности (см. 2.1.15) тогда следует, что

I (XY; Z)=I (X; Z)+I (Y; Z/X)=I (Y; Z)+I (X; Z/X), (2.1.25) а из (2.1.20) —что

I (XY; Z)=H (XY)-H (XY/Z)=H (Z)-H (Z/XY). (2.1.26)

Одно из важнейших свойств средней взаимной информации состоит в том, что она не увеличивается при преобразованиях. Для того чтобы точно сформулировать и доказать это свойство, введем в рассмотрение некоторое преобразование , отобража­ющее элементы множества Х на элементы другого множества, скажем Z. Будем предполагать, что каждый элемент множества Z является образом некоторого (возможно, не одного) элемента из X. Будем это записывать так: Z = (X). Предположим также, что задан ансамбль и тем самым определена величина средней взаимной информации I (X; Y). Преобразование определяет ансамбль , для которого

(2.1.27)

Поэтому средняя взаимная информация I (Z; Y) определена для каждого отображения и принимает значения, определяемые выбором .

Теорема 2.1.2. Для любого отображения Z = (X) ан­самбля Х в ансамбль Z

(2.1.28)

причем равенство имеет место всегда, когда отображение обра­тимо, т. е. каждому элементу z Z соответствует единственный элемент x X.

Доказательство. Рассмотрим множество XYZ. Так как при выбранном сообщении x X сообщение z Z одно­значно определено и, следовательно, не зависит от сообщения y Y , то распределение вероятностей на тройках (x, у, z), соот­ветствующее описанному выше отображению, удовлетворяет условию

(2.1.29)

или р (x, у, z) == р (x, у) р (z/ x) для всех (x, у, z) XYZ. Дей­ствительно, при данном x с вероятностью 1 z = , т. е.

если z = (X),

если .

Из условия (2.1.29) следует, что

(2.1.30)

для всех (x, у, г) XYZ, для которых p (x, у, z) 0, и, следова­тельно, I (Y; Z/X) = 0. Отсюда и из (2.1.25) следует, что

(2.1.31)

С другой стороны, в силу неотрицательности средней взаимной информации I (X; Y/Z)

I (XZ; У) = I (Z; Y) + I (X; Y | Z) I (Z; Y), (2.1.32)

что и доказывает (2.1.28).

Равенство в (2.1.28) имеет место в том случае, когда I (X; Y/Z) = 0. Очевидно, что последнее равенство выполняется, если для всех (x, у, z) XYZ

р(x/ yz)=р (x/ z). (2.1.33)

Условие (2.1.33) означает, что при выбранном сообщении z Z сообщение x X статистически не зависит от y Y . Это условие всегда выполняется, если сообщение z однозначно определяет сообщение x, т. е. если сообщения x и z однозначно определяют друг друга и, следовательно, если отображение обратимо. Теорема доказана.

Заметим, что в теореме 2.1.2 доказано нечто большее, чем утверждается. А именно, доказано, что неравенство (2.1.28) имеет место не только при детерминированных отображениях Х в Z, но также и при произвольных случайных отображениях, опреде­ляемых распределением вероятностей р (z/ x), для которых выпол­нено условие (2.1.29).

Свойство невозрастания информации при преобразованиях имеет следующее физическое толкование.

Предположим, что имеются наблюдаемые события, образу­ющие множество' X. По этим наблюдениям мы хотим получить информацию о некотором объекте, возможные состояния которого образуют множество Y. Например, Х — множество возможных сигналов на выходе некоторого канала связи, а Y — множество различных передаваемых сообщений. Теорема утверждает, что никакая обработка наблюдений, при которой происходит детер­минированное или случайное их преобразование, не может уве­личить средней информации об интересующем нас объекте. Ин­формация сохраняется, если преобразование обратимо.

Очевидно, что теорема остается верной в том случае, когда преобразование осуществляется над ансамблем Y, а также в том случае, когда осуществляются преобразования как ансамбля X, так и ансамбля Y. Пусть U = (X) и V = (Y) —два отобра­жения, заданные на множествах Х и Y соответственно. Тогда

. (2.1.34)

Если оба отображения обратимы, то имеет место знак равенства.

22

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]