Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Энтропия и информация. Критерии оптимальности

.docx
Скачиваний:
26
Добавлен:
05.06.2015
Размер:
355.41 Кб
Скачать

4.ЭНТРОПИЯ И ИНФОРМАЦИЯ

4.1. Энтропия как мера статистической неопределенности. В одном из недавних общественных обсуждений проблем образования было высказано мнение, что каждый образованный человек должен понимать фундаментальность понятия неопределенности. В последние десятилетия этот термин уверенно лидирует среди физических первопринципов, проникая в новые области знания. В данном разделе надлежит ближе ознакомиться с этим понятием и уяснить связь неопределенности с системообразующими характеристиками.

Неопределенность может иметь разное происхождение. Один из ее видов – неизвестность – рассматривается теорией познания и философией; такого типа неопределенность возникает, когда мы, например, задаем вопрос «Есть ли жизнь на других планетах?» или «Существуют ли другие цивилизации?» и т.п.

Другой вид неопределенности – расплывчатость, размытость, – например, «Сколько надо взять песчинок, чтобы образовать небольшую кучу»? С неопределенностью этого типа мы встречаемся в квантовой механике. На её основе построена нелокальная версия термодинамики, которая способна ответить на сходный вопрос: «сколько надо иметь частиц, чтобы образовать макроуровень и каково квантовое рассеяние этого числа»?. Эта неопределенность объективна, для нее характерно, что она неустранима в процессе измерений. В математике такой неопределенностью занимается теория размытых множеств. Следует попутно отметить, что размытость – характерное свойство языка: «в комнату (какую?) вошел высокий (какого роста?) молодой (какого конкретно возраста?) человек (кто он?) и т.п.

Третий вид неопределенности – случайность. В ее основе лежат статистические закономерности, устанавливаемые теорией вероятности. Этот вид неопределенности используется статистической физикой и совместно с неопределённостью второго типа в квантовой механике. Отличительная особенность статистической неопределенности заключается в том, что для нее можно установить количественную меру, о которой пойдет речь далее.

Оставим пока в стороне вопрос о практической значимос888ти статистической меры неопределенности, сосредоточив внимание на её сущности. Рассмотрим несколько простейших ситуаций, которые будем именовать опытами А, B и C. Предполагается, что читателю знакомы элементы теории вероятности.

О п ы т А будет заключаться в бросании монеты. В этом опыте возможны два исхода (k=2): “орел или решка”. Очевидно, вероятность каждого исхода (i=1,2).

О п ы т B – бросание игральной шестигранной кости. В этом опыте возможны уже шесть исходов (k=6). Вероятность каждого исхода .

О п ы т C предполагает одновременное бросание двух костей. Для этого опыта k=36 и .

Оценка неопределённости результатов опытов есть оценка трудности предугадывания исхода опыта. Интуитивно ясно, что из всех описанных ситуаций опыт С имеет максимальную неопределённость, поскольку число исходов здесь самое большое и заранее предвидеть исход этого опыта труднее всего.

Чтобы перейти к количественной оценке неопределённости сформулируем основные требования к функции, которая должна играть роль меры неопределённости. Будем обозначать эту функцию буквой H.

П е р в о е требование. Функция Н должна монотонно возрастать с увеличением числа исходов опыта .

В т о р о е требование. Функция Н должна быть равна нулю, если имеется единственный исход (k=1). Это означает, что если возможен лишь один исход, то никакой неопределённости не возникает и результат опыта можно предвидеть безошибочно.

Т р е т ь е требование. Обратим внимание на то, что один опыт С можно рассматривать как два опыта В, и потребуем, чтобы суммарное значение энтропии двух опытов В было равно энтропии опыта С

,

где ,

или в общем случае не для двух, а n простых опытов

.(4.1)

Если бы третье требование не соблюдалось, то оценка неопределённости опыта С оказалась бы противоречивой и зависела бы от субъективной трактовки самого опыта – считать ли, что имел место опыт С, или всё же кости упали не одновременно и имели место два опыта В. Принятие этого требования равносильно введению свойств аддитивности для будущей оценки неопределённости. По умолчанию принимается, что рассматриваемые элементы (кости) не взаимодействуют между собой. В термодинамической трактовке это равносильно принятию идеальной системы.

Решим функциональное уравнение (4.1) относительно функции . Для этого дифференцируем обе части выражения (4.1-1) по k, используя требование монотонности функции :

. (4.2)

Теперь дифференцируем (4.1) по n

. (4.3)

Разделим уравнение (4.2) на (4.3)

,

что равносильно

.

Интегрируя это выражение, используя для правой части табличный интеграл, находим

,

где – постоянная интегрирования.

Из последнего выражения

.

Так как с увеличением k энтропия растёт (первое требование), то C>0, и это выражение можно переписать в следующем окончательном виде:

, a>1.

Из него следует, что оно удовлетворяет также второму требованию. Выбор основания логарифмов при a>1не имеет значения и определяет лишь выбор единицы измерения неопределённости. Чаще всего применяют двоичные или натуральные логарифмы. Если используют двоичные логарифмы, то за единицу измерения неопределённости принимают неопределённость опыта, который имеет два равновероятных исхода (опыт А). Такая ситуация отвечает энтропии одной элементарной компьютерной ячейки, в которой хранится либо 0 либо 1. Для этой ячейки

.

Такая единица измерения называется битом (от англ. binary diget– двоичная единица).

Итак, при k равновероятных исходах неопределённость опыта составляет

, (4.4)

где p – вероятность исхода опыта.

Если учесть, что для равновероятных исходов

,

то, умножая (4.4) на единицу в виде суммы вероятностей , получаем

. (4.5)

Каждый член правой части этого выражения можно рассматривать как вклад отдельного исхода в общую неопределённость опыта. В случае равновероятных исходов вклад каждого из них в общую неопределенность опыта одинаков и формула (4.5) сворачивается в (4.4).

Выражение (4.5) легко обобщается на случай, когда вероятности исходов различны. В этом случае (4.5) можно рассматривать как среднюю энтропию опыта, а вероятности перед log приобретают смысл весовых коэффициентов. Теперь предполагается, что вклад каждого исхода в общую неопределенность опыта не обязательно одинаков. В качестве примера ситуации с неравновероятными исходами может служить опыт извлечения наугад шара из урны, в которой находится большое количество шаров нескольких цветов. Оговорка относительно большого количества шаров сделана специально, чтобы подчеркнуть вероятностный характер меры неопределенности.

Выражение (4.5) можно записать в компактной форме

. (4.6)

Здесь и далее подразумевается, что суммирование проводится по всем индексам.

Если число опытов N, то с учётом аддитивности энтропии

. (4.7)

Энтропия как мера неопределенности была введена американским математиком Клодом Шенноном в 1949 году при разработке математической теории связи [20]. Функцию типа (4.6), или энтропию выбора часто называют также шенноновской энтропией. Поскольку понятие энтропии сегодня становится общенаучным, то указание на ее информационное происхождение, как правило, используется лишь в случаях, если по тексту следует различать информационную и термодинамическую (физическую) энтропию.

Рис. 4.1. Зависимость энтропии для двух исходов опыта

Рассмотрим некоторые свойства энтропии. Отметим прежде всего, что энтропия не может принимать отрицательных значений: так как , то всегда положительно. Если , то (для доказательства следует раскрыть неопределенность типа ). Если , то также .

Так как только при p=0 или p=1, то энтропия опыта равна нулю только в случае, когда одна из вероятностей равна единице и, следовательно, все остальные равны нулю. Это обстоятельство хорошо согласуется со смыслом величины H как меры неопределенности: в этом случае опыт вообще не содержит никакой неопределенности, так как результат опыта можно предвидеть заранее.

На рис.4.1 изображен график функции H для двух исходов опыта, из которого видно, как меняется энтропия при изменении одного из исходов опыта от нуля до единицы. Из графика следует, что максимальное значение энтропии соответствует равновероятным событиям, . При этом максимальное значение энтропии

В общем случае, т. е. не для двух, а k исходов опыта, максимальное значение энтропии соответствует .

Тот факт, что максимум энтропии отвечает равновероятным событиям, согласуется со смыслом энтропии. Действительно, в случае равновероятных событий нельзя отдать предпочтение ни одному исходу и таким образо8м предвидеть результат труднее всего.

4.2. Энтропия как мера количества информации. Вернемся к простейшим опытам с монетой или игральной костью. Перед проведением опыта существует некоторая неопределенность, связанная с незнанием результата опыта. После проведения опыта, т.е. после получения результата, эта неопределенность устраняется, исчезает. Однако так обстоит дело далеко не всегда, и в практике чаще всего встречаются случаи, когда и после окончания опыта еще остается некоторая неопределенность.

Если неопределенность до опыта составляла Н (априорная неопределенность), а после опыта – (апостериорная неопределенность), то очевидно, неопределенность, устраненная в ходе опыта, составит:

. (4.8)

Эта разность носит название количества информации.

Таким образом, количество информации есть количество устраненной неопределенности. В частном случае, когда неопределенность в результате опыта устраняется полностью, как это было в опытах А, В, и С, получаем:. Хотя здесь количество информации формально равно энтропии, следует иметь в виду различный смысл количества информации и энтропии. Энтропия (неопределенность) существует до опыта, тогда как информация появляется после проведения опыта. Просто следует учитывать, что для количественной оценки информации отсутствует другая мера кроме энтропии. Связь между понятиями энтропии и количеством информации напоминает соотношение между физическими понятиями потенциала (энтропии) и разности потенциалов (количество информации).

Количество информации, как и энтропия, измеряется в битах. Один бит информации – это количество информации, сообщающее о том, какое из двух равновероятных событий имело место. Например, количество информации, заключающееся в одной элементарной ячейке ЭВМ, содержащей либо 0, либо 1, составляет один бит.

Рассмотрим пример, в котором бы фигурировала апостериорная неопределенность. Пусть методом перебора вариантов ведется поиск корня некоторого уравнения с точностью до полуцелого числа. Предварительно известно, что значение корня находится в интервале от 1 до 100, так что следует перебрать 200 вариантов. Тогда неопределенность значения корня в равновероятном варианте (4.4) составит H = log2200 = 13,3 бит.

Пусть проведена проверка 150 вариантов возможных значений корня, но корень не найден. Однако получена ли некоторая информация о значении корня? Несомненно, и чтобы ее определить, необходимо сначала найти остаточную (апостериорную) неопределенность: Н1 = log2(200 – 150) = 5,6. Тогда искомое количество информации составит= 13,3 – 5,6 = 7,7 бит.

Условная энтропия. Рассмотрим понятие количества информации на примере передачи сигналов. Пусть передается группа сигналов азбукой Морзе:

        

До получения очередного символа на приемном конце существует неопределенность «какой сигнал будет отправлен?» Эту неопределенность можно характеризовать энтропией «на один символ» (4.6 ) при числе исходов k = 3 (точка, тире, пробел) с вероятностями рi (i = 1, 2, 3). Вероятности появления на приемном конце точки, тире или пробела, т.е. вероятности (частоты) употребления символов конкретного языка специалистам известны из статистического анализа большого объема текстов на этом языке. Подсчитав энтропию на один символ, по формуле (4.6) легко определить общую энтропию сообщения (4.7). В данном примере 10 символов, включая пробел и, следовательно, N = 10.

Итак, на приемном конце до получения сообщения существовала априорная неопределенность (4.7) или на один знак (4.6). После получения сообщения неопределенность была устранена и получена информация I = H – 0.

Однако такая простая ситуация возникает, если сообщение передается без помех (канал без шума). Если имеется шум, то его действие приводит к тому, что переданный символ может либо остаться прежним (i-м), либо быть случайно подмененным любым другим (n-м) символом. Вероятность такой подмены по обозначению р(yn  xi), где х относится к переданному сигналу, а y к принимаемому сигналу в приемнике. В канале без помех yn = xi. Вероятность р(yn  xi) носит название условной вероятностиxi) -–вероятность того, что отправленный i-й сигнал соответствует n-му сигналу на приемном конце. Конечно, эту ситуацию можно рассматривать и со стороны передатчика, используя условные вероятности вида р(xiyn). В этом случае р(xiyn) – вероятность того, что принятый на приемном конце n-й сигнал соответствует i-му сигналу на передающей стороне. Понятие условной вероятности вводит условную энтропию как функцию условной вероятности. В общем виде это записывается в следующих обозначениях:

I(X,Y) = H(X) – H(XY)

I(X,Y) = H(Y) – H(YX)

В этих идентичных выражениях условная энтропия играет роль апостериорной энтропии, а количество информации есть мера соответствия двух случайных объектов Х и Y.

Эта мера позволяет понять связь между понятием информации и её количеством. Информация есть отражение одного объекта другим. В данном примере такими объектами являются приемник и передатчик. Среднее же количество информации и есть числовая характеристика полноты этого отражения, степени соответствия, наконец, степени взаимодействия этих объектов. Но при взаимодействии объекты оказывают влияние друг на друга, и мы привыкли при этом различать причину и следствие. Количественное описание информации это другой тип описания взаимодействий, никак не связанный с классическими причинно-следственными описаниями. Такой тип связи характерен для НВТ.

Здесь полезно обратиться к п.3.6, где уже касались ограничений классического, причинно-следственного механизма при описании взаимодействий в открытой системе.

4.3.Энтропия непрерывного множества. Ранее была рассмотрена энтропия дискретного множества. Это означает, что подразумевались системы, где число возможных исходов (элементов множества) конечно. Однако приходится часто сталкиваться с ситуациями, когда число элементов может быть сколь угодно велико. Из теории вероятностей известно, что в этом случае следует иметь дело не с вероятностью отдельного исхода, которая равна нулю, а с плотностью распределения вероятности. Эта функция обладает таким свойством, что величина есть вероятность того, что интересующая нас переменная x (значение корня в примере п.4.2.) примет значения, заключенные в интервале от x до x+dx.

Теперь для оценки неопределенности необходимо прибегнуть к энтропии непрерывного множества, которая по аналогии с энтропией дискретного множества (4.5) имеет вид

. (4.9)

В качестве примера использования этой функции, попытаемся оценить неопределенность опыта, связанного со случайным поиском в заданном интервале значения корня (см. п.4.2) при отсутствии ограничения на точность поиска.

Повышая требования к точности ответа, можно ожидать сколь угодно большого числа возможных исходов опыта. При этом вероятность каждого исхода стремится к нулю, а искомый корень может принимать все возможные (бесчисленные) значения в заданном числовом интервале от 0 до 200. Попробуем использовать для этой же задачи энтропию непрерывного множества. Введем отрезок длиной l = x1 – x0 относительных единиц. Вероятность обнаружить значение корня на участке dx составляет dx/1. С другой стороны, эта же вероятность по определению . Следовательно, для равновероятного случая = dx/l и = 1/l. Подставляя это значение в (4.), несложно получить H = log2l = 5,6 бит.

Сравним полученный результат с примером в п.4.2. В случае дискретного множества в энтропии используется число дискретных интервалов на выделенном отрезке, а в случае непрерывного множества – относительная длина самого отрезка. Заметим, что длина должна быть выражена в относительной форме, в противном случае под логарифмом появилась бы размерная величина. Масштаб приведения к относительной форме не имеет для информационной энтропии принципиального значения, поскольку с самого начала энтропия введена с точностью до множителя (до постоянной интегрирования, см процедуру интегрирования в п.4.1).

Энтропия непрерывного множества или дифференциальная энтропия (4.9) обладает большинством свойств энтропии дискретного множества.

В современной литературе можно встретить критику понятия дифференциальной энтропии и вытекающего из этого понятия дифференциального количества информации [21]. Эта критика по своему характеру совпадает с критикой концепции непрерывности, рассмотренной ранее в п.3.5.

4.4.Энтропия как мера разнообразия, неупорядоченности, хаоса. До сих пор понятие энтропии связывалось с неопределенностью. Энтропия допускает и другое толкование. Представим себе систему, состоящую из камеры, в которой находятся N шаров m типов, отличающихся, например, цветом. Предполагается, что N достаточно большое число. Обозначим долю шаров i-го типа (цвета) – . Если произвести опыт над системой, заключающийся в извлечении наугад одного шара, то энтропия одного опыта согласно (4.6) составит:

. (4.10)

При этом принято, что размеры шаров одинаковы, в противном случае вероятность извлечения шаров i-того типа не будет точно соответствовать их доле в камере. Энтропия всех опытов над системой

. (4.11)

Поскольку правая часть последних выражений включает в себя параметры, характеризующие содержимое системы, то возникает вопрос, нельзя ли не обращаясь к опытам с шарами уяснить, с какой точки зрения эти функции характеризуют содержимое камеры.

Первая из двух функций характеризует степень неупорядоченности системы или степень разнообразия в ней с учётом выбранного признака для различения элементов системы (цвета шаров). Если бы в камере находились шары одного типа, тогда одно из значений вероятности p =z равнялось бы единице, а все остальные – нулю, и энтропия приняла бы нулевое значение. Это означало бы, что система полностью упорядочена, или, что то же самое – в системе отсутствует разнообразие по оцениваемому признаку (цвету).

Вторая функция (4.11) измеряет неупорядоченность (разнообразие) в системе несколько иначе. Отличие этих двух функций можно иллюстрировать следующим примером. Если камеру разделить на две части, то при достаточно большом количестве шаров в ней доля шаров i-го типа в каждой из двух частей останется прежней, но число шаров уменьшится вдвое, также вдвое уменьшится неупорядоченность, оцениваемая формулой (4.11). Однако степень неупорядоченности для каждой из двух частей, оцениваемая функцией (4.10) останется прежней.

По аналогии с только что рассмотренным примером формулой (4.11) можно оценивать неупорядоченность потока смеси каких-либо веществ. В этом случае – концентрация i-го компонента в мольных долях; N – расход потока или число молекул, проходящее через некоторое сечение в единицу времени. Поскольку число N в практических задачах всегда очень велико, можно перейти к иному масштабу для энтропии. Например, поделив левую и правую части на число Авогадро, получим

, (4.12)

где F – расход потока, кмоль/ед. времени. Обозначение энтропии в новом масштабе оставлено прежним.

Таким образом, энтропия оценивает разнообразие элементов в системе по некоторому определенному признаку, который может нас интересовать в той или иной задаче; см п. 4.6 и 4.7.

Обратим внимание, что выражение (4.10) с точностью до множителя совпадает с термодинамическим выражением для мольной энтропии смешения идеального газа

S = – R, (4.13)

где R – газовая постоянная.

На этом примере можно заметить связь информационной энтропии, введенной в предыдущих разделах без использования каких-либо физических принципов, с термодинамикой. Здесь полезно также отметить не только внешнюю, структурную аналогию. Энтропия смешения (4.13 ) это только энтропия термодинамически и д е а л ь н о й смеси. При рассмотрении камеры с шарами также были приняты некоторые ограничения, например, требование равных размеров шаров.

Энтропию, записанную через вероятности, часто называют функциональной, в отличие от энтропии, выраженной через мольные доли, которую именуют атрибутивной.

4.5.Связь информационной энтропии с физикой. Понятие энтропии впервые было введено в термодинамику Клаузисом как соотношение, связывающее элементарное приращение энтропии dS с элементарным количеством теплоты dQ при температуре Т

dS = dQ/T (4.14)

Это выражение мало говорит о физической сущности энтропии. В физике неоднократно делались попытки раскрыть содержание этого понятия, руководствуясь модельными представлениями.

Энтропия Больцмана. Рассмотрим основанное на статистическом подходе известное уравнение Больцмана

, (4.15)

где kB – постоянная Больцмана, kB=1,3810 Дж/К; W – число микросостояний.

Для того чтобы понять сущность статистических методов в качестве начального примера рассмотрим газ, как ансамбль большого числа частиц. Первое, что кажется необходимо сделать при построении математической модели поведения частиц, это попытаться записать уравнение движения для каждой из них, ведь газ, во всяком случае в первом приближении, представляет собой систему частиц, движущихся по законам механики Ньютона.

Однако при таком подходе число уравнений становится невообразимо велико, не говоря уже о том, что для интегрирования этих уравнений необходимы начальные скорости и координаты каждой молекулы. Тем не менее, такой путь не только сложен, но и бесплоден, поскольку знание траекторий и закона движения отдельных молекул оказывается не даёт никакой информации относительно свойств газа в целом. Дело в том, что в системе, состоящей из многих частиц, возникают новые, чисто статистические системные, или интегративные закономерности, которых не было в системе с малым числом частиц.

Проследим на весьма упрощённой модели, как появляются эти новые свойства, связанные с понятием энтропии Больцмана.

Для наглядности возьмем систему всего из десяти частиц (N=10), распределённых на четырёх энергетических уровнях, имеющих относительные величины энергии 1, 2, 3 и 4. Общая энергия системы равна 20 относительным единицам. Задача заключается в том, чтобы высказать некоторые соображения относительно того состояния, которое примет система, предоставленная самой себе, т.е. относительно того, как распределятся частицы по уровням энергии.

Для этого выясним, какие энергетические распределения частиц возможны. При этом будем различать изменения микро- и макросостояния системы. Если произошло изменение ч и с л а частиц на каком-либо энергетическом уровне, то будем говорить об изменении макросостояния системы. Если же произошёл только о б м е н частиц между энергетическими уровнями, но число частиц на каждом уровне энергии осталось прежним, будем фиксировать изменение микросостояния системы. Для внешнего наблюдателя, следящего только за макросостояниями системы, изменения микроскопического характера окажутся незамеченными, а микросостояния неразличимы. Одно макросостояние может быть реализовано с помощью очень многих микросостояний.

Так, одно из возможных макросостояний в рассматриваемой системе из десяти частиц таково: на первом энергетическом уровне находится одна частица (N1=1), на втором располагаются восемь частиц (N2=8) и одна занимает третий уровень (N3=1). Четвертый уровень не занят. Общая энергия равна 11+82+13+ 40=20. Предположим, что частицы пронумерованы. Тогда данное макросостояние можно было бы осуществлять различным способом (через различные микросостояния), помещая, например, на уровень c энергией 1 поочерёдно частицы с номером 1, 2, 3, 4, 5 и т.д., т.е. осуществляя разные перестановки частиц, не нарушая макросостояния системы.

Число возможных перестановок можно рассчитать по следующей формуле статистической физики:

. (4.16)

Здесь r – число энергетических уровней; в данном примере r = 4.