
Лекции по ТПС
.pdfопределяет, какая доля максимально возможной для данного алфавита энтропии не используется источником (например, для поэтических произведений х=(5
— 1)/5 = 0,8).
ВЗАИМНАЯ ИНФОРМАЦИЯ
Определим теперь информацию, содержащуюся в одном ансамбле относительно другого (например, в ансамбле сигналов относительно ансамбля сообщений). Рассмотрим объединение двух дискретных ансамблей А и В, в общем случае зависимых.
Пусть р(аk, bl) — совместная вероятность реализации а k и bl ансамблей А и В.
Тогда совместная энтропия ансамблей А и В
|
1 |
|
|||
H ( A, B) M log |
|
|
|
|
|
|
|
|
|||
|
p(ak , bl ) , |
||||
а условная энтропия |
|
|
|||
|
1 |
|
|
||
H ( A / B) M log |
|
|
|
|
|
|
|
|
|||
|
|
p(ak , bl ) . |
Если память у источников отсутствует
H ( A / B) p(ak |
/ bl ) log |
1 |
|
|
|
|
|
|
|||
p(ak |
/ bl ) . |
||||
k l |
|
Из теоремы умножения вероятностей
p(a,b) p(a) p(b / a) p(b) p(a / b)
следует, что
H ( A, B) H ( A) H (B / A) H (B) H ( A / B);
|
1 |
|
M log l log p(a) log p(b / a) |
H ( A, B) M log |
|
|
|
|
|||
|
p(a) p(b / a) |
|
|
1 |
|
|
1 |
|
|
M log |
|
|
M log |
|
|
H ( A) H (B / A) . |
|
|
|||||
|
p(a) |
|
p(b / a) |
|
Для условной энтропии справедливо условие
0≤H(A|B)≤H(A).
111
Равенство H(A|B)=0 достигается при р(аk, bl) = 1 для каждой bl, (зная реализацию ансамбля В, можно точно установить реализацию ансамбля А).
Равенство H (A| B) = H (A) достигается при р(а k, bl) = р(а k ) при всех а k, bl (знание реализации ансамбля В не уменьшает неопределенности, ансамбля А).
В общем случае H (A|B) < H(A) и знание реализации ансамбля В снижает в среднем первоначальную неопределенность ансамбля А. Естественно назвать разницу H(A) - H (A|B) количеством информации, содержащейся в В относительно А - взаимной информацией между Aw В:
|
1 |
|
|
1 |
|
|
p(a / b ) |
||
I ( A, B) H ( A) H ( A / B) M log |
|
|
M log |
|
|
M log |
k |
l |
|
|
|
|
|
||||||
|
p(ak ) |
|
p(ak / bl ) |
|
p(ak ) |
|
|
Или
|
p(ak , bl ) |
|
I ( A, B) M log |
|
|
|
||
|
p(ak ) p(bl ) . |
Взаимная информация измеряется в тех же единицах, что и энтропия, например в битах. Величина I(А, В) показывает сколько в среднем бит информации можно получить о реализации ансамбля А, наблюдая реализацию ансамбля В.
Основные свойства взаимной информации:
1.I(А, В) > О (равенство при независимости А и В);
2.I(А, В) = I (В, А), т. е. В содержит столько информации относительно А, сколько А относительно В.
3.I(А, В) ≤ H(A) (равенство, когда по реализации В, можно однозначно восстановить А);
4.I(А, В) ≤ H(В) (равенство, когда по реализации А, можно однозначно восстановить В);
5. I(А, A) = H(A) (энтропия источника - собственная информация, т. е. информация, содержащаяся в ансамбле А ).
Из свойства 3 следует, что энтропия ансамбля представляет собой максимальное количество информации, которое может содержаться в ансамбле относительно любого другого ансамбля.
Если Т — среднее время передачи одного сообщения, то можно получить выражения для энтропии и количества информации, рассчитанные не на одно сообщение, а на единицу времени
112

H '( A, B) T1 H ( A, B); I '( A, B) T1 l( A, B)
I '(А, В) - скорость передачи информации от А к В.
Пусть V — ансамбль сигналов на входе дискретного канала, a Z — ансамбль сигналов на его выходе. Тогда скорость передачи информации по каналу или про-
пускная способность канала C, бит/с, может быть определена в виде:
I '(V , Z) H '(V ) H '(V / Z) H '(Z) H '(Z / V )
Согласно этому выражению составим модель канала, где Н'(V) — производительность дискретного источника на входе канала; I'(У, Z) — скорость передачи информации по каналу; H'(Z) — производительность канала; H'(V/Z) — скорость утечки информации при ее передаче по каналу; H'(Z/V) — скорость притока посторонней информации, не имеющей отношения к ансамблю сигналов на входе и создаваемой присутствующими в канале помехами.
Соотношение Н'(V/Z) и H'(Z/V) зависит от свойств канала. Если сигнал передается по каналу с недостаточной для удовлетворительного воспроизведения сигнала полосой и с низким уровнем помех, то теряется часть полезной информации, но почти не добавляется бесполезной. При этом Н'(V/Z) » H'(Z/V). Если же сигнал воспроизводится точно, но в паузах внятно прослушиваются "наводки" от соседних каналов, то, почти не теряя полезной информации, можно получить много дополнительной (как правило, бесполезной). При этом Н'(V/Z) « H'(Z/V).
КОНТРОЛЬНЫЕ ВОПРОСЫ:
1.Когда возникла теория информации как наука, кто является ее основоположником?
2.Что является объектом изучения теории информации, назвать типы (модели) дискретных источников информации?
3.Дать определение понятия энтропии.
4.Дать определение понятия количества информации, равного 1 биту.
5.От чего зависит пропускная способность канала (скорость передачи информации)?
ЛЕКЦИЯ 15. ЭФФЕКТИВНОЕ КОДИРОВАНИЕ
Пусть А — источник последовательности элементов сообщений (знаков) с объемом алфавита k и производительностью Н'(А).
113

Для передачи по дискретному каналу нужно преобразовать сообщение в последовательность кодовых символов так, чтобы эту кодовую последовательность можно было бы затем декодировать (предполагается, что помехи отсутствуют, поэтому рассматриваемую ниже теорему часто называют теоремой кодирования для канала без помех). Для этого необходимо, чтобы скорость передачи информации от источника к коду I'(А, В) равнялась производительности источника
Н'(А).
Однако I'(А, В)≤Н'(В), поэтому необходимым условием для кодирования яв-
ляется Н'(А)≤Н'(В) или
Vk H (B) Vc H ( A),
где VК , (VС) — число кодовых символов (сообщений), передаваемых в секунду.
Рассмотрим для простоты двоичный код. Тогда необходимое условие
Vk H ( A)
Vc .
Таким образом, для возможности кодирования и однозначного декодирования необходимо, чтобы среднее число двоичных символов на сообщение было не меньше энтропии Н'А). Это условие является «почти достаточным», на основании теоремы кодирования для канала без помех. Ее содержание заключается в том, что, передавая двоичные символы со скоростью VК можно закодировать сообщения так, чтобы передавать их со скоростью
Vc |
Vk |
|
|
H ( A) |
|||
|
, |
||
|
|
где ε — сколь угодно малая величина.
Если передаются равновероятные и независимые сообщения, то Н(А) = log k, при k =2п можем записать, что Н(А)=п.
Используя для передачи каждого сигнала последовательность из п двоичных символов, получим k, различных последовательностей, и можно каждому сигналу сопоставить одну из кодовых последовательностей и теорема справедлива даже при ε=0.
Таким же образом можно поступить и в том случае, если сообщения передаются не равновероятно и (или) зависимо. Однако теорема утверждает, что здесь возможно более экономичное кодирование.
114
ИНФОРМАЦИЯ В НЕПРЕРЫВНЫХ СИГНАЛАХ
Пусть S—случайная величина, представляющая собой сечение (отсчет) случайного сигнала с плотностью распределения вероятностей (S) (рис. 4.3). Разобьем область значений этой случайной величины на интервалы S . Вероятность того, что значение случайной величины попадает в интервал (Sk , Sk 1 ) , т. е. веро-
ятность события Sk |
S Sk |
S , |
приближенно может быть определена в ви- |
||||||
де (S) S , причем тем точнее, чем меньше S . |
|||||||||
Степень неожиданности такого события может быть, как и прежде, определе- |
|||||||||
на в виде: |
|
|
|
|
|
|
|
|
|
|
1 |
|
|
|
1 |
|
|
||
log |
|
|
|
log |
|
|
|
|
|
|
S Sk |
|
|
|
|
||||
p(Sk |
S |
(S ) S |
. |
||||||
|
|
|
|
|
|
|
|
|
Если не уточнять значение S в пределах каждого интервала, а заменить их отсчетами Sk в начале интервала, то непрерывный ансамбль заменится дискретным с энтропией
|
|
1 |
|
|
M log |
|
|
|
|
|
|
|||
|
|
(S ) S |
. |
|
|
|
|
|
Будем повышать точность определения величины S, уменьшая величину S . При этом в пределе, т. е. при S →0, должны получить энтропию непрерывной случайной величины S:
|
|
|
|
|
1 |
|
|
|
|
|
1 |
|
|
|
|
1 |
|
|
|
|
|
|
H (S ) lim M log |
|
|
|
lim M |
log |
|
|
log |
|
|
|
|
|
|
|
|
||||||
|
|
(S ) |
|
|
|
|
|
|
|
|||||||||||||
|
S 0 |
|
|
(S) S |
S 0 |
|
|
|
|
S |
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
1 |
|
|
|
|
1 |
|
|
|
1 |
|
|
|
|
|
1 |
|||||
lim M log |
|
|
lim M |
log |
|
|
M log |
|
|
|
lim M log |
|
|
|||||||||
|
|
|
|
|
||||||||||||||||||
S 0 |
|
(S ) |
S 0 |
|
|
S |
|
|
(S ) |
|
S 0 |
|
S . |
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Второе слагаемое стремится к бесконечности и кроме того, не зависит от распределения вероятностей случайной величины S.
Таким образом, собственная информация непрерывной случайной величины бесконечно велика (для того чтобы точно задать значение непрерывной случайной величины десятичной дробью, необходимо сообщить бесконечное количество цифр в разрядах). Несмотря на это, полученное выражение не является бесполезным.
115
Первое слагаемое конечно, зависит только от плотности распределения вероятности, его называют дифференциальной энтропией:
|
1 |
|
(S) log |
1 |
|
h(S) M log |
|
|
|
dS |
|
|
|
||||
|
(S) |
S |
(S) |
. |
|
|
|
|
|
|
Дифференциальная энтропия в отличие от обычной не может рассматриваться как мера собственной информации. Информационный смысл имеет не сама дифференциальная энтропия, а разность двух дифференциальных энтропии.
Второе слагаемое называется мерой точности и характеризует способность приемника различать близкие значения случайной величины.
Так как способность любого приемника различать близкие по значению токи или напряжения непрерывного сигнала всегда конечна, то и энтропия любого непрерывного сигнала также является конечной.
Определим количество взаимной информации между двумя случайными величинами S и U. В случае дискретных ансамблей А и В мы имели для взаимной информации
I ( A, B) |
|
|
p(ak |
, bc ) |
|
|
|
|
|
|
|||
M log |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
p(ak ) p(bc ) . |
|
|
|
|
|
|
|||||
По аналогии для S и U: |
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
(S,U ) S U |
|
|
|
(S,U ) |
|
|
|
I (S,U ) lim M log |
|
|
|
|
lim M log |
|
|
|
|||||
|
|
|
|
||||||||||
|
S 0 |
|
|
|
(S) S (U ) U |
S 0 |
|
(S ) (U ) |
|
||||
|
U 0 |
|
|
|
|
|
|
|
U 0 |
|
|
|
|
|
(S,U ) |
|
|
|
|
|
|
|
|
|
|
|
|
M log |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
(S) (U ) . |
|
|
|
|
|
|
|
|
Таким образом, количество взаимной информации, в отличие от собственной, конечно.
С |
помощью |
простых |
преобразований последнего выражения получим |
|||||||||||
|
|
|
|
(S,U ) |
|
|
|
(U ) (S / U ) |
|
|||||
I (S,U ) M |
log |
|
|
|
|
M log |
|
|
|
|||||
|
|
|
|
|||||||||||
|
|
|
|
(S ) (U ) |
|
|
|
(S) (U ) |
|
|
||||
|
1 |
|
|
|
|
|
|
|
1 |
|
|
|
|
|
M log |
|
|
|
M log |
|
|
|
|
h(S ) h(S / U ) , |
|
||||
|
|
|
|
|
|
|||||||||
|
(S) |
|
|
|
(S / U ) |
|
|
|
|
где h(S) — дифференциальная энтропия случайной величины S,
116

h(S/U) — условная дифференциальная энтропия.
Таким образом, получим тот же результат, как и в случае дискретного источника:
I (A, B) H(A) H(A / B) ,
который отличается лишь тем, что энтропии заменены на дифференциальные энтропии.
Основные свойства взаимной информации полностью сохраняются и здесь.
В качестве примера рассмотрим важный для практики случай нормальной случайной величины х.
Найдем h(х):
|
|
1 |
|
e |
( x a )2 |
|
|
(x) |
|
|
2 2 ; |
||||
|
|
|
|||||
2 |
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
( x a)2 |
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
||||||
h(x) (x) log |
|
|
|
|
dx |
(x) log |
2 e |
2 |
dx |
|
|
|
|
|||||||||||||||||||||||
|
|
|
|
|
|
|
|
|||||||||||||||||||||||||||||
|
|
|
x |
|
|
|
(x) |
x |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
(x |
|
a)2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||
(x) |
log 2 2 log e |
|
|
|
|
dx log |
|
2 2 |
(x)dx |
|
||||||||||||||||||||||||||
|
|
2 |
|
|
||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
log e |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
log e |
|
|
|
|
|
|
|
|
1 |
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
|
|
|
|
(x)(x a)2 dx log |
|
2 2 |
|
|
|
|
|
2 log |
|
2 2 |
|
|
|
log e |
||||||||||||||||||
2 |
2 |
2 |
2 |
2 |
|
|||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
|
|
|
2 2 log |
|
|
|
|
2 e 2 ; |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||
log |
|
|
|
e log |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
h(x) log 2 e 2 .
Таким образом, дифференциальная энтропия гауссовской непрерывной случайной величины не зависит от математического ожидания и монотонно возрастает по мере увеличения дисперсии.
Из всех непрерывных случайных величин х с одинаковыми дисперсиями 2 наибольшую дифференциальную энтропию имеет случайная величина с нормальным распределением.
КОНТРОЛЬНЫЕ ВОПРОСЫ:
1. Условие эффективного кодирования и декодирования двоичных сообще-
ний.
117
2.От чего зависит дифференциальная энтропия непрерывного сигнала?
3.Что характеризует мера точности?
3.Чему равна дифференциальная энтропия нормально распределенного случайного процесса?
4.Что характеризует условная дифференциальная энтропия?
ЛЕКЦИЯ 16. СЖАТИЕ СООБЩЕНИЙ
ПОДХОДЫ К СЖАТИЮ СООБЩЕНИЙ
Дискретная форма представления информации является наиболее общей и универсальной. В виде совокупности символов, принадлежащих к ограниченному алфавиту, можно представить как текст или массивы чисел, так и оцифрованные звук и изображение. С учетом этого очевидно, что должны существовать универсальные методы сжатия данных (цифровой информации), применимые ко всем ее разновидностям. В силу своей универсальности эти методы должны исключать потерю информации (такая потеря может быть допустима при передаче, например, мелкой детали изображения, но неприемлема, когда речь идет, скажем, о коде программы). С другой стороны, в ряде приложений общие методы наверняка не будут наиболее эффективными. Например, в силу особенностей зрительного и слухового восприятия, некоторое «огрубление» изображения или звука может оказаться малозаметным, при этом выигрыш в объеме передаваемых данных окажется значительным. В этих случаях уместно использовать специальные методы сжатия с потерями.
При кодировании со сжатием без потерь выделяются две разновидности методов: Первая основана на раздельном кодировании символов. Основная идея состоит в том, что символы разных типов встречаются неодинаково части и если кодировать их неравномерно, - так, чтобы короткие битовые последовательности соответствовали часто встречающимся символам, - то в среднем объем, кода будет меньше. Такой подход, именуемый, статистическим кодированием, реализован, в частности, в широко распространенном коде Хаффмана, о котором мы расскажем подробно ниже.
118
Очевидно, что посимвольное кодирование не использует такого важного резерва сжатия данных, как учет повторяемости последовательностей (цепочек) символов.
Простейший вариант учета цепочек – так называемое «кодирование повторов» или код RLE, когда последовательность одинаковых символов заменяется парой – "код символа + количество его повторов в цепочке". В большинстве случаев цепочки одинаковых символов встречаются нечасто. Однако, например, при кодировании черно-белых растровых изображений, каждая строка которых состоит из последовательных черных или белых точек, такой подход оказывается весьма эффективным (он широко применяется при факсимильной передаче документов). Кроме того, кодирование повторов нередко используется как составной элемент более сложных алгоритмов сжатия.
Гораздо более универсальным является алгоритм, позволяющий эффективно кодировать повторяющиеся цепочки разных символов, имеющие при этом произвольную длину. Такой алгоритм был разработан Лемпелем и Зивом и применяется в разных версиях в большинстве современных программ-архиваторов. Идея алгоритма состоит в том, что цепочка символов, уже встречавшаяся в передаваемом сообщении, кодируется ссылкой на боле раннюю (при этом указываются «адрес» начала такой цепочки в «словаре» сообщения и ее длина). Ниже мы обсудим особенности алгоритма Лемпеля-Зива.
Специализированные методы сжатия с потерями информации, естественно принципиально различаются для графики и звука.
К методам сжатия изображений относятся «блочный» алгоритм JPEG основанный на независимом «огрублении» небольших фрагментов изображений (квадраты 8х8 пикселей). Здесь с ростом степени сжатия проявляется мозаичность изображения. Блочный метод JPEG (разработанный специальной группой международного комитета по стандартизации) получил сейчас повсеместное распространение и ниже мы рассмотрим его подробнее. Достигается степень сжатия – в среднем в десятки раз.
При волновом сжатии в отличие от блочного изображение как бы «размывается» (чем выше степень сжатия, тем более нечетки границы и детали). При передаче данных получаемое изображение постепенно «проявляется» в деталях. Это позволяет получателю самому выбирать необходимый компромисс между качеством и скоростью получения изображения, что очень удобно, например в Интернет. К тому же «размытость» не столь резко воспринимается глазом как потеря качества по сравнению с «мозаичностью». Так что при субъективно близ-
119
ком уровне качества волновой метод дает большую степень сжатия по сравнению с «блочным». Именно такой подход реализован в новом стандарте JPEG 2000.
Наконец, фрактальное сжатие основывается на том, что в изображении можно выделить фрагменты, повороты и масштабирование которых позволяет многократно использовать их при построении всей «картинки». Выделение и построение математического описания таких элементов-фракталов – трудоемкая в вычислительном отношении задача. Зато высокая степень сжатия (в сотни раз) и быстрота построения изображения по его фрактальному описанию делают метод очень удобным, когда не требуется быстрота компрессии. Например, этот метод удобно использовать при записи изображений на CD-ROM.
Методы сжатия звука существенно различаются в зависимости от того, насколько хорошо известны специфические особенности его источника. Примерами источников, чьи особенности решающим образом влияют на характер звука, являются человеческий речевой аппарат и музыкальные инструменты. Для них эффективным способом сжатия звуковой информации является моделирование, когда передаются не характеристика звука, а параметры модели его источника.
ЭФФЕКТИВНОЕ ПОСИМВОЛЬНОЕ КОДИРОВАНИЕ ДЛЯ
СЖАТИЯ ДАННЫХ
Основные моменты сводятся к следующему:
идея такого кодирования базируется на том, чтобы использовать для часто встречающихся символов более короткие кодовые цепочки, а для редких - более
длинные. В результате средняя длина кода lср li pi будет меньше, чем при равномерном кодировании;
согласно теореме Шеннона, наилучшее кодирование позволяет сократить lср. до величены энтропии Н, подсчитанной для данного набора символов;
неравномерное кодирование позволяет автоматически устранить избыточность, связанную с тем, что количество символов в алфавите может быть не кратно степени двойки (так, например, чтобы закодировать одинаковым числом разрядов 5 разновидностей символов потребуется 3 бита, так же как и для 8 символов).
120