- •Информация
- •Введение
- •Основные концепции моделирования
- •Теория случайных графов
- •Модель Эрдёша-Реньи
- •Подграфы
- •Распределение степеней
- •Связность и диаметр
- •Кластерный коэффициент
- •Концепции
- •Алгоритм
- •Фрактальная размерность
- •Размерность Минковского
- •Информация[4]
- •Информация[4]
- •Понятие энтропии
- •Свойства энтропии сообщений
- •Избыточность сообщений
- •Теоремы Шеннона
- •Свойства количества информации
Теоремы Шеннона
1. Теорема Шеннона - Хартли - (на самом деле теорема Хартли, выведенная им за 15 лет до Шеннона), одна из основных теорем теории информации о передаче сигналов по каналам связи при наличии помех, приводящих к искажениям. Пусть надлежит передать последовательность символов, появляющихся с определёнными вероятностями, причём имеется некоторая вероятность того, что передаваемый символ в процессе передачи будет искажён. Простейший способ, позволяющий надёжно восстановить исходную последовательность по получаемой, состоит в том, чтобы каждый передаваемый символ повторять большое число (N) раз. Однако это приведёт к уменьшению скорости передачи в N раз, т. е. сделает её близкой к нулю. Ш. т. утверждает, что можно указать такое, зависящее только от рассматриваемых вероятностей положительное число v, что при сколько угодно малом ?>0 существуют способы передачи со скоростью v'(v' < v), сколь угодно близкой к v, дающие возможность восстанавливать исходную последовательность с вероятностью ошибки, меньшей ?. В то же время при скорости передачи v', большей v, это уже невозможно. Упомянутые способы передачи используют надлежащие «помехоустойчивые» коды. Критическая скорость v определяется из соотношения Hv = C, где Н — Энтропия источника на символ, С — ёмкость канала в двоичных единицах в секунду. Рассматривая все возможные многоуровневые и многофазные методы шифрования, теорема Шеннона — Хартли утверждает, что пропускная способность канала C, означающая теоретическую верхнюю границу скорости передачи данных, которые можно передать с данной средней мощностью сигнала S через аналоговый канал связи, подверженный аддитивному белому гауссовскому шуму мощности N равна:
где C — пропускная способность канала, бит/с; B — полоса пропускания канала, Гц; S — полная мощность сигнала над полосой пропускания, Вт или В?; N — полная шумовая мощность над полосой пропускания, Вт или В?; S/N — частное от деления отношения сигнала к его шуму (SNR) на гауссовский шум, выраженное как отношение мощностей.
На вход системы передачи информации (СПИ) от источника информации подается совокупность сообщений, выбранных из ансамбля сообщений (рис. 1).
Рис. 1. Система передачи информации
Ансамбль сообщений – множество возможных сообщений с их вероятностными характеристиками – {Х, р(х)}. При этом: Х={х1, х2,…, хm} – множество возможных сообщений источника; i = 1, 2,…, m, где m – объем алфавита; p(xi) – вероятности появления сообщений, причем p(xi) 0 и поскольку вероятности сообщений представляют собой полную группу событий, то их суммарная вероятность равна единице
.
Каждое сообщение несет в себе определенное количество информации. Определим количество информации, содержащееся в сообщении xi, выбранном из ансамбля сообщений источника {Х, р(х)}. Одним из параметров, характеризующих данное сообщение, является вероятность его появления – p(xi), поэтому естественно предположить, что количество информации I(xi) в сообщении xi является функцией p(xi). Вероятность появления двух независимых сообщений x1 и x2 равна произведению вероятностей p(x1, x2) = p(x1).p(x2), а содержащаяся в них информация должна обладать свойством аддитивности, т.е.:
I(x1, x2) = I(x1)+I(x2). (1)
Поэтому для оценки количества информации предложена логарифмическая мера:
.
(2)
При этом наибольшее количество информации содержат наименее вероятные сообщения, а количество информации в сообщении о достоверном событии равно нулю. Т. к. все логарифмы пропорциональны, то выбор основания определяет единицу информации: logax = logbx/logba.
В зависимости от основания логарифма используют следующие единицы информации:
2 – [бит] (bynary digit – двоичная единица), используется при анализе ин-формационных процессов в ЭВМ и др. устройствах, функционирующих на основе двоичной системы счисления;
e – [нит] (natural digit – натуральная единица), используется в математических методах теории связи;
10 – [дит] (decimal digit – десятичная единица), используется при анализе процессов в приборах работающих с десятичной системой счисления.
Бит - двоичная единица статистической меры информации, количество информации, которое снимает неопределенность в отношении наступления одного из двух равновероятных (p0 = 0.5, p1 = 0.5), независимых событий.
Схожую меру другого иерархического уровня (комбинаторно-геометрического) - двоичный разряд часто путают с битом, считая, что байт (8 двоичных разрядов) = 8 битам, хотя это не так. (в двоичных разрядах не задана вероятность, а значит, не может быть определена мера от вероятности).
Среднее количество информации для всей совокупности сообщений можно получить путем усреднения по всем независимым событиям:
.
(3)
Количество информации, в сообщении, состоящем из n не равновероятных его элементов равно (эта мера предложена в 1948 г. К. Шенноном):
.
(4)
Для случая независимых равновероятных событий количество информации определяется (эта мера предложена в 1928 г. Р. Хартли):
(5)
Кроме этих мер информации существуют и иные, производные от энтропии статистические меры:
- расстояние Кульбака как асимметричная информационная мера:
где p(x), q(x) - вероятности двух наборов случайных величин, а D - информационное расстояние от ансамбля {p} до элементов другого ансамбля {q}.
- дивергенция Кульбака как симметричная информационная мера:
где p(x), q(x) - вероятности двух наборов случайных величин, а D - расстояние между ансамблями {p} и {q}.
