Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Информатика #4.docx
Скачиваний:
1
Добавлен:
01.05.2025
Размер:
93.7 Кб
Скачать

2) Количество информации – «I» – вероятностный (энтропийный) подход

Объемный подход - любое сообщение состоит из совокупности символов данного алфавита. Если принять сообщение из одного символа за единицу, то объём равен количеству символов в этом сообщении. Так как существуют разные алфавиты, то и различны единицы измерения. Двоичные системы: биты, десятичные: диты.

Энтропийный (вероятностный) подход – основан на том, что факт получения информации связан с уменьшением неопределённости (или энтропии) системы. То е количество информации в сообщении определяется как мера уменьшения неопределённости состояния данной системы после получения сообщения. Здесь под неопределенностью определяется, насколько мало известно наблюдателю о данной системе. Получаемая информация снижает энтропию системы. Таким образом, при энтропийном подходе под информацией понимается количественная величина исчезнувшей в ходе какого-либо опыта неопределённости. При этом в качестве меры неопределенности вводится энтропия – «H», кол-во информации:

Напр – априорная энтропия о состоянии исследуемой системы.

Напс – апостериорная энтропия о состоянии исследуемой системы.

Априори – понятие, характеризующее значение до опыта или испытания и не зависимое от него.

Апостериори – происходящее из опыта или испытания.

В случае, когда в ходе испытания имевшееся неопределенность снята, то есть получен конкретный результат, Напс=0, то I=Напр.

Рассмотрим в качестве исследуемой системы дискретный источник информации, имеющий конечное множество состояний {ai}.

В теории информации все множество состояний системы называют абстрактным алфавитом (или алфавитом источника сообщения). Отдельные состояния ai называются буквами или символами алфавита. В каждый момент времени система может принять какое-то значение «ai». Различные состояния реализуются вследствие выбора их источника и выбираются они хаотично. В общем случае источник характеризуется всей совокупностью состояний с вероятностью «p» их появлений, составляющими в сумме единицу.

Меру неопределенности выбора состояния источника можно рассматривать и как меру количества информации, получаемой при полном устранении неопределенностей относительно состояния источника. Эта мера должна удовлетворять ряду естественных условий, одним из которых является необходимость монотонного возрастания количества получаемой информации с увеличением возможностей выбора, то есть числа N возможных состояний источника. При этом недопустимые состояния, вероятность которых pi=0 не должны учитываться, так как они не меняют неопределенности.

Отсюда, казалось бы, что за меру неопределенности можно было бы взять число состояний N, предположив равновероятность состояний, но это не так.

При N=1 неопределенность отсутствует, и такая мера бы давала значение 1, а должен быть 0. Поэтому в качестве меры неопределенности источника с равновероятными состояниями приняли логарифм.

Эта мера была предложена американским учёным Рольфом Хартли в начале XX века. Основание логарифма здесь не имеет принципиального значения и определяет только масштаб или единицу измерения. Биты – основание два. Наты – основание e. Диты – основание десять. Так как в основном используется двоичная система, логарифм по основанию два.

Например, для снятия неопределенности в ситуации из двух равновероятных событий нужен один опыт и, следовательно, один бит информации. Четыре равновероятных – 2. Восемь – 3. То есть, количеств информации равно степени, в которую нужно возвести число 2, чтобы получить число равновероятных вариантов выбора.

Но равновероятных событий практически не бывает. Американский ученый Клод Шеннон обобщил понятие меры неопределенности H на случай, когда энтропия зависит не только от числа состояний, но и от вероятности их появления Pi.

Это энтропия дискретного источника, которая представляет собой неопределенность, приходящуюся в среднем на одно состояние. В случае равновероятных состояний, когда , формула Шеннона преобразуется в формулу Хартли. Используя эти две формулы, можно определить избыточность D источника сообщений A, которая показывает, насколько рационально применяются символы данного алфавита:

Hmax – максимально возможная энтропия по формуле Хартли, Н(А) – по Шеннону. Суть данной меры заключается в том, что при равновероятном выборе ту же информационную нагрузку на знак можно обеспечить, используя алфавит меньшего объема, чем в случае с неравновероятным выбором. Пример: сравним русский и латинский алфавит. На основании эксперимента определены вероятности использования букв: H(рус)=4.35 бит на символ. H(лат)=4.03 бит на символ. Это по Шеннону.

По Хартли:

Hmax(рус) = log2 33 = 5 бит на символ

Нmax(лат) = log227 = 4.75 бит на символ

Следовательно, D(рус)=0.13, D(лат)=0.15 неравномерность распределения букв латинского алфавита, чем у источника русского алфавита.