Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
MOZI.doc
Скачиваний:
3
Добавлен:
01.07.2025
Размер:
2.55 Mб
Скачать

Примеры решения задач

  1. Определить среднее количество информации на одно сообщение о результатах забега на 100 метров пяти школьников (учеников 1-го, 2-го, 3-го 4-го и 10-го классов) (для не равновероятных состояний):

xi

x1

x2

x3

x4

x5

P(xi)

0.9

0.01

0.02

0.03

0.04

Решение. Найдем логарифм по основанию 2 для каждой вероятности.

pi

0.9

0.01

0.02

0.03

0.04

Log(P(xi)

-0,152003

-6,6438562

-5,643856

-5,058894

-4,64385619

pi* Log(P(xi)

-0,136803

-0,0664386

-0,112877

-0,151767

-0,185754248

=-(-0,136803-0,0664386-0,112877-0,151767-0,185754248)=0,6536395280,654

5.1.3.Единицы измерения количества информации

Полученная Шенноном формула позволила вывести единицы измерения количества информации. Для этого приравняем выражение для энтропии системы к единице:

В это выражение входят следующие переменные: число возможных состояний системы n, основание логарифма a, распределение вероятностей pi. Для решения уравнения необходимо задаться из каких-либо соображений двумя переменными и вычислить третью.

Рассмотрим физическую систему с двумя равновероятными состояниями (n=2 и ). Количество информации равное единице может быть получено, если в формуле Шеннона взять логарифм по основанию 2.

.

Следовательно, в данном случае единицей энтропии служит энтропия системы с двумя равновероятными состояниями, вычисленная с помощью логарифма с основанием два. Полученная единица количества информации, представляющая собой выбор из двух равновероятных событий (положительным и отрицательным импульсами, импульсом и паузой и т.п.), получила название двоичной единицы, или бита. Название bit образовано из двух начальных и последней букв английского выражения binary unit, что значит двоичная единица.

Бит - единица количества информации, содержащейся в одном дискретном сообщении источника равновероятных сообщений с объемом алфавита, равного двум.

Возьмем основание логарифма равным 10-ти и рассмотрим физическую систему с числом n равновероятных состояний. Определим, чему должна быть равна переменная n, чтобы количество информации в формуле Шеннона было равно единице .

Тогда . Поскольку отсюда следует, что , тогда число состояний n=10.

Итак, дит – это энтропия системы с десятью равновероятными состояниями, вычисленная с помощью логарифма с основанием десять.

Можно заметить, что основание логарифма равно числу состояний. Это – важно! Перейдем теперь к рассмотрению виртуальной системы с количеством состояний, равным натуральной единице е.

Если взять физическую систему с е состояниями, получим натуральную единицу количества информации, называемую нитом, при этом основание логарифма в формуле Шеннона равно е=2,7.

Нит - единица количества информации, содержащейся в одном дискретном сообщении источника равновероятных сообщений с объемом алфавита, равного натуральному числу e.

Взаимосвязь между единицами количества информации:

Если надо передать количество информации I, то оно может быть передано с помощью определенного количества символов. Минимальное количество символов, которое может потребоваться для передачи всей информации, обозначим nr, а реальное количество символов – n. Тогда коэффициент сжатия

, <1 всегда.

Вместо этого коэффициента часто используются коэффициент избыточности:

.

Если с ростом n избыточность кода не меняется, то это свидетельствует об эффективности кода.

Примеры решения задач

  1. Сколько бит информации содержится в одной букве русского алфавита?

Решение. Для упрощения положим, что всего букв 32:

log232=log225=5бит

Задачи для самостоятельного решения

  1. Сколько бит информации содержится в одной букве латинского алфавита?

5.2. Кодирование информации

5.2.1.Код Шеннона-Фано

Под энтропией (степенью неопределённости), связанной с одним символом, подразумевается взвешенный логарифм вероятности встречи этого символа в сообщении. Для конечного множества событий (букв алфавита) X = {x1, x2, …, xn}, наступающих с вероятностью p1, p2, …, pn (pi=1), Энтропия наступления одного события (получения одного символа) равна:

Hi = -pi ln pi

Для независимых событий, энтропия последовательного наступления нескольких событий равна сумме энтропии этих событий.

Для случая отсутствия статистической взаимосвязи между буквами конструктивные методы построения эффективных кодов были даны впервые Шенноном и Фано. Их методики существенно не отличаются, и поэтому соответствующий код получил название кода Шеннона-Фано.

Рассмотрим алфавит из 8 букв. Ясно, что при обычном кодировании (не учитывающем статистических характеристик) для представления каждой буквы требуется 3 символа.

Наибольший эффект сжатия получается в случае, когда вероятности представляют собой отрицательные целочисленные степени двойки. Среднее число символов на букву в этом случае точно равно энтропии. В более общем случае для алфавита из 8 букв среднее число символов на букву будет меньше 3, но больше энтропии алфавита Н(А).

Код строится следующим образом: буквы алфавита сообщений выписываются в таблицу в порядке убывания вероятностей. Затем разделяем их на две группы так, чтобы суммы вероятностей в каждой из групп были по возможности одинаковы. Всем буквам одной половины в качестве первого символа записывается 1, а всем другой - 0. Каждая из полученных групп, в свою очередь, разбивается на две подгруппы с одинаковыми суммарными вероятностями и т.д. Процесс повторяется до тех пор, пока в каждой подгруппе не останется по одной букве.

Рассчитаем среднюю длину полученных кодовых слов по формуле:

.

Найдем также минимальную среднюю длину кодового слова по формуле:

.

Сравнивая эти два значения, можно заметить, что некоторая избыточность в последовательностях символов осталась. Из теории Шеннона следует, что эту избыточность можно устранить, если перейти к кодированию достаточно большими блоками.

Теоретический минимум Н(А) может быть достигнут при кодировании блоков, включающих бесконечное число букв.

Рассмотренная методика Шеннона-Фано не всегда приводит к однозначному построению кода, так как, разбивая на подгруппы иначе, код может оказаться не самым лучшим.

Расшифровка текста производится однозначно. В связи с этим данный код называется префиксным. Никакое кодовое слово префиксного кода не является началом другого кодового слова.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]