Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Смоленский Государственный Университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

MOZI.doc

Скачиваний:

Добавлен:

01.07.2025

Размер:

2.55 Mб

Скачать

☆

<<< < Предыдущая 20 21 22 23 24 25 26 27 28 29 30 3132 / 5832 33 34 35 36 37 38 39 40 41 42 43 44 > Следующая >>>

Примеры решения задач

Определить среднее количество информации на одно сообщение о результатах забега на 100 метров пяти школьников (учеников 1-го, 2-го, 3-го 4-го и 10-го классов) (для не равновероятных состояний):

x_i	x₁	x₂	x₃	x₄	x₅
P(x_i)	0.9	0.01	0.02	0.03	0.04

Решение. Найдем логарифм по основанию 2 для каждой вероятности.

p_i	0.9	0.01	0.02	0.03	0.04
Log(P(x_i)	-0,152003	-6,6438562	-5,643856	-5,058894	-4,64385619
p_i* Log(P(x_i)	-0,136803	-0,0664386	-0,112877	-0,151767	-0,185754248

=-(-0,136803-0,0664386-0,112877-0,151767-0,185754248)=0,6536395280,654

5.1.3.Единицы измерения количества информации

Полученная Шенноном формула позволила вывести единицы измерения количества информации. Для этого приравняем выражение для энтропии системы к единице:

В это выражение входят следующие переменные: число возможных состояний системы n, основание логарифма a, распределение вероятностей p_i. Для решения уравнения необходимо задаться из каких-либо соображений двумя переменными и вычислить третью.

Рассмотрим физическую систему с двумя равновероятными состояниями (n=2 и ). Количество информации равное единице может быть получено, если в формуле Шеннона взять логарифм по основанию 2.

Следовательно, в данном случае единицей энтропии служит энтропия системы с двумя равновероятными состояниями, вычисленная с помощью логарифма с основанием два. Полученная единица количества информации, представляющая собой выбор из двух равновероятных событий (положительным и отрицательным импульсами, импульсом и паузой и т.п.), получила название двоичной единицы, или бита. Название bit образовано из двух начальных и последней букв английского выражения binary unit, что значит двоичная единица.

Бит - единица количества информации, содержащейся в одном дискретном сообщении источника равновероятных сообщений с объемом алфавита, равного двум.

Возьмем основание логарифма равным 10-ти и рассмотрим физическую систему с числом n равновероятных состояний. Определим, чему должна быть равна переменная n, чтобы количество информации в формуле Шеннона было равно единице .

Тогда . Поскольку отсюда следует, что , тогда число состояний n=10.

Итак, дит – это энтропия системы с десятью равновероятными состояниями, вычисленная с помощью логарифма с основанием десять.

Можно заметить, что основание логарифма равно числу состояний. Это – важно! Перейдем теперь к рассмотрению виртуальной системы с количеством состояний, равным натуральной единице е.

Если взять физическую систему с е состояниями, получим натуральную единицу количества информации, называемую нитом, при этом основание логарифма в формуле Шеннона равно е=2,7.

Нит - единица количества информации, содержащейся в одном дискретном сообщении источника равновероятных сообщений с объемом алфавита, равного натуральному числу e.

Взаимосвязь между единицами количества информации:

Если надо передать количество информации I, то оно может быть передано с помощью определенного количества символов. Минимальное количество символов, которое может потребоваться для передачи всей информации, обозначим n_r, а реальное количество символов – n. Тогда коэффициент сжатия

, <1 всегда.

Вместо этого коэффициента часто используются коэффициент избыточности:

Если с ростом n избыточность кода не меняется, то это свидетельствует об эффективности кода.

Примеры решения задач

Сколько бит информации содержится в одной букве русского алфавита?

Решение. Для упрощения положим, что всего букв 32:

log₂32=log₂2⁵=5бит

Задачи для самостоятельного решения

Сколько бит информации содержится в одной букве латинского алфавита?

5.2. Кодирование информации

5.2.1.Код Шеннона-Фано

Под энтропией (степенью неопределённости), связанной с одним символом, подразумевается взвешенный логарифм вероятности встречи этого символа в сообщении. Для конечного множества событий (букв алфавита) X = {x₁, x₂, …, x_n}, наступающих с вероятностью p₁, p₂, …, p_n(p_i=1), Энтропия наступления одного события (получения одного символа) равна:

H_i = -p_i ln p_i

Для независимых событий, энтропия последовательного наступления нескольких событий равна сумме энтропии этих событий.

Для случая отсутствия статистической взаимосвязи между буквами конструктивные методы построения эффективных кодов были даны впервые Шенноном и Фано. Их методики существенно не отличаются, и поэтому соответствующий код получил название кода Шеннона-Фано.

Рассмотрим алфавит из 8 букв. Ясно, что при обычном кодировании (не учитывающем статистических характеристик) для представления каждой буквы требуется 3 символа.

Наибольший эффект сжатия получается в случае, когда вероятности представляют собой отрицательные целочисленные степени двойки. Среднее число символов на букву в этом случае точно равно энтропии. В более общем случае для алфавита из 8 букв среднее число символов на букву будет меньше 3, но больше энтропии алфавита Н(А).

Код строится следующим образом: буквы алфавита сообщений выписываются в таблицу в порядке убывания вероятностей. Затем разделяем их на две группы так, чтобы суммы вероятностей в каждой из групп были по возможности одинаковы. Всем буквам одной половины в качестве первого символа записывается 1, а всем другой - 0. Каждая из полученных групп, в свою очередь, разбивается на две подгруппы с одинаковыми суммарными вероятностями и т.д. Процесс повторяется до тех пор, пока в каждой подгруппе не останется по одной букве.

Рассчитаем среднюю длину полученных кодовых слов по формуле:

Найдем также минимальную среднюю длину кодового слова по формуле:

Сравнивая эти два значения, можно заметить, что некоторая избыточность в последовательностях символов осталась. Из теории Шеннона следует, что эту избыточность можно устранить, если перейти к кодированию достаточно большими блоками.

Теоретический минимум Н(А) может быть достигнут при кодировании блоков, включающих бесконечное число букв.

Рассмотренная методика Шеннона-Фано не всегда приводит к однозначному построению кода, так как, разбивая на подгруппы иначе, код может оказаться не самым лучшим.

Расшифровка текста производится однозначно. В связи с этим данный код называется префиксным. Никакое кодовое слово префиксного кода не является началом другого кодового слова.

<<< < Предыдущая 20 21 22 23 24 25 26 27 28 29 30 3132 / 5832 33 34 35 36 37 38 39 40 41 42 43 44 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.05.2025115.2 Кб1metody_issledovania_dykh_sist.doc
#
01.05.202561.44 Кб0metody_issledovania_sist_kr.doc
#
01.07.2025364.96 Кб0metod_opiss_kontrol.docx
#
01.07.2025134.66 Кб0moya_kursovaya_rabota.doc
#
01.07.2025300.54 Кб0Moy_Otchet_Ekonomika_2-20_str (1).doc
#
01.07.20252.55 Mб3MOZI.doc
#
01.05.20151.73 Mб38mp-5kl-fgos.pdf
#
01.05.201538.91 Кб37Mundgymnastik.doc
#
01.05.201540.96 Кб34Mundgymnastik.doc
#
22.11.2018384.51 Кб10MYeTODIChYeSKIYe_RYeKOMYeNDATsII_PO_V_POLNYeNIY....doc
#
03.08.2019482.82 Кб6Nekotorye_voprosy.doc