Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
МЕТОДИЧКА_К&М_25_2.docx
Скачиваний:
0
Добавлен:
01.03.2025
Размер:
4.9 Mб
Скачать
    1. Количество информации и вероятность

Измерение информации в теории информации определяется как снятая неопределенность.

Получение информации (ее увеличение) одновременно означает увеличение знания, что, в свою очередь, означает уменьшение незнания или информационной неопределенности. Говорят, что сообщение, которое уменьшает неопределенность, существовавшую до его получения, в 2 раза, несет 1 бит информации. По сути, 1 бит информации соответствует выбору одного из двух равновероятных сообщений.

Книга лежит на одной из двух полок – верхней или нижней. Сообщение о том, что книга лежит на верхней полке, уменьшает неопределенность ровно вдвое и несет 1 бит информации. Сообщение о том, как упала монета после броска – «орлом» или «решкой», несет один бит информации.

Приближенно можно считать, что количество информации в сообщении о каком-либо событии совпадает с количеством вопросов, которые необходимо задать, ответ на которые может быть лишь «Да» или «Нет», чтобы получить ту же информацию.

Вероятностный подход был разработан в 1948 году основоположником теории информации Клодом Шенноном. Как было отмечено выше, информация – это снятая неопределенность. Степень неопределенности принято характеризовать с помощью понятия «вероятность».

Вероятность – величина, которая может принимать значения в диапазоне от 0 до 1. Она есть мера возможности наступления какого-либо события, которое может иметь место в одних случаях и не иметь места в других. Если событие никогда не может произойти, его вероятность считается равной 0. Если событие происходит всегда, его вероятность равна 1.

Чем больше вероятность события, тем больше уверенность в том, что оно произойдет, и тем меньше информации содержит сообщение об этом событии. Если вероятность события мала, то сообщение о том, что оно случилось, очень информативно.

К

(1)

(1)

оличество информации I, характеризующей состояние, в котором пребывает объект, можно определить, используя формулу Шеннона (1):

где n – число возможных состояний;

p1, ..., pn – вероятности отдельных состояний;

log2 – функция логарифма по основанию 2.

Знак минус перед суммой позволяет получить положительное значение для I, поскольку значение всегда отрицательно.

1 бит – количество информации, посредством которого выделяется одно из двух равновероятных состояний объекта.

При оценке количества дискретной информации часто используется формула Хартли (2):

(2)

где N – число возможных равновероятных состояний;

log2 – функция логарифма по основанию 2.

Формула Хартли применяется в случае, когда вероятности состояний, в которых может находиться объект, одинаковые.

В качестве примера определим количество информации одного знака при двоичном кодировании (т.е. при использовании алфавита, состоящего из двух знаков 0 и 1). Если считать, что со знаками 0 и 1 в двоичном алфавите связаны одинаковые вероятности их появления, то

Таким образом, количество информации (в битах), заключенное в двоичном слове, равно числу двоичных знаков в нем.

Рассмотрим несколько примеров.

Пример 1.3.1 При бросании монеты сообщение о результате жребия (например, выпал «орел») несет 1 бит информации, поскольку количество возможных вариантов результата равно 2 («орел» или «решка»). Оба эти варианта равновероятны. Ответ может быть получен из решения уравнения:

2x = 2,

откуда следует:

х = 1 бит.

Вывод: сообщение об одном из двух равновероятных событий несет 1 бит информации.

Пример 1.3.2 В барабане для розыгрыша лотереи находится 32 шара. Сколько информации содержит сообщение о первом выпавшем номере (например, выпал номер 15)? Поскольку вынимание любого из 32 шаров равновероятно, то количество информации об одном выпавшем номере находится из уравнения:

2х = 32

32 = 25

Следовательно, х = 5 бит.

Ответ не зависит от того, шар с каким номером достали из барабана.

Пример 1.3.3 При игре в кости используется кубик с шестью гранями. Сколько бит информации получает игрок при каждом бросании кубика? Выпадение любой грани кубика равновероятно. Поэтому количество информации одного результата бросания находится из уравнения:

2х = 6

Решение этого уравнения:

х = 2,585 бит.

Пример 1.3.4 В коробке имеется 50 шаров. Из них 40 белых и 10 черных. Очевидно, вероятность того, что при вытаскивании «не глядя» попадется белый шар больше, чем вероятность попадания черного. Проверим это на практике.

Решение. Пусть рч – вероятность достать черный шар, рб – вероятность достать белый шар. Тогда:

рч = 10/50 = 0,2;

р6 = 40/50 = 0,8.

Отсюда видно, что вероятность достать белый шар в 4 раз больше, чем черный.

Определим количество информации в сообщениях о том, что достали белый шар или – черный шар:

iб = log 2 (l/0,8) = log 2 (l,25) = 0,321928;

iч = log 2 (l/0,2) = log 2 5 = 2,321928.

Пример 1.3.5 В пруду живут 8000 карасей, 2000 щук и 40 000 пескарей. Самая большая вероятность для рыбака – поймать в этом пруду пескаря, на втором месте – карася, на третьем – щуку. Проверим данные гипотезы с помощью вычислений.

Решение. Всего в пруду обитают 50000 рыб. Из предыдущих примеров можно догадаться, что вероятность попадания на удочку каждого из видов рыб равна его доле в общем количестве. Отсюда:

рк = 8000/50000 = 0,16;

рщ = 2000/50000 = 0,04;

рп = 40000/50000 = 0,8.

Из рассмотренных примеров можно сделать вывод: если N – это общее число возможных исходов какого-то процесса (доставание шара, получение оценки, ловля рыбы), и из них интересующее нас событие (вынимание белого шара, получение пятерки, попадание щуки) может произойти К раз, то вероятность этого события равна K/N.

Вероятностный метод применим и для алфавитного подхода к измерению информации, заключенной в тексте. Известно, что разные символы (буквы алфавита, знаки препинания и др.) встречаются в тексте с разной частотой и, следовательно, имеют разную вероятность. Значит, измерять информационный вес каждого символа в тексте так, как это делалось раньше (в предположении равновероятности), нельзя.

Пример 1.3.6 В алфавите племени МУМУ 4 буквы (А, У, М, К), один знак препинания (точка) и пробел, который служит для разделения слов. Подсчитали, что в популярном романе «Мумука» содержится всего 10000 знаков, из них: букв А – 4000, букв У  – 1000, букв М – 2000, букв К – 1500, точек – 500, пробелов – 1000. Какой объем ин­формации содержит книга?

Решение. Поскольку объем книги достаточно большой, то можно допустить, что вычисленная по ней частота встречаемости в тексте каждого из символов алфавита характерна для любого текста языке МУМУ. Подсчитаем частоту встречаемости каждого символа во всем тексте книги (т.е. вероятность) и информационные веса символов:

буква А: 4000/10000 = 0,4; iA=log 2 (1/0,4) = 1,321928;

буква У: 1000/10000 = 0,1; iУ=log 2 (1/0,1) = 3,1928;

буква М: 2000/10000 = 0,2; iМ=log 2 (1/0,2) = 2,321928;

буква К: 1500/10000 = 0,15; iК=log 2 (1/0,15) = 2,736966;

точка: 500/10000 = 0,05; iточка=log 2 (1/0,05) = 4,321928;

пробел: 1000/10000 = 0,1; iпробел=log 2 (1/0,1) = 3,321928.

Общий объем информации в книге вычислим как суму произведений информационного веса каждого символа на число повторений этого символа в книге:

I = iА х nА + iУ х nУ + iМ х nМ + iК х nК + iточка х nточка + iпробел х nпробел =

=1,321928 х 4000 + 3,1928 х 1000 + 2,321928 х 2000 + 2,736966 х 1500 + 4,321928 х 500 +

+ 3,321928 х 100 = 22841,84 бита.

Пример 1.3.7 Определим количество информации, связанное с появлением каждого символа в сообщениях, записанных на русском языке. Будем считать, что русский алфавит состоит из 33 букв и знака “пробел” для разделения слов.

По формуле Хартли (2): I = log234 ~ 5 бит

Однако, в словах русского языка (равно как и в словах других языков) различные буквы встречаются неодинаково часто. В таблице 1.3.1 приведена вероятность частоты употребления различных знаков русского алфавита, полученная на основе анализа очень больших по объему текстов.

Воспользуемся для подсчета I формулой Шеннона (1): H ~ 4.72 бит. Полученное значение I, как и можно было предположить, меньше вычисленного ранее. Величина I, вычисляемая по этой формуле, является максимальным количеством информации, которое могло бы приходиться на один знак.

Таблица 1 – Частотность букв русского языка

i

Символ

P(i)

i

Символ

P(i)

I

Символ

P(i)

1

_

0.175

12

Л

0.035

23

Б

0.014

2

О

0.090

13

К

0.028

24

Г

0.012

3

Е

0.072

14

М

0.026

25

Ч

0.012

4

Ё

0.072

15

Д

0.025

26

Й

0.010

5

А

0.062

16

П

0.023

27

Х

0.009

6

И

0.062

17

У

0.021

28

Ж

0.007

7

T

0.053

18

Я

0.018

29

Ю

0.006

8

H

0.053

19

Ы

0.016

30

Ш

0.006

9

C

0.045

20

З

0.016

31

Ц

0.004

10

P

0.040

21

Ь

0.014

32

Щ

0.003

11

B

0.038

22

Ъ

0.014

33

Э

0.003

34

Ф

0.002

ЗАДАЧИ

  1. «Вы выходите на следующей остановке?» – спросили пассажира автобуса. «Нет», – ответил он. Сколько информации содержит ответ?

  2. Какой объем информации содержит сообщение, уменьшающее неопределенность знаний в 4 раза?

  3. Шар находится в одном из 64 ящичков. Сколько единиц информации будет содержать сообщение о том, где находится шар?

  4. Вы подошли к светофору, когда горел красный свет. После этого загорелся желтый свет. Сколько информации вы при этом получили?

  5. Группа студентов пришла в бассейн, в котором 4 дорожки для плавания. Тренер сообщил, что группа будет плавать на дорожке номер 3. Сколько информации получили студенты из этого сообщения?

  6. В корзине лежат 8 шаров. Все шары разного цвета. Сколько информации несет сообщение о том, что из корзины достали красный шар?

  7. Была получена телеграмма: «Встречайте, вагон 7». Известно, что в составе поезда 16 вагонов. Какое количество информации было получено?

  8. В библиотеке 16 стеллажей с книгами. На каждом стеллаже 8 полок. Библиотекарь сообщил студенту, что нужная ему книга находится на пятом стеллаже на третьей сверху полке. Какое количество информации библиотекарь передал студенту?

  9. При угадывании целого числа в диапазоне от 1 до N было получено 7 бит информации. Чему равно N?

  10. При угадывании целого числа в некотором диапазоне было получено 6 бит информации. Сколько чисел содержит этот диапазон?

  11. Сообщение о том, что ваш друг живет на 10 этаже, несет 4 бита информации. Сколько этажей в доме?

  12. Какое количество информации несет сообщение: «Встреча назначена на сентябрь».

  13. В корзине лежат 8 черных шаров и 24 белых. Сколько информации несет сообщение о том, что достали черный шар?

  14. В корзине лежат 32 клубка шерсти. Среди них 4 красных. Сколько информации несет сообщение о том, что достали клубок красной шерсти?

  15. В коробке лежат 64 цветных карандаша. Сообщение о том, что достали белый карандаш, несет 4 бита информации. Сколько белых карандашей было в корзине?

  16. В ящике лежат перчатки (белые и черные). Среди них – 2 пары черных. Сообщение о том, что из ящика достали пару черных перчаток, несет 4 бита информации. Сколько всего пар перчаток было в ящике?

  17. В группе 30 студентов. За контрольную работу по математике получено 6 пятерок, 15 четверок, 8 троек и 1 двойка. Какое количество информации в сообщении о том, что Иванов получил четверку?

  18. Известно, что в ящике лежат 20 шаров. Из них 10 – черных, 5 – белых, 4 – желтых и 1 – красный. Какое количество информации несут сообщения о том, что из ящика случайным образом достали черный шар, белый шар, желтый шар, красный шар?

  19. За семестр студент получил 100 оценок. Сообщение о том, что он получил четверку, несет 2 бита информации. Сколько четверок студент получил за четверть?

  20. В корзине лежат белые и черные шары. Среди них 18 черных шаров. Сообщение о том, что из корзины достали белый шар, несет 2 бита информации. Сколько всего в корзине шаров?

  21. Сколько следует задать вопросов и как их следует формулировать, чтобы оценить сообщение о том, что вагон стоит на одном из 16 путей?

  22. Шар находится в одной из 32 урн. Сколько единиц информации будет содержать сообщение о том, где он находится?

  23. Система может принимать 128 различных равновероятных состояний. Каково количество информации в системе?

  24. В барабане для розыгрыша лотереи находится 32 шара. Сколько информации содержит сообщение о первом выпавшем номере (например, выпал номер 15)?

  25. При игре в кости используется кубик с шестью гранями. Сколько бит информации получает игрок при каждом бросании кубика?

  26. Частотный словарь русского языка – словарь вероятностей (частот) появления букв в произвольном тексте – приведен в таблице 1.3.1. Подсчитать количество информации, приходящейся на один символ, в следующем тексте:

Организационно-правовые формы предприятий в своей основе определяют форму их собственности, то есть, кому принадлежит предприятие, его основные фонды, оборотные средства, материальные и денежные ресурсы. В зависимости от формы собственности, в России в настоящее время различают три основные формы предпринимательской деятельности: частную, коллективную и контрактную.

Указание: составьте таблицу, аналогичную таблице 3.1.1, определив вероятность каждого символа в тексте как отношение количества одинаковых символов каждого значения ко всему числу символов в тексте. Затем по формуле Шеннона подсчитайте количество информации, приходящейся на один символ.

  1. Подсчитать количество информации, приходящейся на один символ, в следующем тексте:

Общая технологическая схема изготовления сплавного транзистора напоминает схему изготовления диода, за исключением того, что в полупроводниковую пластинку производят вплавление двух навесок примесей с двух сторон. Вырезанные из монокристалла германия или кремния пластинки шлифуют и травят до необходимой толщины.

  1. Подсчитать количество информации, приходящейся на один символ, в следующем тексте:

С конца пятнадцатого столетия в судьбах Восточной Европы совершается переворот глубокого исторического значения. На сцену истории Европы выступает новая крупная политическая сила – Московское государство. Объединив под своей властью всю северо-восточную Русь, Москва напряженно работает над закреплением добытых политических результатов и во внутренних, и во внешних отношениях.

  1. Подсчитать количество информации, приходящейся на один символ, в следующем тексте:

Новые данные о физиологической потребности организма человека в пищевых веществах и энергии, а также выяснение закономерностей ассимиляции пищи в условиях нарушенного болезнью обмена веществ на всех этапах метаболического конвейера позволили максимально сбалансировать химический состав диет и их энергетическую ценность.

  1. Подсчитать количество информации, приходящейся на один символ, в следующем тексте:

С любопытством стал я рассматривать сборище. Пугачев на первом месте сидел, облокотясь на стол и подпирая черную бороду своим широким кулаком. Черты лица его, правильные и довольно приятные, не изъявляли ничего свирепого. Все обходились между собою как товарищи и не оказывали никакого особенного предпочтения своему предводителю.