
Лабораторная работа № 2
Измерение информации
Цель работы: Знать два подхода к измерению информации, использовать формулы Шеннона и Хартли, уметь определять необходимый объем компьютерной памяти для хранения информации.
Порядок работы:
Выполнить задачи на измерение информации: - согласно содержательному подходу (по формуле Хартли);
- с учетом вероятности событий (по формуле Шеннона);
- определение необходимого объема памяти для хранения информации.
Используя язык программирования высокого уровня, составить программу , позволяющую выбрать тип хранимой в памяти компьютера информации и определить необходимый объем памяти.
краткие сведения
Содержательный подход
Количество информации, заключенное в сообщении, определяется объемом знаний, который несет это сообщение получающему его человеку.
Сообщение содержит информацию для человека, если заключенные в нем сведения являются для этого человека новыми и понятными и, следовательно, пополняют его знания.
При содержательном подходе возможна качественная оценка информации: полезная, безразличная, важная, вредная ...
Одну и ту же информацию разные люди могут оценить по разному.
Единица измерения количества информации называется бит.
Сообщение, уменьшающее неопределенность знаний человека в два раза, несет для него 1 бит информации.
Пусть в некотором сообщении содержатся сведения о том, что произошло одно из N равновероятных событий (равновероятность обозначает, что ни одно событие не имеет преимуществ перед другими). Тогда количество информации, заключенное в этом сообщении, — х бит и число N связаны формулой Хартли:
2х =N
Данная формула является показательным уравнением относительно неизвестной х. Из математики известно, что решение такого уравнения имеет вид:
х = log2N
логарифм от N по основанию 2. Если N равно целой степени двойки (2, 4, 8, 16 и т.д.), то такое уравнение можно решить «в уме». В противном случае количество информации становится нецелой величиной, и для решения задачи придется воспользоваться таблицей логарифмов.
Пример 1. При бросании монеты сообщение о результате жребия (например, выпал орел) несет 1 бит информации, поскольку количество возможных вариантов результата равно 2 (орел или решка). Оба эти варианта равновероятны.
Решение Ответ может быть получен из решения уравнения: 2х = 2, откуда, очевидно, следует: х = 1 бит.
Вывод: в любом случае сообщение об одном событии uз двух равновероятных несет 1 бит информации.
Пример 2. В барабане для розыгрыша лотереи находится 32 шара. Сколько информации содержит сообщение о первом выпавшем номере (например, выпал номер 15)?
Решение Поскольку вытаскивание любого из 32 шаров равновероятно, то количество информации об одном выпавшем номере находится из уравнения:
2х = 32
Но 32 = 25. Следовательно, х = 5 бит. Очевидно, ответ не зависит от того, какой именно выпал номер.
Пример 3. При игре в кости используется кубик с шестью гранями. Сколько бит информации получает игрок при каждом бросании кубика?
Решение. Выпадение каждой грани кубика равновероятно. Поэтому количество информации от одного результата бросания находится из уравнения:
2х =6
Решение этого уравнения: х = log2 6.
Из таблицы логарифмов следует (с точностью до 3-х знаков после запятой): х = 2,585 бит
Алфавитный подход
к измерению информации позволяет определить количество информации, заключенной в тексте. Алфавитный подход является объективным, т.е. он не зависит от субъекта (человека), воспринимающего текст.
Множество символов, используемых при записи текста, называется алфавитом. Полное количество символов в алфавите, называется мощностью (размером) алфавита. Если допустить, что все символы алфавита встречаются в тексте с одинаковой частотой (равновероятно), то количество информации, которое несет каждый символ, вычисляется по формуле:
i = log2N,
где N — мощность алфавита. Следовательно, в 2-х символьном алфавите каждый символ «весит» 1 бит (log22 =» 1); в 4-х символьном алфавите каждый символ несет 2 бита информации (lоg24 = 2); в 8-ми символьном — 3 бита (log28 = 3) и т.д.
Один символ из алфавита мощностью 256 (28) несет в тексте 8 бит информации. Такое количество информации называется байт. Алфавит из 256 символов используется для представления текстов в компьютере.
1 байт = 8 бит.
Если весь текст состоит из К символов, то при алфавитном подходе размер содержащейся в нем информации равен:
I = К * i
где i — информационный вес одного символа в используемом алфавите.
Если мощность алфавита N, а максимальное количество букв в слове, записанном с помощью этого алфавита, m, то максимально возможное количество слов в языке L определяется с помощью формулы:
L= Nm
Для измерения информации используются и более крупные единицы:
1 Кбайт (килобайт) = 210 байт = 1024 байта
1 Мбайт (мегабайт} =- 210 Кбайт•= 1024 Кбайта
1 Гбайт (гигабайт) = 210 Мбайт = 1024 Мбайта
Пример 4. Книга, набранная с помощью компьютера, содержит 150 страниц; на каждой странице — 40 строк, в каждой строке — 60 символов. Каков объем информации в книге?
Решение. Мощность компьютерного алфавита равна 256. Один символ несет 1 байт информации. Значит, страница содержит 40 * 60 = 2400 байт информации. Объем всей информации в книге (в разных единицах):
2400 * 150 = 360 000 байт 360000/1024 = 351,5625 Кбайт 351,5625/1024 = 0,34332275 Мбайт.
Количество информации и вероятность
Рассмотрим несколько примеров.
В коробке имеется 50 шаров. Из них 40 белых и 10 черных. Очевидно, вероятность того, что при вытаскивании «не глядя» попадется белый шар больше, чем вероятность попадания черного.
Сережа — лучший ученик в классе. Вероятность того, что за контрольную по математике Сережа получит «5» больше, чем вероятность получения двойки.
В пруду живут 8000 карасей, 2000 щук и 40 000 пескарей. Самая большая вероятность для рыбака — поймать в этом пруду пескаря, на втором месте — карась, на третьем — щука.
Выше сделаны качественные заключения о вероятностях событий, которые интуитивно понятны. Однако вероятность может быть выражена количественно.
Решение 1. Обозначим рч — вероятность попадания при вытаскивании черного шара, pб — вероятность попадания белого шара. Тогда:
рч = 10/50 = 0,2; pб = 40/50 = 0,8.
Отсюда видно, что вероятность попадания белого шара в 4 раза больше, чем черного.
Решение 2. Представим себе, что мы изучили успеваемость Сережи за несколько лет учебы. За это время он получил по математике 100 оценок. Из них: 60 пятерок, 30 четверок, 8 троек и 2 двойки. Допуская, что такое распределение оценок может сохраниться и в дальнейшем, вычислим вероятность получения каждой из оценок.
р5 = 60/100 = 0,6; р4 = 30/100 = 0,8;
рз = 8/100 = 0,08; p2 = 2/100 = 0,02.
Решение З. Всего в пруду обитают 50000 рыб. Из предыдущих примеров можно догадаться, что вероятность попадания на удочку каждого из видов рыб равна его доле в общем количестве. Отсюда:
рк = 8000/50000 = 0,16;
рщ = 2000/50000 = 0,04;
рп = 4000/50000 = 0,8;
Из рассмотренных примеров можно сделать вывод:
если N — это общее число возможных исходов какого-то процесса (вытаскивание шара, получение оценки, ловля рыбы), и из них интересующее нас событие (вытаскивание белого шара, получение пятерки, попадание щуки) может произойти К раз, то вероятность этого события
Р=K/N
Вероятность выражается в долях единицы. В частном случае, вероятность достоверного события равна 1 (из 50 белых шаров вытащен белый шар); вероятность невозможного события равна нулю (из 50 белых шаров вытащен черный шар).
Качественную связь между вероятностью события и количеством информации в сообщении об этом событии можно выразить так:
чем меньше вероятность некоторого события, тем больше информации содержит сообщение об этом событии.
Например, сообщение о том, что Сережа получил двойку по математике, содержит больше информации для тех, кто его знает, чем сообщение о пятерке. Сообщение, что рыбак поймал в пруду щуку, более информативно, чем сообщение о том, что на удочку попался пескарь.
Количественная зависимость между вероятностью события (р) и количеством информации в сообщении о нем (i) выражается формулой Шеннона:
i = log2(1/p)
Пример 5. В задаче о шарах определим количество информации в сообщении о попадании белого шара и черного шара:
iб = log2(l/0,8) = log2(l,25) = 0,321928; iч= log2(l/0,2) = log25 = 2,321928.
Вероятностный метод для алфавитного подхода
Вероятностный метод применим и для алфавитного подхода к измерению информации, заключенной в тексте. Известно, что разные символы (буквы алфавита, знаки препинания и др.) встречаются в тексте с разной частотой и, следовательно, имеют разную вероятность. Значит, измерять информационный вес каждого символа в тексте так, как это делалось раньше (в предположении равновероятности), нельзя.
В качестве примера определим количество информации, связанное с появлением каждого символа в сообщениях, записанных на русском языке. Будем считать, что русский алфавит состоит из 33 букв и знака «пробел» для разделения слов. По формуле Хартли
Н = log2 34 ≈ 5 бит
Однако в словах русского языка (равно как и в словах других языков) различные буквы встречаются неодинаково часто. Ниже приведена таблица вероятностей частоты употребления различных знаков русского алфавита, полученная на основе анализа очень больших по объему текстов.
Частотность букв русского языка
i |
Символ |
Р(i) |
i |
Символ |
Р(i) |
i |
Символ |
Р(i) |
1 |
Пробел |
0,175 |
12 |
Л |
0,035 |
23 |
Б |
0,014 |
2 |
О |
0,090 |
13 |
К |
0,028 |
24 |
Г |
0,012 |
3 |
Е |
0,072 |
14 |
М |
0,026 |
25 |
ч |
0,012 |
4 |
Ё |
0,072 |
15 |
Д |
0,025 |
26 |
й |
0,010 |
5 |
А |
0,062 |
16 |
п |
0,023 |
27 |
X |
0,009 |
6 |
И |
0,062 |
17 |
У |
0,021 |
28 |
ж |
0,007 |
7 |
Т |
0,053 |
18 |
я |
0,018 |
29 |
ю |
0,006 |
8 |
Н |
0,053 |
19 |
ы |
0,016 |
30 |
ш |
0,006 |
9 |
С |
0,045 |
20 |
3 |
0,016 |
31 |
Ц |
0,004 |
10 |
Р |
0,040 |
21 |
ь |
0,014 |
32 |
щ |
0,003 |
11 |
В |
0,038 |
22 |
ъ |
0,014 |
33 |
э |
0,003 |
|
|
|
|
|
|
34 |
ф |
0,002 |
Воспользуемся для подсчета Н формулой Шеннона:
Н≈ 4,72 бит.
Полученное значение Н, как и можно было предположить, меньше вычисленного ранее. Величина Н, вычисляемая по формуле Хартли, является максимальным количеством информации, которое могло бы приходиться на один знак.
Пример 1
Какое сообщение согласно теории информации содержит больше информации?
А. Монета упала "орлом" вниз.
В. Из колоды карт (32 штуки) достали даму пик.
С. Игральная кость упала вверх гранью с шестью очками.
D. Наш друг живет на 9-м этаже шестнадцатиэтажного дома.
Е. Из 8 призов наугад был выбран автомобиль.
Пример 2
Имеются два мешка с монетами, в каждом из которых находится по одной фальшивой монете (более легкой). Для определения фальшивой монеты в первом мешке потребовалось провести 6 взвешиваний, во втором мешке — 4 взвешивания. Сколько всего монет было в двух мешках?
А. 80
В.1024
С. 10
D. 24
Е. 512
Пример 3
Сколько информации несет сообщение о том, что было угадано число в диапазоне целых чисел от 784 до 911?
А. 128 бит
В. 6 бит
С. 127 бит
D. 7 бит
Е. 911 бит
Пример 4
В корзине лежат шары: синие, красные, белые и зеленые. Всего 32 штуки. Сообщение о том, что достали синий шар, несет 2 бита информации. Синих шаров было в 2 раза меньше, чем красных. Белых и зеленых шаров было поровну. Сколько шаров каждого цвета было в корзине?
А. Синие — 4 шт.; красные — 2 шт.; белые и зеленые — по 13 шт.
В. Синие — 4 шт.; красные — 8 шт.; белые и зеленые — по 10 шт.
С. Синие — 2 шт.; красные — 4 шт.; белые и зеленые — по 13 шт.
D. Синие — 8 шт.; красные — 4 шт.; белые и зеленые — по 10 шт.
Е. Синие — 8 шт.; красные — 16 шт.; белые и зеленые — по 4 шт.
Пример 5
В корзине лежат фрукты: 8 яблок, 32 банана и 24 сливы. Количество информации в сообщении о том, что достали яблоко, обозначим iЯ, банан — iБ, сливу — iC. Для величин iЯ, iБ и iС справедливо неравенство:
А. iЯ < iБ < iС
В. iЯ < iС< iБ
С. iЯ > iБ > iС
D. i Б< iC < iЯ .
Е. iБ> iС> iЯ
Пример 6
На ypoкe математики Незнайку вызывают к доске в 4 раза реже, чем Винтика. Определить количество информации в сообщении о том, что к доске вызвали Винтика, если сообщение о том, что вызвали Незнайку, несет 8 бит информации.
А. 32 бита
В. .2 бита
С. 5 бит
D. 6 бит
Е. 6 байт
Пример 7
Алфавит одного племени содержит Х символов, алфавит другого содержит в четыре раза больше символов. Племена обменялись приветствиями. Каждое по 100 символов. Количество бит информации в приветствии обозначим — info1. первого племени, в приветствии второго племени — info2. Выбрать верное утверждение.
А. Info1 = 4 • Info2
В. Info2 = 4 • Info1
С. Info1 – Info2 = 4
D.lnfo2 – Info1 =200
Е. Info2 = Info1 +400
Пример 8
Приветствие участникам олимпиады от марсиан записано с помощью всех символов марсианского алфавита: ТЕВИРП!КИ! Сколько информации оно несет?
А. 30 бит
В.10 байт
С. 80 бит
D.10 бит,
Е. 30 байт
Пример 9
Два исполнителя — Шалтай и Болтай проставляют О или 1 в каждую из имеющихся в их распоряжении клеточек и таким образом кодируют символы. Шалтай может закодировать 512 символов, и у него на 2 клеточки больше, чем у Болтая: Сколько клеток было в распоряжении Болтая?
А. 514
В. 7
С. 5
D. 9
Е. 510
Пример 10
В алфавите некоторого языка всего две буквы: "А" и "Б". Все слова, записанные на этом языке, состоят из 11 букв. Какой максимальный словарный запас может быть у этого языка?
А. 22
В. 11
С. 2048
D.1024
Е. 44 .
Задачи для самостоятельного решения