Учебное пособие Свойства информации и ее представление
Информация - это сведения об объектах, процессах и явлениях окружающего нас мира. К свойствам информации можно отнести важность, достоверность, оперативность, понятность и др.
Информатикой называют науку, изучающую структуру и свойства информации, а также занимающуюся вопросами сбора, хранения, поиска, передачи, преобразования, распространения и использования информации. В информатике используют искусственный язык представления данных, использующий двоичный алфавит (два знака 0 и 1), в соответствии с этим введена минимальная единица измерения информации бит (англ. bit от binary - двоичный).
Существуют более крупные единицы измерения информации, а именно:
1 Байт = 8 бит = 23 бит,
1 Килобайт (Кб) = 210 байт = 213 бит,
1 Мегабайт (Мб) = 210 Кб = 220 байт = 223 бит,
1 Гигабайт (Гб) = 210 Мб = 220 Кб = 230 байт = 233 бит,
1 Терабайт (Тб) =210 Гб = 220 Мб = 230 Кб = 240 байт = 243 бит.
Следует различать понятия «объем памяти, потребной для хранения информации» и «количество информации».
Под объемом памяти будем подразумевать количество места в памяти (на диске или в оперативной памяти), необходимое для хранения данных и программ. Например, при кодировании символьной информации с использованием таблицы ASCII один символ кодируется одним байтом, при использовании уникода - двумя байтами. Если необходимо хранить текст книги из 128 страниц, имеющей на каждой странице 40 строк по 64 символа, то объем необходимой памяти равен 128*40*64 = 27*5*23*26 = 5*216 байт = 5*26 Кб = 160 Кб.
Понятие «количество информации» намного сложнее.
Для кодирования двух состояний в двоичном алфавите (двух альтернативных вариантов) достаточно одной двоичной единицы количества информации - одного бита. Например, левая и правая стороны, слова "Нет" и "Да" могут быть закодированы соответственно знаками 0 и 1.
Для кодирования трех альтернативных вариантов требуется уже не менее двух битов. Например, для кодирования трех сигналов светофора (зеленого, желтого и красного) можно выбрать коды 00, 01 и 10. Еще один вариант двухбитового кода (11) в этом случае не используется.
Для кодирования четырех сторон света (Север, Юг, Запад и Восток) уже требуются все четыре комбинации значений двух битов в двухбитовом коде. Это коды 00, 01, 10 и 11.
Для кодирования от пяти до восьми состояний, объектов, альтернатив, сообщений, событий требуется уже трехбитовый код, который имеет следующие наборы значений битов: 000, 001, 010, 011, 100, 101, 110, и 111. Такие наборы значений битов называютдвоичными словами.
Ясно, что чем больше необходимо закодировать альтернатив, тем длиннее требуется двоичное слово. Его длина определяется по формуле Хартли, названной по имени предложившего ее американского инженера: I=log2N, если число в правой части целое и I=[log2N]+1, если число log2N не целое. Здесь [a] - целая часть числа.
Для определения величины I, как функции от N, можно воспользоваться таблицей, которую легко продолжить.
Часто применяются также информационные оценки тех или иных сообщений. Например, сообщение: «В городе N приступили к строительству нового 5-этажного дома» менее информативно, чем сообщение «В городе N приступили к строительству нового 102-этажного дома», поскольку первое событие весьма обыденное, в то время, как второе событие уникально.
N (количество сообщений)I(бит) 21 3-42 5-83 9-164 17-325 33-646 65-1287 129-2568 257-5129 513-102410 ...... Один из подходов к определению информативности того или иного сообщения состоит в оценке зависимости ее от вероятности. При таком подходе число двоичных символов в коде сообщения I=log2(N/K), если число в правой части целое и I=[log2(N/K)]+1, если число log2(N/K) не целое (N общее число вариантов событий, K число вариантов наступления события, об одном из которых говорится в сообщении). Если некоторый опыт имеет N равновозможных исходов и в сообщении будет сказано, что произойдет один из К исходов, то вероятность поступления такого сообщения принимается равной p=K/N. Информационная емкость сообщения (необходимое число бит) равно I = -log2 p, если это число целое и I = [-log2p]+1, если оно не целое.
Поясним термин “вероятность ”на примере. Пусть в ящике 12 белых шаров, 6 черных, по 3 зеленых и красных. Извлечем один шар и закодируем сообщение о цвете извлеченного шара.
Если мы случайным образом достаем белый шар, а таких шаров 12 из 24, то вероятность этого события p1=12/24=1/2. Черных шаров 6 из 24, вероятность того, что случайно выбранный шар окажется черным, p2=6/24=1/4, аналогично рассуждая, вероятность выбора зеленого шара p3=3/24=1/8 , красного - p4=3/24=1/8. Поэтому сообщение о цвете извлеченного
белого шара можно закодировать одним битом (I1=log2(1/ p1)=1),
черного шара -двумя битами (I2=log2(1/ p2)=2),
зеленого, красного - тремя битами (I3= I4=log2(1/ p3)=3).
Если мы рассматриваем N равновероятных сообщений (объектов, состояний, событий), т.е. вероятности появлений событий равны, то можно записать p=1/N, откуда N=1/p. В этом случае формула Хартли запишется в следующем виде:
I=log2N=log2(1/p), если N-степень двойки, иначе I = [-log2p]+1.
Проверим равенство для простейшего случая двух равновероятных событий: I=log21/2=1(один бит информации). Формула Хартли отражает следующее важное обстоятельство. Если некоторое событие должно обязательно произойти, т.е. вероятность его появления равна 1, то сообщение о том, что это событие произошло, не несет никакой информации - количество информации равно нулю: I=log21=0 (20=1).
Алфавитный подход к измерению информации позволяет определить количество информации, заключенной в тексте. Полное количество символов в алфавите называется мощностью или размером алфавита. Если допустить, что все символы алфавита встречаются в тексте с одинаковой частотой, то количество информации, которое несет каждый символ, вычисляется по формуле I=log2N, где N - мощность алфавита. Следовательно, в 2-х символьном алфавите каждый символ "весит" 1 бит, в 4-х символьном алфавите каждый символ несет 2 бита информации и т .д. При кодировании символьной информации с использованием таблицы ASCII (256 символов) один символ кодируется одним байтом (8 битами).
[Решение задач][Тестирование][Следующая тема]