
Измерение информации
Количественная оценка информации
В основе всей теории информации лежит открытие, что информация допускает количественную оценку.
В простейшей форме эта идея была выдвинута еще в 1928 г. Хартли, но завершенный и общий вид придал ей Клод Шеннон в 1948 г.
Существуют два способа измерения объема или количества информации – технический и энтропийный.
Технический (объемный) способ используют, как правило, в технике. Он основан на подсчете числа символов в сообщении, т.е. связан с его объемом и не учитывает содержания. В вычислительной технике применяют две стандартные единицы измерения – бит и байт.
Бит – это один символ двоичного алфавита. С его помощью можно полностью передать информацию о реализации события, которое может иметь два исхода, например, бросание монетки.
Байт – это количество информации, которое можно передать с помощью 8 двоичных символов, т.е. восьмиразрядного двоичного кода. С его помощью можно полностью передать информацию о реализации события, которое может иметь 28 = 256 исходов, например, нажатие одной из клавиш компьютера.
Используются также и производные единицы измерения информации:
1 Кбайт = 1024 байт
1 Мбайт = 1024 Кбайт
1 Гбайт = 1024 Мбайт
1 Тбайт = 1024 Гбайт
1 Пбайт = 1024 Тбайт
и др.
Энтропийный способ измерения информации устанавливает ценность информации, содержащейся в сообщении.
При использовании этого способа количество информации невозможно определить без рассмотрения понятия неопределенности. Действительно, получение информации о каком-либо случайном объекте всегда связано с изменением степени неосведомленности получателя о состоянии объекта. Для количественного описания неопределенности удалось ввести меру, названную энтропией. Эта мера неопределенности должна быть некоторой числовой характеристикой (функционалом) закона распределения случайного объекта.
Энтропия характеризуется некоторой математической зависимостью от совокупностей вероятностей ожидания того или иного события и может быть описана формулой Хартли
S = log W,
где S – мера неопределенности,
W – число всевозможных комбинаций наступления некоторых событий.
Например, при подбрасывании монеты возможно наступление двух событий – выпадение герба или цифры. Тогда мера неопределенности определяется как S = log2 = 1 бит.
Количество информации в сообщении определяется тем, насколько уменьшается эта мера неопределенности после получения сообщения. Сообщение либо несет, либо не несет информацию, а объем информации зависит от субъекта, воспринимающего это сообщение. Если сообщение не несет никакой информации, то оно называется тривиальным.
Рассмотрим пример. Одним из жителей города с населением примерно 1000000 жителей было совершено преступление.
Неопределенность относительно лица, совершившего это преступление, определяется энтропией S0 = log1000000 = 20 бит (220)
Получено сообщение, что преступник – мужчина. Информация, содержащаяся в этом сообщении, I1== log2 = 1 бит.
В результате энтропия S1 = S0– I1=20–1=19 бит.
Получено сообщение, что возраст преступника попадает в интервал от 14 до 78 лет, т.е. интервал составляет 78–14=64 года. В этом сообщении содержится информация I2== log64 = 6 бит.
Энтропия после получения второго сообщения уменьшится и будет равна S2 = S1– I2=19–6=13 бит.
Всякое дополнительное сообщение будет уменьшать энтропию, например, данные о месте проживания, об образовании, семейном положении и т.д.