
Алфавитный подход к измерению информации
Если информация представлена в виде дискретного сообщения, то логично считать количеством информации его длину, то есть общее число знаков в сообщении. Но длина сообщения зависит не только от содержащейся в нем информации. На нее влияет мощность алфавита используемого языка. Чем меньше знаков в используемом алфавите, тем длиннее сообщение. Так, например, в алфавите азбуки Морзе всего три знака (точка, тире, пауза), поэтому для кодирования каждой русской или латинской буквы нужно использовать несколько знаков, и текст, закодированный по Морзе, будет намного длиннее, чем при обычной записи.
Пример:Сигнал SOS: 3 знака в латинском алфавите;
11 знаков в алфавите Морзе: ••• пауза – – – пауза •••.
Для упорядочивания измерений информационный объем сообщений принято измерять в битах. Один бит соответствует одному знаку двоичного алфавита. Итак, чтобы измерить длину сообщения, его нужно представить в двоичном виде и подсчитать количество двоичных знаков – битов. При этом совсем не обязательно уметь интерпретировать сообщения.
Пример. Пусть сообщение в двоичном алфавите выглядит следующим образом: 000100010001. Мы не знаем, какая информация была заложена в этом сообщении, но можем легко подсчитать его длину – 12 двоичных знаков, следовательно, его информационный объем равен 12-ти битам.
Такой способ измерения количества информации называется алфавитным подходом. При этом измеряется не содержание информации с точки зрения его новизны и полезности, а размер несущего информацию сообщения. При алфавитном подходе к определению количества информации одни и те же сведения, закодированные по-разному, будут иметь различный информационный объем. Сообщения одинаковой длины могут нести совершенно как совершенно бесполезные сведения, так и нужную информацию. Пример: Применяя алфавитный подход, получаем, что информационный объем слов “фыырпбьощ” и “компьютер” совершенно одинаков, а слов “ученик” и “учащийся” – различен.
Если алфавит содержит 2iзнаков, то каждый из его знаков можно закодировать с помощью i знаков двоичного алфавита. Таким образом, объем информации I, содержащейся в сообщении длиной k при использовании алфавита мощностью 2i, равен
I=k*i бит.
Пример. Найдем информационный объем слова SOS, записанного в компьютерной кодировке. При кодировании букв в компьютере используется либо алфавит ASCII (American Standard Code for Information Interchange — американский стандартный код обмена информацией), состоящий из 28=256 знаков, либо алфавит Unicode, мощность которого 216= 65536. В слове SOS три буквы, следовательно, его информационный объем 3•8=24 или 3•16=48 бит, в зависимости от используемой кодировки.
При алфавитном подходе к измерению информации количество информации зависит не от содержания, а от размера текста и мощности алфавита. При использовании двоичной системы (алфавит состоит из двух знаков: 0 и 1) каждый двоичный знак несет 1 бит информации. Сама единица измерения информации «бит» получила свое название от английского сочетания «binary digit» - «двоичная цифра».
Если допустить, что все символы алфавита встречаются в тексте с одинаковой частотой (равновероятно), то количество информации, которое несет каждый символ, вычисляется по формуле: i=log2N, где - N мощность алфавита.
Применение алфавитного подхода удобно прежде всего при использовании технических средств работы с информацией. В этом случае теряют смысл понятия «новые — старые», «понятные — непонятные» сведения. Алфавитный подход является объективным способом измерения информации в отличие от субъективного содержательного подхода.
Ограничения на максимальный размер алфавита теоретически не существует. Однако есть алфавит, который можно назвать достаточным. Это алфавит мощностью 256 символов. В алфавит такого размера можно поместить все практически необходимые символы: латинские и русские буквы, цифры, знаки арифметических операций, всевозможные скобки, знаки препинания....
Поскольку 256 = 28, то один символ этого алфавита «весит» 8 бит.
Компьютерные редакторы, в основном, работают с алфавитом размером 256 символов. В этом случае легко подсчитать объем информации в тексте. Если 1 символ алфавита несет 1 байт информации, то надо просто сосчитать количество символов; полученное число даст информационный объем текста в байтах.
Пусть небольшая книжка, сделанная с помощью компьютера, содержит 150 страниц; на каждой странице — 40 строк, в каждой строке — 60 символов. Значит, страница содержит 40x60=2400 байт информации. Объем всей информации в книге: 2400 х 150 = 360 000 байт.