Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
AlgStr / Библиотека / ЛЕКЦИИ / POSIBNIK / СТРУКТУРИ ТА ОРГАНИЗАЦИЯ ДАНИХ В ЕОМ.doc
Скачиваний:
42
Добавлен:
23.03.2015
Размер:
222.72 Кб
Скачать

1.1. Объем информации

Информации может быть много или мало. Но для канала связи необходимо знать более точно, сколько информации и за какое время он может передать. Например, почта не может правильно работать, не имея сведений о том, какой транспорт понадобится для перевозок, сколько потребуется почтовых отделений и почтальонов. Для этого на почте при расчетах объема информации можно обойтись традиционными физическими мерами: вес, объем писем и посылок. На телеграфе уже нужно мерять более точно: здесь мы платим за каждое слово в телеграмме. Чем длиннее телеграмма – тем она дороже (для нас и для телеграфной службы). Длинный текст дольше кодируется, дольше передается по каналу связи, дольше декодируется.

Итак, при передаче сообщения важна его длина. Тогда точнее ее измерять не числом слов, а числом букв и цифр (т.е. числом знаков). Но и здесь не все так просто. Например, передаем число дней в феврвле (високосный год). Но его можно представить разными способами:

29 – в десятичной системе счисления;

11101 – в двоичной системе счисления;

двадцать девять – в виде слов русского языка.

Таким образом, содержание одно, а длина – различная. Говорят, что длина сообщения зависит от мощности используемого алфавита. В десятичной системе для записи чисел используется десять цифр: 0, 1, 2, …, 9. А в двоичной системе используются только две цифры: 0 и 1. Как видим, прослеживается закономерность: Чем мощнее алфавит, тем короче запись. Самый бедный алфавит – это двоичный. Достоинсиво большого алфавита – короткие записи. Но он требует более сложных устройств для кодирования и декодирования. Чем болше разных символов, тем сложнее их различать, а значит и труднее передавать без искажения. Не случайно, в одном из первых телеграфных кодов – азбуке Морзе – использовалось только три знака (точка, тире, пауза). А во всей компьютерной технике принята двоичная система кодирования.

Какой алфавит выбрать – решают проектировщики конкретной системы передачи. Но для измерения информации желательно иметь единицы, которые не зависили бы от алфавита. В качестве такой меры ввели бит (BInary Digit – двоичная цифра). Т.е. единицу минимальной по числу символов двоичной системы кодирования. Бит – это один символ двоичной системы. Для сообщения, записанного в двоичной системе, объем информации – это просто число двоичных символов. Например, (29)10 = (11101)2 – 5 цифр, а значит и 5 бит информации. Но это же число можно записать и так (00011101)2, т.е. 8 бит.

С помощью одного бита можно передать только одно из двух сообщений – 0 или 1. Такие сообщения могут нести большую смысловую нагрузку. Но для передачи эти сообщения очень просты. Двумя битами можно передать сообщения 00, 01, 10, 11 и, вообще, n двоичными цифрами можно передать одно из 2n возможных сообщений. Для измерения информации можно использовать более крупную единицу – байт, т.е. запись из восьми бит. Общее число символов, используемых в двоичных текстах обычно больше, чем 27 = 128, но меньше, чем 28 = 256. Поэтому одного байта как раз достаточно, чтобы закодировать в двоичной системе любой символ обычного текста. Для сложных текстов этого часто бывает недостаточно. Там могут использоваться другие системы кодирования с большим числом бит на один символ.

А как быть, если сообщение записано (закодировано) не в двоичной системе счисления? И зачем это нужно делать? Для измерения надо сообщение необходимо перевести в двоичную систему счисления. Но мы видели, что это можно сделать различными способами. Однако для каждого сообщения существует минимальное количество битов. Как его определить?

Рассмотрим запись десятичных чисел в двоичной системе. Первые 2n чисел: от 0 до 2n – 1 можно записать n битами. Например, числа от 0 до 7 можно записать тремя битами, используя таблицу кодирования: 0 – 000, 1 – 001, … 7 – 111. В общем случае, если N – степень числа 2 (N = 2n), то для его записи необходимо n+1 бит. Наример, 32 = 25 = 10000, т.е. 6 бит. Для других чисел количество битов равно показателю наибольшей степент двойки, не превышающей этого числа плюс один. Например, для числа 53 эта степень равна 5:

25 = 32 < 53 < 64 = 26 .

Чтобы найти максимальную степень числа 2, не превышающего произвольного натурального числа N,необходимо вычислить log2N и взять его целую часть [log2N]. Итак, минимальное число битов для записи любого десятичного числа из диапазона [0 .. N] равно [log2N] +1. Это и есть формула для вычисления объема информации заданной в виде десятичного числа из диапазона [0 .. N].

А как быть, если информация передается в виде сообщения, состоящего из символов некоторого произвольного алфавита? Но ведь в любом алфавите его символы можно перенумеровать и представить каждый символ его номером (идентификатором) в этом алфавите. Поэтому эта оценка годится для измерения объема информации представленной в виде сообщения в любом алфавите. При записи обычных текстов, каждый символ кодируется, как правило, одним байтом. Следовательно, число байтов примерно равно числу символов в сообщении.

Определение. Измерение информации, основанное на подсчете числа символов в сообщении, необходимое для того, чтобы оценить возможности технических устройств, работающих с ней, называется объемом информации.

Для запоминающих устройств (диски, ленты, карты и т.д.) объем информации который они способны записать измеряют в битах, байтах, килобайтах, мегабайтах и т.д. Время передачи информации по каналам связи зависит не только от ее объема, но и от скорости передачи. Для этого используют единицу, которая называется бод (1 бод = 1 бит/сек).

Но оказывается информацию можно измерять и иначе.