Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Информатика_ЗФ / Учебное пособие_Информатика.doc
Скачиваний:
209
Добавлен:
22.03.2016
Размер:
6.18 Mб
Скачать

Кодирование текста

Двоичный код

Десятичный код

КОИ8

СР1251

СР866

Мас

ISO

11000010

194

Б

В

-

-

Т

Причем тексты, закодированные при помощи одной таблицы, не будут правильно отображаться в другой кодировке. Впрочем, в большинстве случаев о перекодировке текстовых документов заботится не пользователь, а специальные программы – конверторы, которые встроены в приложения.

В различных кодировках: коды от 0 до 32 – соответствуют управляющим клавишам (Enter, Esc и т.п.); от 33 до 127 – латинским буквам, цифрам, знакам арифметическим операций и знакам препинания; от 128 до 255 (расширенная часть таблицы кодировки) – для символов национальных алфавитов.

Количество различных символов (N), которые можно закодировать с помощью какой-либо таблицы кодировки, определяется числом двоичных разрядов (k), отводимых под кодирование одного символа, и вычисляется по методу Хартли

N=2k (1)

где N – это так называемая мощность алфавита (конечное число символов, используемых для представления информации или конечное число символов в алфавите);

kинформационный вес символа.

Наибольшее распространение для внешнего представления текстов и другой символьной информации в компьютере получило 8-разрядное кодирование (на кодирование одного символа отводится 8 бит = 1 байт). Таким образом, байт вводится как информационный вес символа из алфавита мощностью 256 символов.

N=28=256 различных символов

Мощность русского алфавита (если считать, что е = ё) равна 32. А каждая буква русского алфавита несет информацию 5 бит (32 = 25).

Чем меньше знаков в используемом алфавите, тем длиннее сообщение. Так, например, в алфавите азбуки Морзе всего три знака (точка, тире, пауза), поэтому для кодирования каждой русской или латинской буквы нужно использовать несколько знаков, и текст, закодированный по Морзе, будет намного длиннее, чем при обычной записи.

Например: Сигнал SOS: 3 знака в латинском алфавите;

11 знаков в алфавите Морзе: ··· пауза – – – пауза ···.

Сообщение любой длины, использующее односимвольный алфавит, содержит нулевую информацию.

Предположим, что используемый алфавит состоит из одного символа, например, «1». Интуитивно понятно, что сообщить что-либо с помощью единственного символа невозможно.

Представьте себе толстую книгу в 1000 страниц, на всех страницах которой написаны одни единицы (единственный символ используемого алфавита).

Таблица 3

Фрагмент одноствольного алфавита

1111111111111111111111111111111111111111111111111111111111111111

1111111111111111111111111111111111111111111111111111111111111111

1111111111111111111111111111111111111111111111111111111111111111

Как видно из примера в таком фрагменте содержится нулевой объем информации. Но это же доказывается строго с точки зрения алфавитного подхода.

Найдем информационный вес символа в таком алфавите из уравнения: 2k = 1. Но поскольку 1 = 20, то отсюда следует, что k = 0 бит.

Минимальная мощность алфавита, пригодного для передачи информации, равна 2. Такой алфавит называется двоичным алфавитом.

Информационный вес символа в двоичном алфавите легко определить. Поскольку 2k = 2, то k = 1 бит.

Итак, один символ двоичного алфавита несет 1 бит информации. 1 бит – исходная единица измерения информации.

Зная информационный вес одного символа, мы можем измерить количество информации в тексте (символьном сообщении), составленном из символов некоторого алфавита. Конечно, к содержанию текста такая мера информации отношения не имеет и поэтому такой подход можно назвать объективным, то есть не зависящим от воспринимающего его субъекта.

Такой алфавитный подход удобен при подсчете количества информации, хранимого, передаваемого и обрабатываемого техническими устройствами, поскольку устройствам нет дела до содержательной стороны сообщений. Компьютеры, принтеры, модемы работают не с самой информацией а с ее представлением в виде сообщений.

Итак, зная из формулы Хартли, что величина k– это информационный вес символа можно определить количество информации во всем тексте (I), состоящем из L символов, которое будет равно произведению информационного веса символа k на L:

I =k * L (2)

Величину I можно назвать информационным объемом текста.