Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Введение и теория информации.doc
Скачиваний:
12
Добавлен:
05.09.2019
Размер:
1.65 Mб
Скачать

2.3.2. Символьная информация

При двоичном кодировании текстовой информации в компьюте­ре каждому символу ставится в соответствие его код. Традиционно для кодирования одного символа используется количество информа­ции равное, 1 байту или 8 битам (вот почему минимальной группой из соседних запоминающих элементов, с которой компьютер опери­рует как с одним целым, является байт). Подсчитаем приблизитель­ный объем текстовой информации в "Современном словаре ино­странных слов" из 740 страниц, если на одной странице размещается в среднем 60 строк по 80 символов (включая пробелы).:

80*60*740=3 552 000 байт 3469 Кбайт 3,4 Мбайт. Таким образом, объем информации в словаре равен приблизительно 3,4 Мбайт.

Используя всевозможные комбинации из 0 и 1, в восьми двоич­ных разрядах можно закодировать 28=256 различных символов. Тако­го количества символов вполне достаточно для представления тек­стовой информации, включая большие и маленькие буквы латинского и национального (например, русского) алфавита, знаки препинания, цифры, скобки, знаки арифметических действий, кавычки, графиче­ские символы и некоторые дополнительные символы.

Кодирование в данном случае заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от 00000000 до 11111111. Таким образом, человек различает символы по их начерта­нию, а компьютер - по их коду. Например, при нажатии клавиши с латинской буквой А в оперативную память передается двоичный код 01000001. При выводе символа на экран дисплея производится деко­дирование: по двоичному коду символа на экране строится его изо­бражение. Кодирование и декодирование происходят в компьютере автоматически за миллионные доли секунды.

Для сокращения записей и удобства восприятия вместо двоич­ных кодов используют шестнадцатеричные. Например, код латинской буквы А задается шестнадцатеричным числом 4116 , код знака < -числом ЗС16. Используемые в вычислительной технике кодовые ком­бинации символов представляют в виде кодировочных (кодовых) таблиц. Кодировочные таблицы имеют 16 строк и 16 столбцов (16*16=256 символов), которые нумеруются обычно шестнадцатеричными цифрами от 0 до F. Место символа в таблице определяет его шестнадцатеричный код, при этом вначале записывается номер стро­ки. Например, если символ стоит в строке 7 и столбце D, то его код ID.

Заметим, что числа в компьютере могут быть представлены двумя способами. Если число используется для вычислений, то оно переводится в двоичную систему счисления (например, 27 =110112) и его двоичный код размещается в памяти компьютера. Если это чис­ло используется в тексте, то оно будет кодироваться в соответствие с кодовой таблицей, т.е. цифра 2 заменяется кодом 32, цифра 7 - кодом 37, и полный код этого числа при кодировании текста будет иметь вид 3237.

На разных типах компьютеров используют разные кодировочные таблицы. В качестве одного из стандартов во всем мире принята таблица ASCII (American Standard Code for Information Interchange -Американский стандартный код для информационного обмена), ко­дирующая ровно половину возможных символов - от 0 до 127 (табл.2.12).

Таблица 2.12

Все другие стандарты кодировочных таблиц включают этот Фрагмент без изменений, а во второй половине содержат коды национальных алфавитов, символы псевдографики и некоторые математи­ческие знаки.

В последнее время появился новый международный стандарт символьного кодирования UNICODE, в котором каждый символ ко­дируется 2-мя байтами и поэтому с его помощью можно закодировать уже не 28=256, а 216=65536 различных символов, включая математи­ческую символику, греческий алфавит и др.