- •Введение Информатика как наука и вид практической деятельности
- •История возникновения термина «информатика»
- •Структура современной информатики
- •Краткие сведения из теории информации Понятие информации
- •Единицы измерения информации
- •Представление информации в эвм
- •Числовая информация Кодирование числовой информации
- •Представление и обработка числовой информации в компьютере
- •2.3.2. Символьная информация
- •2.3.3. Графическая информация
- •2.3.4. Звуковая информация
2.3.2. Символьная информация
При двоичном кодировании текстовой информации в компьютере каждому символу ставится в соответствие его код. Традиционно для кодирования одного символа используется количество информации равное, 1 байту или 8 битам (вот почему минимальной группой из соседних запоминающих элементов, с которой компьютер оперирует как с одним целым, является байт). Подсчитаем приблизительный объем текстовой информации в "Современном словаре иностранных слов" из 740 страниц, если на одной странице размещается в среднем 60 строк по 80 символов (включая пробелы).:
80*60*740=3 552 000 байт 3469 Кбайт 3,4 Мбайт. Таким образом, объем информации в словаре равен приблизительно 3,4 Мбайт.
Используя всевозможные комбинации из 0 и 1, в восьми двоичных разрядах можно закодировать 28=256 различных символов. Такого количества символов вполне достаточно для представления текстовой информации, включая большие и маленькие буквы латинского и национального (например, русского) алфавита, знаки препинания, цифры, скобки, знаки арифметических действий, кавычки, графические символы и некоторые дополнительные символы.
Кодирование в данном случае заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от 00000000 до 11111111. Таким образом, человек различает символы по их начертанию, а компьютер - по их коду. Например, при нажатии клавиши с латинской буквой А в оперативную память передается двоичный код 01000001. При выводе символа на экран дисплея производится декодирование: по двоичному коду символа на экране строится его изображение. Кодирование и декодирование происходят в компьютере автоматически за миллионные доли секунды.
Для сокращения записей и удобства восприятия вместо двоичных кодов используют шестнадцатеричные. Например, код латинской буквы А задается шестнадцатеричным числом 4116 , код знака < -числом ЗС16. Используемые в вычислительной технике кодовые комбинации символов представляют в виде кодировочных (кодовых) таблиц. Кодировочные таблицы имеют 16 строк и 16 столбцов (16*16=256 символов), которые нумеруются обычно шестнадцатеричными цифрами от 0 до F. Место символа в таблице определяет его шестнадцатеричный код, при этом вначале записывается номер строки. Например, если символ стоит в строке 7 и столбце D, то его код ID.
Заметим, что числа в компьютере могут быть представлены двумя способами. Если число используется для вычислений, то оно переводится в двоичную систему счисления (например, 27 =110112) и его двоичный код размещается в памяти компьютера. Если это число используется в тексте, то оно будет кодироваться в соответствие с кодовой таблицей, т.е. цифра 2 заменяется кодом 32, цифра 7 - кодом 37, и полный код этого числа при кодировании текста будет иметь вид 3237.
На разных типах компьютеров используют разные кодировочные таблицы. В качестве одного из стандартов во всем мире принята таблица ASCII (American Standard Code for Information Interchange -Американский стандартный код для информационного обмена), кодирующая ровно половину возможных символов - от 0 до 127 (табл.2.12).
Таблица 2.12
Все другие стандарты кодировочных таблиц включают этот Фрагмент без изменений, а во второй половине содержат коды национальных алфавитов, символы псевдографики и некоторые математические знаки.
В последнее время появился новый международный стандарт символьного кодирования UNICODE, в котором каждый символ кодируется 2-мя байтами и поэтому с его помощью можно закодировать уже не 28=256, а 216=65536 различных символов, включая математическую символику, греческий алфавит и др.