
2.2. Кодирование текстовой информации
Для кодирования текста в компьютер, используется самый простой способ кодировки: каждому символу ставится в соответствие двоичное число. Правила соответствия или правила кодировки записываются в таблицу, которая называется кодовой.
Кодовая таблица - это таблица, которая устанавливает соответствие между символами алфавита и двоичными числами. Эти числа называются кодами символов и отвечают внутреннему представлению символов в компьютере.
Кодовую таблицу называют также кодовой страницей. Как «работает» кодовая таблица? Когда вы нажимаете какую-либо клавишу, электронная схема I клавиатуры формирует определенный двоичный код. Так, при нажатии на клавишу «1» формируется двоичный код 00110001, а при нажатии на клавишу «2» -код 00110010. В зависимости от нажатой клавиши получается тот или иной двоичный код, задаваемый кодовой таблицей.
За основу кодировки символов в персональных компьютерах взята кодовая таблица ASCII (по-русски аббревиатура звучит как «а-с-ц-и», или просто «аски»). ASCII - это сокращение от American Standard Code for Information Interchange (американский стандарт кодов для обмена информацией). В этой таблице каждый символ кодируется двоичным числом, состоящим из 7 разрядов. Всего возможно перенумеровать 27 = 128 символов. Этого достаточно для кодирования в таблице ASCII букв одного алфавита (английского), и остаются еще свободные коды для управляющих и различных специальных символов: %, #, &, :, -, ", *, $ и др.
Если в компьютере нужно поддерживать два алфавита, например, английский и русский, то семи разрядов кода (128 символов) уже недостаточно. Поэтому для кодирования символов используется код длиной 8 бит или 1 байт. Старшие разряды в кодовой таблице пробегают ряд значений от 0 до 15 (а не от 0 до 7, как в случае ASCII). Однобайтным кодом можно закодировать 28 = 256 символов. Каждому символу ставится в соответствие своя уникальная последовательность из восьми нулей и единиц, которая может принимать значения от (00000000)2 до (11111111 )2.
Обычно для каждого алфавита разрабатывается своя кодовая страница. Первые 128 кодов (первая половина таблицы) предназначаются для таблицы ASCII - эта часть кодов является стандартной и обязательной для всех кодовых страниц. Последующие коды, начиная с кода 128 до 255 (вторая половина таблицы), отдаются под национальный стандарт, то есть под алфавит того или иного языка.
В 90-х годах был разработан стандарт Unicode, согласно которому для представления каждого символа используются два байта. Это позволяет закодировать очень большое число символов из разных алфавитов (теоретически 216 =65536 символов). В документах Unicode могут соседствовать, например, математические символы, кириллица, латинские, греческие буквы и даже китайские иероглифы. При использовании стандарта Unicode отпадает необходимость в кодовых страницах.
До сих пор шла речь о преобразовании символов (или текста) в двоичные коды, которое выполняется в устройстве ввода. При выводе информации из компьютера выполняется обратное преобразование: двоичный код каждого символа переводится в обычное (графическое) представление так, чтобы эта информация могла быть прочитана человеком. При этом под вывод символа отводится площадь 8*8 или 8*16 пикселей. Под выводимый символ отводится минимум 2 байта. 1 байт это атрибуты: бит мерцания ( 0- нет, 1 – есть), 3 бита фон, 4 бита цвет, 2 байт – это кодировка символа.
Текстовые файлы имеют расширение *.txt, *.doc и другие (*.раs, *.c, *.asm)/