1.5.4. Кодирование текстовой информации

Символы для представления текста образуют алфавит, прописные и строчные буквы которого следуют в алфавитном порядке, цифры также располагаются упорядочено по возрастанию значений. Принцип кодирования алфавита состоит в том, что каждому символу алфавита сопоставляется определенное значение кода (целое число ), что позволяет кодировать также и текстовую информацию.

С помощью одного байта можно закодировать 256 различных символов. достаточных для представления текстовой информации, включая строчные и прописные буквы как русского, так и латинского алфавитов, а также знаки препинания, графические символы, скобки и т.п. Для каждого символа клавиатуры определен десятичный код от 0 до 255, представленный в двоичной системе счисления от 00000000 до 11111111 соответственно. Таким образом, компьютер различает вводимые символы в соответствии их коду.

Кодирование информации посредством байтов определяется используемыми стандартами, в основе которых лежит код ASCII (American Standart Code for Information Interchange - американский стандартный код для обмена информацией). Данный код разработан в Американском Национальном Институте стандартов ANSI - American National Standarts Institute. Первоначальная версия этой кодировки (1963 г.) была доведена до рабочей версии в 1968 году как стандарт ANSIX3.4 под именем US-ASCII.

В системе кодирования ASCII используются две таблицы кодирования, называемые базовой и расширенной. Базовая таблица кодирования использует коды от 0 до 127, а расширенная таблица использует коды от 128 до 255:

коды 0…31 используют фирмы – разработчики аппаратуры (ПК, принтеров для кодирования специальных символов), это управляющие коды;
коды 32…127 кодируют латиницу, цифры, арифметические операции и другие символы;
коды 128…255 используются каждой страной самостоятельно, и это приводит к множеству кодировок даже в одной стране.

С появлением графической среды Windows, фирма Microsoft разработала новую кодовую таблицу ANSI. В настоящее время существует много различных кодовых таблиц и по этой причине текст в одной системе кодирования, может некорректно представляться в другой системе. Наиболее распространенной системой кодирования является система MS Windows, сокращенно обозначаемый как CP1251 (Code Page - кодовая страница).

Универсальный код - Unicode

В 1991 году появился новый международный стандарт Unicode (Юникод – универсальный код), который использует для кодирования одного символа два байта и поэтому с его помощью можно закодировать 65536 различных символов.

Unicode включает существующие алфавиты стран мира, а также различные математические, химические и другие символы. Юнико́д является стандартом для кодирования символов и позволяет представить символы практически всех письменных языков. Стандарт предложен некоммерческой организацией «Консорциум Юникода» (Unicode Consortium), объединяющей крупнейшие IT-корпорации. Коды в стандарте Unicode разделены на несколько областей. Диапазон с кодами от 0 до 255 содержит символы набора ASCII – кодов.

Unicode использует 16бит для кодирования символов и общее количество символов, которые можно закодировать составляет 216 (65 536). Основные операционные системы поддерживают Unicode. Операционные системы Windows для кодирования имён файлов и других системных атрибутов используют кодировку двумя байтами. В настоящее время основные языкы программирования используют Unicode. Файлы, использующие Unicode, требуют больше памяти, однако с увеличением быстродействия компьютеров и сокращением стоимости оперативной памяти и жестких дисков указанная проблема не будет со временем являться важной. Например, кодировка Unicode используется в программных продуктах MS Word и MS Excel.

<<< < Предыдущая 1 2 3 4 5 6 7 89 / 299 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>