Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
224
Добавлен:
11.06.2015
Размер:
9.28 Mб
Скачать

Кодировки русских букв

Кодировка – это стандарт, ставящий в соответствие каждому символу алфавита его порядковый номер. Кодировку записывают в виде таблиц.

Для кодирования символов в компьютере используются комбинации нулей и единиц. Таблица, в которой записаны коды и соответствующие им символы, называется таблица кодировки. Для того чтобы закодировать все буквы английского алфавита необходимо всего 52 последовательности нулей и единиц (26 строчных + 26 прописных = 52). К ним добавляются знак пробела, знаки препинания, некоторые служебные знаки и всего получается 128 символов. Это основа всех самых распространенных в настоящее время кодировок под названием ASCII (American Standard Code for Information Interchange – американский стандартный код обмена информацией).

Семибитные кодировки. Число 128 удобно тем, что оно представляет собой степень двойки – это два в седьмой степени, семь бит. Таким образом, каждой прописной и строчной букве английского алфавита, цифре и знаку препинания ставится в соответствие цепочка из семи двоичных разрядов (битов, принимающих значение ноль или единица). Иными словами, 17 битов дают 27 = 128 возможных перестановок из нулей и единиц. Семибитный код ASCII устроен таким образом, что некоторые биты указывают на принадлежность кода тому или иному «классу» (например, прописные буквы, строчные буквы, цифры), а другие биты указывают на то, какой именно это символ. Например, код прописной буквы «А» равен 1000001, код строчной «а» – 1100001. Различие между строчными и прописными буквами в ASCII заключается в двух крайних слева разрядах.

Можно сказать, что кодовая таблица определяет положение символов в шрифте. Номера с 0 по 31 отводятся под управляющие символы.

Восьмибитные кодировки. Для национальных алфавитов, например, русского, отведены следующие 128 символов в таблице кодировки. Таким образом, получается, что закодировано 128 + + 128 = 256 или 28 символов. Такая кодировка называется, соответственно, восьмибитной.

Единого стандарта для кодировок национальных символов не существует. Поэтому вторая половина восьмибитной кодовой таблицы в разных кодировках разная. Наиболее распространенные восьмибитные кодировки, содержащие русский алфавит (СР – Code Page – Кодовая Страница) представлены в таблице.

Основные восьмибитные кодировки

Номер

кодовой

«'границы

Название

кодировки

на ее основе

Где обычно используется

CP-878

KOI8-R

(Kod Obmena Informatsiey, 8 bit)

Распространена в системах на основе Unix (как следствие и в Internet, так как большая часть серверов Internet обслуживается именно такими операционными системами)

CP-1251

Cyrillic ANSI или

Windows-Cyrillic

Для РС-совместимых компьютеров под Windows до Windows-95 и NT

CP-866

Альтернативная кодировка ГОСТ

Для РС-совместимых компьютеров под MS-DOS и OS/2, а также в сети Fido

CP-10017

Mac-Cyrillic

Macintosh-совместимые компьютеры

Разница между ними заключается в различном расположении русских букв.

Unicode. В последние годы получает все большее распространение стандарт Unicode. В кодировках на его основе используется не 28 = 256, а 216 = 65536 символов или 256 страниц по 256 символов. Таким образом, появляется возможность закодировать практически все буквы национальных алфавитов. В настоящее время стандарт охватывает все известные алфавиты за исключением некоторой части китайских иероглифов. На кириллические буквы отводится две страницы. Сюда входят, кроме русских букв, символы многих языков бывшего Советского Союза (например, казахского, абхазского и других), а также сербского, дунганского и пр. Созданы кодировки и текстовые редакторы, работающие на основе стандарта Unicode. В кодировке UTF-16 на каждую букву тратиться в два раза больше места в памяти компьютера, чем в восьмибитных кодировках (цепочка из 16 нулей и единиц), она применяется в Windows NT и 2000. Наиболее распространена кодировка UTF-8, в которой для английских букв используется один байт, а для букв национальных алфавитов – два (16 бит).

Конвертеры. Для преобразования текста из одной кодировки в другую существуют специальные программы конвертеры (от англ. converter – преобразователь).

Они заменяют двоичный код каждого символа на код, в которым такой символ представлен в другой кодировке». Это соответствие определяется таблицей перекодировки. Большинство конвертеров требуют указать, из какой кодировки в какую идет преобразование, однако появились и программы, умеющие автоматически определять кодировку исходного текста. Некоторые конвертеры встроены в текстовые редакторы, другие работают из командной строки или имеют собственную оболочку.

Соседние файлы в папке К экзамену