Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лаб3.Кодирование текстовой информации.Си.docx
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
91.87 Кб
Скачать

Управляющие коды в Си (эскейп-последовательности)

В языке программирования Си можно использовать следующие управляющие коды:

\a bell (звуковой сигнал)

\b backspace (на позицию назад)

\f formfeed (пропуск, новая страница)

\n newline (перевод строки)

\r carriage return (возврат каретки)

\t horizontaltab (горизонтальная табуляция)

\v vertical Tab (вертикальная табуляция)

Вообще, символ обратной косой черты используется для представления:

  • кодов, не имеющих графического изображения;

  • символов апострофа ( ‘ ) , обратной косой черты ( \ - обратный слеш), знака вопроса ( ? ) и кавычки ( ” ):

\' singlequote (одиночная кавычка, апостроф),

\” двойная кавычка,

\\ обратный слеш,

  • любого символа с помощью его шестнадцатеричного или восьмеричного кода, например, \073, \0xF5. Числовое значение должно находиться в диапазоне от 0 до 255.

\0 null (пустой символ).

Приложение 2. Расширенная ascii таблица

В кодовую таблицу необходимо было добавить символы национальных алфавитов. Для этого было предложено использовать 8-битную кодовую таблицу, которая могла содержать дополнительно ещё 128 символов (с 128 по 255).

В дальнейшем был принят стандарт на 8-битную таблицу ASCII – ISO/IEC 8859, в которой первые 128 символов оставались те же, что и в 7-битной таблице, а символы с 128 по 255 отводились для неанглийских символов. Существует несколько частей этого стандарта для представления национальных алфавитов (Latin alphabet, Latin/Cyrillic alphabet, Latin/Arabic alphabet, Latin/Greek alphabet и другие).

Местоположение букв кириллицы во второй половине кодовой таблицы - символы 128-255 – определяется стандартами. Их может быть несколько. Особенно много кодировок у языков, использующих кириллический алфавит (русский, украинский, белорусский, болгарский и т.д.). Например, для русского языка сейчас широко используются пять таблиц кодировок:

  • CP866 (DOS-альтернативная) ‑ на PC-совместимых компьютерах при работе с операционными системами DOS и OS/2, а также в любительской международной сети Фидо (Fidonet).

  • CP1251 (Windows-кодировка) ‑ на PC-совместимых при работе под OS Windows.

  • KOI-8r -- самая старая кодировка из использующихся до сих пор кодировок. Применяется на компьютерах, работающих под UNIX, является фактическим стандартом для русских текстов в сети Internet.

  • Macintosh Cyrillic -- как видно из названия, она предназначена для работы со всеми кириллическими языками на Макинтошах.

  • ISO-8859. Эта кодировка задумывалась как международный стандарт для кириллических текстов, однако на территории России практически не применяется.

Кодовая страница

Кодовая страница (англ. code page) — таблица, сопоставляющая каждому значению байта некоторый символ (или его отсутствие). Обычно код символа имеет размер 8 бит, так что кодовая страница может содержать максимум 256 символов, из чего вытекает резкая недостаточность всякой 8-битной кодовой страницы для представления многоязычных текстов. К тому же часть символов используется как управляющие, из-за чего число печатных символов становится еще меньше.

Исторически термин code page был введён корпорацией IBM; сменные кодовые страницы использовались для поддержки различных языков, имеющих алфавитные системы письма.

Кодовая страница CP437 (Codepage 437, DOSLatinUS), использовалась в первоначальной версии IBM PC с 1981 года. CP437 послужила образцом для множества других кодировок, в том числе альтернативной кодировки для русского языка.

Шрифт для отображения символов «зашит» в ПЗУ видеоадаптера IBM PC. В CP437 кодовые позиции 0x00—0x1F и 0x7F заняты управляющими символами, т. е. не имеют графического представления.

Большинство современных видеоадаптеров ПК также содержат этот шрифт в ПЗУ. Хотя и были попытки «аппаратной русификации» компьютеров (например, на ЕС ПЭВМ), более популярной оказалась загрузка национальных шрифтов средствами операционной системы.