Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
УМК инфс лек.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
7.37 Mб
Скачать

Представление символьной информации

Для представления символьной (текстовой) информации в компьютере используется алфавит мощностью 256 символов. Один символ из такого алфавита несет 8 бит информации, т.к. 28 = 256. Но 8 бит = 1 байту, следовательно, двоичный код каждого символа в компьютере занимает 1 байт памяти.

Пример. Сколько бит памяти занимает слово «Микропроцессор»?

Решение: Слово содержит 14 букв. Следовательно, слово займет 14 байт = 14*8 = 112 бит памяти.

Для кодирования символов используются различные таблицы кодировка.

Таблица кодировки – это таблица, в которой устанавливается соответствие между символами и их порядковыми номерами в компьютерном алфавите

Для разных типов ЭВМ используют различные таблицы кодировки. С распространением ПК типа IBM PC международным стандартом стала таблица кодировки под названием ASC II.

Американский национальный институт стандартов (American National Standards Institute, ANSI) принял американский стандартный код для обмена информации (American Standard Cod for Information Interchange – ASCII), который приобрел очень большую популярность. В этом коде комбинации двоичных разрядов длинной 7 бит используют для преставления строчных и прописных букв английского алфавита, цифр от 0 до 9, а также кодов управления передачей информации (перевод строки, возврат каретки, табуляция и т.д.). Определим мощность алфавита, зная, что каждый символ несет 7 бит информации: N=27=128, т.е. 7-ю битами можно закодировать 128 различных символов. Управляющие символы получили коды 0..31, 127. Символы, видимые на экране дисплея или на бумаге при печати, получили коды 32..126.

В наше время код ASCII часто употребляется в расширенном восьмиразрядном формате, который получается добавлением нуля в старший (7-ой) разряд байта. Но байт дает нам возможность закодировать 256 различных символов (N=28=256)! Следовательно, при использовании 7-битовой кодировки остается незадействованной половина кодовой таблицы. Поэтому коды 128..255, получаемые добавлением 1 в старший разряд, были выделены для представления символов, неподдерживаемых исходной версией кода ASCII – так называемых национальных символов и алфавитов, а также для символов псевдографики

Стандартными в этой таблице являются только первые 128 символов ( с кодами от 00000000 до 01111111). Сюда входят буквы латинского алфавита, цифры, знаки препинания, скобки и некоторые другие символы. Остальные 128 кодов используются для кодировок букв национальных алфавитов, символов псевдографики и научных символов ( например, ≤, ≥, или ± и т.п.)

В кодовой таблице используется принцип последовательного кодирования алфавита : буквы прописные и строчные располагаются в алфавитном порядке, цифры упорядочены по возрастанию. Благодаря этому и в машинном представлении для символьной информации сохраняется понятие «алфавитный порядок».

Краткая информация о других системах кодирования.

Системы кодирования текстовых данных были разработаны и в других странах. Так, например, в СССР в этой области действовала система кодирования КОИ-7, КОИ-8.

КОИ-8

Все символы в компьютерном алфавите пронумерованы от 0 до 255. Каждому номеру соответствует 8-разрядный двоичный код (от 00000000 до 11111111). Этот код есть порядковый номер символа в двоичной системе счисления.

Кодировка символов русского языка, известная как кодировка Windows-1251, была введена "извне" – компанией Microsoft, но учитывая широкое распространение операционных систем и других продуктов этой компании в России она нашла широкое распространение в России. Эта кодировка используется на большинстве локальных компьютеров, работающих на платформе Windows.

Другая распространенная кодировка носит название КОИ-8 (код обмена информацией, восьмизначный) – ее происхождение относится ко времени действий Совета Экономической Взаимопомощи государств Восточной Европы. Сегодня кодировка КОИ-8 имеет широкое распространение в компьютерных сетях на территории России и в российском секторе Интернета.

Международный стандарт, в котором предусмотрена кодировка символов русского алфавита, носит название ISO (International Standard Organization – Международный институт стандартизации). На практике данная кодировка используется редко.

Подводя некоторый итог, можно сказать, что текст в компьютере (текстовый файл) – это файл, в котором каждый байт интерпретируется как изображаемый символ в некоторой системе кодировки. Кроме кодов изображаемых символов, текстовые файлы включают также ряд управляющих кодов, например, код перевода строки, конца файла и др.