
- •Глава 1. Понятие информатики, системы счисления, кодирование информации
- •1.1. Предмет и задачи информатики, понятие информации
- •Понятие информации
- •1.2. Информационные процессы и технологии
- •1.2.1. Формы представления информации
- •1.2.2. Понятие количества информации
- •1.2.3. Единицы измерения информации
- •1.3. Системы счисления
- •1.3.1. Типы систем счисления
- •1.3.2. Двоичная система счисления
- •1.3.3. Шестнадцатеричная система счисления
- •1.3.4. Перевод чисел из одной системы счисления в другую
- •1.4. Основы булевой алгебры
- •1.5. Кодирование информации в компьютере
- •1.5.1. Понятие кодирования
- •1.5.2. Кодирование числовой информации
- •1.5.3. Представление вещественных чисел
- •1.5.4. Кодирование текстовой информации
- •Универсальный код - Unicode
- •1.5.5. Кодирование графической информации
- •Растровая графика
- •Векторная графика
- •Фрактальная графика
- •1.5.6. Кодирование звука
- •1.5.7. Кодирование команд
- •1.5.8. Коды, исправляющие ошибки
1.5.4. Кодирование текстовой информации
Символы для представления текста образуют алфавит, прописные и строчные буквы которого следуют в алфавитном порядке, цифры также располагаются упорядочено по возрастанию значений. Принцип кодирования алфавита состоит в том, что каждому символу алфавита сопоставляется определенное значение кода (целое число ), что позволяет кодировать также и текстовую информацию.
С помощью одного байта можно закодировать 256 различных символов. достаточных для представления текстовой информации, включая строчные и прописные буквы как русского, так и латинского алфавитов, а также знаки препинания, графические символы, скобки и т.п. Для каждого символа клавиатуры определен десятичный код от 0 до 255, представленный в двоичной системе счисления от 00000000 до 11111111 соответственно. Таким образом, компьютер различает вводимые символы в соответствии их коду.
Кодирование информации посредством байтов определяется используемыми стандартами, в основе которых лежит код ASCII (American Standart Code for Information Interchange - американский стандартный код для обмена информацией). Данный код разработан в Американском Национальном Институте стандартов ANSI - American National Standarts Institute. Первоначальная версия этой кодировки (1963 г.) была доведена до рабочей версии в 1968 году как стандарт ANSIX3.4 под именем US-ASCII.
В системе кодирования ASCII используются две таблицы кодирования, называемые базовой и расширенной. Базовая таблица кодирования использует коды от 0 до 127, а расширенная таблица использует коды от 128 до 255:
-
коды 0…31 используют фирмы – разработчики аппаратуры (ПК, принтеров для кодирования специальных символов), это управляющие коды;
-
коды 32…127 кодируют латиницу, цифры, арифметические операции и другие символы;
-
коды 128…255 используются каждой страной самостоятельно, и это приводит к множеству кодировок даже в одной стране.
С появлением графической среды Windows, фирма Microsoft разработала новую кодовую таблицу ANSI. В настоящее время существует много различных кодовых таблиц и по этой причине текст в одной системе кодирования, может некорректно представляться в другой системе. Наиболее распространенной системой кодирования является система MS Windows, сокращенно обозначаемый как CP1251 (Code Page - кодовая страница).
Универсальный код - Unicode
В 1991 году появился новый международный стандарт Unicode (Юникод – универсальный код), который использует для кодирования одного символа два байта и поэтому с его помощью можно закодировать 65536 различных символов.
Unicode включает существующие алфавиты стран мира, а также различные математические, химические и другие символы. Юнико́д является стандартом для кодирования символов и позволяет представить символы практически всех письменных языков. Стандарт предложен некоммерческой организацией «Консорциум Юникода» (Unicode Consortium), объединяющей крупнейшие IT-корпорации. Коды в стандарте Unicode разделены на несколько областей. Диапазон с кодами от 0 до 255 содержит символы набора ASCII – кодов.
Unicode использует 16бит для кодирования символов и общее количество символов, которые можно закодировать составляет 216 (65 536). Основные операционные системы поддерживают Unicode. Операционные системы Windows для кодирования имён файлов и других системных атрибутов используют кодировку двумя байтами. В настоящее время основные языкы программирования используют Unicode. Файлы, использующие Unicode, требуют больше памяти, однако с увеличением быстродействия компьютеров и сокращением стоимости оперативной памяти и жестких дисков указанная проблема не будет со временем являться важной. Например, кодировка Unicode используется в программных продуктах MS Word и MS Excel.