Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
3. Кодирование данных в ЭВМ.docx
Скачиваний:
60
Добавлен:
15.04.2015
Размер:
58.15 Кб
Скачать
      1. Кодирование данных в эвм выносится на самостоятельное рассмотрение (подготовка докладов)

Виды информации

Информация может существовать в виде:

текстов, рисунков, чертежей, фотографий;

  • световых или звуковых сигналов;

  • радиоволн;

  • электрических и нервных импульсов;

  • магнитных записей;

  • жестов и мимики;

  • запахов и вкусовых ощущений;

  • хромосом, посредством которых передаются по наследству признаки и свойства организмов и т.д.

Данные в компьютере представляются в виде кода, который состоит из единиц и нулей в разной последовательности.

Код – набор условных обозначений для представления информации. Кодирование – процесс представления информации в виде кода.

Кодирование текстовой информации.

Поскольку текст изначально дискретен (он состоит из отдельных символов) для компьютерного представления текстовой информации используется способ, когда все символы кодируются числами, и текст представляется в виде набора чисел – кодов символов, его составляющих. При выводе текста на экран монитора или принтера необходимо восстановить изображения всех символов, составляющих данный текст. Для этого используются так называемые кодовые таблицы символов, в которых каждому коду символа ставится в соответствие изображение символа.

Кодовая таблица – это внутреннее представление символов в компьютере.

Во всем мире в качестве стандарта принята таблица ASCII (American Standard Code for Information Interchange – Американский стандартный код для обмена информацией). Для хранения двоичного кода одного символа выделен 1 байт = 8 бит. Учитывая, что каждый бит принимает значение 0 или 1, количество их возможных сочетаний в байте равно 28 = 256. Значит, с помощью 1 байта можно получить 256 разных двоичных кодовых комбинаций и отобразить с их помощью 256 различных символов. Эти комбинации и составляют таблицу ASCII. Эта таблица состоит из 16 строк и 16 столбцов, пронумерованных от 0 до F в 16-ричной системе счисления. Например, в столбце 4 и строке D таблицы расположена заглавная буква М латинского алфавита. Таким образом, при записи текста с такой буквой, она будет храниться в памяти в виде кода 4D(16) или 77(10). Другие коды: "," – 2C; "j" – 6A; "2" – 32. Такая форма кодирования позволяет представлять буквы в более компактном виде по сравнению с двоичным кодом.

Первые 8 столбцов таблицы кодов или первые 128 символов от 0 (двоичный код 00000000) до 127 (01111111) – цифры, буквы латинского алфавита, управляющие символы. Первые 32 символа являются управляющими и предназначены в основном для передачи команд управления. А последние 8 столбцов таблицы кодов, т.е. коды от 128 (двоичный код 10000000) до 255 (11111111) обычно содержат буквы национальных алфавитов, графические знаки. В большом количестве разновидностей таблицы кодов ASCII первая половина таблицы является неизменной, а вторая - переменной.

Однако 8-битовая кодировка (28) является недостаточной для кодировки всех символов расширенных алфавитов. Все препятствия могут быть сняты при переходе на 16-битовую (216) кодировку Unicode, допускающую 65536 кодовых комбинаций.

Необходимо помнить, что в настоящее время для кодировки русских букв используют пять различных кодовых таблиц (КОИ - 8, СР1251, СР866, Мас, ISO), причем тексты, закодированные при помощи одной таблицы, не будут правильно отображаться в другой кодировке. Наглядно это можно представить в виде фрагмента объединенной таблицы кодировки символов.

Одному и тому же двоичному коду ставится в соответствие различные символы.

Пример:

Двоичный код

Десятичный код

КОИ8

СР1251

СР866

Мас

ISO

11000010

194

б

В

-

-

Т

Впрочем, в большинстве случаев о перекодировке текстовых документов заботится не пользователь, а специальные программы – конверторы, которые встроены в приложения.

Начиная с 1997 г. последние версии Microsoft Windows&Office поддерживают новую кодировку Unicode. Чтобы определить числовой код символа можно или воспользоваться кодовой таблицей, или, работая в текстовом редакторе MS Word. Для этого в меню нужно выбрать пункт «Вставка» – «Символ», после чего на экране появляется диалоговая панель «Символ». В диалоговом окне появляется таблица символов для выбранного шрифта. Символы в этой таблице располагаются построчно, последовательно слева направо, начиная с символа Пробел (левый верхний угол) и, кончая, буквой «я» (правый нижний угол).

Для определения числового кода символа в кодировке Windows (СР1251) нужно при помощи мыши или клавиш управления курсором выбрать нужный символ, затем щелкнуть по кнопке Клавиша. После этого на экране появляется диалоговая панель Настройка, в которой в нижнем левом углу содержится десятичный числовой код выбранного символа.

 Задачи. 1. Два текста содержат одинаковое количество символов. Первый текст записан на русском языке, а второй на языке племени нагури, алфавит которого состоит из 16 символов. Чей текст несет большее количество информации?

   Решение. I = К * а (информационный объем текста равен произведению числа символов на информационный вес одного символа). Т.к. оба текста имеют одинаковое число символов (К), то разница зависит от информативности одного символа алфавита (а). 2а1 = 32, т.е. а1 = 5 бит, 2а2 = 16, т.е. а2 = 4 бит. I1 = К * 5 бит, I2 = К * 4 бит. Значит, текст, записанный на русском языке в 5/4 раза несет больше информации. 2. Объем сообщения, содержащего 2048 символов, составил 1/512 часть Мбайта. Определить мощность алфавита.

   Решение. I = 1/512 * 1024 * 1024 * 8 = 16384 бит. - перевели в биты информационный объем сообщения. а = I / К = 16384 /1024 =16 бит - приходится на один символ алфавита. 216 = 65536 символов - мощность использованного алфавита. Именно такой алфавит используется в кодировке Unicode, который должен стать международным стандартом для представления символьной информации в компьютере.