Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Информатика. Лекции.doc
Скачиваний:
1199
Добавлен:
16.03.2016
Размер:
1.01 Mб
Скачать

Лекция 8. Компьютерное представление текста

1. Кодировка буквенных символов

Компьютерное представление текста связано с системой его кодирования, которая начала развиваться задолго до появления компьютера. В развитии системы кодирования текста можно отметить следующие особенности.

1. Информация никогда не появляется в чистом виде, она всегда как-то представлена, как-то закодирована. Решать задачу кодирования информации человечество начало задолго до появления компьютеров. В результате решения этой грандиозной задачи была создана письменность – как система кодирования речи и арифметика - как система кодирования чисел.

2. Человек выражает свои мысли в виде предложений, составленных из слов. Слова, в свою очередь, складываются из букв. Буквы объединяются в алфавит. Основу языка составляет алфавит - конечный набор различных знаков (символов) любой природы, из которых складывается сообщение.

3. Одна и та же запись может нести разную смысловую нагрузку. Например, набор цифр 251299 может обозначать: массу объекта; длину объекта; расстояние между объектами; номер телефона; запись даты и т.д. Запись – это данные, которые могут превратиться в информацию только в результате раскодирования. Таким образом, для представления информации нужно знать систему кодирования и декодирования или определенные правила записи кодов.

Кодирование – это процесс представления информации в виде кода, или переход от одного формата к другому, более удобному для хранения, передачи или обработки информации.

Код набор условных обозначений для представления информации.

Декодирование – получение информации с использованием кода (обратное преобразование).

Шифрование – кодирование, выполняемое с целью засекречивания сообщения, результат шифрования называется криптограммой или шифровкой.

4. Кодировать информацию можно различными способами: устно, письменно, жестами или сигналами любой другой природы (сигналы светофора, телефонные звонки).Чаще всего кодированию подвергаются тексты на естественных языках. Для естественных языков существуют различные способы кодирования, остановимся на самых характерных и широко используемых способах.

Способы кодирования текста

  1. Графический – основан на использовании специальных рисунков или знаков. Графическое кодирование описано, например, в литературном произведении Конан Дойла "Пляшущие человечки", где для шифрования сообщений использовалась последовательность человеческих фигурок. Другим примером графического кодирования является азбука Морзе, созданная американским изобретателем Самюэлем Морзе17 в 1837 году для телеграфического кодирования сообщений. В азбуке Морзе каждая буква или знак представлены комбинацией точек и тире или последовательностью коротких и длинных сигналов. До настоящего времени в мореходной практике используются сигналы азбуки Морзе, например, сигнал бедствия – SOS (спасите наши души).

  2. Символьный на основе символов (букв) того же алфавита, что и исходный текст. Способ используется, например, в криптографии при создании шифрованных сообщений. Одним из первых применений способа является кодирование английского алфавита, предложенное в 1580 году Фрэнсисом Бэконом18. Шифр Бэкона (табл. 8.1) выполнен на основе двоичного 5-тиразрядного кода или двухсимвольного алфавита, состоящего из букв А и В.

Таблица 8.1

Кодирование английского алфавита

a

AAAAA

g

AABBA

n

ABBAA

t

BAABA

b

AAAAB

h

ABBB

j

ABBAB

v

BAABB

c

AAABA

i

ABAAA

p

ABBBA

w

BABAA

d

AAABB

k

ABAAB

q

ABBBB

x

BABAB

e

AABAA

l

ABABA

r

BAAAA

y

BABBA

f

AABAB

m

ABABB

s

BAAAB

z

BABBB

Для создания сообщений на основе предложенной Бэконом системы требуется двухсимвольный алфавит, но при этом длина самого сообщения возрастает в 5 раз, поскольку каждая буква заменяется набором из 5 символов.

  1. Числовой – основан на кодировании символов с помощью чисел. Широкое распространение способ получил благодаря развитию ЭВМ. В ЭВМ для кодирования букв используется два числа: 0 и 1. В отличие от шифра Бэкона, где достаточно 5-разрядного представления, в компьютерной технике принято 8-разрядное или 8-битовое представление символов. Последовательность из 8 бит образует 1 байт, байт используется для кодирования одного символа. Число возможных комбинаций 0 и 1 в пределах байта вычисляется по формуле 28=256. Это означает, что с помощью одного байта путем смены последовательности записи нулей и единиц можно закодировать 256 различных символов.

Числовую систему кодирования компьютерных символов следует рассматривать как систему общего пользования. При создании такой системы кодирования используются общеизвестные подходы и принципы. Рассмотрим, каким образом числовой способ реализуется для кодирования компьютерного текста.