Кодирование текста

Двоичный код	Десятичный код	КОИ8	СР1251	СР866	Мас	ISO
11000010	194	Б	В	-	-	Т

Причем тексты, закодированные при помощи одной таблицы, не будут правильно отображаться в другой кодировке. Впрочем, в большинстве случаев о перекодировке текстовых документов заботится не пользователь, а специальные программы – конверторы, которые встроены в приложения.

В различных кодировках: коды от 0 до 32 – соответствуют управляющим клавишам (Enter, Esc и т.п.); от 33 до 127 – латинским буквам, цифрам, знакам арифметическим операций и знакам препинания; от 128 до 255 (расширенная часть таблицы кодировки) – для символов национальных алфавитов.

Количество различных символов (N), которые можно закодировать с помощью какой-либо таблицы кодировки, определяется числом двоичных разрядов (k), отводимых под кодирование одного символа, и вычисляется по методу Хартли

N=2^k (1)

где N – это так называемая мощность алфавита (конечное число символов, используемых для представления информации или конечное число символов в алфавите);

k –информационный вес символа.

Наибольшее распространение для внешнего представления текстов и другой символьной информации в компьютере получило 8-разрядное кодирование (на кодирование одного символа отводится 8 бит = 1 байт). Таким образом, байт вводится как информационный вес символа из алфавита мощностью 256 символов.

N=2⁸=256 различных символов

Мощность русского алфавита (если считать, что е = ё) равна 32. А каждая буква русского алфавита несет информацию 5 бит (32 = 2⁵).

Чем меньше знаков в используемом алфавите, тем длиннее сообщение. Так, например, в алфавите азбуки Морзе всего три знака (точка, тире, пауза), поэтому для кодирования каждой русской или латинской буквы нужно использовать несколько знаков, и текст, закодированный по Морзе, будет намного длиннее, чем при обычной записи.

Например: Сигнал SOS: 3 знака в латинском алфавите;

11 знаков в алфавите Морзе: ··· пауза – – – пауза ···.

Сообщение любой длины, использующее односимвольный алфавит, содержит нулевую информацию.

Предположим, что используемый алфавит состоит из одного символа, например, «1». Интуитивно понятно, что сообщить что-либо с помощью единственного символа невозможно.

Представьте себе толстую книгу в 1000 страниц, на всех страницах которой написаны одни единицы (единственный символ используемого алфавита).

Таблица 3

Фрагмент одноствольного алфавита

1111111111111111111111111111111111111111111111111111111111111111

Как видно из примера в таком фрагменте содержится нулевой объем информации. Но это же доказывается строго с точки зрения алфавитного подхода.

Найдем информационный вес символа в таком алфавите из уравнения: 2^k = 1. Но поскольку 1 = 2⁰, то отсюда следует, что k = 0 бит.

Минимальная мощность алфавита, пригодного для передачи информации, равна 2. Такой алфавит называется двоичным алфавитом.

Информационный вес символа в двоичном алфавите легко определить. Поскольку 2^k = 2, то k = 1 бит.

Итак, один символ двоичного алфавита несет 1 бит информации. 1 бит – исходная единица измерения информации.

Зная информационный вес одного символа, мы можем измерить количество информации в тексте (символьном сообщении), составленном из символов некоторого алфавита. Конечно, к содержанию текста такая мера информации отношения не имеет и поэтому такой подход можно назвать объективным, то есть не зависящим от воспринимающего его субъекта.

Такой алфавитный подход удобен при подсчете количества информации, хранимого, передаваемого и обрабатываемого техническими устройствами, поскольку устройствам нет дела до содержательной стороны сообщений. Компьютеры, принтеры, модемы работают не с самой информацией а с ее представлением в виде сообщений.

Итак, зная из формулы Хартли, что величина k– это информационный вес символа можно определить количество информации во всем тексте (I), состоящем из L символов, которое будет равно произведению информационного веса символа k на L:

I =k * L (2)

Величину I можно назвать информационным объемом текста.

<<< < Предыдущая 8 9 10 11 12 13 14 15 16 17 18 1920 / 9320 21 22 23 24 25 26 27 28 29 30 31 32 > Следующая >>>

Соседние файлы в папке Информатика_ЗФ

#
22.03.2016798.21 Кб57И-73_Структурные схемы алгоритмов.DOC
#
22.03.20161.93 Mб95Контрольная работа.doc
#
22.03.201640.45 Кб38Перечень вопросов к зачету и экзамену.doc
#
22.03.20161.93 Mб49УМ планы лабораторных и практических занятий.doc
#
22.03.20162.32 Mб193УМ_Опорный конспект лекций.doc
#
22.03.20166.18 Mб209Учебное пособие_Информатика.doc