Знаки и символы
Следует различать собственно знак и его смысл. Знак вместе с его смыслом называется символом. В соответствии с целью употребления один и тот же знак часто имеет разный смысл. Например, знак ♀ применяется в астрономии как символ планеты Венера, а в биологии — как символ женской особи. Часто бывает и так, что разные знаки имеют одинаковый смысл; например, знаки ∙ и ×, а в последнее время и *, понимаются как символ умножения.
Заметим, кстати, что всякое сообщение имеет смысл, т. е. уже является символом. Очевидно, что этот символ получается в результате присоединения к сообщению той информации, которая им передается.
В некоторых распространенных языках программирования для представления знаков кодировочных таблиц используются объекты типа char. Слово char происходит, вероятно, от character. Оно очень многозначно, но имеет и такие значения, как буква, иероглиф, цифра, знак, символ. Поэтому существует традиция использовать термин символ как синоним термину знак.
Коды и кодирования
Если N — предложение некоторого естественного языка, то N можно рассматривать как последовательность знаков, по крайней мере, тремя разными способами.
Прежде всего, N представляет собой последовательность букв, цифр, знаков препинания и так далее; иначе, N — это последовательность слов, которые в другом контексте могут сами рассматриваться как знаки; наконец, и все предложение целиком можно рассматривать как один знак.
Первое понимание используется, например, когда имеется правило для нанесения сообщения N на носитель информации; второе понимание лежит в основе стенографических сокращений; последнее третье понимание бывает уместным при переводе на другой естественный язык, когда пословица одного языка переводится соответствующей по смыслу пословицей другого языка.
Дискретные сообщения представляют собой (конечные или бесконечные) последовательности знаков. При этом, исходя из соображений, связанных с физиологией органов чувств, или из чисто технических соображений, их обычно разбивают на конечные последовательности знаков, называемых словами. На более высоком уровне каждое слово можно снова рассматривать как знак, при этом соответствующий набор знаков будет, вообще говоря, шире первоначального. Обратно, данный набор знаков можно получить с помощью составления слов, исходя из некоторого набора с меньшим числом знаков, в частности из двоичного набора знаков. Некоторые из перечисленных выше наборов получены с помощью словообразования «над» конкретными двоичными наборами знаков или, абстрактно, над набором {0, 1}.
Слова над двоичным набором знаков называются двоичными словами. Они не обязаны иметь постоянную длину как, например, азбука Морзе. Если же слова имеют постоянную длину в n знаков, то говорят о n-разрядных двоичных кодах. Например, 2-й международный телеграфный код ‑ это 5-разрядный двоичный код, ISO ‑ 7-разрядный двоичный код.
Дадим теперь точное определение:
Кодом называется правило, описывающее отображение одного набора знаков в другой набор знаков (или слов); так же называют и множество образов при этом отображении. |
Помимо основного значения слова code — «кодекс», «свод законов» (гражданский кодекс, кодекс Наполеона) — начиная с середины 19-го века. Слово code означало книгу, в которой словам естественного языка сопоставлены группы цифр или букв. Употребление таких кодов приобрело значение скорее в связи со стремлением сэкономить на стоимости телеграмм, чем в связи с соображениями конспиративности.
Если каждый образ при кодировании является отдельным знаком, то такое отображение назовем шифровкой, а образы — шифрами (англ. Cipher |ˈsaɪfər|). Поскольку здесь имеется криптографический аспект, обращение этого отображения — когда оно однозначно — называется декодированием или дешифровкой.
В коммерческих и криптографических кодах слова, фразы и понятия естественных языков кодируются в большинстве случаев словами над некоторым буквенным или цифровым алфавитом, обычно пятерками. В технических кодах буквы, цифры и другие знаки почти всегда кодируются двоичными словами. В большинстве используемых в технике кодов все слова имеют одинаковую длину. Самый старый из них — это восходящий к И. М. Э. Бодо 2-й международный телеграфный код CCIT- 2, пятиразрядный двоичный код, который до сих пор используется во внутренней и международной открытой телеграфной связи. Несколько моложе семиразрядный ISO, который лег в основу ASCII.
