Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
2. Часть 1.doc
Скачиваний:
103
Добавлен:
02.06.2015
Размер:
5.54 Mб
Скачать

Глава 9.

Открытые сообщения и их характеристики

Понятие открытого сообщения в криптографической литературе понимается двояко: либо это содержательный текст, поддающийся смысловому чтению, либо это текст, подлежащий зашифрованию, – в последнем случае, вообще говоря, это текст, возможно, и не читаемый, например, шифрованный текст, в случае двойного перешифрования. В данном параграфе под открытым текстом, как правило, мы понимаем содержательный читаемый текст на каком либо языке. Модели шифров, криптосхем, шифраторов, модели ключевых систем шифров строятся с использованием моделей открытого текста (или моделей источника открытых сообщений). Все модели, в том числе и модели открытых сообщений, обычно делятся на два класса: детерминированные и вероятностные.

Детерминированный источник сообщений. В этой модели открытые тексты (как и шифрованные) представляют собой последовательности символов, взятых из конечного множества символов, называемого алфавитом открытого текста. Например, алфавит русского языка, алфавит английского языка.

Число символов в алфавите математики называют мощностью алфавита. Например, алфавит А(1)={A,B,C,D,…,X,Y,Z} – прописные буквы английского языка. Мощность алфавита 26 (иногда вместо пробела используют букву Z). Алфавит А(2)={A,B,C,D,…,X,Y,Z, a,b,c,…, x,y,z, 0,1,2,…,9,  , . « « ? !}– мощность алфавита 70. Алфавит А(3)={0,1} – мощность 2. Часто используются алфавиты, представляющие собой двоичные наборы длины n (как правило 5n8) или двоичные коды, например, международный телеграфный код (МТК-2). Полный русский алфавит состоит из 33 букв:

А Б И Г Д Е Е Ж З И Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Ь Ы Ъ Э Ю Я,

пробела, точки, запятой.

Отождествляют: в ряде случаев Е и Ё, иногда И и Й, а иногда Е и Э, часто отождествляют Ь и Ъ. Добавляя пробел, говорят, что алфавит состоит из 34 букв, а с некоторыми отождествлениями букв алфавит содержит от 28 до 33 букв.

Пусть I – некоторый алфавит, мощности |I|. Текст, записанный в алфавите I, имеет длину – число символов в соответствующей последовательности. Последовательность k символов называют k-граммой в алфавите I. Математики, как правило, под последовательностью обычно понимают бесконечную последовательность символов алфавита I, конечную же последовательность называют словом в алфавите I. Двоякое использование терминов мы, по возможности, будем отмечать и далее во всей книге. Собственно источниками открытого текста является отдельный человек или группа людей, радиопередающие станции, пункты телеграфной и телефонной сети и т. д. Каждый источник открытого текста (сообщений) характеризуется своими особенностями: используемым алфавитом, например, русским алфавитом; определенной структурой тематики сообщений, например, о погоде, о политике; математический текст, физический и т. д.; частотными характеристиками сообщений и другими особенностями, например, так называемыми вероятными словами: «Сообщаю Вам», «Докладываю», «На Ваш номер «…» сообщаю», «старший оперуполномоченный провинции Логар майор Тарасов», и т. д. Сообщения на английском языке передаваемые по телетайпу, скорее всего используют алфавит А(2). Частный корреспондент, намеревающийся шифровать свои сообщения, во многих случаях предпочтет использовать алфавит А(1). Данные, передаваемые при межмашинном обмене, удобнее отображать с использованием алфавита А(3) см. [В.М. Фомичев, «Симметричные криптосхемы», М., 1995].

Каждый источник сообщений порождает тексты в соответствии с правилами грамматики, что находит отражение и в других характеристиках сообщений. Например, в содержательных текстах на английском языке за буквой «q» всегда следует буква «u», в русских текстах буквы «ь» и «ъ» никогда не располагаются рядом и не следуют за гласными буквами. Всякий источник сообщений можно моделировать списком допустимых (т.е. встречающихся в каких-либо текстах) k-грамм при k=1,2,3,… Если k-грамма не является допустимой, то ее называют запретной или запрещенной.

Детерминированная модель источника открытых сообщений. Разделение множества k-грамм на допустимые и запретные определяет детерминированную модель источника открытых сообщений. В такой модели открытый текст рассматривается как последовательность символов некоторого алфавита, не содержащую запретных k-грамм. Построение детерминированной модели исследуемого источника открытых сообщений можно реализовать в результате статистической обработки генерируемых им текстов. Для этого следует «просмотреть» достаточно большое количество текстов, сгенерированного данным источником, и все не встретившиеся k-граммы отнести к множеству запретных k-грамм источника. Естественно, чем большее количество материала отработано, тем эффективнее применение построенной модели сообщений на практике для решения различных криптографических задач. В ряде криптографических задач данная модель источника сообщений используется для различения открытых текстов от случайных последовательностей с помощью вычислительной техники.

Источник передачи данных. Появление систем телеобработки привело к появлению нового вида электрической связи, так называемого «передача данных». Целью передачи данных является передача информации для обработки ее вычислительным машинам или же выдача ее этими машинами. Принципиальная новизна вида связи – передачи данных состоит в том, что эта связь осуществляет обмен информацией между компьютерами, а так же между компьютерами и человеком. Данные, предназначенные для машин, называют «формализованным языком», языком машин. Этим подчеркивается, что они не предназначены непосредственно для восприятия человеком. Эти данные передаются в цифровом виде (часто в виде двоичной последовательности). Осмысливание их человеком может происходить только после их представления в соответствующей форме. В криптографических терминах понятия формализованного языка представляют собой словарные величины, а их условные формы – кодобозначения, последние изображаются в виде буквенных, цифровых и смешанных групп различной длины (разрядности). Формализованный документ оформляется в виде так называемого «формата», т. е. формы, в которой размещение данных осуществляется по некоторым жестким правилам на местах, определяемых для данного формата шаблоном. Таким образом, для чтения таких документов необходимо знать формальный язык и форматы документов. Можно сказать, что фактически открытое сообщение в формализованном языке представляет собой кодограмму, а перевод открытого сообщения в формализованный язык есть позиционное кодирование смысловых сообщений нескольких языков, каждый из которых кодируется своим кодом и располагается на определенном месте формата сообщения. Таким образом, для формализованных сообщений исчезает понятие открытого текста в общепринятом его понимании «читаемого» текста. Признаками «открытого текста» текста формализованного являются не его читаемость, а различные его детерминированные и статистические признаки, связанные с применяемыми способами сжатия и кодирования в системах дискретного фототелеграфа, телевидения, ЭВМ.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]