Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Шемякин лекции 2023 / Алфёров А.П., Зубов А.Ю., Кузьмин А.С., Черемушкин А.В. Основы криптографии

.pdf
Скачиваний:
55
Добавлен:
30.05.2023
Размер:
7.75 Mб
Скачать

Открытые сообщения и их характеристики

Т аб л и ц а 1. Греческий алфавит

А(а)

_ . В((3)

 

Г(У)

_

А(8)

Е(с)

... 2 (0

альфа

 

бетта

 

гамма

 

дельта

эпсилон

дзета

Н(л)

 

0(6)

 

КО

 

К(к)

т

М(ц)

эта

 

тэта

 

йота

 

каппа

лямбда

мю

М(у)

...

т

.

О(о)

 

П(тс)

р(р)

Д а )

ню

 

кси

омикрон

пи

ро

сигма

Г(т)

.

Г(о)

 

ф(ф)

 

Х(Х)

т о

О(со)

тау

эпсилон

....

-Фи.

_

хи

пси

омега

 

 

 

 

 

 

Код Бодо, применяемый для передачи сообщений с по­ мощью телетайпов и телексов, использует 32-значный алфа­ вит:

Т аб л и ц а 2. Упрощенный Бодо-подобный алфавит

00000

00001

00010

00011

А

В

С

О

00100

00101

00110

00111

Е

Р

О

Н

01000

01001

01010

01011

I

5

К

Ь

01100

01101

01110

01111

М

N

О

Р

10000

10001

10010

10011

0

Я

8

Т

10100

10101

10110

10111

V

V

ДУ

X

11000

11001

11010

11011

УЪ

11100

11101

11110

11111

?

+

(

)

431

Приложение 7

Первым идею двоичного кодирования букв алфавита ис­ пользовал современник В. Шекспира Фрэнсис Бэкон. Он предложил двухбуквенное кодирование.

Т аб л и ц а 3.Двухбуквенный алфавит Ф. Бэкона

А - ааааа

ГТ - аЬааа

В - ааааЪ

К - аЬааЪ

С - аааЬа

Ь - аЬаЬа

О - аааЬЬ

М - аЬаЬЬ

Е - ааЬаа

N - аЬЬаа

Р - ааЬаа

О - аЬЬаЬ

О - ааЬЬа

Р - аЬЬЬа

Н - ааЬЬЬ

<3 - аЬЬЬЬ

Я - Ьаааа

8 - ЬаааЬ Т - ЬааЬа ЦУ - ЬааЬЬ \У - ЬаЬаа X - ЬаЬаЬ У - ЬаЬЬа Ъ - ЬаЬЬЬ

Цифровое кодирование букв применял упоминаемый в историческом очерке И. Тритемий.

Т аб л и ц а 4. Трехзначный алфавит Тритемия

А - 1 1 1

3 2 1 1

8-311

В - 112

К -212

Т -312

С -113

Ь - 213

ЕГ-313

0 - 1 2 1

М -221

V - 321

Е - 122

N - 2 2 2

^ - 322

Р -

123

0 -2 2 3

X - 323

С -131

Р - 231

У - 331

Н -

132

<3-232

2 -3 3 2

I -

133

Я -233

& - 333

Ввычислительной технике распространены 128-битовые

и256-битовые алфавиты, использующие представление зна­ ков алфавита в виде 7- или 8-значных двоичных комбинаций.

432

Открытые сообщения и их характеристики

Наиболее известен код А8СИ (Атепсап 8{апс1аг(: Сойе Еог 1п1Ьгта{юп 1п1егсЬап§е) — американский стандартный код информационного обмена. Приведем фрагмент этого кода.

Т аб л и ц а 5.КодАЗСП

Символ

Восьмеричная

Двоичная

А

запись

запись

1 0 1

0 1 0 0 0 0 0 1

В

1 0 2

0 1 0 0 0 0 1 0

С

103

0 1 0 0 0 0 1 1

и

104

0 1 0 0 0 1 0 0

Е

105

0 1 0 0 0 1 0 1

Е

106

0 1 0 0 0 1 1 0

1

061

0 0 1 1 0 0 0 1

2

062

0 0 1 1 0 0 1 0

3

063

0 0 1 1 0 0 1 1

4

064

0 0 1 1 0 1 0 0

&

046

0 0 1 0 0 1 1 0

 

056

0 0 1 0 1 1 1 0

#

043

0 0 1 0 0 0 1 1

 

054

0 0 1 0 1 1 0 0

В практике передачи сообщений по техническим каналам связи используется множество других кодов, основанных на двоичном кодировании.

Буквенный алфавит, в котором буквы расположены в их естественном порядке, обычно называют нормальным алфа­ витом. В противном случае говорят о смешанных алфавитах.

В свою очередь, смешанные алфавиты делят на системати­

433

Приложение 1

чески перемешанные алфавиты и случайные алфавиты. К

первым относят алфавиты, полученные из нормального на основе некоторого правила, ко вторым — алфавиты, буквы которых следуют друг за другом в хаотическом (или случай­ ном) порядке.

Смешанные алфавиты обычно используются в качестве нижней строки подстановки, представляющей собой ключ шифра простой замены (см. гл. 5). Для запоминания ключа (это надежнее, чем хранение ключа на некотором носителе) применяется несложная процедура перемешивания алфавита, например, основанная на ключевом слове. Одним из первых такой способ построения систематически перемешанного ал­ фавита предложил Ардженти (см. гл. 1).

Частотные характеристики текстовых сообщений

Криптоанализ любого шифра невозможен без учета осо­ бенностей текстов сообщений, подлежащих шифрованию. Глубинные закономерности текстовых сообщений исследу­ ются в теории информации. Наиболее важной для криптогра­ фии характеристикой текстов является избыточность текста, введенная К. Шенноном. Именно избыточность открытого текста, проникающая в шифртекст, является основной слабо­ стью шифра.

Более простыми характеристиками текстов, используе­ мыми в криптоанализе, являются такие характеристики, как

повторяемость букв, пар букв {биграмм) и вообще т-ок {т-грамм\ сочетаемость букв друг с другом, чередование гласных и согласных и некоторые другие. Такие характери­ стики изучаются на основе эмпирических наблюдений тек­ стов достаточно большой длины.

Для установления статистических закономерностей про­ водилась большая серия экспериментов по оценке вероятно­

434

Открытые сообщения и их характеристики

стей появления в открытом тексте фиксированных т-грамм (для небольших значений т).

Суть экспериментов состоит в подсчете чисел вхождений каждой из пт возможных т-грамм в достаточно длинных открытых текстах Т = Ц 2—Ц? составленных из букв алфавита {а/, а2,...,ап}. При этом просматриваются подряд идущие т- граммы текста:

 

 

^ 3 " * С + 1 9

*1-т+\*1-т+2” ^ Г

Если

Э(а1а12...а1 )

— число

появлений т-граммы

а,Ча,'2 ...а,

в тексте Г, а

Ь — общее число подсчитанных т-

грамм, то опыт показывает, что при достаточно больших

Ь

частоты

 

 

*9(а. а. ...а. )

/ 1 \

4 1 2

7

для данной т-граммы мало отличаются друг от друга. В силу этого относительную частоту ( 1) считают приближением ве­ роятности Р(а1а12...а1 ) появления данной т-граммы в слу­

чайно выбранном месте текста (такой подход принят при ста­ тистическом определении вероятности). Например, при т = 1 хорошее приближение вероятностей появления букв достига­ ется на текстах длинной в несколько тысяч букв.

Ниже приводится таблица частот букв (в процентах) ряда европейских языков. Данные заимствованы из книги [Ваи39] (см. табл. 6).

Некоторая разница значений частот в приводимых в различных источниках таблицах объясняется тем обстоятель­ ством, что частоты существенно зависят не только от длины текста, но и от его характера. Так, в технических текстах ред­ кая буква Ф может стать довольно частой в связи с частым

435

//риложение 1

использованием таких слов, как функция, дифференциал,

диффузия, коэффиг^ент и г. п.

Т аб л и ц а 6. Частоты букв европейских языков

Буква ал­

Франц.

Немец.

Англ.

Испан.

Итал.

фавита

язык

язык

язык

язык

язык

А

7,68

5,52

7,96

12,90

1 1 , 1 2

В

0,80

1,56

1,60

1,03

1,07

С

3,32

2,94

2,84

4,42

4,11

Э

3,60

4,91

4,01

4,67

3,54

Е

17,76

19,18

1 2 , 8 6

14,15

11.63

Е

1,06

1,96

2,62

0,70

1,15

С

1 , 1 0

3,60

1,99

1 , 0 0

1,73

Н

0,64

5,02

5,39

0,91

0,83

I

7,23

8 , 2 1

7,77

7,01

12,04

}

0,19

0,16

0,16

0,24

-

К

-

1,33

0,41

-

-

Ь

5,89

3,48

3,51

5,52

5,95

М

2,72

1,69

2,43

2,55

2,65

N

7,61

1 0 , 2 0

7,51

6 , 2 0

7,68

О

5,34

2,14

6,62

8,84

8,92

Р

3,24

0,54

1,81

3,26

2 , 6 6

 

1,34

0 , 0 1

0,17

1,55

0,48

Я

6,81

7,01

6,83

6,95

6,56

8

8,23

7,07

6,62

7,64

4,81

Т

7,30

5,86

9,72

4,36

7,07

и

6,05

4,22

2,48

4,00

3,09

V

1,27

0,84

1,15

0,67

1,67

-

1,38

1,80

-

-

X

0,54

-

0,17

0,07

-

У

0 , 2 1

-

1,52

1,05

-

ъ

0,07

1Д7

0,05

0,31

1,24

436

Открытые сообщения и их характеристики

Еще большие отклонения от нормы в частоте употребле­ ния отдельных букв наблюдаются в некоторых художествен­ ных произведениях, особенно в стихах. Поэтому для надеж­ ного определения средней частоты буквы желательно иметь набор различных текстов, заимствованных из различных ис­ точников. Вместе с тем, как правило, подобные отклонения незначительны, и в первом приближении ими можно пренеб­ речь.

В связи с этим подобные таблицы, используемые в крип­ тографии, должны составляться с учетом характера перепис­ ки.

А С Е С I К М 0 0 3 1 ) \ Л / У

Рис. 1. Частоты букв английского языка (в процентах)

Наглядное представление о частотах букв дает диаграмма встречаемости. Так, для английского языка, в соответствии с табл. 6, такая диаграмма изображена на рис. 1 .

Для русского языка частоты (в порядке убывания) знаков алфавита, в котором отождествлены Е с Ё, Ь с Ъ, а также име­

437

11риложение 1

ется знак пробела (-) между словами, приведены в следующей таблице (см. [Ягл.73]):

Т абли ц а 7. Частоты букв русского языка

(в 32-буквенном алфавите со знаком пробела)

-

О

Е,Ё

А

0,175

0,090

0,072

0,062

И

Т

Н

С

0,062

0,053

0,053

0,045

Р

В

Л

К

0,040

0,038

0,035

0,028

М

Д

П

У

0,026

0,025

0,023

0 , 0 2 1

Я

Ы

3

Ь,Ъ

0,018

0,016

0,016

0,014

Б

Г

Ч

И

0,014

0,013

0 , 0 1 2

0 , 0 1 0

X

Ж

Ю

Ш

0,009

0,007

0,006

0,006

Ц

Щ

Э

Ф

0,004

0,003

0,003

0 , 0 0 2

Т аб л и ц а 8. 10 наиболее частых букв европейских язы­

ков

 

 

Французский язык

ЕДАД/ГДДАЦО

79,9%

Немецкий язык

ЕД,1,8,Т,А,НАН

77,2%

Английский язык

Е,Т,А,1,МД,0,8,Н,0

75,3%

Испанский язык

Е,АО,8,1,ЯД,БАС

78,3%

Итальянский язык

1,Е,А,ОД,Т,Я,Ц8,С

79,9%

438

Открытые сообщения и их характеристики

На основании табл. 7 получаем следующую диаграмму частот (см. рис. 2).

Частоты букв русского 32-буквенного алфавита (со знаком пробела)

Б Г Е, Ё 3 Й Л Н П С У X Ч Щ Ь . Ъ Ю

I

Р ис.2. Диаграмма частот букв русского языка

Имеется мнемоническое правило запоминания десяти наиболее частых букв русского алфавита. Эти буквы состав­ ляют нелепое слово СЕНОВАЛИТР. Можно также предло­ жить аналогичный способ запоминания частых букв англий­ ского языка, например, с помощью слова ТЕТК18-НСЖЭА (см. табл. 8).

Устойчивыми являются также частотные характеристики биграмм, триграмм и четырехграмм осмысленных текстов.

Приведем таблицы частот биграмм для русского (табл. 9) и английского языков (табл. 10) (таблицы заимствованы из книги [Рп85]). Для удобства они разбиты на четыре части по следующей схеме:

439

11риложение 7

ЧАСТЬ 1

ЧАСТЬ 2

ЧАСТЬ 3

ЧАСТЬ 4

Хорошие таблицы ^-грамм легко получить, используя тексты электронных версий многих книг, содержащихся на СЭ-дисках.

Для получения более точных сведений об открытых тек­ стах можно строить и анализировать таблицы Л-грамм при к> 2 , однако для учебных целей вполне достаточно ограни­ читься биграммами. Неравновероятность к-грамм (и даже слов) тесно связана с характерной особенностью открытого текста — наличием в нем большого числа повторений от­ дельных фрагментов текста: корней, окончаний, суффиксов, слов и фраз. Так, для русского языка такими привычными фрагментами являются наиболее частые биграммы и три­ граммы:

СТ, НО, ЕН, ТО, НА, ОВ, НИ, РА, ВО, КО, СТО, ЕНО, НОВ, ТОВ, ОВО, ОВА

Полезной является информация о сочетаемости букв, то есть о предпочтительных связях букв друг с другом, которую легко извлечь из таблиц частот биграмм.

Имеется в виду таблица, в которой слева и справа от каж­ дой буквы расположены наиболее предпочтительные “сосе­ ди” (в порядке убывания частоты соответствующих биграмм). В таких таблицах обычно указывается также доля гласных и согласных букв (в процентах), предшествующих (или сле­ дующих за) данной букве.

440