Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Шпора крипта экзамен.docx
Скачиваний:
37
Добавлен:
22.09.2019
Размер:
724.74 Кб
Скачать

4. Частотные характеристики открытых сообщений.

Криптоанализ любого шифра невозможен без учета осо­бенностей текстов сообщений, подлежащих шифрованию. Глубинные закономерности текстовых сообщений исследу­ются в теории информации. Наиболее важной для криптогра­фии характеристикой текстов является избыточность текста, введенная К. Шенноном. Именно избыточность открытого текста, проникающая в шифротекст, является основной слабо­стью шифра. Более простыми характеристиками текстов, используе­мыми в криптоанализе, являются такие характеристики, как повторяемость букв, пар букв (биграмм) и вообще т-грамм, сочетаемость букв друг с другом, чередование гласных и согласных и некоторые другие. Такие характери­стики изучаются на основе эмпирических наблюдений тек­стов достаточно большой длины.

Для установления статистических закономерностей про­водилась большая серия экспериментов по оценке вероятностей появления в открытом тексте фиксированных m-грамм (для небольших значений т). Суть экспериментов состоит в подсчете чисел вхождений каждой из пmвозможных m-грамм в достаточно длинных открытых текстахТ = t1t2...tl, составленных из букв алфавита {а1, a2,...,an}. При этом просматриваются подряд идущие т-граммы текста:t1t2 t3 .. .tm, t2t3 t4 .. .tm+1,......tl-m+1tl-m+2...tl .

Если Q — число появлений m-граммы, в тексте T, aL— общее число подсчитанных т-грамм, то опыт показывает, что при достаточно больших Lчастоты Q/L для данной m-граммы мало отличаются друг от друга. В силу этого относительную частоту Q/L считают приближением ве­роятности Pпоявления данной m-граммы в слу­чайно выбранном месте текста (такой подход принят при ста­тистическом определении вероятности).

Некоторая разница значений частот в различных источниках объясняется тем обстоятель­ством, что частоты существенно зависят не только от длины текста, но и от его характера. Поэтому для надеж­ного определения средней частоты буквы желательно иметь набор различных текстов, заимствованных из различных ис­точников. Вместе с тем, как правило, подобные отклонения незначительны, и в первом приближении ими можно пренеб­речь. В связи с этим подобные таблицы, используемые в крип­тографии, должны составляться с учетом характера перепис­ки.

Устойчивыми являются также частотные характеристики биграмм, триграмм и четырехграмм осмысленных текстов. Неравновероятностьm-грамм (и даже слов) тесно связана с характерной особенностью открытого текста — наличием в нем большого числа повторений от­дельных фрагментов текста: корней, окончаний, суффиксов, слов и фраз. Так, для русского языка такими привычными фрагментами являются наиболее частые биграммы и три­граммы: СТ, НО, ЕН, ТО, НА, 0В, НИ, РА, ВО, КО, СТО, ЕНО, НОВ, ТОВ, ОВО, ОВА.

Полезной является информация о сочетаемости букв, то есть о предпочтительных связях букв друг с другом, которую легко извлечь из таблиц частот биграмм. При анализе сочетаемости букв друг с другом следует иметь в виду зависимость появления букв в открытом тексте от значительного числа предшествующих букв. Для анализа этих закономерностей используют понятие условной вероят­ности. Наблюдения над открытыми текстами показывают, что для условных вероятностей выполняются неравенства Р(ai1) ≠ Р(ai1/ai2 ), Р(ai1/ai2 ) ≠ Р(ai1/ai2ai3 ), …. .

Систематически вопрос о зависимости букв алфавита в открытом тексте от предыдущих букв исследовался извест­ным русским математиком А.А.Марковым (1856 — 1922). Он доказал, что появления букв в открытом тексте нельзя считать независимыми друг от друга. В связи с этим А. А. Марковым отмечена еще одна устойчивая закономер­ность открытых текстов, связанная с чередованием гласных и согласных букв. После Маркова зависимость появления букв текста вслед за несколькими предыдущими исследовал методами теории информации К. Шеннон. Фактически им было показа­но, в частности, что такая зависимость ощутима на глубину приблизительно в 30 знаков, после чего она практически от­сутствует.

Эти закономерно­сти играют большую роль в криптоанализе. В частности, они используются при построении формализованных критериев на открытый текст, позволяющих применять методы матема­тической статистики в задаче распознавания открытого текста в потоке сообщений. При использовании же специальных ал­фавитов требуются аналогичные исследования частотных ха­рактеристик "открытых текстов", возникающих, например, при межмашинном обмене информацией или в системах пе­редачи данных. В этих случаях построение формализованных критериев на "открытый текст" — задача значительно более сложная.

Помимо криптографии частотные характеристики откры­тых сообщений существенно используются и в других сферах. Например, клавиатура компьютера или пишущей машинки— это замечательное воплощение идеи ускорения набора текста, связанное с оптимизацией расположения букв алфавита относительно друг друга в зависимости от частоты их применения.