Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ГосТайна.docx
Скачиваний:
27
Добавлен:
23.08.2019
Размер:
474.76 Кб
Скачать

Энтропия и избыточность языка.

Свойства текстов изучаются методами теории информации, разработанной К. Шенноном. Ключевое понятие – энтропия, определяемая функцией от вероятностного определения и характеризующая количество неопределенности или информации в случайном эксперименте. Неопределенность и информация измеряются одной и той же мерой. Применительно к независимым испытаниям случайной величины  с распределением вероятностей

энтропия H() определяется формулой

Единицей количества информации считается 1 бит. При pi = 1/n при всех , то

.

Мерой среднего количества информации, приходящейся на одну букву открытого текста языка  (рассматриваемого как источник случайных текстов), служит величина H, называемая энтропией языка . вычисляется последовательными приближениями позначных моделей текста: H1, H2, … Hr.

Для каждого языка значение H стремится к определенному пределу (после r = 30 предел уже устанавливается): .

при этом формула

определяет избыточность языка R. Разговорные языки имеют весьма большую избыточность. Избыточность текста в 75% означает, что при оптимальном кодировании текста (например использование кодов Хаффмена, Фано или других) его можно сжать до четверти без потери информации.

Энтропию можно определить и по другому. Для n-буквенного алфавита число текстов длины L, удовлетворяющих статистическим ограничениям, равно (при достаточно больших L) не как это было бы, если бы мы имели право брать любые наборы из L букв, а всего лишь

По сути это приближенное число осмысленных текстов длины L для данного языка . Исходя из этого можно определить энтропию языка формулой

Расстояние единственности.

При дешифровании криптограмм может возникнуть ситуация в которой несколько найденных ключей дают осмысленный текст. Например криптограмму WNAJW, полученную при помощи шифра Цезаря порождают два открытых текста RIVER и ARENA, отвечающих величинам сдвига (ключам) 5 и 11 соответственно. Из этих ключей один является истинным, а другой ложным. Найдем оценку для числа ложных ключей. Для этого рассмотрим связь между энтропиями вероятностных распределений P(X), P(K), P(Y), заданных на компонентах X, K, Y произвольного шифра в см. лекция 2.

Назовем условную энтропию H(K / Y) неопределенностью шифра в по ключу. Она измеряет среднее количество информации о ключе, которое дает шифртекст. Аналогично вводится неопределенность шифра по открытому тексту H(X / Y). Эти величины являются мерой теоретической стойкости шифра.

Минимально возможным значением неопределенности H(X/Y) является 0. ,

это возможно только в тех случаях, когда или для всех x, y, то есть если при некоторых x, y. Это означает, что по данному y можно получить существенную информацию об x, что свидетельствует о слабости шифра. Идеальной является ситуация когда H(X / Y) = H(X). Именно в этом случае шифр можно было бы назвать совершенным.

Связь между энтропиями компонент шифра дает формула неопределенности шифра по ключу:

полученная К. Шенноном. Эта формула позволяет получить оценку среднего числа ложных ключей.

Введем обозначение K(y) = {kK : xX, Ek(x) = y} – множество ключей, для каждого из которых y является результатом зашифрования некоторого осмысленного текста длины L. Если мы располагаем криптограммой y, то число ложных ключей равно |K(y)| - 1, так как лишь один из допустимых ключей является истинным. Определим среднее число ложных ключей кL (относительно всех возможных шифртекстов длины L) формулой .

Открытое сообщение – последовательность знаков (слов) некоторого алфавита.

Различают естественные алфавиты (языки), и специальные алфавиты (цифровые, буквенно-цифровые).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]