Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

125 Кібербезпека / 4 Курс / 4.2_Управління інформаційною безпекою / Лiтература / V_P_Babak_A_A_Kliuchnykov-Teoreticheskye_osnovy_zashchity_informat

...pdf
Скачиваний:
143
Добавлен:
23.10.2019
Размер:
21.85 Mб
Скачать

ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ЗАЩИТЫ ИНФОРМАЦИИ

____________________________________________________________________________________________

Меры информации

Синтаксическая мера

Семантическая мера

Прагматическая

 

 

 

 

мера

Объем информации Vд

Количество информации

 

 

 

 

ІС = СVд,

 

 

где С - коэф.

 

Количество информации

содержательности

 

 

 

Іβ(α) = Н(β) - Н(α),

 

 

где Н - энтропия

 

 

Рис. 2.2. Классификация мер информации

применяется единица байт, который равняется восьми битам. Именно восемь бит нужно для того, чтобы закодировать любой из 256 символов алфавита клавиатуры компьютера (256 = 28).

Широко используются также еще большие производные единицы измерения информации:

1 килобайт (кбайт) = 1024 байт = 210 байт; 1 мегабайт (Мбайт) = 1024 кбайт = 220 байт; 1 гигабайт (Гбайт) = 1024 Мбайт = 230 байт; 1 терабайт (Тбайт) = 1024 Гбайт = 240 байт; 1 петабайт (Пбайт) = 1024 Тбайт = 250 байт.

В качестве единицы информации можно было бы взять количество информации, необходимой для различения, например, десяти равновероятностных сообщений. Это будет не двоичная (бит), а десятичная (дит) единица информации. В компьютерной практике слово «бит» используется также как единица измерения объема памяти. Элемент памяти размером в 1 бит может находиться в одном из двух состояний («включено» и «выключено») и в него можно записать одну цифру (0 или 1).

Количество I информации на синтаксическом уровне определяется через понятие энтропии системы.

Пусть до получения информации потребитель имеет некоторые предыдущие (априорные) сведения о системе y. Мерой его неосведомленности о системе есть функция H(y), которая вместе с тем есть и мерой неопределенности состояния системы.

80

Глава 2. Количественные оценки информации

____________________________________________________________________________________________

После получения некоторого сообщения x получатель приобрел некоторую дополнительную информацию I(x), что уменьшила его априорную неосведомленность так, что неопределенность состояния системы после получения сообщения x стала равняться H(x). Тогда количество I(x) информации о системе, полученной в сообщении β, определится как

I(x) = H(x) – H(x).

(2.10)

т.е. количество информации измеряется величиной изменения (уменьшения) неопределенности состояния системы.

Если конечная неопределенность H(x) стремится к нулю, то первичное неполное знание заменится полным знанием, и количество информации I(x) = H(x). Другими словами, энтропия системы Н(y) может рассматриваться как мера информации, которой недостает.

Энтропия системы H(x), которая имеет N возможных состояний, согласно формуле К. Шеннона равняется

N

Н у Pi log Pi , (2.11)

i 1

где Pi - вероятность того, что система находится в i-м состоянии. Для случая, когда все состояния системы равновероятны, т.е. их вероятность равняется

Pi = 1/N,

(2.12)

ее энтропия определяется соотношением

 

 

 

 

 

 

 

 

 

 

 

H

 

y

 

N 1/ N

 

log

1/ N

 

= log N - формула Р. Хартли

(2.13)

i 1

Пример. Часто информация кодируется числовыми кодами в той или другой системе исчисления, особенно это актуально в случае представления информации в компьютере. Естественно, что одно и то же количество разрядов в разных системах исчисления может передавать разное количество состояний отображаемого объекта, который можно подать в виде соотношения

N = mn,

(2.14)

где N - количество отображаемых состояний; m - основа системы исчисления (количество символов, употребляемых в алфавите); n - количество разрядов (символов) в сообщении.

Предположим, что по каналу связи передается n-разрядное сообщение, которое использует m разных символов. Принимая во внимание, что количество кодовых комбинаций будет N = mn, приходим к выводу: при равновероятностном появлении любой из комбинаций количество информации, приоб-

ретенной абонентом в результате получения сообщения

 

I = log N = n log m.

(2.15)

81

ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ЗАЩИТЫ ИНФОРМАЦИИ

____________________________________________________________________________________________

Если за основу логарифма взять m, то I = n. В этом случае количество информации (при условии полного априорного незнания абонентом содержания сообщения) будет равно объему данных I =Vд, полученных по каналу связи.

Коэффициент (степень) информативности (лаконичность) сообщения

определяется отношением количества информации к объему данных:

Y I /Vд .

(2.16)

С увеличением Y уменьшаются объемы работы по преобразованию информации (данных) в системе. Поэтому стараются повышать информативность, для этого разрабатываются специальные методы оптимального кодирования информации.

Семантическая мера информации - применяется для измерения содержания информации. Для этого используется тезаурусная мера, которая учитывает способность получателя сообщения его воспринять.

Тезаурусом называют совокупность сведений, которые имеет в своем распоряжении пользователь или система.

Максимальное количество семантической информации Ic пользователь получает, если ее содержание S будет согласованно с его тезаурусом Sp, т.е. когда информация, которая поступает, понятна пользователю и несет ему не известные раньше (отсутствуют в его тезаурусе) сведения. Количество семантической информации в сообщении является относительной и зависит от подготовленности получателя. Одна и та же информация может иметь смысл для специалиста и быть лишенной смысла для дилетанта.

В зависимости от соотношений между содержательным наполнением информации S и тезаурусом пользователя Sp изменяется количество семантической информации Ic, которую воспринимает пользователь и включает в дальнейшем в свой тезаурус. Характер такой зависимости делает наглядным рис. 2.3.

Ic

Sp

0 Spmin

Spopt

Spmax

Рис. 2.3. Зависимость количества семантической информации, воспринимаемой потребителем, от его тезауруса

Рассмотрим два предельных случая, когда количество семантической информации Ic равняется нулю:

82

Глава 2. Количественные оценки информации

____________________________________________________________________________________________

при 0 ≤ Sp ≤ Spmin пользователь не воспринимает, не понимает информацию, которая поступает;

при Sp > Spmin пользователь знает все, а поэтому информация, которая поступает, ему не нужна.

Максимальное количество семантической информации Ic потребитель получит, как уже отмечалось, согласовав ее содержательное наполнение S со своим тезаурусом Sp = Spopt.

Относительной мерой количества семантической информации может быть коэффициент содержательности С, который определяется как отноше-

ние количества семантической информации к ее объему:

 

C Iс /Vд .

(2.17)

Прагматическая мера информации - определяет полезность информа-

ции для достижения пользователем поставленных целей. В частности, полезность экономической информации можно определить за ростом экономических показателей организации, обусловленных использованием указанной информации. Это может быть сокращение товарных запасов, увеличение скорости оборота средств, повышение качества принятия управленческих решений и т.д. Ценность информации измеряется в тех самых (или близких к ним) единицах, в которых измеряется целевая функция.

2.4. Энтропия и ее свойства

Энтропия определяет меру неопределенности всего множества сообщений на входе системы и вычисляется как среднее количество собственной информации во всех сообщениях:

I ( X ) p (xi ) log p (xi ) H ( X ).

(2.18)

Свойства энтропии:

1. Энтропия H(X) положительная: H(X) > 0.

2.Энтропия H(X) < log N.

3.Величина log N = D называется информационной пропускной способно-

стью алфавита (информационной вместительностью алфавита).

4.Если N = 2, то p(x1) = p, p(x2) = 1 – p,

H(Х) = – p log2 p – (1 – p) log2 (1 – p).

5. Максимум H (Х) = –log2 0,5 = log2 2 = 1 - вместительность двоичного алфавита равняется 1 бит.

Зависимость H(X) от значения р иллюстрирует рис. 2.4.

Рассмотренные характеристики источника информации - количество информации и энтропия - касались одного источника, который вырабатывает поток независимых или простых сообщений, т.е. источника без памяти.

83

ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ЗАЩИТЫ ИНФОРМАЦИИ

____________________________________________________________________________________________

Н(X)

0

0,5

1

р

Рис. 2.4. Зависимость энтропии от величины р

Тем не менее в реальных условиях независимость элементарных сообщений, которые вырабатываются источником, - явление довольно редкостное. Чаще бывает именно наоборот: существует сильная детерминированная или статистическая связь между элементами сообщения с одного или нескольких источников.

При передаче и хранении данных часто имеют дело с несколькими источниками, которые формируют статистически связанные одно за другим сообщение. Сообщения, которые вырабатываются такими источниками, называются сложными сообщениями, а непосредственно эти источники -

источниками с памятью.

Очевидно, что при определении энтропии и количества информации в сообщениях, элементы которых статистически взаимосвязанные, нельзя ограничиваться только безусловными вероятностями - необходимо учитывать также условные вероятности появления отдельных сообщений.

Определим энтропию сложного сообщения, которое вырабатывается двумя зависимыми источниками (так же определяется энтропия сложного сообщения, которое вырабатывается одним источником с памятью):

Пусть сообщение первого источника приобретают значения x1, x2, x3, ..., xk с вероятностями соответственно P(x1 ), P(x2 ), ..., P(xk ), а сообщение второго - значений y1, y2, ..., ym с вероятностями P(y1), P(y2), ..., P(ym). Общую энтропию двух источников X и Y можно определить как

â m

, yj log P xi , y j ,

 

H X ,Y P xi

(2.19)

i 1 j 1

 

 

где P(xi, yj ) - вероятность общего появления сообщений xi и yj . Поскольку общая вероятность P(xi, yj) за формулой Байеса определяется как

P xi, yj P xi P yj / xi ) P yj P xi / yj ,

(2.20)

эту формулу для общей энтропии можно записать в виде

 

k m

 

 

 

 

H X ,lY l P xi P y j / xi log P xi P y j / xi

 

 

i 1 j 1

 

 

 

(2.21)

k

m

y j

k

m

 

P xi log P xi P

/ xi P xi P y j / xi log P y j / xi .

 

i 1

j 1

 

i 1

j 1

 

84

Глава 2. Количественные оценки информации

____________________________________________________________________________________________

Поскольку передача сообщения xi непременно отвечает передаче одного из сообщений (каждого) из ансамбля Y, то

m

/ xi 1,

 

P yj

(2.22)

j 1

 

 

причем общая энтропия источников сообщений H (X, Y) определяется как

k

k

m

/ xi log P y j

/ xi

H X ,Y P xi log P xi P xi P y j

i 1

i 1

j 1

 

(2.23)

 

k

 

 

 

xi H Y / xi ,

 

 

 

H X P

 

 

 

i 1

 

 

 

где H(Y/xi) - так называемая частичная условная энтропия, которая отбивает энтропию сообщения Y при условии, что сообщение xi поступило. Второе слагаемое представляет собой усреднение H(Y/xi) по всем сообщениям xi и

называется средней условной энтропией источника Y при условии передачи сообщения X. И окончательно:

H(X, Y) = H(X) + H(Y / X).

(2.24)

Общая энтропия двух сообщений равняется сумме безусловной энтропии одного из них и условной энтропии второго.

Можно отметить такие основные свойства энтропии сложных сообще-

ний.

1. В случае статистически независимых сообщениях X и Y общая эн-

тропия равняется сумме энтропии каждого из источников:

H(X, Y) = H(X) + H(Y),

(2.25)

при этом учтено, что H(Y / X) = H(Y).

2. В случае полной статистической зависимости сообщений X и Y общая энтропия равняется безусловной энтропией одного из сообщений. Вто-

рое сообщение при этом информации не прибавляет.

В самом деле, при полной статистической зависимости сообщений условные вероятности P(yj / xi) и P(xi / yj) равняются или нулю, или единице, тогда

 

P(xi / yj ) log P(xi /yj) = P(yj / xi) log P(y j / xi) = 0 (2.26)

и

H(X, Y) = H(X) = H(Y).

3.Условная энтропия изменяется в пределах: 0 < H(Y/X) < H(Y).

4.Для общей энтропии двух источников всегда осуществляется соотношение H(X, Y) ≤ H(X) + H(Y), при этом равенство выполняется только для независимых источников сообщений.

85

ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ЗАЩИТЫ ИНФОРМАЦИИ

____________________________________________________________________________________________

Итак, при наличии связи между элементарными сообщениями энтропия источника снижается, причем тем больше, чем сильнее связь между элементами сообщения.

Энтропия систем с непрерывным множеством состояний вычисляется по правилам анализа дискретных систем с предыдущим квантованием плот-

ности вероятности w (x) с шагом

х.

 

 

 

 

 

 

 

 

 

 

Тогда количество состояний в системе будет

N (xmax xmin )

x , а веро-

ятность состояний p (xi

) = w (xi)

х.

 

 

 

 

 

 

 

 

 

 

Воспользовавшись известными формулами данного раздела, можно

найти энтропию суммы дискретных сообщений:

 

 

 

 

 

 

H

x

x

 

 

N

w

 

x

x log

 

w

 

x

 

x .

 

 

 

 

 

 

i

 

 

i

 

 

 

 

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

После преобразований при условии, которое

 

х

0, имеем:

 

 

 

 

H

x

x H

X log x.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Величина H*(X) называется сведенной энтропией:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

H X

w x log w

x dx.

(2.27)

Итак, приходим к таким выводам относительно степени информативности источников сообщений:

1.Энтропия источника и количество информации тем больше, чем больше размер алфавита источника.

2.Энтропия источника зависит от статистических свойств сообщения.

3.Энтропия максимальная, если сообщение источника равновероятностное и статистически независимое.

4.Энтропия источника, который вырабатывает не равновероятностные сообщения, всегда меньшая, чем максимально достижимая.

5.При наличии статистических связей между элементарными сообщениями (памяти источника) его энтропия уменьшается.

Пример. Рассмотрим источник с алфавитом, который состоит из букв а, б,

в, ..., ю, я. Будем считать для упрощения, что размер алфавита источника K =

= 25 = 32.

Если бы все буквы алфавита имели одинаковую вероятность и были статистически независимыми, то средняя энтропия, которая приходится на один

символ, представляла бы H(λ)max = log2 32 = 5 бит/букву.

Если теперь взять во внимание лишь разную вероятность букв в тексте (а нетрудно проверить, что так оно и есть), расчетная энтропия будет представлять H(λ) = 4,39 бит/букву.

С учетом корреляции (статистической связи) между двумя и тремя соседними буквами (после буквы «п» чаще случается «а» и почти никогда - «ю» и «ц») энтропия уменьшится соответственно H(λ) = 3,52 бит/букву и H(λ) =

86

Глава 2. Количественные оценки информации

____________________________________________________________________________________________

= 3,05 бит/букву. В конце концов, если учесть корреляцию между восьмью и больше символами, энтропия уменьшится к H (λ) = 2,0 бит/букву и дальше будет оставаться без перемен.

Поскольку реальные источники с тем самым размером алфавита могут иметь совсем разную энтропию (а это не только тексты, но и язык, музыка, изображения и т.п.), вводят такую характеристику источника, как чрезмер-

ность

ρи = 1 – H(λ) / H(λ)max = 1 – H(λ) / log K,

где H(λ) - энтропия реального источника; log K - максимально достижимая энтропия для источника с объемом алфавита из K символов.

Тогда чрезмерность, например, литературного текста представляет

ρи = 1 – (2 бит / букву) / (5 бит / букву) = 0,6.

Иначе говоря, при передаче текста по каналу связи каждые шесть букв из десяти переданных не несут никакой информации и могут без потерь просто не передаваться. Такую же, если не большую (ρи = 0,9...0,95), чрезмерность имеют и другие источники информации - язык и особенно музыка, телевизионные изображения и т.п.

Возникает правомерный вопрос: есть ли смысл занимать носитель информации или канал связи передачей символов, которые практически не несут информации, т.е. возможно ли такое преобразование исходного сообщения, в результате которого информация «втискивалась» бы в минимально необходимое для этого количество символов?

2.5. Производительность и избыточность источника информации

Рассмотрим источник двух событий s1 и s2. Если событие s1 случается редко, а событие s2 - часто, то количество информации о реализации события s1 будет значительно большей, чем о реализации события s2: I(s1) >> I(s2), где I(s) - количество информации. Очевидно, что количество информации источника двух событий значительно меньше, чем источника 10 или 20 событий, т.е. чем больше разных событий характеризует то или другое явление, тем больше необходимо информации для его описания. Таким образом, информация есть характеристикой такого общего свойства материального мира, как его разнообразие.

Информация всегда подается в виде сигналов, физическая природа которых зависит от типа источника сообщений. Сигналы как носители информации представляют собой механические колебания в твердых материалах, жидкостях, газах (инфразвук, звук, ультразвук), электрические и электромагнитные колебания или волны (радио, оптические). Сигналы воспринимаются приемочными устройствами, в частности органами чувства живых организмов и человека. Из сигналов добывается информация, которая дальше пре-

87

ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ЗАЩИТЫ ИНФОРМАЦИИ

____________________________________________________________________________________________

вращается и запоминается или передается по линиям связи, превращаясь и отображаясь в виде, удобном для восприятия, осмысления и использования человеком при принятии решений.

В источниках информации формируются сообщения. Сообщение - это последовательность знаков (символов) или непрерывные сигналы, которые содержат те или другие сведенья, данные, результаты измерений. Множество разных знаков, используемых для формирования сообщений, называют алфа-

витом источника сообщений, а количество знаков - объемом алфавита. В

частности, знаками могут быть буквы естественного языка, цифры, иероглифы.

Непрерывные сообщения не делятся на элементы, являются функциями времени. Типичными примерами могут быть языковые сигналы из выхода микрофона, непрерывно измеренные данные о температуре, давлении, направлении и скорости ветра и т.п. В последнее время они, как правило, превращаются в цифровые с целью повышения качества передачи, хранения и защиты информации.

Производительность источников информации. По обыкновению ис-

точники передают сообщения с некоторой скоростью, затрачивая в среднем время Т на передачу одного сообщения.

Производительностью источника H'(X) называется суммарная энтропия сообщений, переданных в единицу времени: H'(X) = H'(X)/T.

Производительность измеряется в битах в секунду.

Представим величину 1/Т как скорость vc = 1T (элементов в секунду),

получим H'(X) = vc·H'(X)/T.

Аналогично, поделив значение энтропии и количества информации на Т и представив H'(X/Y) = H'(X/Y)/T, I'(X/Y)= I(X/Y)/T, получим соответствующее равенство для условных энтропий и количества информации, рассчитанных на одно сообщение в единицу времени.

Скоростью передачи информации называется количество информации I ( X , Y ) алфавитного ансамбля сигналов на входе системы, отнесенное к

единице времени. Если, например, Х - ансамбль сигналов на входе дискретного канала, а Y - ансамбль сигналов на его выходе, то скорость передачи информации по каналу

I X ,Y H X H X /Y H Y H Y / X . (2.28)

где H'(X/Y) - производительность источника переданного сигнала Х, а H'(Y) - «производительность» канала, т.е. полная собственная информация в принятом сигнале за единицу времени.

Это соотношение делает наглядным рис. 2.5.

Величина H'(X/Y) является потерей информации, или ненадежностью канала за единицу времени, а H'(X/Y) - скорость создания ошибочной, посторонней информации в канале, которая не касается Х и обусловлена присутствующими в канале помехами. По определению К. Шеннона, ненадежность

88

Глава 2. Количественные оценки информации

____________________________________________________________________________________________

канала является энтропией входа, когда выход известный, т.е. ее можно считать мерой средней неопределенности принятого сигнала. Что касается величины H'(X/Y), то она представляет собой энтропию выхода, когда вход известный, т.е. является мерой средней неопределенности переданного сигнала.

Источник

H’(X)

Канал

I’(X,Y)

Получатель

сообщений

связи

сообщений

 

 

H’(X/Y) H’(X/Y)

Источник помех

Рис. 2.6. Соотношение между характеристиками канала и скоростью передачи информации

Соотношение между H'(X/Y) и H'(X/Y) зависит от свойств канала. Например, при передаче звукового сигнала по каналу с узкой полосой пропускания, недостаточной для высококачественного воспроизведения сигнала, и с низким уровнем помех теряется часть полезной информации, но почти не получается лишняя информация, т.е. в этом случае H'(X/Y) H'(X/Y). Если же сигнал воссоздается на высоком уровне, качественно, но при этом прослушиваются наводки от соседнего радиоканала, то это означает, что почти без потерь полезной информации мы получили много лишней, т.е. избыточной, информации, которая мешает обработке. В этом случае исполняется соотно-

шение H'(X/Y) H'(X/Y).

Эффективность и избыточность источников информации. При пере-

даче непрерывных сообщений переданные сигналы являются непрерывными функциями времени A(t), что принадлежат некоторому множеству, а принятые сигналы X(t) будут их обезображенными вариантами. Все реальные сигналы имеют спектры с ограниченной полосой F. В соответствии с теоремой В. А. Котельникова такие сигналы определяются их значениями в точках отсчета, которые содержатся одна от другой на расстоянии t 2F.

В реальных условиях на сигнал накладываются помехи, вследствие чего количество заметных уровней сигнала в точках отсчета будет конечным.

Итак, совокупность значений, которые определяют непрерывный сигнал, эквивалентна некоторой дискретной конечной совокупности. Это дает возможность определить количество информации и пропускную способность канала при передаче непрерывных сообщений на основании результатов, полученных для дискретных сообщений.

89