Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Основы информатики

.pdf
Скачиваний:
26
Добавлен:
26.03.2015
Размер:
2.94 Mб
Скачать

Кирьянов Б.Ф. Основы информатики. 31

диске, в которых хранятся файлы и которые ведут к искомому файлу). При этом имена каталогов разделяются символом \. Например: C:\ Documents and Settings \ user \ мои документы \ фотографии \ В Карелии_2011.

2.3. Адекватность принимаемой информации и еѐ меры

Для потребителя информации очень важной характеристикой является ее адекватность, то есть соответствие (степень соответствия) принятой информации и информации переданной.

Адекватность информации может выражаться в трех формах: синтаксической, семантической и прагматической, отражающих соответствующие характеристики информации.

Синтаксическая адекватность. Данная форма отображает формальноструктурные характеристики информации и не затрагивает ее смыслового со-

держания. Информацию, рассматриваемую только с синтаксических позиций, обычно называют данными, так как при этом не имеет значения смысловая сторона. Эта форма способствует восприятию внешних структурных характеристик, то есть восприятию синтаксической стороны информации: отсутствию грамматических ошибок, правильности записи команд программы и т.д. Примерами синтаксических ошибок могут служить неверное написание названия функции при еѐ вызове, неверный тип переданных аргументов, неверный тип возвращаемого программой значения (в частности, не указанный тип) и др.

Семантическая (смысловая) адекватность. Эта форма определяет сте-

пень соответствия образа объекта и самого объекта. Семантический аспект предполагает учет смыслового содержания информации. На этом уровне ана-

лизируются те сведения, которые отражает информация, рассматриваются смысловые связи. Эта форма служит для формирования понятий и представлений, выявления смысла, содержания информации и ее обобщения. Одна из прикладных задач в исследовании семантики языка появилась с необходимостью адекватного поиска информации в интернете по запросу пользователя.

Прагматическая (потребительская) адекватность. Прагматический ас-

пект рассмотрения связан с ценностью, полезностью использования информации при выработке потребителем решения для достижения своей цели. С этой точки зрения анализируются потребительские свойства информации. Эта форма адекватности непосредственно связана с практическим использованием информации, со значимостью информации для системы, в которой она будут использоваться.

Кирьянов Б.Ф. Основы информатики. 32

Классификация мер. Для измерения информации вводятся два параметра: количество информации I и объем данных VД. Эти параметры имеют разные выражения и интерпретацию в зависимости от рассматриваемой формы адекватности. Каждой форме адекватности соответствует своя мера количества информации и объема данных (рис. 2.2).

Для синтаксической меры количество информации сообщения принято определять степенью его неопределѐнности, которая называется энтропией (entropy – неопределѐнность). В 1928 году американский инженер Ральф Хартли предложил определять энтропию (Н) сообщений согласно выражениям: H = – p∙log2 p – для сообщений об одном событии, которое может произойти с вероятностью p или не произойти с вероятностью 1 – p, или H равно сумме n произведений – p∙log2 p – для сообщения об n событиях, каждое из которых может произойти с указанной вероятностью. Нетрудно убедиться, что максимальное значение неопределѐнности при ожидании одного события, которое может произойти или не произойти, имеет место при p = 0,5. В этом случае H = = − 0,5∙log20,5 = −0,5∙(−1) = 0,5.

Меры информации

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Синтаксическая мера

 

Семантическая мера

 

Прагматическая мера

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1) Количество информа-

 

Количество

 

Ценность для

ции (по Р. Хартли или по

 

информации

 

использования

К. Шеннону)

 

 

 

 

 

 

 

 

 

Ic = CVд,

 

Может оцениваться

I ( ) = H( ) H( ),

 

 

 

 

 

где С коэффициент

 

изменением значения

 

 

 

 

 

 

где H( ) и Н( ) энтропия

 

 

соответствующей целе-

 

содержательности

 

для состояний и ( → ).

 

 

вой функции

 

 

 

 

 

 

 

 

 

 

2) Объѐм данных Vд

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рис. 2.2. Меры информации

В случае, когда может произойти только одно из n равновероятных событий, вероятность появления p каждого из них равна n-1. Поэтому получаем:

Кирьянов Б.Ф. Основы информатики. 33

H = nn – 1 log2 (n – 1) = log2n,

то есть, чем о большем числе событий идет речь в сообщении, тем больше его энтропия.

Выбор основания логарифмов соответствует выбору единицы измерения информации. Единицы измерения, получающиеся при использовании основания два, было решено назвать двоичными единицами или сокращенно битами (слово, предложенное Тьюоки – из статьи К. Шеннона ―Математическая теория связи‖ – 1948 г.). То есть в данном случае речь идѐт не о двоичных разрядах, а о двоичных единицах измерения.

Во многих задачах каждое событие сообщения может происходить со своей вероятностью, отличной от вероятностей других сообщений. Для этого случая формула Хартли не пригодна. Для значения энтропии таких сообщений в указанной статье К. Шеннона была предложена другая формула, а именно:

 

 

 

 

 

 

 

 

На

рис. 2.3

приведѐн

 

 

график зависимости H(бит) =

 

 

= K∙p∙log2 p при K = 1 и n =

 

 

= 1 (в

случае pi

= p

фор-

 

 

мула Шеннона превращается

 

 

в формулу Хартли,

то

есть

 

 

формула Хартли является ча-

 

 

стным

случаем

формулы

 

 

Шеннона).

При построении

 

 

графика

 

зависимости

эн-

 

Рис. 2.3. Зависимость H = f (p)

тропии

H от вероятности p

 

 

учтено, что

 

 

 

 

 

 

 

 

lim H = lim H = 0,

Hmax = e-1log2(1/e).

 

 

 

p 0

p 1

 

Кирьянов Б.Ф. Основы информатики. 34

Пример 1. Найти энтропию H и объѐм данных VД подготовленного для передачи сообщения, состоящего из 3-х возможных символов: A, B и С, закодированных кодами 10, 110 и 111. При этом pA = 0,5, pB = pC = 0,25.

Решение: По формулам Хартли или Шеннона при K = 1 получаем: H = = – ( 0,5∙log20,5 + 2∙0,25∙log20,25) = 0,5+2∙0,5 = 1,5 бит. Находим средний объѐм данных: VД ср = (0,5∙2 + 2∙0,25∙3)∙3 = 7,5 бит. Таким образом, за счѐт применения более короткого кода для символа, появляющегося с большей вероятностью, удалось немного уменьшить среднюю длину указанных сообщений.

Количество информации I, полученной приѐмником при поступлении некоторого сообщения , то есть в состоянии , согласно Р. Шеннону равно разности энтропий H( ) – H( ), где H( ) – энтропия приѐмника в предыдущем состоянии . Иными словами количество полученной информации равно уменьшению неопределѐнности информации об интересуемом объекте или событии.

Пример 2. Сборная России по футболу играет со сборной Японии. Матч не транслируется, и болельщики ожидают сообщений о ходе матча. Согласно оценкам экспертов вероятность победы сборной России оценивается как 0,7, вероятность ничейного исхода матча − как 0,2 и вероятность победы сборной Японии − как 0,1. После окончания первого тайма пришло сообщение: сборная РФ выигрывает со счѐтом 1: 0. Теперь согласно оценкам экспертов указанные вероятности изменились и стали оцениваться соответственно как 0,85, 0,1 и 0,05. Второе сообщение (сборная России выиграла) поступило после окончания матча. Определить количество информации, полученной в указанных сообщениях при K = 1.

Кирьянов Б.Ф. Основы информатики. 35

Семантическая мера информации. Для измерения смыслового содер-

жания информации, то есть ее количества на семантическом уровне, наибольшее признание получила тезаурусная мера, которая связывает семантические свойства информации со способностью пользователя принимать (понимать) поступившее сообщение. Для этого используется понятие тезаурус пользователя.

Тезаурус (от греческого слова thesaurus – сокровище) это совокупность сведений или возможностей, которыми располагает пользователь или система. Например: возможности пакета прикладных программ, особенности и возможности дебютов игры в шахматы и их характеристики, правила оформления отчѐтов по курсовым работам.

В зависимости от соотношений между смысловым содержанием информации S и тезаурусом пользователя Sпольз изменяется количество семантической информации 1сем, воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус. Характер такой зависимости показан на рис. 2.4.

Рис. 2.4. Пример зависимости количества семантической информации, воспринимаемой потребителем, от его тезауруса Icем = f (Sпольз)

Рассмотрим два предельных случая, когда количество семантической информации Iсем равно 0:

при Sпольз = 0 пользователь не воспринимает, не понимает поступающую информацию (точнее – при минимальном значении Sпольз);

при Sпольз пользователь все знает, и поступающая информация ему не нужна (точнее – при максимальном значении Sпольз).

Максимальное количество семантической информации Iс потребитель приобретает при согласовании ее смыслового содержания S со своим тезаурусом Sp то есть когда Sпольз = Sпольз. оптим. В этом случае поступающая информация

Кирьянов Б.Ф. Основы информатики. 36

понятна пользователю и несет ему ранее не известные (отсутствующие в его тезаурусе) сведения.

Следовательно, количество семантической информации в сообщении, количество новых знаний, получаемых пользователем, является величиной относительной. Одно и тоже сообщение может иметь смысловое содержание для компетентного пользователя и быть бессмысленным (семантический шум) для пользователя некомпетентного.

При оценке семантического (содержательного) аспекта информации необходимо стремиться к согласованию величин S и Sp. Относительной мерой количества семантической информации может служить коэффициент содержательности С, который определяется как отношение количества семантической информации к ее объему: С = IC / VД.

Прагматическая мера информации определяет ценность информации для достижения пользователем некоторой цели, принятия некоторого решения. Эта мера также величина относительная, обусловленная особенностями использования информации в той или иной системе. Ценность этой информации целесообразно измерять в тех же самых единицах (или близких к ним), в которых измеряется целевая функция (функция, выражающая числовую значимость цели). Не всегда эту функцию просто составить. Например, как оценить количественно степень важности сообщения разведчика?

Прагматический аспект передает возможность достижения цели с учетом полученной информации. Вариант меры прагматической информации:

Iп = loga(P1/P0) = logaP1 – logaP0,

где P0 и P1 − вероятности достижения цели до и после получения сообщения, соответственно (предложено академиком А. Харкевичем).

Таблиц а 2.1. Примеры характера и единиц измерения информации

Мера информации

Примеры информации (для компьютерной об-

ласти)

 

 

 

Синтаксическая:

Вероятность события, приращение вероятности

1) шенноновский подход

Бит, байт. Кбайт и т.д. (их изменение)

2) компьютерный подход

 

 

Семантическая

Алгоритм прикладной программы, метод опре-

деления заражения вирусами и лечения и др.

 

 

 

Кирьянов Б.Ф. Основы информатики. 37

Информация о возможности повышения про-

изводительности компьютера, о скорости пере- Прагматическая дачи или обработки данных, о ценах на персо-

нальные компьютеры и т.д.

Как семантические, так и прагматические теории информации могут быть практически применены пока только к очень небольшому числу явлений реальной действительности. Но не следует забывать, что они имеют еще и теоретическое значение. В борьбе идей, мнений, гипотез и выводов, в их соперничестве и сотрудничестве рождается истина.

Задание. Написать выражения для решений приведѐнных задач.

Задача 1. Ожидается поступление сообщения о результате волейбольной встречи любимой команды: A0 (проиграла), A1 (сыграла вничью), A2 (выиграла). При этом P1=1/3. Построить график зависимости энтропии H от вероятности p победы любимой команды. В выражении для Н использовать логарифмы по основанию 3. График построить по значениям Н для p{0, 1/6, 1/3, 1/2, 2/3}.

Задача 2. Алфавит сообщения состоит из 10 букв – 2 гласных и 8 согласных. Вероятности Pг появления каждой из гласных букв равны 1/4, а вероятности Pс появления каждой из согласных букв равны 1/16. В 1-м варианте каждая буква кодируется 4-разрядным двоичным кодом: 0000, 0010, … 1001. Во 2-м варианте каждая гласная буква кодируется 2-разрядным двоичным кодом, а согласные буквы кодируются как в 1-м варианте.

Для каждого варианта определить энтропию Н и среднее число hср бит (двоичных знаков) для кодирования одной буквы сообщения. Предложить способ кодирования гласных букв для 2-го варианта. Каков будет в 1-м варианте объѐм VД данных, если всѐ сообщение состоит из 3200 букв?

2.4. Цифровое кодирование информации

Физическое представление кодов. Название ―код‖ происходит от фран-

цузского code. Код – совокупность знаков (символов) и система определѐнных правил, при помощи которых информация может быть представлена (закодирована) для передачи обработки и применения.

При физическом представлении кодов обычно используется двоичное кодирование, так как проще всего реализовать двухзначные сигналы.

Кирьянов Б.Ф. Основы информатики. 38

Примеры двухзначных сигналов:

Поджигание стога сена, колокольный набат и т.д. при приближении врага в старину.

Выставление определѐнного цветка на подоконник, определѐнное объявление в газете и т.п. для разведчиков.

Электрические сигналы различной длины (азбука Морзе - американского художника и изобретателя – 1837 г.; в 1836 г. он же разработал электрический аппарат для передачи знаков по проводам).

Высокий и низкий потенциалы (условно 1 – это высокий потенциал, а 0 – низкий), триггер – устройство, запоминающее один бит информации.

Амплитудно-синусоидальная модуляция (1 передаѐтся фрагментом синусоиды, а 0 – его отсутствием).

Фазоманипулированные сигналы (0 и 1 передаются фрагментами синусоиды с изменением фазы на π).

Сложные сигналы (для обеспечения высокой достоверности передачи 0 и 1 они кодируются специальными последовательностями двоичных цифр, используемыми для модуляции высокочастотной синусоиды).

Преобразование формы представления сигналов: Основными пред-

ставления сигналов являются непрерывная или аналоговая (A) и дискретная (D) формы. Для преобразования непрерывных сигналов в дискретные используют квантование и дискретизацию непрерывных сигналов, то есть разбиение непрерывных сигналов на несколько уровней по их величине и преобразование этих уровней в цифровые коды с постоянным шагом по времени. Для преобразования дискретных сигналов в аналоговые применяется сглаживание дискретных сигналов. При этом, если для передачи информации используется колебательный или волновой процесс, то справедлива следующая теорема В.А. Котельни-

кова (1933 г.): Непрерывный сигнал можно полностью отобразить и точно воссоздать по последовательности измерений или отсчетов величины этого сигнала через одинаковые интервалы времени, меньшие или равные половине периода максимальной частоты спектра сигнала.1

Шаг квантования определяется чувствительностью приемного устройства, то есть минимальной разницей уровней сигнала, которую способно различить

1 Спектр сигнала − это совокупность образующих его частот синусоидальных колебаний.

Кирьянов Б.Ф. Основы информатики. 39

это устройство. Очевидно, нет смысла делать этот шаг меньше указанной чувствительности: приемное устройство не сможет различать изменения сигнала на величину шага квантования.

Таким образом, преобразование сигналов типа A D, как и обратное D A, может осуществляться без потери содержащейся в них информации. Преобразование типа D1D2 состоит в переходе при представлении сигналов от одного алфавита к другому, такая операция носит название перекодировка и может осуществляться без потерь. Примерами ситуаций, в которых осуществляются подобные преобразования, могут быть: запись – считывание с компьютерных носителей информации; шифрование и дешифрование текста; вычисления на калькуляторе.

Для человеческого глаза естественной формой восприятия сигналов являются непрерывные сигналы. Однако они имеют плохую помехозащищѐнность. Поэтому в очень многих случаях цифровая форма вытеснила непрерывную (цифровое телевидение, цифровое фотографирование и т.д.). Дискретная форма представления информации становится универсальной.

В1673 году Gottfried Wilhelm Leibniz предложил представлять числа и различные знаки, особенно подлежащие передаче, двоичными символами. Такая система оказалась удобной для еѐ физической реализации. С тех пор двоичная система стала всѐ чаще использоваться на практике.

Отметим, что исторически появлялись способы кодирования не только с одинаковой, но и с разной длительностью элементарных сигналов.

Вкачестве примера использования данного варианта кодирования рассмотрим телеграфный код Морзе («азбука Морзе» - 1837 г.). В нем каждой букве или цифре сопоставляется некоторая последовательность кратковременных

импульсов длительностью («точка») и импульсов длительностью 3 («тире»). Точки и тире разделяются паузами длиной , разделителем знаков является пауза длиной 3 , разделитель слов – пробел – пауза длиной 6 . При таком способе кодирования информационное содержание элементарных сигналов оказывается различным: точка – 2 бит (короткий сигнал + отделяющая пауза), тире – 4 бит (длинный сигнал + пауза).

Ниже приведены коды азбуки Морзе для букв русского алфавита и цифр (табл. 2.2), а также закодированная фраза из двух слов, которую рекомендуется прочитать.

 

 

 

 

 

Кирьянов Б.Ф. Основы информатики.

40

 

 

 

 

Таблица 2.2. Кодировка азбуки Морзе

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Знак

Код

Знак

Код

 

Знак

 

Код

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

а

о

– – –

 

э

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

б

п

– –

 

ю

 

– –

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

в

– –

р

 

я

 

– –

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

г

– –

с

 

 

1

 

– – – –

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

д

т

 

2

 

– – –

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

е

 

у

 

3

 

– –

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ж

ф

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

з

– –

х

 

 

5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

и, й

 

ц

– –

 

6

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

к

– –

ч

– – –

 

7

 

– –

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

л

ш

– – – –

 

8

 

– – –

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

м

– –

щ

– – –

 

9

 

– – – –

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

н

ь, ъ

– –

 

0

 

– – – – –

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

– –

– – – – – –

– –

– – – –

 

Как видно из табл. 2.2, коды отдельных букв составлены без учета вероятности их появления в сообщении. При этом коды алфавитной части являются неравномерными, а коды цифр – равномерными, поскольку содержат равное число элементарных сигналов. Можно определить среднее количество информации на знак (рекомендуем студентам проделать это самостоятельно, причем, по отдельности для алфавитной и цифровой частей, а потом сопоставить результаты с полученными ранее для равномерного двоичного кодирования). Такое сравнение показывает, что код Морзе по эффективности гораздо ниже, чем равномерный. Тем не менее, он имел в прошлом весьма широкое распространение в ситуациях, когда источником и приемником сигналов являлся человек (не техническое устройство) и на первый план выдвигалась не экономичность кода, а удобство его восприятия человеком.

Код Морзе является примером неравномерного кодирования, то есть использования кодов различной длины. Для таких кодов используют понятие эф-

фективности или относительной эффективности кода: Q = H0/H, где H0