Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Пособие по теории информации.doc / Пособие по теории информации.doc
Скачиваний:
415
Добавлен:
30.03.2015
Размер:
4.68 Mб
Скачать

2.2. Количественная мера информации р.Хартли

Ещё в 1928 году была опубликована статья английского инженера Р.Хартли «Передача информации», в которой он попытался дать меру количества информации. Он исходил из того, что количест­венная мера информации должна согласовываться с интуитивным представ­лением о содержании информации в сообщении (сигнале). Так, например, чем длиннее телеграмма, тем больше информации она обычно содержит. Следовательно, мера информации должна монотонно возрастать с увеличе­нием длительности сообщения (сигнала), которую естественно измерять чис­лом символов в дискретном сообщении и временем передачи в непрерывном случае. Кроме того, на содержание количества информации должны влиять и статистические характеристики, так как сигнал должен рассматриваться как случайный процесс.

При этом Хартли наложил ряд ограничений:

1) рассматриваются только дискретные сообщения;

2) множество различных сообщений конечно.

3) символы, составляющие сообщения равновероятны и независимы.

Нужно выбрать такую меру, которая была бы пропорциональна числу элементарных сигналов в сообщении, то есть приращение количества информации составляло бы dI=Ndm. Можно проделать следующие преобразования:

(2.2.)

Эта формула позволяет определить количество информации в одном сообщении и носит имя Р.Хартли.

Если же все множество возможных сообщений состоит из одного (N = m = 1), то

I (N) = log 1 = 0,

что соответствует отсутствию информации в этом случае.

При наличии независимых источников информации с N1 и N2 числом возможных сообщений

I (N) = log N = log N1N2 = log N1 + log N2,

(2.3.)

т.е. количество информации, приходящееся на одно сообщение, равно сумме количеств информации, которые были бы получены от двух независимых источников, взятых порознь.

Однако для практических целей необходимо задаться единицей измерения информации. Для этого предположим, что информация – это устраненная неопределенность. Тогда в простейшем случае неопределенности выбор будет производиться между двумя взаимоисключающими друг друга равновероятными сообщениями, например между двумя качественными признаками: положительным и отрицательным импульсами, импульсом и паузой и т.п. Количество информации, переданное в этом простейшем случае, наиболее удобно принять за единицу количества информации. Тогда

I = – log2 p = – log2 1/2 = log2 2 = 1.

Полученная единица количества информации, представляющая собой выбор из двух равновероятных событий, получила название двоичной единицы, или бита.

Название bit образовано из двух начальных и последней букв английского выражения binary unit, что значит двоичная единица.

Сущность двоичной единицы количества информации можно определить как количество информации, равное двоичному логарифму двух равновероятных возможностей, т.е.

Иными словами, одна двоичная единица представляет собою результат выбора из двух равновероятных возможностей. Бит является не только единицей количества информации, но и единицей измерения степени неопределенности. При этом имеется в виду неопределенность, которая содержится в одном опыте, имеющем два равновероятных исхода.

Аналогичным образом, десятичная единица информации представляет собою результат выбора из десяти равновероятных возможностей и выражается как

Двоичная и десятичная единицы количества информации связаны соотношениями для логарифмов

или

откуда следует, что на каждый десятичный знак приходится 3,32 двоичных знаков и что одна десятичная единица количества информации содержит в 3,32 раза больше информации, чем одна двоичная единица. Это подтверждается также тем, что при выборе из 10 равновероятных возможностей степень неопределенности выше, чем при выборе из двух равновероятных возможностей. Отсюда следует, что для снятия неопределенности в первом случае потребуется большее количество информации.

Так же могут быть определены троичная, пятеричная и другие единицы количества информации, если использовать при этом соответствующие основания логарифмов. Так, например, если взять основание логарифма равным е = 2,718, то количество информации будет измеряться в натуральных единицах

Выбор единицы измерения количества информации зависит от характера конкретной решаемой задачи. Двоичные (бит), натуральные (нит) или десятичные (дит) единицы соотносятся следующим образом: 1 бит = 0,69 нит = 0,3 дит; 1 нит = 1,45 бит = 0,43 дит;

1 дит = 2,3 нит = 3,3 бит.

В данном пособии, в основном, используется двоичная единица.

Логарифмическая мера информации, предложенная Хартли, одновременно удовлетворяет условиям монотонности и аддитивности.

Сам Хартли пришел к своей мере на основе эвристических соображений, подобных только что изложенным, но в настоящее время строго доказано, что логарифмическая мера для количества информации однозначно следует из этих двух постулированных им условий.

Основным недостатком определения Хартли было то, что он предлагал не различать исходы опыта, имеющие разные вероятности, относя различие между ними к несущественным "психологическим факторам". Тем не менее, оказалось, что учитывать эти факторы необходимо, поскольку интуитивно ощущалось, что редко и часто встречающийся символ могут нести различную информационную нагрузку.

Р. Хартли понимал, что сообщения имеют различную вероятность и, следовательно, неожиданность их появления для получателя неодинакова. Но, определяя количество информации, он пытался полностью исключить фактор «неожиданности». Поэтому формула Хартли позволяет определить количество информации в сообщении только для случая, когда появление символов равновероятно и они статистически независимы.

На практике эти условия выполняются редко. Недостаток определения Хартли спустя два десятилетия исправил математик К. Шеннон, который по праву считается основателем теории информации.

Пример 2.12. Предположим, имеется набор из 3-х букв А, В, С. а) Составить максимальное количество сообщений, комбинируя по две буквы в сообщении. б) Какое количество информации приходится на одно такое сообщение?

Решение. а) АА, ВА, СА, АВ, ВВ, СВ, АС, ВС, СС; б) ;.

Пример 2.13. Определить количество информации и объем информации от сообщения “Но­чью ожидается ураган ” переданному по 7 элементному телеграфному коду.

Решение. Число букв k=23. Тогда количество информации равно I=23log32 = 11.5 бит, а объем информации равен N = 237 = 161 бит. Здесь было принято, что энтропия русского алфавита без учета статистических характеристик равна 5 бит.

Таким образом, мы видим, что объем информации, имеет большее значение, чем количество информации.

Пример 2.14. Тексты, составленные из 32 букв алфавита, передаются по телетайпу при помощи двух качественных признаков (1 и 0). Чему равно ко­личество информации, приходящееся на одну принятую букву, на k принятых букв.

Решение. m1  число букв первичного алфавита (равно 32), m2 число символов вторичного алфавита (равно 2). Для передачи 32 букв необходимо m1 = m2n = 25 = 32. Таким образом, количество информации на букву равно 5 бит. Количество информа­ции на k принятых букв равно 5k.

Пример 2.15. При бросании монеты сообщение о результате жребия (например, выпал орел) несет 1 бит информации, поскольку количество возможных вариантов результата равно 2 (орел или решка). Оба эти варианта равновероятны. Ответ может быть получен из решения уравнения: 2x = 2, откуда, очевидно, следует: х = 1 бит.

Вывод: в любом случае сообщение об одном событии из двух равновероятных несет 1 бит информации.

Пример 2.16. В барабане для розыгрыша лотереи находится 32 шара. Сколько информации содержит сообщение о первом выпавшем номере (например, выпал номер 15)?

Поскольку вытаскивание любого из 32 шаров равновероят­но, то количество информации об одном выпавшем номере находится из уравнения: 2х = 32.

Но 32=25. Следовательно, х = 5 бит. Очевидно, ответ не зависит от того, какой именно выпал номер.

Пример 2.17. Задумано некоторое число N. Какое минимальное число вопросов необходимо задать, что бы узнать задуманное число.

Решение. Отгадывание числа это случайное событие с N исходами. Так как исходы равновероятны, то энтропия этого события равна .

Максимальное количество информации, которое содержится в одном ответе (да/нет), равно , т.е. равно одному биту.

Следовательно, минимальное число вопросов, которое необходимо задать для определения загаданного числа определяется выражением

.

Знак равенства имеет место в том случае если отношение логарифмов – целое число.

Ответ:

Пример 2.18. При игре в кости используется кубик с шес­тью гранями. Сколько бит информации получает игрок при каждом бросании кубика? Выпадение каждой грани кубика равновероятно. Поэтому количество информации от одного результата бросания нахо­дится из уравнения: 2х = 6.

Решение этого уравнения: . х = 2,585 бит.

Пример 2.19. Определить количество информации, которое содержится в телевизионном сигнале, соответствующем одному кадру развертки. Пусть в кадре 625 строк, а сигнал, соответствующий одной строке, представляет собой последовательность из 600 случайных по амплитуде импульсов, причем амплитуда импульса может принять любое из 8 значений с шагом в 1 В.

Решение. В рассматриваемом случае длина сообщения, соответствующая одной строке m = 600. Количество элементов сообщения (знаков) в одной строке N = 8.

Количество информации в одной строке: I = mlog N = 600 * log 8, а количество информации в кадре I = 625 * I = 625*600 log 8 = 1,125  106 бит.

Пример 2.20. Определить информацию, которую несет в себе 1-й символ в кодировках ASCII и Unicode.

Решение. В алфавите ASCII предусмотрено 256 различных символов, т.е. М = 256, а I = log2 256 = 8 бит = 1 байт.В современной кодировке Unicode заложено гораздо большее количество символов. В ней определено 256 алфавитных страниц по 256 символов в каждой. Предполагая для простоты, что все символы используются, получим, что I = log2 (256 * 256) = 8 + 8 = 16 бит = 2 байта.

Пример 2.21. Найти информационный объем слова SOS, записанного в компьютерной кодировке.

Решение. При кодировании букв в компьютере используется либо алфавит ASCII (American Standard Code for Information Interchange — американский стандартный код обмена информацией), состоящий из 28=256 знаков, либо алфавит Unicode, мощность которого 216 = 65536. В слове SOS три буквы, следовательно, его информационный объем 3·8=24 или 3·16=48 бит, в зависимости от используемой кодировки.

Пример 2.22. Шарик находится в одной из трех урн: А, В или С. Определить сколько бит информации содержит сообщение о том, что он находится в урне В.

 Решение. Такое сообщение содержит I = log23 = 1,585 бита информации.

Пример 2.23. Определить количество уровней звукового сигнала при использовании устаревших 8-битных звуковых карт.

    Решение.К = 28= 256.

Пример 2.24. Глаз человека способен различать порядка 4 тысяч цветов, сколько бит достаточно для представления такого количества?

Решение. Для ответа на вопрос задачи нужно решить уравнение log24000 = x; или эквивалентное ему 2x = 4000. Поскольку 212 = 4096, то достаточно 12 бит по 4 бита на составляющие красного, зеленого и синего цвета.

Ответ:для представления 4 тысяч цветов достаточно 12 бит.

Пример 2.25. Пусть алфавит состоит из N=32 символов. Определить максимальное количество информации, содержащееся на одной странице текста (если считать, что на одной странице умещается m=1500 знаков).

Решение. Предполагая, что появление любой буквы в тексте равновероятно воспользуемся формулой Хартли:

I = m * log N = 1500 * log 32 = 7500 [бит]

Пример 2.26. Допустим, что компьютер работает в графичес­ком режиме. Используется видеоадаптер имеющий разрешение N = 640 * 200 точек и передающий 16 различных цветов. Определить количество статистической информации содержащейся на экране дисплея.

Решение. Одна точка (пиксель) содержит I1 = logN бит информации, где N - количество возможных состояний (цветов). В силу аддитивности статистической меры количества информа­ции

I общ. = m * log N = 640 * 200 * llog 16 = 128000 * 4 = 512000 [бит] = 500 Кбит.

Пример 2.27. Какое количество вопросов нужно задать вашему собеседнику, чтобы наверняка определить месяц, в котором он родился?

Решение. Будем рассматривать 12 месяцев как 12 возможных равновероятных событий. Определим максимальное количество информации I, которую дадут ответы на все вопросы.

                                                       I = log212 = 3,6 бит

Количество полученных бит информации соответствует количеству заданных вопросов, однако, количество вопросов может быть только целым числом. Округляем до большего целого числа и получаем ответ: при правильной стратегии необходимо задать не более 4 вопросов.

Какие же это вопросы? Правильная стратегия состоит в том, что вопросы нужно задавать так, чтобы количество возможных вариантов каждый раз уменьшалось вдвое.

Например:

  1. Номер месяца Вашего рождения лежит в интервале от1 до 6? 

  2. Номер месяца Вашего рождения лежит в интервале: от 1 до 3 (для ответа "Да"); от 4 до 6 (для ответа "Нет").

  3. Номер месяца Вашего рождения лежит в интервале: от 1 до 2 (для ответа "Да"); от 4 до 5 (для ответа "Нет").

  4. Номер месяца Вашего рождения: равен 1 (для ответа "Да");  равен 4 (для ответа "Нет").

Ответ. Задав 4 вопроса, Вы даете правильный ответ.

Пример 2.28. В сообщении 4 буквы "a", 2 буквы "б", 1 буква "и", 6 букв "р". Определить количество информации в одном таком (из всех возможных) сообщений.

Решение. Число N различных сообщений длиной 13 букв будет равно величине: N=13!/(4!×2!×1!×6!)=180180. Количество информации I в одном сообщении будет равно величине: I=log2(N)=log2180180≈18 (бит).

Пример 2.29.Глаз человека способен различать порядка 4 тысяч цветов, сколько бит достаточно для представления такого количества?

Решение. Для ответа на вопрос задачи нужно решить уравнение log24000 = x; или эквивалентное ему 2x = 4000. Поскольку 212 = 4096, то достаточно 12 бит по 4 бита на составляющие красного, зеленого и синего цвета.

Ответ. Для представления 4 тысяч цветов достаточно 12 бит.

Пример 2.30. Какова мощность алфавита (считать появление каждого знака алфавита в тексте событиями равновероятным), с помощью которого записано сообщение, содержащее 2048 символов, если его объем составляет 10 240 бит.

Решение. Определим количество бит (количество информации), приходящееся на один символ: I = 10 240 бит / 2 048 символов = 5 бит.

По формуле Хартли определим мощность (количество символов) алфавита:

N = 2I = 25 = 32.

Ответ. Мощность алфавита 32 символа.

Пример 2.31. В барабане для розыгрыша лотереи находится 32 шара. Сколько информации содержит сообщение о первом выпавшем номере (например, выпал номер 15)?

Решение. Поскольку вытаскивание любого из 32 шаров равновероятно, то количество информации об одном выпавшем номере находится из уравнения: 2I=32.

Но 32=25. Следовательно, I=5 бит. Очевидно, ответ не зависит от того, какой именно выпал номер.

Пример 2.32. В корзине лежат белые и черные шары. Среди них 18 черных шаров. Сообщение о том, что из корзины достали белый шар, несет 2 бита информации. Сколько всего в корзине шаров?

Решение. Из условия можно увидеть, что количество черных и белых шаров различное, поэтому воспользуемся формулой Хартли для неравновероятных событий. Обозначим Кч, Кб – количество черных и белых шаров соответственно, К – общее количество шаров, iб – количество информации в сообщении, что из корзины достали белый шар, рб – вероятность выбора белого шара.

Основные формулы:

, К= Кчб .

С другой стороны по формуле.

Составим и решим уравнение

, К=6+18=24.

Ответ. Всего 24 шара.

Пример 2.33. Выясним, сколько бит информации несет произвольное двузначное число со всеми значащими цифрами (отвлекаясь при этом от его конкретного числового значения, т.е. каждая из возможных цифр может появиться на данном месте, в данном разряде с одинаковой вероятностью).

Решение. Так как таких чисел может быть всего 90 (10-99), то информации будет количество I=log290 или приблизительно I=6,5. Так как в таких числах значащая первая цифра имеет 9 значений (1-9), а вторая - 10 значений (0-9), то I=log290=log29+log210. Приблизительное значение log210 равно 3,32. Итак, сообщение в одну десятичную единицу несет в себе в 3,32 больше информации, чем в одну двоичную единицу (чем log22=1), а вторая цифра, например, в числе аа, несет в себе больше информации, чем первая (если цифры а обоих разрядов неизвестны; если же эти цифры а известны, то выбора нет и информация равна нулю).

Пример 2.34. ДНК человека можно представить как некоторое слово четырехбуквенного алфавита, где буквы соответствуют нуклеотидам.

Решение.Определим, какое количество информации содержит ДНК, если она состоит примерно из 1.5×1023 нуклеотидов.

Так как алфавит - четырехбуквенный, каждый символ слова несет log24 = 2 бита информации. Следовательно, ДНК в целом позволяет хранить 3×1023 бит или около 3×1010 Терабайт информации.

Пример 2.35. Определить собственную информацию, содержащуюся в изображении, при условии, что оно разлагается на 500 строк по 500 элементов в каждой строке. Яркость каждого элемента передается 8 квантованными уровнями. Различия градации яркости равновероятны, а яркости разных элементов статистически независимы.

Решение. Обозначим случайной величиной Х яркость одного элемента изображения. По условию задачи все градации яркости одинаково вероятны, т.е. p(xj) = 1/N, где N = 8 и, следовательно, собственная информация одного элемента по формуле: I(xj) = log2 N .

Изображение содержит N = 500500 = 2.5105 элементов.

Так как яркости элементов независимы, то по свойству аддитивности информации

I(изображения) = N I(xj) = N log2 n = 2.51053 = 7.5105 бит.

Пример 2.36. Определить количество информации, которое содержится в телевизионном сигнале, соответствующем одному кадру развертки. Пусть в кадре 625 строк, а сигнал, соответствующий одной строке, представляет собой последовательность из 600 случайных по амплитуде импульсов, причем амплитуда импульса может принять любое из 8 значений с шагом в 1 В.

Решение. В рассматриваемом случае длина сообщения, соответствующая одной строке, равна числу случайных по амплитуде импульсов в ней: m = 600.

Количество элементов сообщения (знаков) в одной строке равно числу значений, которое может принять амплитуда импульсов в строке: N = 8.

Количество информации в одной строке: I = m log N = 600 log 8, а количество информации в кадре: I = 625 I = 625 600 log 8 = 1,125  106 бит.