Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Метод_пособ_Низов.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
307.2 Кб
Скачать

Измерение информации.

Умение представить информацию в виде сообщения приводит к мысли о том, а нельзя ли оценить количественно содержание информации в том или ином сообщении? Задумавшись над постановкой этого вопроса, приходишь к мысли о том, что взять за единицу измерения, и более того, а что, собственно, измерять? Ведь как мы отмечали ранее, существуют разные подходы к определению понятия информации.

1 Подход. Измерение информации на бытовом уровне.

Рассмотрим ту точку зрения, где информация рассматривается как новизна, и которая принята в быту. Очевидным является тот факт, что одно и то же сообщение обладает разным уровнем новизны для разных людей. Для инженера электронщика объяснение принципов работы компьютера вряд ли будет обладать новизной тогда, как для школьника она – новизна безусловно будет присутствовать. А вот абориген Южной Америки, не имеющий представления об электричестве, вообще не поймет в чем дело, так как объект рассмотрения не входит в его понятийный круг. Таким образом, количество информации в сообщении зависит от того, насколько ново это сообщение для получателя,насколько оно понятно т. е. носит субъективный характер. Но субъективные вещи не поддаются сравнению и анализу, для их измерения невозможно выбрать одну общую для всех единицу измерения.

Поэтому, когда информация рассматривается как новизна сообщения для получателя, вопрос об измерении количества информации не ставится.

2 Подход. Измерение информации в теории информации.

Получение информации (ее увеличение) одновременно означает увеличение знания, что, в свою очередь, означает уменьшение незнания или информационной неопределённости.

В теории информации для определения единицы измерения исходят из простой истины: увеличение информации ведет к уменьшению незнания или информационной неопределенности. Рассмотрим это на примерах.

1. Пусть в классе имеется 32 ученика, а мы желаем знать оценку конкретного ученика на экзамене по информатике. Неопределенность достаточно велика, и сообщение о том, что юноши класса не имеют «завалов» на экзамене по информатике уменьшает эту неопределенность.

2. Шарик находится в одной из восьми лунок. Информационная неопределенность равна восьми. Правильно сформулированный вопрос о местонахождении шарика может уменьшить эту неопределенность.

Было принято, что сообщение, уменьшающее неопределенность в два раза, содержит одну единицу информации. Бит - название единицы информации.

Вопрос о ценности этой информации для получателя здесь не поднимается — это уже из иной области.

Пример. Известно, что книга лежит на одной из двух полок — верхней или нижней. Сообщение о том, что книга лежит на верхней полке, уменьшает неопределённость ровно вдвое; в этом случае говорят, что оно несет 1 бит информации.

В соревновании участвуют 4 команды. Сообщение о том, что конкретная команда (вторая, например) выиграла, уменьшает первоначальную неопределённость ровно в 4 раза (дважды по два) и несет 2 бита информации.

Приближенно можно считать, что количество информации в сообщении о каком-то событии совпадает с количеством вопросов, которые надо задать относительно разрешения данной ситуации, и ответом, на которые могут быть лишь «да» или «нет». Причем события должны быть равновероятны.

Пример. Вернемся к примеру с экзаменом по информатике, уточнив в нем, что в классе занимаются 32 ученика, и девочек и мальчиков поровну. Сколько информации содержит сообщение об оценке конкретного ученика? Допустим, что вышедший с экзамена ученик знает оценку одного одноклассника, но не хочет называть его фамилию. Мы хотим выяснить результат этого ученика, не нарушая условий вышедшего. Неопределенности довольно много, но не так много как кажется.

Давайте задавать вопросы всякий раз, сокращая неопределенность в два раза, т.е. получая в ответ один бит информации. Спросим сначала, «Этот ученик девочка?" - "Да!» «В списке девочек ее фамилия находится в первой половине списка?" - "Нет!» и так далее... В результате за пять вопросов мы получим точную информацию. Следовательно, сообщение об оценке ученика несет 5 бит информации.

В приведенных примерах число равновероятных событий, об одном из которых идет речь в сообщении, кратно степени числа 2 (4 = 22, 32 = 25). Поэтому сообщение несет количество битов информации, являющееся целым числом. Но на практике могут встречаться и другие ситуации.

Пример. Сообщение о том, что на светофоре красный сигнал, несет в себе количество информации большее, чем 1 бит. Попробуйте объяснить, почему?

Пример. Известно, что Иванов живет на улице Весенней. Сообщение о том, что номер его дома есть число чётное, уменьшило неопределённость. Получив такую информацию, мы стали знать больше, но информационная неопределённость осталась, хотя и уменьшилась. Почему в этом случае мы не можем сказать, что первоначальная неопределённость уменьшилась вдвое (иными словами, что мы получили 1 бит информации)? Если вы не знаете ответа на этот вопрос, представьте себе улицу, на чётной стороне которой, например, четыре дома, а на нечётной — двадцать. Такие улицы не такая уж большая редкость.

Научный подход к оценке количества информации в сообщении был предложен еще в 1928 году Р. Хартли.

Если N - общее количество равновероятных исходов, то сообщение о том, что произошло одно из них, несет I бит информации. Значение I вычисляется из уравнения:

2I = N

Решение этого уравнения выглядит так:

I = N

Применим формулу к случаю с книжными полками N = 2 и I = 2 равняется 1бит.

Для примера с классом и экзаменом информатики N = 32 следовательно I = 32 и равняется 5 битам, ответы совпали.

Иногда формула Хартли записывается иначе. Так как наступление каждого из N возможных событий имеет одинаковую вероятность, то, обозначив вероятность буквой p, мы будем иметь р = 1/N. Тогда N = 1/р и формула примет вид

I = log 2 (l/p) = - log 2 p

Этот новый вид формулы Хартли очень кстати. В примере, касающемся улицы, мы приходили к мысли о том, что события не всегда равновероятны. Как же быть в этом случае? Для этого нам надо познакомиться с более общим случаем вычисления количества информации, содержащемся в сообщении об одном из N, но уже не равновероятных событий.

Рассмотрим некоторый умозрительный эксперимент. Пусть имеется генератор, который на своем экране может демонстрировать любую из букв некоего алфавита, состоящего из k букв. Генерирование осуществляется в соответствии с заданным законом распределения. Закон представлен следующей таблицей:

Ai

A1

A2

Ak

pi

P1

P2

pk

Каждая из букв появляется на экране в соответствии с вероятностью ее появления.

За экраном ведется наблюдение: пусть на экране уже появилось N букв (N - достаточно большое число). Если мы заинтересуемся буквой Ai , то она на экране появится приблизительно (N·pi) раз. Каждое появление буквы Ai дает (- ) бит информации. Всего за все ее появления будет получено (-N pi ) бит информации.

Общее количество информации, которое следует суммировать после демонстрации всех N букв, равно:

I = -N

На одну букву в среднем приходится

Iср = - бит информации.

Эту формулу впервые вывел американский инженер и математик К. Шеннон в 1948 г.

Пример. Пусть в мешочке находятся 2 черных шара и 6 белых. Сколько информации несет сообщение о выборе конкретного шара? Вероятность вытащить черный шар равна 1/4, вероятность вытащить белый шар равна 3/4. Применим формулу Шеннона:

I = – = 0,8113

Формула Шеннона дает нам 0,8113 бита информации, т. е. меньше 1 бита информации. И это не удивительно, т. к. вероятность вытащить белый шар очень велика. Неопределенность соответственно мала, а значит, информационная ценность сообщения не велика.

Интересный факт, формула, предложенная Шенноном для среднего количества информации, приходящейся на один символ в сообщении, совпала с формулой Больцмана для энтропии. Это совпадение произвело большое впечатление на самого Шеннона, и он стал называть количество информации энтропией. Вероятностный же подход для определения количества информации стали называть энтропийным. В физике, энтропия – физическая величина, характеризующая внутреннюю неупорядоченность системы.