Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Nizov_TOI_-_Shpargalka.doc
Скачиваний:
1
Добавлен:
01.05.2025
Размер:
920.58 Кб
Скачать

5,6,7. Измерение информации

Умение представить информацию в виде сообщения приводит к мысли о том, а нельзя ли оценить количественно содержание информации в том или ином сообщении? Задумавшись над постановкой этого вопроса, приходишь к мысли о том, что взять за единицу измерения, и более того, а что, собственно, измерять? Ведь как мы отмечали ранее, существуют разные подходы к определению понятия информации.

1 Подход. Измерение информации на бытовом уровне.

Рассмотрим ту точку зрения, где информация рассматривается как новизна, и которая принята в быту. Очевидным является тот факт, что одно и то же сообщение обладает разным уровнем новизны для разных людей. Для инженера электронщика объяснение принципов работы компьютера вряд ли будет обладать новизной тогда, как для школьника она – новизна безусловно будет присутствовать. А вот абориген Южной Америки, не имеющий представления об электричестве, вообще не поймет в чем дело, так как объект рассмотрения не входит в его понятийный круг. Таким образом, количество информации в сообщении зависит от того, насколько ново это сообщение для получателя, насколько оно понятно т. е. носит субъективный характер. Но субъективные вещи не поддаются сравнению и анализу, для их измерения невозможно выбрать одну общую для всех единицу измерения.

Поэтому, когда информация рассматривается как новизна сообщения для получателя, вопрос об измерении количества информации не ставится.

2 Подход. Измерение информации в теории информации.

Получение информации (ее увеличение) одновременно означает увеличение знания, что, в свою очередь, означает уменьшение незнания или информационной неопределённости.

В теории информации для определения единицы измерения исходят из простой истины: увеличение информации ведет к уменьшению незнания или информационной неопределенности. Рассмотрим это на примерах.

1. Пусть в классе имеется 32 ученика, а мы желаем знать оценку конкретного ученика на экзамене по информатике. Неопределенность достаточно велика, и сообщение о том, что юноши класса не имеют «завалов» на экзамене по информатике уменьшает эту неопределенность.

2. Шарик находится в одной из восьми лунок. Информационная неопределенность равна восьми. Правильно сформулированный вопрос о местонахождении шарика может уменьшить эту неопределенность.

Было принято, что сообщение, уменьшающее неопределенность в два раза, содержит одну единицу информации. Бит - название единицы информации.

Вопрос о ценности этой информации для получателя здесь не поднимается — это уже из иной области.

Пример. Известно, что книга лежит на одной из двух полок — верхней или нижней. Сообщение о том, что книга лежит на верхней полке, уменьшает неопределённость ровно вдвое; в этом случае говорят, что оно несет 1 бит информации.

Приближенно можно считать, что количество информации в сообщении о каком-то событии совпадает с количеством вопросов, которые надо задать относительно разрешения данной ситуации, и ответом, на которые могут быть лишь «да» или «нет». Причем события должны быть равновероятны.

В приведенных примерах число равновероятных событий, об одном из которых идет речь в сообщении, кратно степени числа 2 (4 = 22, 32 = 25). Поэтому сообщение несет количество битов информации, являющееся целым числом. Но на практике могут встречаться и другие ситуации.

Научный подход к оценке количества информации в сообщении был предложен еще в 1928 году Р. Хартли.

Если N - общее количество равновероятных исходов, то сообщение о том, что произошло одно из них, несет I бит информации. Значение I вычисляется из уравнения:

2I = N

Решение этого уравнения выглядит так:

I = N

Применим формулу к случаю с книжными полками N = 2 и I = 2 равняется 1бит.

Для примера с классом и экзаменом информатики N = 32 следовательно I = 32 и равняется 5 битам, ответы совпали.

Иногда формула Хартли записывается иначе. Так как наступление каждого из N возможных событий имеет одинаковую вероятность, то, обозначив вероятность буквой p, мы будем иметь р = 1/N. Тогда N = 1/р и формула примет вид

I = log 2 (l/p) = - log 2 p

Этот новый вид формулы Хартли очень кстати. В примере, касающемся улицы, мы приходили к мысли о том, что события не всегда равновероятны. Как же быть в этом случае? Для этого нам надо познакомиться с более общим случаем вычисления количества информации, содержащемся в сообщении об одном из N, но уже не равновероятных событий.

Рассмотрим некоторый умозрительный эксперимент. Пусть имеется генератор, который на своем экране может демонстрировать любую из букв некоего алфавита, состоящего из k букв. Генерирование осуществляется в соответствии с заданным законом распределения. Закон представлен следующей таблицей:

Ai

A1

A2

Ak

pi

P1

P2

pk

Каждая из букв появляется на экране в соответствии с вероятностью ее появления.

За экраном ведется наблюдение: пусть на экране уже появилось N букв (N - достаточно большое число). Если мы заинтересуемся буквой Ai , то она на экране появится приблизительно (N·pi) раз. Каждое появление буквы Ai дает (- ) бит информации. Всего за все ее появления будет получено (-N pi ) бит информации.

Общее количество информации, которое следует суммировать после демонстрации всех N букв, равно:

I = -N

На одну букву в среднем приходится

Iср = - бит информации.

Эту формулу впервые вывел американский инженер и математик К. Шеннон в 1948 г.

Пример. Пусть в мешочке находятся 2 черных шара и 6 белых. Сколько информации несет сообщение о выборе конкретного шара? Вероятность вытащить черный шар равна 1/4, вероятность вытащить белый шар равна 3/4. Применим формулу Шеннона:

I = – = 0,8113

Формула Шеннона дает нам 0,8113 бита информации, т. е. меньше 1 бита информации. И это не удивительно, т. к. вероятность вытащить белый шар очень велика. Неопределенность соответственно мала, а значит, информационная ценность сообщения не велика.

Интересный факт, формула, предложенная Шенноном для среднего количества информации, приходящейся на один символ в сообщении, совпала с формулой Больцмана для энтропии. Это совпадение произвело большое впечатление на самого Шеннона, и он стал называть количество информации энтропией. Вероятностный же подход для определения количества информации стали называть энтропийным. В физике, энтропия – физическая величина, характеризующая внутреннюю неупорядоченность системы.

3 Подход. Измерение информации в технике, или объемный.

На практике, в технике связи под информацией принято понимать любую последовательность сигналов, которая хранится, передается или обрабатывается с помощью технических средств. Чаще всего эта информация представлена в знаковой, или как мы уже отмечали, языковой форме, в виде текста или звукового сообщения. Как же оценить объем получаемой информации в соответствии с введенной единицей? Поступают следующим образом. Для каждого конкретного языка определен свой алфавит. Для текста это может быть набор букв, устной речи - набор звуков, а вообще, совокупность знаков любой природы. Пусть количество знаков алфавита равняется N. Допустим, что их появление в сообщении равновероятно, на практике это не так, но мы упрощаем картину ради простоты понимания. Тогда один символ алфавита несет N информации. Если в тексте содержится K символов, общее количество информации, содержащейся в нем равно K N. Все достаточно просто!

Рассмотрим пример. В русском языке алфавит содержит 33 символа, добавим сюда знаки препинания, пробел, десять цифр, итого 54 знака. Значит, один символ несет 54=5.755 бит информации. В этом примере мы предположили, что все символы алфавита появляются в тексте с одинаковой вероятностью, что на самом деле является упрощением.

Алфавит компьютера содержит 256 символов, заметим 256=2 . Сделано это для того, чтобы иметь возможность вводить тексты на разных языках, вводить математические символы, специальные символы. Тогда каждый символ этого алфавита дает 8 бит. Это количество информации получило свое название - байт. В байтах легко подсчитывать объем информации в любом тексте, достаточно подсчитать число символов.

Более крупными единицами являются:

  1. килобайт - 1 Кбайт = 2 байт = 1024 байт;

  2. мегабайт - 1 Мбайт = 2 Кбайт = 1024 Кбайт;

  3. гигабайт - 1 Гбайт = 2 Мбайт = 1024Мбайт.

Вспомним, что каждому символу компьютерного алфавита соответствует двоичный код. Для нашего случая это 8-и разрядный двоичный код [существуют и 16-и разрядные коды]. И совпадение это не случайное - разрядность двоичного кода равна его информационной емкости. Действительно, т. к. знаков в двоичном алфавите только 2, по формуле Хартли выходит, что I = log 2 2 равняется единице, а это значит, что, сколько знаков в двоичном коде, столько информации он и несет.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]