
- •1. Понятия «информация» и наука «информатика». Их происхождение. Информация как смысловое свойство материи
- •2. Подходы к определению понятия «информация»
- •3. Носители информации. Знаки и сигналы
- •4. Виды и свойства информации
- •5,6,7. Измерение информации
- •8. Общая характеристика информационных процессов
- •9. Кодирование информации
- •10. Неравномерное кодирование, проблема разности кодов, код Фано
- •11. Код Хаффмана. Блочное кодирование
- •12. Избыточность кода, первая теорема Шеннона
- •13. Передача информации, основные составляющие процесса передачи информации, характеристики, процесс обработки информации, формулировка второй теоремы Шеннона
- •14. Интуитивное понятие алгоритма, его основные свойства, роль алгоритмов, способы представления алгоритмов
- •15. Формализация понятия алгоритма, конкретные реализации, нормальные подстановки Маркова, существование алгоритмически неразрешимых проблем
- •16. Понятие формального языка, проблемы применения естественных языков для представления алгоритмов, нотация Бэкуса-Наура, как способ описания формального языка
- •17. Время выполнения алгоритмов, понятие сложности алгоритма, классификация скоростей роста, некоторые приемы определения сложности алгоритмов (правило сумм и т.Д.), асимптотическая сложность
- •18. Алгоритмы сортировки, оценка сложности конкретных алгоритмов (метод пузырька или вставки)
- •19. Классы входных данных
- •20. Полиномиальные алгоритмы. Задачи np-класса. Примеры
- •23. Эвристический подход, понятие "жадного" алгоритма, пример решения задачи коммивояжера, алгоритм Крускала
- •24. Алгоритмы на графах, решение задачи раскраски графа с помощью жадного алгоритма, принципиальная теоретическая важности задачи раскраски, ее применение
- •25. Алгоритмы на графах, решение задачи о минимальной телефонной сети, построение минимального оставного дерева
5,6,7. Измерение информации
Умение представить информацию в виде сообщения приводит к мысли о том, а нельзя ли оценить количественно содержание информации в том или ином сообщении? Задумавшись над постановкой этого вопроса, приходишь к мысли о том, что взять за единицу измерения, и более того, а что, собственно, измерять? Ведь как мы отмечали ранее, существуют разные подходы к определению понятия информации.
1 Подход. Измерение информации на бытовом уровне.
Рассмотрим ту точку зрения, где информация рассматривается как новизна, и которая принята в быту. Очевидным является тот факт, что одно и то же сообщение обладает разным уровнем новизны для разных людей. Для инженера электронщика объяснение принципов работы компьютера вряд ли будет обладать новизной тогда, как для школьника она – новизна безусловно будет присутствовать. А вот абориген Южной Америки, не имеющий представления об электричестве, вообще не поймет в чем дело, так как объект рассмотрения не входит в его понятийный круг. Таким образом, количество информации в сообщении зависит от того, насколько ново это сообщение для получателя, насколько оно понятно т. е. носит субъективный характер. Но субъективные вещи не поддаются сравнению и анализу, для их измерения невозможно выбрать одну общую для всех единицу измерения.
Поэтому, когда информация рассматривается как новизна сообщения для получателя, вопрос об измерении количества информации не ставится.
2 Подход. Измерение информации в теории информации.
Получение информации (ее увеличение) одновременно означает увеличение знания, что, в свою очередь, означает уменьшение незнания или информационной неопределённости.
В теории информации для определения единицы измерения исходят из простой истины: увеличение информации ведет к уменьшению незнания или информационной неопределенности. Рассмотрим это на примерах.
1. Пусть в классе имеется 32 ученика, а мы желаем знать оценку конкретного ученика на экзамене по информатике. Неопределенность достаточно велика, и сообщение о том, что юноши класса не имеют «завалов» на экзамене по информатике уменьшает эту неопределенность.
2. Шарик находится в одной из восьми лунок. Информационная неопределенность равна восьми. Правильно сформулированный вопрос о местонахождении шарика может уменьшить эту неопределенность.
Было принято, что сообщение, уменьшающее неопределенность в два раза, содержит одну единицу информации. Бит - название единицы информации.
Вопрос о ценности этой информации для получателя здесь не поднимается — это уже из иной области.
Пример. Известно, что книга лежит на одной из двух полок — верхней или нижней. Сообщение о том, что книга лежит на верхней полке, уменьшает неопределённость ровно вдвое; в этом случае говорят, что оно несет 1 бит информации.
Приближенно можно считать, что количество информации в сообщении о каком-то событии совпадает с количеством вопросов, которые надо задать относительно разрешения данной ситуации, и ответом, на которые могут быть лишь «да» или «нет». Причем события должны быть равновероятны.
В приведенных примерах число равновероятных событий, об одном из которых идет речь в сообщении, кратно степени числа 2 (4 = 22, 32 = 25). Поэтому сообщение несет количество битов информации, являющееся целым числом. Но на практике могут встречаться и другие ситуации.
Научный подход к оценке количества информации в сообщении был предложен еще в 1928 году Р. Хартли.
Если N - общее количество равновероятных исходов, то сообщение о том, что произошло одно из них, несет I бит информации. Значение I вычисляется из уравнения:
2I = N
Решение этого уравнения выглядит так:
I
=
N
Применим формулу к случаю с книжными полками N = 2 и I = 2 равняется 1бит.
Для примера с классом и экзаменом информатики N = 32 следовательно I = 32 и равняется 5 битам, ответы совпали.
Иногда формула Хартли записывается иначе. Так как наступление каждого из N возможных событий имеет одинаковую вероятность, то, обозначив вероятность буквой p, мы будем иметь р = 1/N. Тогда N = 1/р и формула примет вид
I = log 2 (l/p) = - log 2 p
Этот новый вид формулы Хартли очень кстати. В примере, касающемся улицы, мы приходили к мысли о том, что события не всегда равновероятны. Как же быть в этом случае? Для этого нам надо познакомиться с более общим случаем вычисления количества информации, содержащемся в сообщении об одном из N, но уже не равновероятных событий.
Рассмотрим некоторый умозрительный эксперимент. Пусть имеется генератор, который на своем экране может демонстрировать любую из букв некоего алфавита, состоящего из k букв. Генерирование осуществляется в соответствии с заданным законом распределения. Закон представлен следующей таблицей:
-
Ai
A1
A2
…
Ak
pi
P1
P2
…
pk
Каждая из букв появляется на экране в соответствии с вероятностью ее появления.
За
экраном ведется наблюдение: пусть на
экране уже появилось N
букв (N
- достаточно большое число). Если мы
заинтересуемся буквой Ai
,
то она на экране появится приблизительно
(N·pi)
раз. Каждое появление буквы Ai
дает (-
)
бит информации. Всего за все ее появления
будет получено (-N
pi
)
бит информации.
Общее количество информации, которое следует суммировать после демонстрации всех N букв, равно:
I
= -N
На одну букву в среднем приходится
Iср
= -
бит
информации.
Эту формулу впервые вывел американский инженер и математик К. Шеннон в 1948 г.
Пример. Пусть в мешочке находятся 2 черных шара и 6 белых. Сколько информации несет сообщение о выборе конкретного шара? Вероятность вытащить черный шар равна 1/4, вероятность вытащить белый шар равна 3/4. Применим формулу Шеннона:
I
= –
= 0,8113
Формула Шеннона дает нам 0,8113 бита информации, т. е. меньше 1 бита информации. И это не удивительно, т. к. вероятность вытащить белый шар очень велика. Неопределенность соответственно мала, а значит, информационная ценность сообщения не велика.
Интересный факт, формула, предложенная Шенноном для среднего количества информации, приходящейся на один символ в сообщении, совпала с формулой Больцмана для энтропии. Это совпадение произвело большое впечатление на самого Шеннона, и он стал называть количество информации энтропией. Вероятностный же подход для определения количества информации стали называть энтропийным. В физике, энтропия – физическая величина, характеризующая внутреннюю неупорядоченность системы.
3 Подход. Измерение информации в технике, или объемный.
На практике, в технике связи под информацией принято понимать любую последовательность сигналов, которая хранится, передается или обрабатывается с помощью технических средств. Чаще всего эта информация представлена в знаковой, или как мы уже отмечали, языковой форме, в виде текста или звукового сообщения. Как же оценить объем получаемой информации в соответствии с введенной единицей? Поступают следующим образом. Для каждого конкретного языка определен свой алфавит. Для текста это может быть набор букв, устной речи - набор звуков, а вообще, совокупность знаков любой природы. Пусть количество знаков алфавита равняется N. Допустим, что их появление в сообщении равновероятно, на практике это не так, но мы упрощаем картину ради простоты понимания. Тогда один символ алфавита несет N информации. Если в тексте содержится K символов, общее количество информации, содержащейся в нем равно K N. Все достаточно просто!
Рассмотрим пример. В русском языке алфавит содержит 33 символа, добавим сюда знаки препинания, пробел, десять цифр, итого 54 знака. Значит, один символ несет 54=5.755 бит информации. В этом примере мы предположили, что все символы алфавита появляются в тексте с одинаковой вероятностью, что на самом деле является упрощением.
Алфавит
компьютера содержит 256 символов, заметим
256=2
.
Сделано это для того, чтобы иметь
возможность вводить тексты на разных
языках, вводить математические символы,
специальные символы. Тогда каждый символ
этого алфавита дает 8 бит. Это количество
информации получило свое название -
байт. В байтах легко подсчитывать объем
информации в любом тексте, достаточно
подсчитать число символов.
Более крупными единицами являются:
килобайт - 1 Кбайт = 2
байт = 1024 байт;
мегабайт - 1 Мбайт = 2 Кбайт = 1024 Кбайт;
гигабайт - 1 Гбайт = 2 Мбайт = 1024Мбайт.
Вспомним, что каждому символу компьютерного алфавита соответствует двоичный код. Для нашего случая это 8-и разрядный двоичный код [существуют и 16-и разрядные коды]. И совпадение это не случайное - разрядность двоичного кода равна его информационной емкости. Действительно, т. к. знаков в двоичном алфавите только 2, по формуле Хартли выходит, что I = log 2 2 равняется единице, а это значит, что, сколько знаков в двоичном коде, столько информации он и несет.