- •Введение (1 час)
- •Лекция 1. Основные этапы развития информационного общества
- •Лекция 2. Виды профессиональной информационной деятельности человека
- •Лекция 3. Понятие информации
- •Лекция 4. Кодирование информации
- •Лекция 5. Измерение информации
- •Лекция 6. Системы счисления
- •Лекция 7. Перевод чисел в системах счисления
- •Лекция 8. Информация и моделирование
- •Лекция 9. Файловая система хранения, поиска и обработки информации
- •Лекция 10. Основы алгоритмизации
- •Лекция 11. Основные типы алгоритмических структур
- •Линейная конструкция
- •Разветвляющаяся конструкция
- •Циклическая конструкция
- •Лекция 12. Введение в язык программирования
- •Лекция 13. Архитектура компьютеров
- •Лекция 14. Программное обеспечение
- •Лекция 15. Логические основы компьютера
- •Лекция 16. Объединение компьютеров в локальную сеть
- •Лекция 17. Защита информации, антивирусная защита
- •Лекция 18. Текст как информационный объект
- •Лекция 19. Технология обработки тестовой информации
- •Лекция 20. Динамические (электронные) таблицы
- •Лекция 21. Встроенные функции в электронных таблицах
- •Лекция 22. Диаграммы и графики в электронных таблицах
- •Лекция 23. Базы данных
- •Лекция 24. Создание базы данных
- •Лекция 25. Технология обработки графической информации
- •Лекция 26. Компьютерные презентации
- •Лекция 27. Телекоммуникационные технологии
- •Лекция 28. Деятельность в локальных и компьютерных сетях
Лекция 5. Измерение информации
1. Подходы к измерению информации
При всем многообразии подходов к определению понятия информации, с позиций измерения информации нас интересуют два из них: определение К. Шеннона, применяемое в математической теории информации, и определение А. Н. Колмогорова, применяемое в отраслях информатики, связанных с использованием компьютеров.
В содержательном подходе возможна качественная оценка информации: новая, срочная, важная и т.д. Содержательный подход часто называют субъективным, так как разные люди (субъекты) информацию об одном и том же предмете оценивают по-разному.
Алфавитный подход основан на том, что всякое сообщение можно закодировать с помощью конечной последовательности символов некоторого алфавита. Алфавитный подход является объективным, т.е. он не зависит от субъекта, воспринимающего сообщение.
2. Единицы измерения информации
Единица измерения информации называется бит.
В компьютерной технике бит соответствует физическому состоянию носителя информации: намагничено - не намагничено, есть отверстие - нет отверстия. При этом одно состояние принято обозначать цифрой 0, а другое - цифрой 1. Выбор одного из двух возможных вариантов позволяет также различать логические истину и ложь. Последовательностью битов можно закодировать текст, изображение, звук или какую-либо другую информацию. Такой метод представления информации называется двоичным кодированием. В информатике часто используется величина, называемая байтом и равная 8 битам. И если бит позволяет выбрать один вариант из двух возможных, то байт, соответственно, 1 из 256 (28). В большинстве современных ЭВМ при кодировании каждому символу соответствует своя последовательность из восьми нулей и единиц, т. е. байт. Соответствие байтов и символов задается с помощью таблицы, в которой для каждого кода указывается свой символ.
Наряду с байтами для измерения количества информации используются более крупные единицы:
1 Кбайт (один килобайт) = 210 байт = 1024 байта;
1 Мбайт (один мегабайт) = 210 Кбайт = 1024 Кбайта;
1 Гбайт (один гигабайт) = 210 Мбайт = 1024 Мбайта.
В последнее время в связи с увеличением объёмов обрабатываемой информации входят в употребление такие производные единицы, как:
1 Терабайт (Тб) = 1024 Гбайта = 240 байта,
1 Петабайт (Пб) = 1024 Тбайта = 250 байта.
Рассмотрим, как можно подсчитать количество информации в сообщении, используя содержательный подход.
Традиционно для кодирования одного символа используется количество информации, равное 1 байту, то есть I = 1 байт = 8 битов.
Для кодирования одного символа требуется 1 байт информации.
Если рассматривать символы как возможные события, то можно вычислить, какое количество различных символов можно закодировать:
N = 2I= 28 = 256 (формула Хартли).
При вычислении двоичных логарифмов чисел от 1 до 64 по формуле x=log2N поможет следующая таблица.
N |
x |
N |
x |
N |
x |
N |
x |
1 |
0,00000 |
17 |
4,08746 |
33 |
5,04439 |
49 |
5,61471 |
2 |
1,00000 |
18 |
4,16993 |
34 |
5,08746 |
50 |
5,64386 |
3 |
1,58496 |
19 |
4,24793 |
35 |
5,12928 |
51 |
5,67243 |
4 |
2,00000 |
20 |
4,32193 |
36 |
5,16993 |
52 |
5,70044 |
5 |
2,32193 |
21 |
4,39232 |
37 |
5,20945 |
53 |
5,72792 |
6 |
2,58496 |
22 |
4,45943 |
38 |
5,24793 |
54 |
5,75489 |
7 |
2,80735 |
23 |
4,52356 |
39 |
5,28540 |
55 |
5,78136 |
8 |
3,00000 |
24 |
4,58496 |
40 |
5,32193 |
56 |
5,80735 |
9 |
3,16993 |
25 |
4,64386 |
41 |
5,35755 |
57 |
5,83289 |
10 |
3,32193 |
26 |
4,70044 |
42 |
5,39232 |
58 |
5,85798 |
11 |
3,45943 |
27 |
4,75489 |
43 |
5,42626 |
59 |
5,88264 |
12 |
3,58496 |
28 |
4,80735 |
44 |
5,45943 |
60 |
5,90689 |
13 |
3,70044 |
29 |
4,85798 |
45 |
5,49185 |
61 |
5,93074 |
14 |
3,80735 |
30 |
4,90689 |
46 |
5,52356 |
62 |
5,95420 |
15 |
3,90689 |
31 |
4,95420 |
47 |
5,55459 |
63 |
5,97728 |
16 |
4,00000 |
32 |
5,00000 |
48 |
5,58496 |
64 |
6,00000 |
3. Вероятностный подход к измерению информации
Формулу для вычисления количества информации, учитывающую неодинаковую вероятность событий, предложил К. Шеннон в 1948 году. Количественная зависимость между вероятностью события р и количеством информации в сообщении о нем x выражается формулой: x=log2 (1/p). Качественную связь между вероятностью события и количеством информации в сообщении об этом событии можно выразить следующим образом - чем меньше вероятность некоторого события, тем больше информации содержит сообщение об этом событии.
Рассмотрим некоторую ситуацию. В коробке имеется 50 шаров. Из них 40 белых и 10 черных. Очевидно, вероятность того, что при вытаскивании "не глядя" попадется белый шар больше, чем вероятность попадания черного. Можно сделать заключение о вероятности события, которые интуитивно понятны. Проведем количественную оценку вероятности для каждой ситуации. Обозначим pч - вероятность попадания при вытаскивании черного шара, рб - вероятность попадания белого шара. Тогда: рч=10/50=0,2; рб40/50=0,8. Заметим, что вероятность попадания белого шара в 4 раза больше, чем черного. Делаем вывод: если N - это общее число возможных исходов какого-то процесса (вытаскивание шара), и из них интересующее нас событие (вытаскивание белого шара) может произойти K раз, то вероятность этого события равна K/N. Вероятность выражается в долях единицы. Вероятность достоверного события равна 1 (из 50 белых шаров вытащен белый шар). Вероятность невозможного события равна нулю (из 50 белых шаров вытащен черный шар).
Количественная зависимость между
вероятностью события р и количеством
информации в сообщении о нем x выражается
формулой:
.
В задаче о шарах количество информации
в сообщении о попадании белого шара и
черного шара получится:
.
Рассмотрим некоторый алфавит из m
символов:
и
вероятность выбора из этого алфавита
какой-то i-й буквы для описания
(кодирования) некоторого состояния
объекта. Каждый такой выбор уменьшит
степень неопределенности в сведениях
об объекте и, следовательно, увеличит
количество информации о нем. Для
определения среднего значения количества
информации, приходящейся в данном случае
на один символ алфавита, применяется
формула
.
В случае равновероятных выборов
p=1/m. Подставляя это значение в
исходное равенство, мы получим
Рассмотрим следующий пример. Пусть при бросании несимметричной четырехгранной пирамидки вероятности выпадения граней будут следующими: p1=1/2, p2=1/4, p3=1/8, p4=1/8, тогда количество информации, получаемое после броска, можно рассчитать по формуле:
Для симметричной четырехгранной пирамидки количество информации будет: H=log24=2(бит).
Заметим, что для симметричной пирамидки количество информации оказалось больше, чем для несимметричной пирамидки. Максимальное значение количества информации достигается для равновероятных событий.
