
Темы_1 / Тема_1
.docИнформация, данные, знания
Информация существует в трех видах: в виде данных (Data), собственно информации (Information) и знаний (Knowledge).
При компьютерной обработке информации исходные данные понимаются как данные, и должны быть представлены в форме, которую можно хранить, обрабатывать, передавать.
Данные – зафиксированные наблюдения, которые в данный момент времени не оказывают воздействия на принятие решения.
Данные обычно представлены в форме, которая позволяет использовать их для компьютерной обработки и передачи, то есть, закодированы, могут храниться.
Примеры данных: словарь – упорядоченный набор текстовых данных, энциклопедия – упорядоченный набор данных, произвольный текст (статья, конспект).
Из данных можно извлечь информацию.
Информация – это обработанные данные, которые представлены в виде, пригодном для принятия получателем решения.
Примеры информации: извлеченное из словаря толкование слова, извлеченное из энциклопедии значение термина.
Информацией является содержание, значение данных, или факты, которые используются для принятия решения.
Знания – факты, сообщения об окружающей среде, процедуры и правила манипулирования фактами, а также информация о том, когда и как следует применять эти процедуры и правила.
В целом, знания – это проверенный практикой результат познания действительности, вид информации, которая отображает знания человека, специалиста в предметной области.
Знания различаются: есть декларативные (факты) и процедурные (правила). Декларативные, это знания об определенных явлениях, событиях, свойствах объектов («Я знаю, что…»). Процедурные, это знания о действиях, которые нужно предпринять для достижения какой-либо цели («Я знаю, как…»).
Отличия знаний от данных
1. Интерпретация. Хранимые данные могут быть интерпретированы только человеком или программой. Данные не несут информации. Знания содержат как данные, так и их описание (правила интерпретации).
2. Наличие связей классификации. Данные не имеют эффективного описания связей между различными типами данных. Знания структурированы, так как можно установить соответствие между единицами знаний.
3. Наличие ситуационных связей. Связи описывают множество текущих ситуаций объекта. Данные трудно поддаются анализу. Из структуры и состава знаний по ситуации возможно построение процедур анализа знаний.
Подходы к определению количества информации (способы измерения информации)
В теории информации доказано, что информация допускает количественную оценку, то есть может быть измерена объективно.
Очевидно, что для этого нужно сделать допущения: в определенных условиях можно пренебречь качественными особенностями информации. Тогда количество информации может быть измерено числом, следовательно, можно сравнить количество информации, содержащейся в различных сообщениях.
Получение информации означает ее увеличение, и одновременно означает уменьшение незнания или информационной неопределенности.
Существуют три способа измерения информации.
1. Содержательный подход.
2. Алфавитный подход.
3. Вероятностный подход.
1. Содержательный подход
Количество информации, заключенное в сообщении, определяется объемом знаний, которое оно несет приемнику информации (получающему человеку).
Американский инженер Р. Хартли в 1928 г. процесс получения информации рассматривал как выбор одного сообщения из конечного, наперёд заданного, множества из N равновероятных сообщений, а количество информации I, содержащееся в выбранном сообщении, определял как двоичный логарифм N.
Формула Хартли: I = log2N
Пример. В лотерейном барабане 32 шара. Сколько информации содержит сообщение о первом выпавшем номере?
Решение.
Выпадение любого из шаров равновероятно. Поэтому количество информации о первом выпавшем номере можно найти из уравнения
2I = 32
Отсюда I = 5.
Примеры равновероятных сообщений:
а) при бросании монеты выпал орел или решка;
б) на странице книги: количество букв чётно или нечётно.
Примеры не равновероятных сообщений.
Для сообщения «первой выйдет из дверей здания женщина» или «первым выйдет из дверей здания мужчина» значение зависит от того, о каком здании идет речь. Если это станция метро, то вероятность выйти из дверей первым одинакова для мужчины и женщины. А если это военная казарма? А если это женская консультация?
2. Алфавитный подход
Позволяет определить количество информации, заключенной в тексте.
Пусть i – количество информации, которое несет один символ, вычисляется по формуле:
i = log2N,
где N – мощность данного алфавита, количество символов в нем.
Тогда количество информации во всем тексте I может быть определено как
I = i * K,
где К – количество символов в тексте.
Пример. Книга, набранная на компьютере, имеет 150 страниц, на странице 40 строк, в каждой строке 60 символов. Каков полный объем информации?
Решение. Мощность компьютерного алфавита равна 256. Один символ несет один байт информации. Объем всей информации:
150 * 40 * 60 = 360 000 байт.
3. Вероятностный подход
Определяет количественную связь между вероятностью появления некоторого события (р) и количеством информации в сообщении о наступлении этого события, учитывающую возможную неодинаковую вероятность сообщений в наборе:
i = log2(1/p).
Для задач такого рода американский учёный Клод Шеннон предложил в 1948 г. следующую формулу определения количества информации:
I = – ( p1 log2 p1 + p2 log2 p2 + . . . + pN log2 pN),
где pi – вероятность наступления i – го события из набора, в котором может быть N событий.
Заметим, что при равных вероятностях p1, ..., pN, каждая из них равна 1/N, и формула Шеннона превращается в формулу Хартли.
Пример. В коробке 50 шаров: 40 белых и 10 черных. Определить количество информации в сообщении о том, что при первой попытке выбран черный шар.
Решение.
Вероятность попадания при выборе черного шара p = 10/50 = 0,2.
Количество информации
i = log2(1/0,2) = log25=2,32.
Обобщенный пример. В алфавите 4 буквы (А,В,С,D), один знак препинания «.» и один разделитель (пробел). В тексте 10000 знаков, из них:
букв A – 4000,
букв B – 1000,
букв C – 2000,
букв D – 1500,
точек – 500,
пробелов – 1000.
Какой объем информации в тексте?
Если считать, что частотный алфавит определен для любого текста на этом языке, то можно найти вероятность каждого символа текста и его информационный вес:
A: 4000/10000 = 0,4; iA = log2(1/0,4) = 1,32;
B: 1000/10000 = 0,1; iB = log2(1/0,1) = 3,19;
C: 2000/10000 = 0,2; iC = log2(1/0,2) = 2,32;
D: 1500/10000 = 0,15; iD = log2(1/0,15) = 2,73;
точка: 500/10000 = 0,05; iточка = log2(1/0,05) = 4,32;
пробел: 1000/10000 = 0,1; iпробел = log2(1/0,1) = 3,19.
Общий объем информации в книге вычисляется по формуле суммы произведений информационного веса каждого символа на число повторений этого символа:
I = iA*nA + iB*nB + iC*nC + iD*nD + iточка* nточка + iпробел* nпробел =
1,32 * 4000 + 3,19 * 1000 + 2,32 * 2000 + 2,73 * 1500 + 4,32 * 500 + 3,19 * 1000 = 22841,84 бита.
Вопросы для самопроверки
1. Какие существуют способы для измерения информации?
2. В каких случаях можно вычислить количество информации, содержащейся в сообщении?
3. Почему в вероятностных формулах за основание логарифма взято число 2?
4. При каком условии формула Шеннона переходит в формулу Хартли?
5. Что определяет термин «бит» в теории информации и в вычислительной технике?
6. Приведите примеры сообщений, содержащих один (два, три) бит информации.
Упражнения
1. Сколько информации в сообщении о том, что на светофоре горит красный цвет.
2. Пусть голосуют 3 человека (голосование "да"/"нет"). Запишите все возможные исходы голосования, сколько из них победных?
3. Поезд находится на одном из восьми путей. Сколько бит информации содержит сообщение о том, где находится поезд?
4. Сколько существует различных двоичных последовательностей из одного, двух, трех, четырёх, восьми символов?
5. Каков информационный объём сообщения "Хакер Вася молодец" при условии, что один символ кодируется одним байтом и соседние слова разделены одним пробелом?
6. Определите приблизительно информационный объём:
а) одной страницы книги;
б) поздравительной открытки.
7. Сколько бит необходимо, чтобы закодировать четыре значения оценок: «неудовлетворительно», «удовлетворительно», «хорошо» и «отлично»?
8. Сколько различных символов, закодированных байтами, содержится в сообщении: 11010011 00011100 11010011 00011100 01010111 ?
9. Сколько байт памяти необходимо, чтобы закодировать изображение на экране монитора, который может отображать 1280 точек по горизонтали и 1024 точек по вертикали при 256 цветах?
10. При угадывании целого числа в диапазоне от 1 до N получено 7 бит информации. Чему равно N?
11. Решите уравнение: 8x (бит) = 32 (Кбайт).