- •Информация и данные Информация Информация и формы её представления
- •Измерение информации
- •Информатика
- •Системы счисления Общие сведения о системах счисления
- •Позиционные системы счисления
- •Перевод чисел из одной системы счисления в другую
- •Перевод восьмеричных и шестнадцатеричных чисел в двоичную систему
- •Кодирование данных Кодирование данных двоичным кодом
- •Кодирование текста
- •Кодирование графических данных
- •Кодирование звуковой информации
- •Хранение данных Единицы хранения данных
- •Понятие о файловой структуре
- •Контрольные вопросы и задания
- •Приложение. Кодовые таблицы Кодировка ibm – соответствует кодировке ascii
- •Кодировка Windows
- •Альтернативная кодировка госТа
Измерение информации
Оценка информации может быть качественная (полезная, вредная, важная и т.п.) и количественная. Количество информации, заключённое в сообщении, определяется объёмом знаний, который несёт это сообщение. Так как человеку свойственно субъективное восприятие информации, то одно и то же сообщение разными людьми будет оценено по-разному. Например, сообщение о том, что прибытие поезда задерживается пассажирами поезда, машинистом, диспетчером, встречающими и ожидающими посадки пассажирами содержит разный объём информации. Сообщение о том, что поезд задерживается, так как на разъезде ожидает прохождения спецсостава, для диспетчера содержит больше информации, чем для пассажиров. При субъективном восприятии возможна оценка только на уровне «больше» или «меньше».
Для объективной оценки информации используют такую характеристику как количество. Следует иметь в виду, что при объективном измерении количества информации субъективные свойства не учитываются. Кроме того, получаемый результат зависит от того, как введены единицы измерения.
Единицы измерения количества информации
Существуют два основных подхода к определению понятия «количество информации»: вероятностный и объёмный. В конце 1940 гг. один из основоположников кибернетики американский математик Клод Шеннон развил вероятностный подход к измерению количества информации, а работы по созданию ЭВМ привели к объемному подходу.
Единица измерения количества информации называется bit, но вводится это понятие в вероятностном и объёмном подходах по-разному.
Вероятностный подход
Дать определение количества информации невозможно без рассмотрения понятия неопределенности состояния системы (энтропии системы). Действительно, получение информации о какой-либо системе всегда связано с изменением степени неосведомленности получателя о состоянии этой системы.
Введем в рассмотрение численную величину, измеряющую неопределенность – энтропию Н. Если в системе возможны N событий, то величины N и Н связаны между собой некоторой функциональной зависимостью:
H = f(N).
До выполнения опыта результат неизвестен, т.е. имеется некоторая неопределенность Н1. Обозначим неопределенность данного опыта после его выполнения Н2. За количество информации I, которое получено в ходе осуществления опыта, примем разность неопределенностей до и после опыта:
I = Н1- Н2.
Как только получен конкретный результат, имевшаяся неопределенность снята (Н2=0), количество полученной информации совпадает с первоначальной энтропией (I = Н). Иначе говоря, неопределенность, заключённая в опыте, совпадает с информацией об исходе этого опыта.
I = f(N).
Впервые вероятностный подход оценки сообщений был предложен в 1928 г. американским инженером Р. Хартли. Формула Хартли имеет вид:
I = log2 N,
где N – количество равновероятных событий;
I – количество информации в сообщении.
Смысл этой формулы заключается в том, что если имеется множество N равновероятных событий, то выбору (однозначной идентификации) одного события соответствует количество информации, равное log2 N.
При N = 2 количество информации будет равно единице. Таким образом, в качестве единицы принимается количество информации, связанное с проведением опыта, состоящего в получении одного из двух равновероятных исходов (примером такого опыта может служить бросание монеты, при котором возможны два исхода: «орел» и «решка»). Такая единица количества информации называется бит.
Сообщение, уменьшающее неопределённость знаний в два раза несёт 1 бит информации.
За меру энтропии (количества информации) при неравновероятных исходах принимается формула Шеннона:
Н= – (P1 log2P1+ P2 log2P2+…+PN log2Pn),
где Pi – вероятность того, что система находится в i-том состоянии. Вероятности Pi могут быть различны.
Если все состояния системы равновероятны, то их вероятности равны Pi=1/N. На долю каждого исхода приходится одна N-я часть общей неопределенности опыта. Энтропия определяется формулой Хартли, которую можно рассматривать как частный случай формулы Шеннона:
При равновероятных событиях получаемое количество информации максимально.
Пусть в сообщении содержатся сведения о том, что произошло одно из N равновероятных событий. Тогда заключённое в этом сообщении количество информации H и N связаны соотношением
2H =N, H =log2 N
Если N равно целой степени 2 (2, 4, 8, 16, 32, 64, 128, 256, 512, 1024,…), то уравнение H =log2 N легко решить в уме.
Пример 1.1. Подбрасывание монеты. Количество вариантов – 2 (орёл/решка).
N=2 2 H =2 H =1
Вывод: сообщение об одном событии из двух равновероятных несёт 1 бит информации.
Пример 1.2. В барабане для розыгрыша лотереи находится 32 шара. Сколько информации содержит сообщение о первом выпавшем номере?
N=32 2H=32 25=32 H=5
Ответ: 5 бит.
Пример 1.3. При игре в кости используется кубик с 6 гранями. Выпадение каждой грани равновероятно. Сколько бит информации получает игрок при каждом бросании кубика?
N=6 2H=6 H=log2 6 H=2,585
Ответ: 2,585 бит.
Пример 1.4. Группа школьников пришла в бассейн, в котором 4 дорожки. Тренер сообщил, что группа будет плавать по дорожке номер 3. Сколько информации получили школьники?
N=4 2H=4 22=4 H=2
Ответ: 2 бита.
Пример 1.5. В библиотеке 16 стеллажей, на каждом стеллаже 8 полок. Какое количество информации содержит сообщение, что книга находится на пятом стеллаже на третьей сверху полке?
N=168=128 2H=128 27=128 H=7
Ответ: 7 бит.
Пример 1.6. «Угадай число». Задумано число в диапазоне от 0 до 3. Требуется:
определить, какое количество информации необходимо получить, чтобы угадать число (полностью снять начальную неопределённость);
определить задуманное число, если можно высказывать предположения (задавать вопросы) и получать в качестве ответов «да» или «нет».
Всего возможно 4 равновероятных исходов: 0, 1, 2, 3. Вероятность каждого исхода равна 1/4. По формуле Хартли получаем:
I=log2 4 I=H=2
Итак, для полного снятия неопределённости необходимо 2 бита информации.
Разработаем стратегию действий для определения задуманного числа за минимальное число шагов.
Для решения задачи оказалось достаточно задать два вопроса. Совпадение количества информации с числом вопросов с бинарными ответами не случайно.
Количество информации численно равно числу вопросов с равновероятными бинарными вариантами ответов, которые необходимо задать, чтобы полностью снять неопределенность задачи.
Пример 1.7. «Угадай число». Задумано число в диапазоне от 1 до 100. Сколько вопросов необходимо задать, чтобы отгадать число?
По формуле Хартли получаем:
I=log2 100 I=H 6,644
То есть сообщение о верно угаданном числе содержит приблизительно равное 6,644 единиц информации. Следовательно, какое бы ни было задумано число, достаточно семи вопросов с бинарными ответами, чтобы угадать число. Стратегия действий сводится к проверке числа, расположенного посередине текущего диапазона.
Объемный подход
Компьютер работает с цифровой информацией, представленной в двоичном коде. В вычислительной технике битом (от английского binary digit – двоичные цифры) называют один двоичный разряд памяти компьютера, который может принимать значение 0 или 1. Бит – это наименьшая единица представления информации в компьютере.
Объёмный подход связывает количество информации с числом знаков в дискретном сообщении.
Рассмотрим алфавит, состоящий из двух знаков: 0 и 1. Если считать, что знаки 0 и 1 встречаются одинаково часто (имеют одинаковые вероятности появления), то Р(0) = Р(1) = 0,5, и количество информации на один знак при двоичном кодировании будет равно
H=log22= 1 бит.
Таким образом, количество информации (в битах), заключенное в двоичном слове, равно числу двоичных знаков в нем.
При использовании объёмного подхода к измерению количества информации часто используют термин объем данных Vд.
Объём данных в сообщении измеряется количеством символов (разрядов) в этом сообщении. Так как информация может быть представлена числовыми кодами в разных системах счисления, то одно и то же количество разрядов в разных системах счисления может передать разное число состояний N отображаемого объекта:
N=mn,
где N – число всевозможных отображаемых состояний;
т – число символов в алфавите (основание системы счисления);
п – число разрядов (символов) в сообщении.
В различных системах счисления один разряд имеет различный вес и соответственно меняется единица измерения данных:
в двоичной системе счисления единица измерения – бит;
в десятичной системе счисления единица измерения – дит (десятичный разряд).
Группа из восьми битов называется байтом. Байт – основная единица информации. Широко используются более крупные производные единицы: килобайт (кбайт, кб), мегабайт (Мбайт, Мб) и гигабайт (Гбайт, Гб). В последнее время в связи с увеличением объёмов обрабатываемой информации входят в употребление такие производные единицы, как терабайт (Тбайт), петабайт (Пбайт).
1 кб = 1024 байт = 210 байт,
1 Мб = 1024 Кбайт = 220 байт,
1 Гб = 1024 Мбайт = 230 байт,
1 Тбайт = 1024 Гбайт = 240 байт,
1 Пбайт = 1024 Тбайт = 250 байт.
Между вероятностным и объемным количеством информации соотношение неоднозначное. Далеко не всякий текст, записанный двоичными символами, допускает измерение объема информации в кибернетическом смысле, но заведомо допускает его измерение в объёмном смысле. Если для некоторого сообщения возможно измерение количества информации в обоих смыслах, то они не обязательно совпадают, но при этом кибернетическое количество информации не может быть больше объёмного.
Пример 1.8. Найти объём данных сообщения 10111011 в двоичной системе.
Так как количество разрядов в сообщении равно 8, то объем данных равен Vд=8 бит.
Пример 1.9. Сообщение в десятичной системе представлено в виде числа 275903. Найти объём сообщения.
Шестиразрядное общение в десятичной системе имеет объем данных Vд=6 дит.
Пример 1.10. По каналу связи передаётся n-разрядное сообщение, использующее т различных символов, вероятности появления разных символов одинаковы. Найти количество информации и объём сообщения.
Так как количество всевозможных кодовых комбинаций будет N=mn, то по формуле Хартли получим:
I = log N = log mn,
I = n log m.
Если в качестве основания логарифма принять т, то I = n. В данном случае количество информации (при условии полного априорного незнания абонентом содержания сообщения) будет равно объему данных I=Vд, полученных по каналу связи. Для неравновероятных состояний системы всегда I<Vд.
Пример 1.11. Метеорологическая станция ведёт наблюдение за влажностью воздуха. Результатом одного измерения является целое число от 0 до 100%, которое записывается при помощи минимально возможного количества бит. Станция сделала 80 измерений. Определить информационный объём результатов наблюдений.
Всего возможно 101 значение влажности N=101. По формуле Хартли
I = log2 101 2I =101 26 = 64 27 = 128
Значение I не будет целочисленным. Не вычисляя его, найдём округлённое в большую сторону значение. Число 128 – это ближайшее к 101 большее значение целой степени двойки. Принимаем I = 7, то есть для записи любого измерения достаточно 7 двоичных разрядов. Учитывая, что было сделано 80 измерений, общий информационный объём равен
80 7 = 560 бит = 70 байт
Другие подходы к оценке информации
При анализе информации на первый план могут выступить такие ее свойства, как истинность, своевременность, ценность, полнота и т.д. Их невозможно оценить ни уменьшением неопределенности (вероятностный подход), ни числом символов (объёмный подход). Обращение к качественной стороне информации породило иные подходы к ее оценке. При аксиологическом подходе стремятся исходить из ценности, практической значимости информации, т.е. качественных характеристик, значимых в социальной системе.
При семантическом подходе информация рассматривается с точки зрения как формы, так и содержания. Для измерения смыслового содержания информации наибольшее признание получила тезаурусная мера. При этом информацию связывают с тезаурусом, т. е. полнотой систематизированного набора данных о предмете информации.
Тезаурус – это систематизированный набор данных о некоторой области знаний, представленный в виде ключевых слов (дескрипторов), соотнесённых между собой по каким-либо семантическим параметрам. Тезаурус позволяет ориентироваться в соответствующей области знаний.
Тезаурусная мера связывает семантические свойства информации со способностью пользователя принимать поступившее сообщение. Для этого используется понятие тезаурус пользователя – совокупность сведений, которыми располагает пользователь или система.
В зависимости от соотношений между смысловым содержанием информации S и тезаурусом пользователя Sp изменяется количество семантической информации Ic, воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус. Количество семантической информации Ic равно 0 при Sp= 0 (пользователь не воспринимает, не понимает поступающую информацию) и если Sp соответствует случаю, когда пользователь всё знает, и поступающая информация ему не нужна.
Максимальное количество семантической информации Ic потребитель приобретает при согласовании ее смыслового содержания S со своим тезаурусом Sp (Sp = Sp opt), когда поступающая информация понятна пользователю и несёт ему ранее не известные (отсутствующие в его тезаурусе) сведения.
Следовательно, количество семантической информации в сообщении, количество новых знаний, получаемых пользователем, является величиной относительной. Одно и то же сообщение может иметь смысловое содержание для компетентного пользователя и быть бессмысленным (семантический шум) для пользователя некомпетентного.
Аксиологический и семантический подходы не исключают количественного анализа, но он становится существенно сложнее.
