2. Свойства информации
Так как информация является динамическим объектом, то как всякий объект она обладает свойствами. Можно привести немало разнообразных свойств информации. С точким зрения информатики наиболее важными представляются следующие свойства:
Адекватность информации — это уровень соответствия образа, создаваемого с помощью информации, реальному объекту, процессу, явлению. От степени адекватности информации зависит правильность принятия решения.
Содержательность, определяет отношение количества семантической информации в сообщении к общему объему данных. Семантическая информация – это информация, которой придаётся определённый смысл.
Полнота требует, чтобы информация содержала минимально необходимый объем данных позволяющих принять правильное решение. Как неполная, так и избыточная информация сдерживает принятие решений или может повлечь ошибки.
Доступность требует, чтобы информационное сообщение было предоставлено пользователю в максимально понятной для него форме, что достигается выполнением соответствующих процедур его получения и преобразования.
Актуальность информации означает ее поступление не позже заранее оговоренного срока, который определяется исходя из условий решения поставленной задачи.
Достоверность информации определяется ее свойством отражать реально существующие объекты с необходимой точностью. Недостоверная информация может привести к неправильному пониманию или принятию неправильных решений. Достоверная информация со временем может стать недостоверной, так как она обладает свойством устаревать.
Устойчивость информации отражает ее способность реагировать на изменение исходных данных без нарушения необходимой точности.
3. Измерение информации
Информация обладает замечательным свойством: будучи собранной и обработанной с определенных позиций, информация дает новые сведения, приводит к новым знаниям. Однако, человеку свойственно субъективное восприятие информации. Поэтому одно и то же информационное сообщение может содержать разное количество информации для разных людей — в зависимости от их предшествующих знаний, от уровня понимания этого сообщения и интереса к нему.
Так, сообщение, составленное на японском языке, не несёт никакой новой информации человеку, не знающему этого языка, но может быть высокоинформативным для человека, владеющего японским. Никакой новой информации не содержит и сообщение, изложенное на знакомом языке, если его содержание непонятно или уже известно. Следовательно, должна существовать возможность измерения информации.
В настоящее время получили распространение подходы к определению понятия "количество информации", основанные на том, что информацию, содержащуюся в сообщении, можно нестрого трактовать в смысле её новизны или, иначе, уменьшения неопределённости наших знаний об объекте.
Так, американский инженер Р. Хартли (1928 г.) процесс получения информации рассматривает как выбор одного сообщения из конечного наперёд заданного множества из N равновероятных сообщений, а количество информации I, содержащееся в выбранном сообщении, определяет как двоичный логарифм N.
Формула Хартли: I = log2N. |
Допустим, нужно угадать одно число из набора чисел от единицы до ста. По формуле Хартли можно вычислить, какое количество информации для этого требуется: I = log2100 » 6,644. То есть сообщение о верно угаданном числе содержит количество информации, приблизительно равное 6,644 единиц информации.
Приведем другие примеры равновероятных сообщений:
при бросании монеты: "выпала решка", "выпал орел";
на странице книги: "количество букв чётное", "количество букв нечётное".
Определим теперь, являются ли равновероятными сообщения "первой выйдет из дверей здания женщина" и "первым выйдет из дверей здания мужчина". Однозначно ответить на этот вопрос нельзя. Все зависит от того, о каком именно здании идет речь. Если это, например, станция метро, то вероятность выйти из дверей первым одинакова для мужчины и женщины, а если это военная казарма, то для мужчины эта вероятность значительно выше, чем для женщины.
Для задач такого рода американский учёный Клод Шеннон предложил в 1948 г. другую формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе.
Ф
ормула
Шеннона:
Если pi <=1, то pi log2 pi <=0
Pi =0, то pi log2 pi =0
где Pi — вероятность того, что система находится в i-м состоянии. В случае, когда все состояния системы равновероятны p1, ..., pN , то каждая из них равна 1/N и формула Шеннона превращается в формулу Хартли.
Т
аким
образом, если объект будет находиться
в одном из двух равновероятных состояниях,
то по формуле Хартли количество информации
будет равно 1.
I=log 2 2=1
Это количество информации принято за единицу измерения информации, называемую битом или двоичной единицей (bit – binary digit). Таким образом, один бит – это минимальное количество информации, посредством которого выделяется одно из двух равновероятных состояний объекта.
В вычислительной технике битом называют ячейку памяти, которая может находиться в двух состояниях (“включено” и “выключено”) и в неё может быть записана одна двоичная цифра (0 или 1).
Бит — слишком мелкая единица измерения. На практике чаще применяется более крупная единица — байт, равная восьми битам. Именно восемь битов требуется для того, чтобы закодировать любой из 256 символов алфавита клавиатуры компьютера (256=28).
Широко используются также ещё более крупные производные единицы информации:
1 Килобайт (Кбайт) = 1024 байт = 210 байт,
1 Мегабайт (Мбайт) = 1024 Кбайт = 220 байт,
1 Гигабайт (Гбайт) = 1024 Мбайт = 230 байт.
В последнее время в связи с увеличением объёмов обрабатываемой информации входят в употребление такие производные единицы, как:
1 Терабайт (Тбайт) = 1024 Гбайт = 240 байт,
1 Петабайт (Пбайт) = 1024 Тбайт = 250 байт.
За единицу информации можно было бы выбрать количество информации, необходимое для различения, например, десяти равновероятных сообщений. Это будет не двоичная (бит), а десятичная (дит) единица информации.
Пример 1 Важно иметь представление, сколько информации может вместить килобайт, мегабайт или гигабайт. При двоичном кодировании текста каждый символ занимают 1 байт. На странице книги среднего формата примерно 50 строк, в каждой строке около 60 символов, таким образом, полностью заполненная страница имеет объём 50 x 60 = 3000 байт ≈3 Килобайта. Вся книга среднего формата занимает ≈ 0,5 Мегабайт. Один чёрно-белый кадр содержит примерно 300 Кб информации, цветной кадр содержит уже около 1 Мб информации. Телевизионный фильм продолжительностью 1,5 часа с частотой 25 кадров в секунду — 135 Гб
Для измерения смыслового содержания информации наибольшее распространение получила тезаурусная мера.
Тезаурус — это совокупность сведений, которыми располагает пользователь или система.
В зависимости от соотношений между смысловым содержанием информации S и тезаурусом пользователя Sp изменяется количество семантической информации Ic, воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус. Характер такой зависимости показан на рис. 2. Рассмотрим два предельных случая, когда количество семантической информации Ic равно 0:
• при Sp→0 пользователь не воспринимает, не понимает поступающую информацию;
• при Sp→ ∞ пользователь все знает, и поступающая информация ему не нужна.
IС
0 Sp opt Sp тезаурус (ТЗ)
Рис. 2. Зависимость количества семантической информации, воспринимаемой потребителем, от его тезауруса.
Максимальное количество семантической информации Ic потребитель приобретает при согласовании ее смыслового содержания S со своим тезаурусом Sp (Sp = Sp opt), когда поступающая информация понятна пользователю и несет ему ранее не известные (отсутствующие в его тезаурусе) сведения. Следовательно, количество семантической информации в сообщении, количество новых знаний, получаемых пользователем, является величиной относительной. Одно и то же сообщение может иметь смысловое содержание для компетентного пользователя и быть бессмысленным для пользователя некомпетентного. Относительной мерой количества семантической информации может служить коэффициент содержательности С, который определяется как отношение количества семантической информации к общему объему данных:
