Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Информационные технологии Колтыгин.doc
Скачиваний:
0
Добавлен:
01.03.2025
Размер:
882.69 Кб
Скачать

3.3Количество информации

Как стало понятно из вышеизложенного, практически невозможно точно вычислить или измерить количество информации, поскольку невозможно точно определить границы понятия информации. Тем не менее, существует несколько подходов к оценке количества информации. Среди них выделяют:

  1. Статистический;

  2. Семантический;

  3. Прагматический;

  4. Структурный подходы.

Исторически наибольшее развитие получил статистический подход.

3.3.1Статистический подход

Основоположником статистического подхода к определению количества информации считают «дедушку теории информации» Клода Шеннона. Им было введено понятие количества информации как меры неопределенности состояния системы, снижаемой при получении информации. Т.е. приращение или убыль информации о системе рассматривалась как функция энтропии системы [2]. Таким образом, чем больше информации о системе приходит к получателю информации, тем меньше степень неопределенности и энтропия системы уменьшается.

До получения информации о системы Х наблюдатель обладает некоторой предварительной информацией о ней. Оставшаяся неосведомленность о системе и есть для него мерой неопределенности (энтропией) системы. Тогда, после получения некой информации (сообщения) о системе энтропия системы должна уменьшится, и количество информации полученной наблюдателем, можно будет посчитать по формуле:

I(X)=H(X)-H’(X) (1)

где I(X) – количество преобретенной информации о системе Х,

H(X) и H’(X) – энтропия системы до и после получения сообщения.

Если система Х переходит из состояние в состояние скачкообразно, количество этих состояний равно N, а вероятность нахождения системы в каждом из этих состояний – Р1, P2, … , Pn (причем и Pi≤1), то энтропия системы определяется в соответствии с теоремой Шеннона:

(2)

где K0 и a определяют систему единиц измерения количества информации.

Отсюда, если вероятности нахождения системы в одном из состояний равны между собой (Pi=1/N), энтропия системы равна:

(3)

Если система имеет только два состояния (N=2), то мы можем говорить что, если принять полную определенность в состоянии системы за 1, и учесть что при этом энтропия будет количественно равна информации о системе Н=I, что вытекает из формулы 1, то

1=Kologa2. (4)

Действительно, если полная определенность системы возникает при Н’(X)=0, то I(X)=H(X).

Формула 4 справедлива, если K0=1, а a=2. Отсюда вытекает формула, предложенная американским инженером Р. Хартли (1928 г.) и носящая его имя.

Формула Хартли:

I = log2N. (5)

Эта формула может считаться краеугольным камнем информационных технологий, поскольку все понятия о количестве информации, которой оперируют вычислительные машины и средства связи вытекают из нее.

Информация о состоянии системы передается получателю в виде сообщения, представляющего собой набор m символов, имеющих n разрядов, если код не избыточен, то каждое состояние системы будет отображаться одной кодовой комбинацией, их количество равно:

N=mn (6)

Подставив N в формулу 5 получаем

I=nlog2m (7)

Если код двоичен, то используется лишь два символа («0» или «1», «да» или «нет», «истина» или «ложь» и т.п.), т.е. m=2, отсюда I=n. В этом случае единица информации состоит из n двоичных единиц или битов (bit – binary digit двоичная единица).

Бит в теории информации — количество информации, необходимое для различения двух равновероятных сообщений.

В вычислительной технике битом называют наименьшее количество памяти, необходимое для хранения одного из двух знаков «0» и «1», используемых для внутримашинного представления данных и команд.

На практике чаще применяется более крупная единица — байт, равная восьми битам. Именно восемь битов требуется для того, чтобы закодировать любой из 256 символов алфавита клавиатуры компьютера (256=28).

Широко используются также ещё более крупные производные единицы информации:

1 Килобайт (Кбайт) = 1024 байт = 210 байт,

1 Мегабайт (Мбайт) = 1024 Кбайт = 220 байт,

1 Гигабайт (Гбайт) = 1024 Мбайт = 230 байт.

В последнее время в связи с увеличением объёмов обрабатываемой информации входят в употребление такие производные единицы, как:

Терабайт (Тбайт) = 1024 Гбайт = 240 байт,

Петабайт (Пбайт) = 1024 Тбайт = 250 байт.

Если в формуле Хартли изменить основание 2 на 10 то мы будем иметь дело с десятичными единицами информации, т.н. дитами, если на число е то с натами. Переход от основания a к основанию b требует лишь умножения на .

Например

, т.е. 1 дит примерно равен 3,32 битам.