Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
26
Добавлен:
17.03.2016
Размер:
113.66 Кб
Скачать
  1. Меры количества информации

Для измерения синтаксической информации вводятся два параметра: количество информации I и объем данных Vд.

Эти меры информации оперирует с обезличенной информацией, не выражающей смыслового отношения к объекту.

ОБЪЕМ ДАННЫХ Vд в сообщении измеряется количеством символов (разрядов) в этом сообщении. В различных системах счисления один разряд имеет различный вес и соответственно меняется единица измерения данных:

в двоичной системе счисления единица измерения - бит (англ. bit – сокращение от binary digit - двоичный разряд);

Группа из 8 битов называется байтом. Если бит – минимальная единица объема данных, то байт его основная единица. Существуют производные единицы объема: килобайт (Кбайт, Кб), мегабайт (Мбайт, Мб) и гигабайт (Гбайт, Гб).

1 Кб = 210 (1024) байтов. 1Мб = 210 Кбайтов = 1’048’576 байтов. 1Гб = 210 Мбайтов = 1’073’741’824 байтов. Эти единицы чаще всего используются для указания объёма памяти ЭВМ.

В десятичной системе счисления единица измерения – дит (десятичный разряд).

Пример 2.3. Сообщение в двоичной системе в виде восьмиразрядного двоичного кода 10111011 имеет объем данных Vд=8 бит=1 байт.

Сообщение в десятичной системе в виде шестиразрядного числа 275903 имеет объем данных Vд=6 дит.

Количество информации на синтаксическом уровне невозможно определить без рассмотрения понятия неопределенности состояния источника информации (в качестве которого может выступать некоторый объект, процесс, явление или система). Эту меру неопределенности в теории информации называют энтропией системы.

Действительно, получение информации о какой-либо системе всегда связано с изменением степени неосведомленности получателя о состоянии этой системы, а неопределенность сведений, знаний об источнике поддается измерению.

Пример 2.4. Сообщение об имени победившего на выборах президента, если было всего два кандидата, несет меньшее количество информации по сравнению со случаем, если бы выборы происходили в конкурентной борьбе пяти кандидатов.

Количество получаемой информации определяется как мера устранения неопределенности состояния источника.

Рассмотрим это понятие.

Пусть до получения информации потребитель имеет некоторые предварительные (априорные) сведения об источнике U. Мерой его неосведомленности о нем является функция H(U), которая в то же время служит и мерой неопределенности состояния источника (энтропии источника).

После получения некоторого сообщения w получатель приобрел некоторую дополнительную информацию Iw(U), уменьшившую его априорную неосведомленность так, что апостериорная (после получения сообщения w) неопределенность состояния источника стала Hw(U).

Тогда количество информации Iw(U) об источнике, полученной в сообщении w, определится как

Iw(U) = H(U) – Hw(U), (1.1)

т.е. количество информации измеряется изменением (уменьшением) неопределенности состояния источника.

Если конечная неопределенность Hw(U) обратится в нуль, то первоначальное неполное знание заменится полным знанием и количество информации Iw(U)=H(U). Иными словами, энтропию источника H(U) можно рассматривать и как меру количества информации, получаемой от источника при полном устранении неопределенности относительно его состояния.

Попытаемся рассмотреть один из простейших подходов к определению энтропии источника и количества информации. Представим себе источник информации (сообщений), который в каждый момент времени случайным образом может принять одно из конечного множества возможных состояний. Такой источник называют дискретным источником информации.

Обозначим этот источник информации также через U={u1, u2,…,uN}, где N – число возможных состояний источника. Введем меру неопределенности выбора источником своего состояния. Рассуждать будем следующим образом.

Если априорно известно, в каком состоянии находится источник информации, то неопределенность выбора отсутствует, и количество принятой информации равно нулю. Чем больше возможностей выбора, т.е. чем больше число возможных состояний источника N, тем больше неопределенность выбора, а значит, тем больше информации содержится в сигнале о конкретном состоянии источника.

Все эти условия легко учитываются, если в качестве меры неопределенности источника с ансамблем U принять логарифм числа состояний:

Указанная мера неопределенности, (а значит, и мера количества информации I=H(U)), была предложена американским ученымР. Хартли (R. Hartley) в 1928 г. Основание логарифма не имеет принципиального значения и определяет только единицу неопределенности (или единицу количества информации). Так как современная информационная техника базируется на элементах, имеющих два устойчивых состояния (триггеры, полупроводниковые вентили, ферритовые кольца с прямоугольной петлей гистерезиса), то обычно выбирают основание логарифма равным 2. При этом единица неопределенности и информации также называется двоичной единицей или битом и представляет собой неопределенность, заключенную в выборе одного из двух равновероятных (равночастотных) событий.

Таким образом, формула (1.2) говорит о том, что для снятия неопределенности в ситуации из двух равновероятных событий необходим 1 бит информации, при неопределенности, состоящей из четырех событий, достаточно 2-х бит информации, чтобы угадать искомый факт и т.д. Другие примеры 2.5-2.7: лототрон, содержащий 32 шара при выборе конкретно шара дает информацию равную 5 бит, кубик с 6-ью гранями – 2,585 бит, появление конкретной буквы в тексте с 256 различными символами – не более 8 бит.

Легко заметить, что предложенная мера рассчитана на слишком грубую модель источника информации, приписывающую всем ее возможным состояниям одинаковую вероятность. В действительности степень неопределенности выбора состояния источником информации зависит не только от числа состояний, но и от вероятностей этих состояний. При не равновероятных состояниях свобода выбора источника ограничивается, что должно приводить к уменьшению неопределенности.

Если источник информации имеет, например, два возможных состояния с вероятностями 0.99 и 0.01, то неопределенность выбора у него значительно меньше, чем у источника, имеющего два равновероятных состояния. Действительно, в первом случае результат практически предрешен, а во втором случае неопределенность максимальна, поскольку никакого обоснованного предположения о результате выбора сделать нельзя.

Указанные недостатки описанной меры неопределенности привели к тому, что в теории информации в большинстве случаев используется другая мера неопределенности, предложенная американским ученым Клодом Шенноном в 1948 г., которая и называется энтропией дискретного источника информации.

Рассмотрим взаимосвязь меры К. Шеннона с мерой Р. Хартли. Если в источнике может быть реализовано N равновероятных состояний, то вероятность каждого из них равна, где 1 i  N и неопределенность по Хартли, приходящаяся на каждое состояние, выражается числом:

Будем теперь считать вероятности событий различными, а неопределенность, приходящуюся на одно конкретное состояние источника, характеризовать по аналогии той же величиной

Эта частная неопределенность представляет собой случайную величину, зависящую от того, какое состояние источника в действительности реализуется. Усреднив по всему множеству U состояний источника, найдем неопределенность, приходящуюся в среднем на одно состояние:

Следовательно, мера К. Шеннона является естественным обобщением меры Хартли на случай источника с неравновероятными состояниями. Так как она позволяет учесть вероятностные или статистические свойства источника она названа вероятностной или статистической мерой неопределенности.

Соответственно для определения количества информации в сообщении о некотором событии, вероятность которого равна pi, используется формула, соответствующая выражению (1.4):

Пример 2.8. Сообщение о появлении черного шара в лототроне, в котором всего 10 черных и 40 белых шаров несет информацию I=2,32 бита, а появление белого шара I=0,322 бит. Энтропия лототрона H= 0,942 бита

Часто информация кодируется числовыми кодами в той или иной системе счисления, особенно это актуально при представлении информации в компьютере. Естественно, что одно и то же количество разрядов в разных системах счисления может передать разное число состояний отображаемого объекта (например, 2 разряда десятичного числа позволяют представить 100 чисел, а 2 разряда двоичного числа – только 4 ), что можно представить в виде соотношения

N = mn, (1.6)

где N -число всевозможных отображаемых состояний; m - основание системы счисления (разнообразие символов, применяемых в алфавите); n - число разрядов (символов) в сообщении.

Пусть по каналу связи передается n-разрядное сообщение, в m-ной системе счисления. Так как количество всевозможных кодовых комбинаций будет N=mn, то при равновероятности появления любой из них количество информации, приобретенной абонентом в результате получения сообщения, будет

I = log2N=n log2m.

Если предположить, что передается двоичное сообщение, то I = n. В данном случае количество информации (при условии полного априорного незнания абонентом содержания сообщения) будет равно объему данных I=Vд, полученных по каналу связи. Для неравновероятных состояний системы всегда I<Vд=n.

Коэффициент (степень) информативности (лаконичность) сообщения определяется отношением количества информации к объему данных, т.е.

Y=I/Vд , причем 0<Y<1

С увеличением Y уменьшаются объемы работы по преобразованию информации (данных) в системе. Поэтому стремятся к повышению информативности, для чего разрабатываются специальные методы оптимального кодирования информации.

Соседние файлы в папке Лекции по информатике