Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Тема1_Информация.docx
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
114.19 Кб
Скачать

Алфавитный подход к измерению количества информации

Алфавитный подход используется для измерения количества информации в тексте, представленном в виде последовательности символов некоторого алфавита. Такой подход не связан с содержанием текста. Количество информации в этом случае называется информационным объемом текста, который пропорционален размеру текста – количеству символов, составляющих текст. Иногда данный подход к измерению информации называют объемным подходом.

Каждый символ текста несет определенное количество информации. Его называют информационным весом символа. Поэтому информационный объем текста равен сумме информационных весов всех символов, составляющих текст.

Здесь предполагается, что текст – это последовательная цепочка пронумерованных символов. В формуле (1) i1 обозначает информационный вес первого символа текста, i2 информационный вес второго символа текста и т.д.; K размер текста, т.е. полное число символов в тексте.

Все множество различных символов, используемых для записи текстов, называется алфавитом. Размер алфавита – целое число, которое называется мощностью алфавита. Следует иметь в виду, что в алфавит входят не только буквы определенного языка, но все другие символы, которые могут использоваться в тексте: цифры, знаки препинания, различные скобки, пробел и пр.

Определение информационных весов символов может происходить в двух приближениях:

1) в предположении равной вероятности (одинаковой частоты встречаемости) любого символа в тексте;

2) с учетом разной вероятности (разной частоты встречаемости) различных символов в тексте.

Приближение равной вероятности символов в тексте

Если допустить, что все символы алфавита в любом тексте появляются с одинаковой частотой, то информационный вес всех символов будет одинаковым. Пусть N – мощность алфавита. Тогда доля любого символа в тексте составляет 1/N-ю часть текста. По определению вероятности эта величина равна вероятности появления символа в каждой позиции текста:

p = 1/N

Согласно формуле К. Шеннона, количество информации, которое несет символ, вычисляется следующим образом:

i = log2(1/p) = log2N (бит) (2)

Следовательно, информационный вес символа (i) и мощность алфавита (N) связаны между собой по формуле Хартли 2i = N.

Зная информационный вес одного символа (i) и размер текста, выраженный количеством символов (K), можно вычислить информационный объем текста по формуле:

I = K · i (3)

Эта формула есть частный вариант формулы (1), в случае, когда все символы имеют одинаковый информационный вес.

Из формулы (2) следует, что при N = 2 (двоичный алфавит) информационный вес одного символа равен 1 биту.

С позиции алфавитного подхода к измерению информации 1 бит это информационный вес символа из двоичного алфавита.

Более крупной единицей измерения информации является байт.

1 байт это информационный вес символа из алфавита мощностью 256.

Поскольку 256 = 28, то из формулы Хартли следует связь между битом и байтом:

2i = 256 = 28

Отсюда: i = 8 бит = 1 байт

Для представления текстов, хранимых и обрабатываемых в компьютере, чаще всего используется алфавит мощностью 256 символов. Следовательно, 1 символ такого текста “весит” 1 байт.

Пример 1. Сколько различных символов, закодированных байтами, содержится в сообщении:

1101001100011100110100110001110001010111?

Решение: Разбиваем сообщение на восьмёрки битов (то есть, на байты):

11010011 00011100 11010011 00011100 01010111.

Сравнивая байты между собой, видим, что первый и третий, а также второй и четвёртый байты одинаковые. Следова­тельно, различных символов всего три.

Пример 2. Для записи письма был использован алфавит мощностью в 16 символов. Письмо состояло из 25 строк. В каждой строке вместе с пробелами было 64 символа. Сколько байт информации содержало письмо?

Решение: М = 16

i = lоg216 = 4 (бит)

К = 25*64= 1600

I = К*i = 1600 * 4 бит = 6400 бит = 800 байт

Ответ: 800 байт.

Пример 3. Письмо состояло из 30 строк. В каждой строке вместе с пробелами по 48 символов. Письмо содержало 900 байт ин­формации. Какова мощность алфавита (количество символов), которым было написано письмо?

Решение:

К = 30*48 =1440

I = 900 байт = 7200 бит

i = I/К = 5 бит

N = 25 = 32 символа

Ответ: 32 символа.

Пример 4. Даны два текста, содержащих одинаковое количество символов. Первый текст состоит из алфавита мощностью 16 символов, а второй текст - из 256 символов. Во сколько раз информации во втором тексте больше, чем в первом?

Решение:

К1 = К2

N1 = 16, N2 = 256

i1 = lоg216 = 4 (бит)

i2 = lоg2256 = 8(бит)

I11* i1 , I22* i2

I2/I1= (К2*i2) / (К1* i1) = (К2*8) / (К2*4) =8/4 = 2

Ответ: в 2 раза.

Пример 5. Каждый символ в Unicode закодирован двухбайтным словом. Оцените информационный объем следующего предложения в той кодировке: