Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Теория Информации - Методичка (1 семестр)

.pdf
Скачиваний:
851
Добавлен:
19.05.2015
Размер:
3.09 Mб
Скачать

4. Определить энтропию источника сообщений, если статистика распределения вероятностей появления символов на выходе источника сообщений представлена следующей схемой:

A

a1

a2

a3

a4

a5

a6

a7

a8

a9

a10

0,35

0,035

0,07

0,15

0,07

0,07

0,14

0,035

0,01

0, 07

 

 

 

а) 2,816;

б) 1,962;

в) 2,142;

г) 2

 

 

5. Определить максимум энтропии системы, состоящей из 6 элементов, каждый из которых может быть в одном из четырех состояний равновероятно.

а) 12 бит/состояние

в) 10,34 бит/состояние

б) 3,612 бит/состояние

г) 24 бит/состояние

6. Для прибора Z детали из кладовой отдела комплектации доставляет конвейерная лента 1, для прибора Y — лента 2. В комплектующие изделия прибора Z входят 10 конденсаторов, 5 резисторов и 5 транзисторов; в комплектующие изделия прибора Y входят 8 конденсаторов, 8 резисторов и 4 транзистора. Вычислить в дитах энтропию появления одной из деталей каждого из приборов на

ленте.

 

а) Н1=0,4515 дит/символ

в) Н1=0,4515 дит/символ

Н2=0,4581 дит/символ

Н2=0,4515 дит/символ

б) Н1=1,5 дит/символ

г) Н1=1,505 дит/символ

Н2=1,522 дит/символ

Н2=1,495 дит/символ

Вариант 2

1. Кого из ученых называют родоначальником теории ин-

формации?

 

а) К. Шеннон

в) А.Я. Хинчин

б) Н.Виннер

г) Д.К. Фаддеев

29

2. Что из перечисленного не является свойством энтропии?

а)

 

в)

 

 

б)

 

непрерывна при г)

 

– симметри-

 

 

 

 

ческая

по

переменным

3. Определить энтропию системы, состоящей из двух независимых подсистем. Первая подсистема состоит из трех элементов, каждый из которых может находиться в двух состояниях с вероятностями р1=0,6; p2=0,4. Вторая подсистема состоит из двух элементов, каждый из которых может находиться в трех состояниях с ве-

роятностями р1=0,1; р2=0,4; р3=0,5.

а) 5,63 бит

в) 17,46 бит

б) 7,703 бит

г) 21,05 бит

4. Определить энтропию информационного табло в аэропорту, если его размер 600 400 световых элементов, а число цветов у элементов табло 4.

а) 60000 бит/изображение

в) 240000 бит/изображение

б) 36123,6 бит/изображение

г) 120000 бит/изображение

5. Определить объем передаваемых данных и количество информации в тексте «Получила тройку с плюсом, но вздремнула я со вкусом», если для его передачи каждый символ заменяют семью битами. Считайте, что алфавит содержит 33 равновероятных символа.

а) объем 357 бит;

в) объем 357 бит;

количество 16,83 бит

количество 7,74 бит

б) объем 294 бит;

г) объем 231 бит;

количество 87,82

количество 357 бит

30

6. Чему равно количество информации при получении сообщения о выходе из строя одного из восьми выключателей, произведенных в одно и то же время на одном и том же заводе?

а) I =3 бит

в) I =4 бит

б) I = 8 бит

г) I =1 бит

Вариант 3

1. Какой из элементов схемы канала связи отвечает за восстановление сжатой информации?

а) декодер канала

в) декодер источника

б) приемник сообщений

г) шум

2. Как называется функция f, для которой справедливо x, y : f(x,y)=f(y,x)?

а) зеркальной

в) коммутативной

б) симметрической

г) перестановочной

3. Экспериментальная модель робота-пылесоса может находиться в одном из 4 состояний: 1) с частотой 0,25 он пылесосит отлично; 2) в четвери случаев отказывается работать по непонятной причине; 3) в 30 % случаев отказывается работать в связи с наступлением праздничных дней; 4) в двух случаях из 10 не работает в связи с необходимостью обновления его программного обеспечения. Определите энтропию робота и энтропию возможности проведения уборки этим роботом-пылесосом.

а) 1,98 бит; 0,81 бит

в) 2,75 бит; 0,81 бит

б) 2,71 бит; 1,23 бит

г) 1,98 бит; 1,23 бит

31

4. Дан алфавит, состоящий из 5 символов, вероятности появления которых равны соответственно: p1 = 0,7; р2 = 0,2; р3 = 0,08; р4= 0,015; р5 = 0,005. Определить количество информации в сообщении, состоящем из 20 символов. Каким будет количество информации в данном сообщении, если все символы будут равновероятны?

а) 24,9 бит; 46,4 бит

в) 21,94 бит; 12,46 бит

б) 1,4 бит; 5,8 бит

г) 6,1 бит; 21,94 бит

5. Сообщения составлены из равновероятного алфавита, содержащего 128 элементов. Чему равно количество символов в принятом сообщении, если известно, что оно содержит 42 бит информации? Чему равна энтропия этого сообщения?

а) 6 символов, Н =7 бит/символ

в) 7 символов, Н = 6 бит/символ

б) 21 символ, Н = 2 бит/символ

г) 6 символов, Н = 8 бит/символ

6. Специалисты знают, что каждый пятый фейерверк, запускаемый в нашей стране, выпускается фирмой «Праздник-праздник». Для неспециалистов запуск фейерверка любого производителя равновероятен. Определите, какое количество информации получит специалист и неспециалист при запуске фейерверка фирмы «Празд- ник-праздник»?

а) 2,32 бит; 1 бит

в) 1 бит; 2,32 бит

б) 1 бит; 0,468 бит

г) 2,32 бит; 0,468 бит

32

2. ТЕОРЕМЫ КОДИРОВАНИЯ ИСТОЧНИКОВ

В данной главе рассмотрены коды сжатия, а именно, возможности их построения, свойства, а также приведены теоремы, связывающие среднюю длину однозначно декодируемого кода с энтропией.

Ключевые слова: кодирование источника, кодер и декодер источника; входной и выходной алфавиты, длина слова; код, мощность кода, коды фиксированной и переменной длины, префиксный код; желаемые свойства кодов сжатия; средняя длина кода сжатия, средняя длина кода; коэффициент и фактор сжатия; кодовое дерево; неравенство Крафта, утверждение Мак-Миллана; прямая и обратная теоремы кодирования; оптимальный код; теорема Шеннона о кодировании источника.

Рассмотрим фрагмент схемы канала связи, в котором информация, сгенерированная источником сообщений, приводится к виду, удобному для передачи по каналу (рис. 2.1).

Источник

Кодер

сообщений

источника

a0, a1, … an

 

 

 

b0, b1, … bm

 

 

 

Рис. 2.1. Связь источника информации и кодера источника

Данные, поступившие на вход кодера канала, обычно кодируются символами другого алфавита, причем таким образом, чтобы минимизировать затраты на передачу этих данных. А именно, данные представляются в максимально компактном виде. Эта процедура называется кодированием источника сообщений.

Устройство, осуществляющее такое кодирование называется кодером источника, а устройство, совершающее обратную операцию – декодером источника.

33

Рассмотрим задачу кодирования источника без памяти. Пусть заданы два произвольных конечных множества, которые называются,

соответственно, кодируемым (входным) алфавитом A={a0, a1, …, an} и кодирующим (выходным) алфавитом В={b0, b1, …, bm}. Элементы ал-

фавитов, как и ранее, будем называть символами, а последовательности символов – словами. Длина слова – это число символов, из которого оно состоит. В качестве кодирующего алфавита часто рассматривается бинарный алфавит.

Кодированием будем называть отображение:

 

,

 

где

– кодовое слово, составленное из символов вы-

ходного алфавита и соответствующее символу

входного алфави-

та. При этом естественно предполагать, что рассмотренное изображение является изоморфным.

Совокупность всех кодовых слов будем называть кодом. Очевидно, что мощность кода совпадает с мощностью алфавита A.

Пример 2.1. Дан входной алфавит А={a, b, c}. Для этого алфавита построено два кода: B1={01, 10, 00} и B2={2, 10, 20}. Алфавиты B1 и B2 содержат по три кодовых слова, слова из B1 построены из двоичного алфавита, а слова B2 – из троичного. Символу а А в коде B1 соответствует кодовое слово 01; символу b А в коде B1 соответствует кодовое слово 10 и т. д. Запишем соответствие символов из входного алфавита кодовым словам в табличном виде.

Символы из А

Кодовые слова из B1

Кодовые слова из B2

a

01

2

b

10

10

c

00

20

Очевидно, что существует множество свойств кодовых слов. Рассмотрим несколько из них.

34

2.1. Свойства кодов сжатия

Код, у которого все элементы множества кодовых слов имеют одинаковую длину, называется кодом фиксированной длины или равномерным кодом. Если длины кодовых слов различны, то такой код называется кодом переменной длины (неравномерный код).

Префиксным называется код, у которого никакое кодовое слово не является префиксом (началом) другого кодового слова. Коды, удовлетворяющие этому условию, называются кодами свободными от префикса или префиксными кодами.

Каким образом следует выбирать код сжатия из множества таких кодов? Диаграмма на рис. 2.2 показывает свойства кодов сжатия, которые принимают во внимание при выборе полезных кодов источника.

мгновенная

декодируемость

декодируемость единственным эффективность

образом

Желаемые

свойства кодов сжатия

Рис. 2.2. Желаемые свойства кодов сжатия

Коды, обладающие свойством единственности декодирова-

ния, позволяют однозначно отображать сжатые данные в исходные. Отметим, что префиксность кода является достаточным, но не необходимым, условием того, что код единственным образом декодируемый.

35

Считается, что код, для которого граница настоящего кодового слова может быть определена концом настоящего кодового слова, а не началом следующего кодового слова, обладает свойством

мгновенной декодируемости.

Существует несколько способов оценить эффективность сжатия. В основе всех этих способов лежит использование сравнения объема данных до сжатия и после него. Далее будем пользоваться следующими определениями.

Коэффициент сжатия определяется по формуле:

Коэффициент сжатия =

 

.

(2.1)

 

Величина, обратная коэффициенту сжатия называется фак-

тором сжатия

Фактор сжатия =

 

.

(2.2)

 

Коэффициент сжатия 0,75 говорит о том, что сжатые данные занимают 75 % от исходного размера. Значение коэффициента большее единицы говорит об отрицательном сжатии, т. е. размер сжатого файла больше размера исходного файла. Фактор сжатия больше единицы говорит о сжатии, а значение фактора меньше единицы обозначает отрицательное сжатие.

Степень сжатия зависит от используемого алгоритма и свойств источника данных. Так, например, текстовые данные стандартными программами-архиваторами сжимаются примерно на 65 %, а сжать файл, уже обработанный программой-архиватором, практически невозможно, более того, размер итогового файла может стать больше размера первого архива.

Еще одним параметром для оценки качества сжатия является средняя длина кода. Это значение можно вычислить только для случаев с известным распределением символов исходного алфавита.

Средняя длина кода вычисляется как сумма длин двоичных кодов, взвешенных вероятностью этих кодовых символов:

n

ni P( X i ).

(2.3)

 

i

 

36

Далее рассмотрим примеры, поясняющие введенные выше понятия.

Пример 2.2. Рассмотрим код, заданный множеством кодовых слов {1, 01, 011, 101}. Это код переменной длины, так как его кодовые слова имеют разную длину. Этот код не является префиксным, так как слово 01 является началом другого кодового слова – 011.

Пример 2.3. Рассмотрим код, заданный множеством кодовых слов {11, 00, 01, 10}. Это префиксный код фиксированной длины. Пример 2.4. Пусть дан трехсимвольный алфавит X={a, b, c} со следующими вероятностными соответствиями p(a)=0,7, p(b)=0,2,

p(c)=0,1.

Для данного алфавита построены следующие шесть вариантов двоичных кодов.

Символ

Код 1

Код 2

Код 3

Код 4

Код 5

Код 6

 

 

 

 

 

 

 

a

00

00

0

1

1

01

 

 

 

 

 

 

 

b

00

10

1

10

00

00

 

 

 

 

 

 

 

c

01

11

11

100

01

1

 

 

 

 

 

 

 

Изучим предлагаемые коды и определим, какие из них являются практичными.

Очевидно, что первый код не стоит использовать, так как он не обладает свойством единственности декодирования: получив по каналу последовательность «00», мы можем декодировать ее и как символ «а» и как символ «b». Похожая проблема и с кодом 3. Так, получив из канала последовательность «11», мы можем декодировать ее и как «с» и как «bb».

Код 2 выглядит вполне достойно. Это префиксный код фиксированной длины, который обладает свойством единственности декодирования и является мгновенно декодируемым. Однако это не код сжатия. Если бы Вас попросили для заданного алфавита построить двоичный код фиксированной длины, то какой длины были бы кодовые слова этого кода?

37

Код 4 не является префиксным, так как кодовое слово «1», соответствующее символу «а» входного алфавита, является началом кодовых слов «10» и «100». А слово «10» является началом «100». Сам по себе тот факт, что код не является префиксным, не запрещает коду быть «хорошим». Но в данном случае код не обладает свойством мгновенной декодируемости. То есть, если декодер прочел во входном потоке данных символ «1» или даже «10», то он не может принять решение о том, какой символ передан, пока не получит следующую единицу. Декодеру такого кода будет свойственна некоторая задержка, так как ему сначала нужно удостовериться, что он получил все слово целиком и только затем его декодировать.

Наборы кодовых слов кодов 5 и 6 совпадают. Это однозначно декодируемые префиксные коды, обладающие свойством мгновенной декодируемости. Можно ли выбрать из них лучший код? Конечно! Одним из основных качеств кода сжатия является эффективность. Если посмотреть на вероятности появления исходных символов, то можно видеть, что символ «а» появляется чаще остальных, следовательно, представляется разумным поставить ему в соответствие более короткое кодовое слово, чем остальным. Таким образом, код 5 представляется наиболее предпочтительным из всех рассмотренных. Более наглядно связь вероятности появления букв исходного алфавита и длины кодов можно увидеть с помощью средней длины кодового слова. Вычислим средние длины кода 5 и кода 6:

n5

0,7 1

0, 2

2

0,1 2

0,7

0, 4

0, 2

1,3,

n6

0,7

2

0, 2

2

0,1 1

1, 4

0, 4

0,1

1,9.

Разберемся, что означают полученные результаты. Очевидно, что единицами измерения средней длины в рассмотренных случаях будут биты, так как кодовые слова состоят из двоичного алфавита. Средняя длина кода 1,3 бит означает, что в среднем для кодирования одного символа исходного алфавита необходимо использовать 1,3 бит, т.е. для представления 100 символов входного алфавита понадобится 130 бит.

38