Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Санкт-Петербургский государственный университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Теория_информации.doc

Скачиваний:

Добавлен:

01.04.2025

Размер:

839.68 Кб

Скачать

☆

<<< < Предыдущая 1 2 34 / 144 5 6 7 8 9 10 11 12 13 14 > Следующая >>>

2.2. Кодирование информации источника

В общем случае кодирование информации источника имеет две цели (рис. 2.2): сжатие информации (в том числе - архивация), чтобы передать большее количество информации за единицу времени; шифрование информации с целью защиты информации от несанкционированного доступа к ней. Первоначально рассмотрим сжатие информации, которое будем называть далее кодированием информации источника. Шифрование, которое будем называть криптографией, рассмотрим позднее.

2.2.1. Сжатие информации

Для сжатия информации в компьютерах используют архиваторы, например, ZIP, RAR.

В 80-х годах прошлого века разработана математическая теория сжатия. Сжатие не может быть более некоторого теоретического предела.

Чтобы определить этот предел, любое информационное сообщение длины n рассматривают как последовательность независимых одинаково распределенных дсв X или как выборку длиной n значений одной переменной X.

Показано, что для любой дси X и любого кода среднее количество бит, приходящихся на одно кодированное значение дсв, не может быть меньше энтропии этой дсв

ML(X)  HX.

Вместе с тем существует такое кодирование (метод Шеннона-Фано), для которого справедливо

HX  ML(X) – 1.

Пусть дсв X1 и дсв X2 одинаково распределены, т.е. HX1 = HX2, I(X1, X2) = 0 и

H(X1, HX2) = 2 HX1.

Вместо двух дсв можно взять одну двумерную дсв X(X1, X2). Тогда для n-мерной дсв HX = n HX1.

Пусть L1(X) = L(X)/n – количество бит на единицу сообщения X. Тогда

ML(X) – 1 ≤ HX ≤ ML(X),

ML1(X) – 1/n ≤ HX1 ≤ ML1(X).

Иначе говоря, с ростом длины n среднее количество бит на единицу сообщения будет мало отличаться от энтропии единичного сообщения.

Такой способ кодирования имеет следующие недостатки:

1) с ростом n трудоемкость построения кода становится значительной;

2) невозможна отправка сообщения по частям;

3) необходимость отправки и хранения как кода, так и сообщения исходной длины.

4) использование равномерных кодов (табл. 2.1) избыточно.

В связи с этим используют метод другие методы.

К ним относятся методы Шеннона-Фано и Хаффмена. Идея этих методов заключается в переходе от равномерных кодов к неравномерным.

Метод Шеннона-Фано. Значения дсв располагают в порядке убывания их вероятностей. Дсв разделяют на две части с приблизительно равными вероятностями. К первой части добавляют 0, ко второй – единицу, как это показано в табл. 2.1. Можно заметить, что часто встречающиеся символы стараются кодировать коротким кодом, а редко появляющиеся – длинными кодами.

Таблица 2.1

X	p(x)	Равномерный код	Неравномерный код	Code(X)
x₁	1/4	000	00	2
x₂	1/4	001	01	2
x₃	1/8	010	100	3
x₄	1/8	011	101	3
x₅	1/16	100	1100	4
x₆	1/16	101	1101	4
x₇	1/16	110	1110	4
x₈	1/16	111	1111	4

Более подробная схема кодирования представлена [3] в табл. 2.2.

Таблица 2.2

X	p(x)	Первый шаг	Второй шаг	Третий шаг	Четвер-тый шаг	Кодовое слово
x₁	1/4	I	I			00
x₂	1/4	I	II			01
x₃	1/8	II	I	I		100
x₄	1/8		I	II		101
x₅	1/16		II	I	I	1100
x₆	1/16			I	II	1101
x₇	1/16			II	I	1110
x₈	1/16			II	II	1111

Метод Хаффмена. Этот метод удобно иллюстрировать на примере, показанном в табл. 2.3.

Таблица 2.3

X	p(x)	1	2	3	4	5	6	Кодовое слово
x₁	0 ,3							11
x₂	0,2					0,6		01
x₃	0,15			0,3			1	101
x₄	0,15						0	100
x₅	0,1		0,2		0,4			001
x₆	0,05							0001
x₇	0,5	0,1						0000

Нетрудно заметить, что табл. 2.3 использует дерево кодирования. Существует множество кодов-деревьев. Их совершенствование преследует цель минимального изменения дерева при появлении дополнительных букв для передачи.

Словарно-ориентированный алгоритм. Рассмотренные ранее способы кодирования относятся к статистическим методам. Словарные алгоритмы более практичны, хотя и менее обоснованы математически. Сюда относятся алгоритм LZZ, характеризующийся простотой и высокой эффективностью. Его идея заключается в том, второе и последующие вхождения некоторой строки символов сообщения заменяются ссылками на ее первое вхождение.

Недостатками LZZ являются: с ростом размеров словаря скорость работы кодера замедляется; кодирование одиночных символов неэффективно. Существуют более эффективные варианты LZZ.

Коды алгоритма LZ можно передать для кодирования алгоритму Хаффмена и получить двухшаговый конвейерный алгоритм, результаты которого подобны программам ARJ, PKZIP. Наибольшую степень сжатия дают двухпроходные алгоритмы, которые последовательно сжимают сообщение дважды, но они работают почти вдвое медленнее однопроходных алгоритмов при незначительном увеличении степени сжатия.

Для увеличения степени сжатия можно сжимать файлы в общем потоке (архиватор RAR), но это усложняет работу с архивом.

<<< < Предыдущая 1 2 34 / 144 5 6 7 8 9 10 11 12 13 14 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
13.08.2019124.93 Кб13теория систем.doc
#
01.03.202547.76 Кб6Теория текста - конспект.docx
#
01.03.202548.9 Кб10Теория текста.docx
#
01.03.20252.22 Mб21Теория транс. право.doc
#
01.04.2025269.82 Кб14Теория язычка.doc
#
01.04.2025839.68 Кб4Теория_информации.doc
#
01.05.2025224.26 Кб1теорсоц иванов ЦЕЛИКОМ.doc
#
21.03.2016374.98 Кб184Теплов Б.М. — Психология. Учебник для средней школы — 1953.docx
#
01.03.202593.18 Кб11теплова.doc
#
16.09.2019324.56 Кб26Теплопередача через многосл.стенку с контр.раб....docx
#
14.11.2019628.22 Кб38теплотехника.doc